Nenechte zapadnout váš web kvůli problémům s robots.txt

Vlastimil Malík | 17. 8. 2022

Problémy se souborem robots.txt mohou negativně ovlivnit váš web i vaše pozice ve výsledcích vyhledávání. Jak tomu předejít? Dozvíte se v článku.

Pokud bychom měli v krátkosti představit soubor robots.txt, dal by se určitě označit za užitečný a relativně výkonný nástroj, který v podstatě dává pokyny vyhledávačům, zda smějí vstupovat na váš web, a pokud ano, tak jak jej mohou procházet. Tento soubor se umisťuje do kořene webu, tedy hned za .cz/ nebo .com/ a každý robot, který se chystá prohledávat váš server, by měl nejprve nahlédnout právě do tohoto souboru robots.txt, aby zjistil, zda nemá zakázaný vstup, nebo co může a nemůže procházet. Hlavním účelem tohoto souboru je především zabránit přetížení vašeho webu nebo serveru požadavky prohledávače a je užitečný zejména tehdy, pokud používáte dynamické adresy URL nebo jiné metody, které generují teoreticky nekonečný počet stránek.

Soubor robots.txt trochu podrobněji

Jak už jsme zmínili výše, soubor robots.txt musí být umístěn v kořenu webu. Jeho podoba je tedy například: http://www.jannovak.cz/robots.txt. Jedná se v podstatě o obyčejný textový soubor, který vytvoříte během pár vteřin v editoru, například v poznámkovém bloku. Podmínkou však je, že musí být umístěn v nejvyšším adresáři vašeho webu – pokud jej umístíte do podadresáře, vyhledávače jej jednoduše ignorují. Jednotlivé stránky mohou obsahovat metatagy robots v samotném kódu stránky a můžete také použít X-robots tag v hlavičce HTTP k ovlivnění toho, jak (a zda) se obsah zobrazuje ve výsledcích vyhledávání.

K čemu všemu lze soubor robots.txt použít?

Možná si teď kladete otázku, k čemu všemu je vlastně soubor robots.txt dobrý. Jednoduše řečeno – můžete pomocí něj dosáhnout různých výsledků v rámci řady různých typů obsahu. Zvládne totiž celou řadu funkcí, jako jsou následující:

Zablokování procházení webových stránek – pomocí souboru robots.txt můžete zablokovat procházení webových stránek. Ty se sice stále budou zobrazovat ve výsledcích vyhledávání, ale nebudou mít textový popis. Vyhledávač také nebude procházet ani obsah stránky, který není HTML.
Zablokování zobrazování mediálních souborů ve výsledcích vyhledávání Google – soubor robots.txt také efektivně zablokuje zobrazování mediálních souborů, jako jsou obrázky, videa a zvukové soubory, ve výsledcích vyhledávání Google. Jestliže je soubor veřejný, bude stále „existovat“ v online podobě a bude možné jej zobrazovat a propojovat, ale soukromý obsah se již nebude zobrazovat ve vyhledávání Google.
Zablokování zdrojových souborů – soubor robots.txt taktéž umožňuje zablokování zdrojových souborů, jako jsou nedůležité externí skripty. V tomto případě však v případě, kdy Google prochází stránku, která vyžaduje načtení daného zdroje, robot Googlebot uvidí verzi stránky, jako by tento zdroj neexistoval, což může ovlivnit indexování.

►Pozor! Nenechte se však zmýlit všestranností použití – soubor robots.txt rozhodně není všemocný a nezvládne vše. Nemůžete jej tedy použít k úplnému zablokování zobrazení webové stránky ve výsledcích vyhledávání Google. V takovém případě budete muset vsadit na alternativní metody, jako je například přidání meta tagu noindex do záhlaví stránky.

Co se stane v případě chyb v souboru robots.txt

Tak jako nikdo není neomylný, platí to i u souborů robots.txt. I ony mohou obsahovat chyby, které mohou ovlivnit zobrazení vašeho webu. Nicméně není třeba obávat se žádných zásadních důsledků, které by položily vaše podnikání. Naštěstí jsou webové prohledávače obecně velmi flexibilní a obvykle se nenechají ovlivnit drobnými chybami v souboru robots.txt. To nejhorší, co se vám tedy může stát, je ignorace nesprávné nebo nepodporované direktivy. Přesto je však třeba myslet na to, že ani Google není schopen číst myšlenky, a je třeba mu jeho cestu při interpretaci souboru robots.txt co nejvíce usnadnit – a to opravou souboru robots.txt. Ten se naštěstí většinou dá opravit opravdu velmi rychle a v plném rozsahu.

robots

►Chyby v souborech robots.txt mohou zmást prohledávače, ale nepoloží váš web. Nejčastěji se setkáme se šesti běžnými chybami, které lze odstranit okamžitě a bez ztrát. Tady jsou:

Nejčastější chyby souborů robots.txt

Na následujících řádcích si představíme šest nejběžnějších chyb, s kterými se majitelé webů v rámci svých souborů robots.txt potýkají. Projeví se nejčastěji podivným chováním webu ve výsledcích vyhledávání, což by mělo být prvotním signálem právě pro kontrolu souborů robots.txt.

Chybné umístění souboru

Jak už jsme zmínili několikrát, soubor robots.txt musí být umístěn v kořenu webu – jen zde ho mohou vyhledávací roboti nalézt. Musíte jej tedy umístit hned za lomítko .cz/ nebo .com/. Pokud totiž uvedete jakoukoliv podsložku, dojde s největší pravděpodobností k tomu, že vyhledávací roboti váš soubor robots.txt pravděpodobně neuvidí a váš web se bude chovat tak, jako by žádný soubor robots.txt neexistoval.