Nenechte zapadnout váš web kvůli problémům s robots.txt

robots.txt
Problémy se souborem robots.txt mohou negativně ovlivnit váš web i vaše pozice ve výsledcích vyhledávání. Jak tomu předejít? Dozvíte se v článku.

Pokud bychom měli v krátkosti představit soubor robots.txt, dal by se určitě označit za užitečný a relativně výkonný nástroj, který v podstatě dává pokyny vyhledávačům, zda smějí vstupovat na váš web, a pokud ano, tak jak jej mohou procházet. Tento soubor se umisťuje do kořene webu, tedy hned za .cz/ nebo .com/ a každý robot, který se chystá prohledávat váš server, by měl nejprve nahlédnout právě do tohoto souboru robots.txt, aby zjistil, zda nemá zakázaný vstup, nebo co může a nemůže procházet. Hlavním účelem tohoto souboru je především zabránit přetížení vašeho webu nebo serveru požadavky prohledávače a je užitečný zejména tehdy, pokud používáte dynamické adresy URL nebo jiné metody, které generují teoreticky nekonečný počet stránek.

Soubor robots.txt trochu podrobněji

Jak už jsme zmínili výše, soubor robots.txt musí být umístěn v kořenu webu. Jeho podoba je tedy například: http://www.jannovak.cz/robots.txt. Jedná se v podstatě o obyčejný textový soubor, který vytvoříte během pár vteřin v editoru, například v poznámkovém bloku. Podmínkou však je, že musí být umístěn v nejvyšším adresáři vašeho webu – pokud jej umístíte do podadresáře, vyhledávače jej jednoduše ignorují. Jednotlivé stránky mohou obsahovat metatagy robots v samotném kódu stránky a můžete také použít X-robots tag v hlavičce HTTP k ovlivnění toho, jak (a zda) se obsah zobrazuje ve výsledcích vyhledávání.

K čemu všemu lze soubor robots.txt použít?

Možná si teď kladete otázku, k čemu všemu je vlastně soubor robots.txt dobrý. Jednoduše řečeno – můžete pomocí něj dosáhnout různých výsledků v rámci řady různých typů obsahu. Zvládne totiž celou řadu funkcí, jako jsou následující:

  • Zablokování procházení webových stránek – pomocí souboru robots.txt můžete zablokovat procházení webových stránek. Ty se sice stále budou zobrazovat ve výsledcích vyhledávání, ale nebudou mít textový popis. Vyhledávač také nebude procházet ani obsah stránky, který není HTML.
  • Zablokování zobrazování mediálních souborů ve výsledcích vyhledávání Google – soubor robots.txt také efektivně zablokuje zobrazování mediálních souborů, jako jsou obrázky, videa a zvukové soubory, ve výsledcích vyhledávání Google. Jestliže je soubor veřejný, bude stále „existovat“ v online podobě a bude možné jej zobrazovat a propojovat, ale soukromý obsah se již nebude zobrazovat ve vyhledávání Google.
  • Zablokování zdrojových souborů – soubor robots.txt taktéž umožňuje zablokování zdrojových souborů, jako jsou nedůležité externí skripty. V tomto případě však v případě, kdy Google prochází stránku, která vyžaduje načtení daného zdroje, robot Googlebot uvidí verzi stránky, jako by tento zdroj neexistoval, což může ovlivnit indexování.

Pozor! Nenechte se však zmýlit všestranností použití – soubor robots.txt rozhodně není všemocný a nezvládne vše. Nemůžete jej tedy použít k úplnému zablokování zobrazení webové stránky ve výsledcích vyhledávání Google. V takovém případě budete muset vsadit na alternativní metody, jako je například přidání meta tagu noindex do záhlaví stránky.

Co se stane v případě chyb v souboru robots.txt

Tak jako nikdo není neomylný, platí to i u souborů robots.txt. I ony mohou obsahovat chyby, které mohou ovlivnit zobrazení vašeho webu. Nicméně není třeba obávat se žádných zásadních důsledků, které by položily vaše podnikání. Naštěstí jsou webové prohledávače obecně velmi flexibilní a obvykle se nenechají ovlivnit drobnými chybami v souboru robots.txt. To nejhorší, co se vám tedy může stát, je ignorace nesprávné nebo nepodporované direktivy. Přesto je však třeba myslet na to, že ani Google není schopen číst myšlenky, a je třeba mu jeho cestu při interpretaci souboru robots.txt co nejvíce usnadnit – a to opravou souboru robots.txt. Ten se naštěstí většinou dá opravit opravdu velmi rychle a v plném rozsahu.

robots

Chyby v souborech robots.txt mohou zmást prohledávače, ale nepoloží váš web. Nejčastěji se setkáme se šesti běžnými chybami, které lze odstranit okamžitě a bez ztrát. Tady jsou:

Nejčastější chyby souborů robots.txt

Na následujících řádcích si představíme šest nejběžnějších chyb, s kterými se majitelé webů v rámci svých souborů robots.txt potýkají. Projeví se nejčastěji podivným chováním webu ve výsledcích vyhledávání, což by mělo být prvotním signálem právě pro kontrolu souborů robots.txt.

Chybné umístění souboru

Jak už jsme zmínili několikrát, soubor robots.txt musí být umístěn v kořenu webu – jen zde ho mohou vyhledávací roboti nalézt. Musíte jej tedy umístit hned za lomítko .cz/ nebo .com/. Pokud totiž uvedete jakoukoliv podsložku, dojde s největší pravděpodobností k tomu, že vyhledávací roboti váš soubor robots.txt pravděpodobně neuvidí a váš web se bude chovat tak, jako by žádný soubor robots.txt neexistoval.

Jak tento problém vyřešit?

Řešení je jednoduché – stačí přesunout soubor robots.txt do kořenového adresáře. U některých systémů pro správu obsahu však můžete narazit na to, že ve výchozím nastavení nahrávají soubory do podadresáře „média“ nebo podobného podadresáře, čehož si mnohdy ani nevšimnete. V takovém případě tedy budete muset tento systém obejít, aby se vám podařilo dostat soubor robots.txt tam, kde má být – tedy do kořenového adresáře.

Chybné použití hvězdiček a dolarů

Hvězdička a dolar jsou jediné dva zástupné znaky, které soubor robots.txt povoluje. Hvězdička vlastně slouží jako zástupce všeho – je to takový žolík v kartách. Znak dolaru zase označuje konec adresy URL, což vám umožňuje aplikovat pravidla pouze na konečnou část adresy URL, jako je například přípona typu souboru. Zástupné znaky byste každopádně měli používat opravdu minimálně, protože mají potenciál uplatnit omezení na mnohem širší část vašeho webu. A umístíte-li je (zejména tedy hvězdičku) špatně, můžete také nevědomky zrušit váš původní požadavek na blokaci.

Jak tento problém vyřešit?

Řešení bude vyžadovat trochu více času, protože budete muset najít nesprávný zástupný znak a přesunout jej nebo odstranit tak, aby soubor robots.txt fungoval tak, jak má.

Nefunkční direktiva noindex

Pokud provozujete web již nějaký ten pátek, můžete se setkat s problémy s nefunkční direktivou noindex. Tyto obtíže se vyskytují u webů, u kterých byl soubor robots.txt vytvořen před 1. zářím 2019. V tento den totiž společnost Google přestala podporovat nepublikovaná a taktéž nepodporovaná pravidla v protokolu robotů, a tím tedy i direktiv noindex v souboru robots.txt. Pokud tedy máte nastavenu direktivu noindex v souboru robots.txt před datem 1. 9. 2019, může se stát, že Google začne indexovat stránky, které jste původně zakázali.

Jak tento problém vyřešit?

Řešením je odebrání direktivy noindex ze souboru robots.txt či implementace alternativní metody „noindex“. Můžete například přidat meta tag robots do záhlaví jakékoli webové stránky, v jejímž indexování chcete Googlu zabránit.

Blokované skripty

Aby Googlebot správně viděl a vyhodnotil vaše stránky HTML a PHP, potřebuje přístup k souborům CSS a JS. Pokud tedy zablokujete přístup prohledávače k externím JavaScriptům a kaskádovým stylům (CSS), mohou se vaše stránky ve výsledcích Google začít chovat podivně. Můžete také zjistit, že Google nevidí vaše stránky správně, takže budete muset překontrolovat, zda neblokujete přístup prohledávače k požadovaným externím souborům.

Jak tento problém vyřešit?

Jednoduchým řešením je odstranit z vašeho souboru robots.txt řádek, který blokuje přístup. Jestliže však máte nějaké soubory, které potřebujete zablokovat, vložte výjimku, která obnoví přístup k nezbytným CSS a JavaScriptům.

Vynechání souboru Sitemap

Dalším problémem, ke kterému často dochází, je to, že neexistuje žádná URL adresa souboru Sitemap. Nejedná se sice vyloženě o chybu, protože vynechání souboru Sitemap by nemělo negativně ovlivnit skutečnou základní funkčnost a vzhled vašeho webu ve výsledcích vyhledávání. Nicméně URL adresa souboru Sitemap je prvním místem, kam se Googlebot podívá, když prochází váš web, a které mu dává jakýsi náskok ve znalosti struktury a hlavních stránek vašeho webu. Proto, pokud chcete posílit své SEO, měli byste přidat URL adresu vašeho souboru Sitemap do souboru robots.txt.

Blokování stránek ve vývoji

Při vývoji nových stránek na vašem webu často vývojáři přistupují k zablokování těchto stránek, aby nebyly viditelné pro prohledávače a nezobrazovaly se široké veřejnosti. Tento zákaz se nejčastěji řeší přidáním zákazu zveřejňování do souboru robots.txt na webu. Jakmile jsou ale stránky připraveny k publikaci, musí být tento řádek ze souboru robots.txt odstraněn – pokud tak neučiníte, nebude docházet ke správnému procházení a indexování celého vašeho webu.

Jak tento problém vyřešit?

Jestliže máte pocit, že si váš nedávno spuštěný web nevede ve vyhledávání vůbec dobře, vyhledejte v souboru robots.txt pravidlo pro zákaz Disallow: / v řádku User-agent. Pokud takovýto zákaz v některém řádku najdete, proveďte potřebné změny v souboru robots.txt a zkontrolujte, zda se zobrazování vašeho webu odpovídajícím způsobem aktualizuje.

Jak zjistit, že byly změny provedeny?

Jestliže jste provedli změnu a opravu souboru robots.txt, je třeba ověřit, zda mají nová pravidla požadovaný účinek. Pomoci vám s tím mohou některé SEO nástroje, jako je Google Search Console a Bing Webmaster Tools. Stačí odeslat aktualizovaný soubor Sitemap a požádat o opětovné procházení všech stránek. Doba, za kterou Googlebot implementuje opravený soubor robots.txt, se však může velmi lišit a neexistuje žádná záruka, jak dlouho bude trvat, než se chybějící stránky znovu objeví v indexu vyhledávání Google.

Rada na závěr

I když nejsou problémy v souboru robots.txt tak zásadní, aby nechaly váš byznys na holičkách, přesto je velmi důležité předcházet chybám v nich a pravidelně soubory robots.txt kontrolovat. Obzvláště totiž weby, které generují velké příjmy, mohou při skrytí některých stránek zaznamenat propad tržeb.

Zdroj: marketingland.com, facebook.com, cpcstrategy.com

Autor: Vlastimil Malík

Foto zdroj: pixabay.com

 

Více článků z blogu