
Otázka, jak to vlastně je s blokováním a indexací stránek se zakázanými URL adresami v souboru robots.txt, trápí odborníky na SEO od doby, kdy se v Google Search Console (GSC) tyto chybové zprávy objevily. Je na čase to rozseknout, abyste se dozvěděli pravdu.
Jaký je rozdíl mezi ”Blokováno souborem robots.txt” a ”Indexováno, i když je blokováno souborem robots.txt”?
Rozdíl je zásadní a je jím právě indexování. ”Blokováno souborem robots.txt” znamená, že URL adresy se nezobrazují ve vyhledávání.
”Indexováno, i když je blokováno souborem robots.txt” znamená, že stránky jsou indexované a mohou se zobrazovat, i když jste jejich URL adresy v robots.txt zakázali.
Je adresa URL opravdu blokovaná, když ji v robots.txt vyloučím?
Odpověď zní: Ne.
A to je ten problém, který SEO odborníci neustále řeší. Pokud zakážete adresy URL v souboru robots.txt, není indexace žádné z nich úplně blokovaná. Vyhledávače ji totiž nikdy zcela neignorují, což uznává i Google ve své Nápovědě, kde se píše, že nezaručuje, že stránka nebude indexovaná, pokud bude blokovaná souborem robots.txt.
Taková situace nastává u celé řady webů. Zakázané stránky se mohou zobrazovat v úryvcích u přehledů generovaných umělou inteligencí a k indexaci dochází i v případech, kdy existují odkazy vedoucí na URL adresu blokovanou v robots.txt.
Jak opravím ”Blokováno souborem robots.txt” v Google Search Console?
Ručně zkontrolujte všechny takto označené stránky v přehledu GSC
K přehledu se dostanete tak, že v GSC přejdete do sekce Stránky a tam se podíváte na Blokováno souborem robots.txt.
Data si exportujete do Google tabulky, excelu nebo CMS a můžete je dál filtrovat.
Zjistěte, zda je blokování URL adres chtěné
V exportovaném dokumentu vyhledejte URL adresy stránek s vysokou prioritou, které mají vyhledávače vidět. Když se zobrazí hlášení ”Blokováno souborem robots.txt”, sdělte Google, aby tuto URL adresu neprocházel, protože jste do souboru robots.txt z nějakého důvodu vědomě zadali direktivu disallow (zakázat).
Blokování stránek z vyhledávačů je úplně běžné. Můžete třeba zakázat stránky s poděkováním nebo stránky na získávání potenciálních zákazníků určené jen prodejním týmům.
Pečlivou kontrolou se přesvědčte, jestli jsou URL adresy označené v přehledu opravdu určené k blokování a zneviditelnění pro vyhledávací roboty.
Jestli jste disallow přidali do souboru robots.txt úmyslně, hlášení je v pořádku a nemusíte provádět žádné akce.
Odeberte nechtěně přidané zákazy
Pakliže je direktiva disallow přiřazená k URL adrese omylem, ručně ji ze souboru robots.txt odstraňte.
Následně adresu zadejte do horního panelu Zkontrolovat adresu URL v Google Search Console a klikněte na Požádat o indexaci.
Máte-li více takových adres v celém adresáři URL, začněte s tou první, což bude mít největší dopad. Postupně zajistěte, aby vyhledávače všechny tyto stránky zase procházely a indexovaly URL adresy.
Požádejte o opětovné procházení souboru robots.txt
Pokud chcete, aby Google znovu procházel vaše omylem blokované stránky, zadejte v Google Search Console žádost o opětovné procházení robots.txt.
V GSC přejděte do Nastavení>robots.txt. Tam klikněte na tři tečky vedle souboru robots.txt, který mají roboti znovu procházet, a požádejte o procházení.
Porovnejte výkon před a po
Až budete mít vyčištěné zákazy v souboru robots.txt a odeslané URL adresy k opětovnému procházení, prověřte pomocí nástroje Wayback, kdy došlo k poslední aktualizaci vašeho souboru robots.txt. Získáte tak představu o možném dopadu direktivy disallow na konkrétní URL adresy.
Nejméně po dobu následujících 90 dnů pak bedlivě sledujte zprávy o výkonu.
Jak opravím ”Indexováno, i když je blokováno souborem robots.txt” v Google Search Console?
Ručně v přehledu GSC zkontrolujte všechny takto označené stránky
Postupujte obdobně jako v předchozím případě, jen se v sekci Stránky podívejte na část Indexováno, i když je blokováno souborem robots.txt. Data si opět exportujte do své tabulky nebo souboru.
Prověřte, zda jste opravdu chtěli zablokovat URL adresu
Položte si tyto otázky:
- Měla by tato URL adresa být skutečně indexovaná?
- Je na stránce nějaký hodnotný obsah pro vyhledávající uživatele?
Má-li být adresa zablokovaná, zpráva je platná a nemusíte provádět žádné další kroky.
Pokud má být stránka indexovaná, odstraňte ze souboru robots.txt direktivu disallow a požádejte o opětovné procházení.
Jestli jste k adrese URL přiřadili disallow nechtěně, ze souboru robots.txt příkaz vymažte. Zadejte URL do panelu Zkontrolovat adresu URL v Google Search Console a zase požádejte o opětovné procházení.
Účelem je, aby Google tyto stránky znovu procházel, indexoval URL a generoval provoz.
Když chcete stránku z vyhledávání odstranit, použijte značku noindex
Máte-li v úmyslu některou ze stránek zcela odstranit z dohledu vyhledávačů, přidejte značku noindex místo použití disallow v souboru robots.txt.
Pamatujte si, že když to uděláte, musíte z robots.txt direktivu disallow odstranit, jinak se chybového hlášení ”Indexováno, i když je blokováno souborem robots.txt” nezbavíte a problém nikdy neopravíte.
Proč bych měl použít značku noindex místo příkazu disallow?
Protože disallow v souboru robots.txt plně nezaručuje, že k indexaci stránky nedojde. Pokud nechcete, aby ji vyhledávače viděly, musíte přidat značku noindex.
Soubory robots.txt nejsou určené k ovládání indexace, ale k řízení procházení.
Mám ke stejné URL adrese přiřadit jak značku noindex, tak direktivu disallow?
Ne. Když u URL adresy použijete noindex, nezakazujte stejnou adresu v souboru robots.txt. Vyhledávače musíte nechat najít značku noindex, aby ji rozpoznaly.
Pokud zablokujete přístup k procházení v robots.txt, vyhledávací roboti značení noindex nenajdou a nebudou vědět, že na stránce existuje.
Jak se vyhnout chybám v souboru robots.txt? Vytvořte jasnou strategii procházení webu
Zaznamenáte-li ve službě Google Search Console prudké zvýšení počtu některého z chybových hlášení robots.txt, může vás napadnout, že upustíte od toho, proč jste se rozhodli některé stránky zablokovat.
Než přijmete nějaké rozhodnutí týkající se chybových zpráv v Google Search Console, udělejte si vždy audit všech stránek vašeho webu a určete, které mají hodnotný obsah a jsou vhodné pro vyhledávací roboty, a které nikoliv.
Tento důležitý aspekt technického SEO je o tom, že ne všechny URL adresy mohou vyhledávačům potažmo uživatelům kvalitní a poutavý obsah nabídnout.
Zdroj: marketingland.com, facebook.com, cpcstrategy.com
Autor: Martin Kulhánek
Foto zdroj: pixabay.com