Oprava chyb v Google Search Console souvisejících s robots.txt

digitální marketing
Chybové hlášky ”Blokováno souborem robots.txt” a ”Indexováno, i když je blokováno souborem robots.txt” nevěstí nic dobrého. Jak odstranit problémy s webem?

Otázka, jak to vlastně je s blokováním a indexací stránek se zakázanými URL adresami v souboru robots.txt, trápí odborníky na SEO od doby, kdy se v Google Search Console (GSC) tyto chybové zprávy objevily. Je na čase to rozseknout, abyste se dozvěděli pravdu.

Jaký je rozdíl mezi ”Blokováno souborem robots.txt” a ”Indexováno, i když je blokováno souborem robots.txt”?

Rozdíl je zásadní a je jím právě indexování. ”Blokováno souborem robots.txt” znamená, že URL adresy se nezobrazují ve vyhledávání.

”Indexováno, i když je blokováno souborem robots.txt” znamená, že stránky jsou indexované a mohou se zobrazovat, i když jste jejich URL adresy v robots.txt zakázali.

Je adresa URL opravdu blokovaná, když ji v robots.txt vyloučím?

Odpověď zní: Ne.

A to je ten problém, který SEO odborníci neustále řeší. Pokud zakážete adresy URL v souboru robots.txt, není indexace žádné z nich úplně blokovaná. Vyhledávače ji totiž nikdy zcela neignorují, což uznává i Google ve své Nápovědě, kde se píše, že nezaručuje, že stránka nebude indexovaná, pokud bude blokovaná souborem robots.txt.

Taková situace nastává u celé řady webů. Zakázané stránky se mohou zobrazovat v úryvcích u přehledů generovaných umělou inteligencí a k indexaci dochází i v případech, kdy existují odkazy vedoucí na URL adresu blokovanou v robots.txt.

Jak opravím ”Blokováno souborem robots.txt” v Google Search Console?

Ručně zkontrolujte všechny takto označené stránky v přehledu GSC

K přehledu se dostanete tak, že v GSC přejdete do sekce Stránky a tam se podíváte na Blokováno souborem robots.txt.

Data si exportujete do Google tabulky, excelu nebo CMS a můžete je dál filtrovat.

Zjistěte, zda je blokování URL adres chtěné

V exportovaném dokumentu vyhledejte URL adresy stránek s vysokou prioritou, které mají vyhledávače vidět. Když se zobrazí hlášení ”Blokováno souborem robots.txt”, sdělte Google, aby tuto URL adresu neprocházel, protože jste do souboru robots.txt z nějakého důvodu vědomě zadali direktivu disallow (zakázat).

Blokování stránek z vyhledávačů je úplně běžné. Můžete třeba zakázat stránky s poděkováním nebo stránky na získávání potenciálních zákazníků určené jen prodejním týmům.

Pečlivou kontrolou se přesvědčte, jestli jsou URL adresy označené v přehledu opravdu určené k blokování a zneviditelnění pro vyhledávací roboty.

Jestli jste disallow přidali do souboru robots.txt úmyslně, hlášení je v pořádku a nemusíte provádět žádné akce.

Odeberte nechtěně přidané zákazy

Pakliže je direktiva disallow přiřazená k URL adrese omylem, ručně ji ze souboru robots.txt odstraňte.

Následně adresu zadejte do horního panelu Zkontrolovat adresu URL v Google Search Console a klikněte na Požádat o indexaci.

Máte-li více takových adres v celém adresáři URL, začněte s tou první, což bude mít největší dopad. Postupně zajistěte, aby vyhledávače všechny tyto stránky zase procházely a indexovaly URL adresy.

Požádejte o opětovné procházení souboru robots.txt

Pokud chcete, aby Google znovu procházel vaše omylem blokované stránky, zadejte v Google Search Console žádost o opětovné procházení robots.txt.

V GSC přejděte do Nastavení>robots.txt. Tam klikněte na tři tečky vedle souboru robots.txt, který mají roboti znovu procházet, a požádejte o procházení.

Porovnejte výkon před a po

Až budete mít vyčištěné zákazy v souboru robots.txt a odeslané URL adresy k opětovnému procházení, prověřte pomocí nástroje Wayback, kdy došlo k poslední aktualizaci vašeho souboru robots.txt. Získáte tak představu o možném dopadu direktivy disallow na konkrétní URL adresy.

Nejméně po dobu následujících 90 dnů pak bedlivě sledujte zprávy o výkonu.

Jak opravím ”Indexováno, i když je blokováno souborem robots.txt” v Google Search Console?

Ručně v přehledu GSC zkontrolujte všechny takto označené stránky

Postupujte obdobně jako v předchozím případě, jen se v sekci Stránky podívejte na část Indexováno, i když je blokováno souborem robots.txt. Data si opět exportujte do své tabulky nebo souboru.

Prověřte, zda jste opravdu chtěli zablokovat URL adresu

Položte si tyto otázky:

  • Měla by tato URL adresa být skutečně indexovaná?
  • Je na stránce nějaký hodnotný obsah pro vyhledávající uživatele?

Má-li být adresa zablokovaná, zpráva je platná a nemusíte provádět žádné další kroky.

Pokud má být stránka indexovaná, odstraňte ze souboru robots.txt direktivu disallow a požádejte o opětovné procházení.

Jestli jste k adrese URL přiřadili disallow nechtěně, ze souboru robots.txt příkaz vymažte. Zadejte URL do panelu Zkontrolovat adresu URL v Google Search Console a zase požádejte o opětovné procházení.

Účelem je, aby Google tyto stránky znovu procházel, indexoval URL a generoval provoz.

Když chcete stránku z vyhledávání odstranit, použijte značku noindex

Máte-li v úmyslu některou ze stránek zcela odstranit z dohledu vyhledávačů, přidejte značku noindex místo použití disallow v souboru robots.txt.

Pamatujte si, že když to uděláte, musíte z robots.txt direktivu disallow odstranit, jinak se chybového hlášení ”Indexováno, i když je blokováno souborem robots.txt” nezbavíte a problém nikdy neopravíte.

Proč bych měl použít značku noindex místo příkazu disallow?

Protože disallow v souboru robots.txt plně nezaručuje, že k indexaci stránky nedojde. Pokud nechcete, aby ji vyhledávače viděly, musíte přidat značku noindex.

Soubory robots.txt nejsou určené k ovládání indexace, ale k řízení procházení.

Mám ke stejné URL adrese přiřadit jak značku noindex, tak direktivu disallow?

Ne. Když u URL adresy použijete noindex, nezakazujte stejnou adresu v souboru robots.txt. Vyhledávače musíte nechat najít značku noindex, aby ji rozpoznaly.

Pokud zablokujete přístup k procházení v robots.txt, vyhledávací roboti značení noindex nenajdou a nebudou vědět, že na stránce existuje.

Jak se vyhnout chybám v souboru robots.txt? Vytvořte jasnou strategii procházení webu

Zaznamenáte-li ve službě Google Search Console prudké zvýšení počtu některého z chybových hlášení robots.txt, může vás napadnout, že upustíte od toho, proč jste se rozhodli některé stránky zablokovat.

Než přijmete nějaké rozhodnutí týkající se chybových zpráv v Google Search Console, udělejte si vždy audit všech stránek vašeho webu a určete, které mají hodnotný obsah a jsou vhodné pro vyhledávací roboty, a které nikoliv. 

Tento důležitý aspekt technického SEO je o tom, že ne všechny URL adresy mohou vyhledávačům potažmo uživatelům kvalitní a poutavý obsah nabídnout.

Zdroj: marketingland.com, facebook.com, cpcstrategy.com

Autor: Martin Kulhánek

Foto zdroj: pixabay.com

Více článků z blogu

Používáme tyto nástroje

WordPress
PrestaShop
WooCommerce
Upgates
FastCentrik
Shoptet
GA4
Google Merchant
Google Tag Manager
Collabim
Marketing Miner
ahrefs
ecomail
Mailchimp