Přejít k obsahu
BeoHosting
BeoHosting
SEO

Průvodce souborem robots.txt

BeoHosting Team··8 min čtení čtení
Průvodce souborem robots.txt

Co je soubor robots.txt

robots.txt je jednoduchý textový soubor umístěný v kořeni vašeho webu, který dává webovým crawlerům (botům vyhledávačů) pokyny, které části webu smějí indexovat a které mají ignorovat. Každý seriózní vyhledávač – Google, Bing, Yahoo – tento soubor zkontroluje, než začne váš web indexovat.

robots.txt není bezpečnostní mechanismus – je to doporučení, nikoli zákaz. Slušně se chovající boti ho respektují, ti zákeřní však ne. K omezení přístupu k citlivým stránkám použijte hesla nebo ověření na straně serveru. robots.txt je SEO nástroj, který vyhledávačům pomáhá indexovat váš web efektivněji.

Kde se robots.txt nachází

Soubor robots.txt musí být v kořeni domény, dostupný na adrese:

  • https://vasedomena.com/robots.txt

Soubor na jakékoli jiné cestě crawleři nerozpoznají. Každá subdoména potřebuje svůj vlastní robots.txt – soubor na vasedomena.com neplatí pro blog.vasedomena.com.

Základní syntaxe

robots.txt používá jednoduchou syntaxi s jen několika direktivami. Každý blok začíná řádkem User-agent, který určuje, na kterého bota se pravidla vztahují.

User-agent

  • User-agent: * – pravidla platí pro všechny boty.
  • User-agent: Googlebot – pravidla platí pouze pro bota Googlu.
  • User-agent: Bingbot – pravidla platí pouze pro bota Bingu.

Disallow

  • Disallow: /admin/ – blokuje přístup k adresáři /admin/ a všemu v něm.
  • Disallow: /private.html – blokuje přístup ke konkrétní stránce.
  • Disallow: / – blokuje přístup k celému webu (pozor!).
  • Disallow: (prázdné) – povoluje přístup ke všemu (výchozí chování).

Allow

  • Allow: /admin/public/ – výslovně povoluje přístup k podadresáři, který by jinak blokovalo pravidlo Disallow.
  • Allow se používá k vytvoření výjimek z pravidel Disallow.

Běžné direktivy a příklady

Základní robots.txt pro WordPress web

Zde je doporučený robots.txt pro WordPress weby, který blokuje zbytečné sekce a zároveň umožňuje indexaci důležitého obsahu:

  • User-agent: * – platí pro všechny boty
  • Disallow: /wp-admin/ – administrace by se neměla indexovat
  • Allow: /wp-admin/admin-ajax.php – ale AJAX endpoint je potřeba k fungování některých šablon a pluginů
  • Disallow: /wp-includes/ – systémové soubory WordPressu
  • Disallow: /wp-content/plugins/ – soubory pluginů
  • Disallow: /wp-json/ – REST API (volitelné, podle potřeby)
  • Disallow: /?s= – stránky vyhledávání (tenký obsah)
  • Disallow: /author/ – archivy autorů (zabraňuje duplicitnímu obsahu)

Blokování konkrétních typů souborů

  • Disallow: /*.pdf$ – blokuje indexaci PDF souborů.
  • Disallow: /*.xml$ – blokuje XML soubory (ale ne sitemap!).

Blokování konkrétních botů

  • Některé weby chtějí blokovat AI crawlery, které sbírají data pro trénink modelů:
  • User-agent: GPTBot – bot společnosti OpenAI
  • Disallow: /
  • User-agent: anthropic-ai – bot společnosti Anthropic
  • Disallow: /

Zástupné znaky (wildcards)

robots.txt podporuje omezenou sadu zástupných znaků:

  • * (hvězdička): Odpovídá libovolné sekvenci znaků. Příklad: Disallow: /*.php blokuje všechny adresy URL obsahující .php.
  • $ (dolar): Označuje konec adresy URL. Příklad: Disallow: /*.php$ blokuje pouze adresy končící na .php (ne .php?parametr=hodnota).

Tyto zástupné znaky jsou specifické pro robots.txt a nejde o standardní regex. Používejte je opatrně, protože mohou mít nečekané účinky.

Testování robots.txt

Než robots.txt publikujete na produkční web, vždy ho otestujte, abyste omylem nezablokovali důležitý obsah.

Nástroje pro testování

  • Google Search Console: V „Nastavení“ → „Procházení“ → „robots.txt“ uvidíte, jak Google váš soubor interpretuje, a otestujete konkrétní adresy URL.
  • Bing Webmaster Tools: Obdobná funkčnost pro vyhledávač Bing.
  • Online validátory: Nástroje jako robots-txt.com nebo technicalseo.com/tools/robots-txt/ kontrolují syntaxi a upozorňují na chyby.
  • Screaming Frog: Desktopový SEO nástroj, který umí simulovat procházení a ukázat, které stránky robots.txt blokuje.

Časté chyby

  • Blokování souborů CSS/JS: Google musí mít přístup k CSS a JavaScriptu, aby stránky správně vykreslil. Tyto zdroje neblokujte.
  • Disallow: / pro všechny boty – to zablokuje indexaci celého webu. Častá chyba při migracích webu.
  • Mezery v cestách: Cesty musí být přesné, bez nadbytečných mezer.
  • Velikost souboru: Google ignoruje robots.txt větší než 500 KB. Udržujte soubor krátký a přehledný.

robots.txt a sitemap

robots.txt a sitemap se doplňují – robots.txt botům říká, co neindexovat, a sitemap jim říká, co indexovat.

  • Na konec souboru robots.txt přidejte umístění sitemapy: Sitemap: https://vasedomena.com/sitemap.xml
  • To vyhledávačům pomůže najít vaši sitemapu ještě dříve, než ji přidáte v Search Console.
  • Pokud jich máte více, můžete uvést více sitemap (např. pro příspěvky, stránky a produkty).
  • Adresa URL sitemapy musí být absolutní cesta s protokolem (https://).

Důležitá poznámka: stránka, která je v sitemapě, ale zároveň zablokovaná v robots.txt, se nebude indexovat. robots.txt má přednost. Pokud chcete mít stránku v indexu, nesmí být v robots.txt blokovaná.

robots.txt vs. meta tag robots

Kromě robots.txt existuje meta tag robots umístěný v HTML jednotlivých stránek. Tyto dva mechanismy se vzájemně doplňují:

  • robots.txt: Blokuje procházení (přístup) ke stránce. Bot stránku nenavštíví a nepřečte její obsah.
  • meta noindex: Umožňuje botovi stránku navštívit, ale říká mu, aby ji nezahrnoval do indexu vyhledávání.
  • Pokud chcete stránku dostat z výsledků Googlu, použijte meta noindex. Pokud chcete, aby k ní bot vůbec neměl přístup (např. kvůli úspoře crawl budgetu), použijte robots.txt.
  • Pozor: pokud robots.txt stránku blokuje, Google na ní nemůže vidět meta tag noindex. Ve vzácných případech může Google blokovanou stránku zaindexovat na základě externích odkazů.

Závěr

robots.txt je malý, ale mocný soubor, který může výrazně ovlivnit SEO vašeho webu. Správně nastavený robots.txt pomáhá vyhledávačům indexovat váš web efektivněji, šetří crawl budget a zabraňuje indexaci zbytečného obsahu. Pro většinu WordPress webů bude dostačovat doporučený robots.txt s blokovaným wp-admin, wp-includes a stránkami vyhledávání. Soubor vždy otestujte, než ho nasadíte do produkce, a pravidelně ho kontrolujte v Google Search Console.

BeoHosting Team

10+ let zkušeností — Specialisté na webhosting a infrastrukturu

  • Web Hosting
  • WordPress Hosting
  • VPS
  • Dedicated Serveri
  • Domeni
  • SSL
  • cPanel
  • LiteSpeed
  • Linux administracija
  • DNS

Naposledy aktualizováno: