Preskoči na vsebino
BeoHosting
BeoHosting
SEO

Vodnik za datoteko robots.txt

BeoHosting Ekipa··8 min branja branja
Vodnik za datoteko robots.txt

Kaj je robots.txt datoteka

Robots.txt je preprosta besedilna datoteka, ki se nahaja v korenu (root) vaše spletne strani in daje navodila spletnim crawlerjem (botom iskalnikov), katere dele spletne strani smejo indeksirati in katere naj ignorirajo. Vsak resen iskalnik - Google, Bing, Yahoo - pred začetkom indeksiranja preveri to datoteko.

Robots.txt ni varnostni mehanizem - to je priporočilo, ne prepoved. Dobronamerni boti ga bodo spoštovali, zlonamerni pa ne. Za prepoved dostopa do občutljivih strani uporabite gesla ali server-side avtentikacijo. Robots.txt je SEO orodje, ki pomaga iskalnikom učinkoviteje indeksirati vašo spletno stran.

Kje se nahaja robots.txt

Robots.txt datoteka mora biti v korenu domene, dostopna na URL-ju:

  • https://vasdomen.si/robots.txt

Datoteka na kateri koli drugi poti ne bo prepoznana s strani crawlerjev. Vsaka poddomena potrebuje svoj robots.txt - datoteka na vasdomen.si ne velja za blog.vasdomen.si.

Osnovna sintaksa

Robots.txt uporablja preprosto sintakso z nekaj direktivami. Vsak blok se začne z vrstico User-agent, ki določa, za katerega bota veljajo pravila.

User-agent

  • User-agent: * - pravila veljajo za vse bote.
  • User-agent: Googlebot - pravila veljajo samo za Googlovega bota.
  • User-agent: Bingbot - pravila veljajo samo za Bingovega bota.

Disallow

  • Disallow: /admin/ - prepoveduje dostop do /admin/ imenika in vsega v njem.
  • Disallow: /privatno.html - prepoveduje dostop do specifične strani.
  • Disallow: / - prepoveduje dostop do celotne spletne strani (previdno!).
  • Disallow: (prazno) - dovoljuje dostop do vsega (privzeto vedenje).

Allow

  • Allow: /admin/public/ - izrecno dovoljuje dostop do podmape, ki bi sicer bila prepovedana s Disallow pravilom.
  • Allow se uporablja za ustvarjanje izjem od Disallow pravil.

Najpogostejše direktive in primeri

Osnovni robots.txt za WordPress stran

Tukaj je priporočen robots.txt za WordPress strani, ki blokira nepotrebne sekcije in dovoljuje indeksiranje pomembne vsebine:

  • User-agent: * - velja za vse bote
  • Disallow: /wp-admin/ - admin plošča ne potrebuje indeksiranja
  • Allow: /wp-admin/admin-ajax.php - vendar je AJAX endpoint potreben za delovanje nekaterih tem in vtičnikov
  • Disallow: /wp-includes/ - sistemske datoteke WordPressa
  • Disallow: /wp-content/plugins/ - datoteke vtičnikov
  • Disallow: /wp-json/ - REST API (izbirno, odvisno od potreb)
  • Disallow: /?s= - strani iskanja (thin content)
  • Disallow: /author/ - avtorski arhivi (preprečite duplicate content)

Blokiranje specifičnih tipov datotek

  • Disallow: /*.pdf$ - blokira indeksiranje PDF datotek.
  • Disallow: /*.xml$ - blokira XML datoteke (vendar ne sitemap!).

Blokiranje specifičnih botov

  • Nekatere spletne strani želijo blokirati AI crawlerje, ki zbirajo podatke za usposabljanje modelov:
  • User-agent: GPTBot - OpenAI bot
  • Disallow: /
  • User-agent: anthropic-ai - Anthropic bot
  • Disallow: /

Wildcard znaki

Robots.txt podpira omejen nabor wildcard znakov:

  • * (zvezdica): Zamenjuje katero koli zaporedje znakov. Primer: Disallow: /*.php blokira vse URL-je, ki vsebujejo .php.
  • $ (dolar): Označuje konec URL-ja. Primer: Disallow: /*.php$ blokira samo URL-je, ki se končajo z .php (ne tudi .php?parameter=vrednost).

Ti wildcard znaki so specifični za robots.txt in niso standardni regex. Uporabljajte jih previdno, ker imajo lahko nepričakovane učinke.

Testiranje robots.txt

Pred postavitvijo robots.txt na produkcijsko spletno stran ga obvezno testirajte, da ne boste pomotoma blokirali pomembne vsebine.

Orodja za testiranje

  • Google Search Console: V sekciji "Settings" → "Crawling" → "robots.txt" lahko vidite, kako Google tolmači vašo datoteko, in testirate specifične URL-je.
  • Bing Webmaster Tools: Podobna funkcionalnost za Bing iskalnik.
  • Spletni validatorji: Orodja, kot sta robots-txt.com ali technicalseo.com/tools/robots-txt/, preverjajo sintakso in opozarjajo na napake.
  • Screaming Frog: Namizno SEO orodje, ki lahko simulira crawling in pokaže, katere strani so blokirane z robots.txt datoteko.

Pogoste napake

  • Blokiranje CSS/JS datotek: Google mora dostopati do CSS-a in JavaScripta, da pravilno prikaže strani. Ne blokirajte teh virov.
  • Disallow: / za vse bote - to blokira celotno spletno stran pred indeksiranjem. Pogosta napaka pri migraciji spletne strani.
  • Razmiki v poteh: Poti morajo biti natančne, brez odvečnih razmikov.
  • Velikost datoteke: Google ignorira robots.txt večji od 500 KB. Datoteko držite kratko in jasno.

Robots.txt in sitemap

Robots.txt in sitemap se dopolnjujeta - robots.txt botom pove, česa ne indeksirati, sitemap pa, kaj naj indeksirajo.

  • Lokacijo sitemapa dodajte na konec robots.txt datoteke: Sitemap: https://vasdomen.si/sitemap.xml
  • To pomaga iskalnikom najti vaš sitemap, tudi preden ga dodate v Search Console.
  • Lahko navedete več sitemapov, če jih imate (npr. za objave, strani in izdelke).
  • URL sitemapa mora biti absolutna pot s protokolom (https://).

Pomembna opomba: stran, ki je v sitemapu, vendar je blokirana v robots.txt, ne bo indeksirana. Robots.txt ima prednost. Če želite, da je stran v indeksu, ne sme biti blokirana v robots.txt.

Robots.txt vs. meta robots oznaka

Poleg robots.txt obstaja tudi meta robots oznaka, ki se postavi v HTML kodo posameznih strani. Ta dva mehanizma se dopolnjujeta:

  • robots.txt: Blokira crawling (dostop) strani. Bot strani ne obišče in ne bere njene vsebine.
  • meta noindex: Dovoli botu, da obišče stran, vendar mu pove, naj je ne vključi v indeks iskanja.
  • Če želite, da stran ni v Google rezultatih, uporabite meta noindex. Če želite, da bot sploh ne dostopa do strani (npr. da ne porablja crawl budget), uporabite robots.txt.
  • Pozor: če robots.txt blokira stran, Google ne more videti meta noindex oznake na njej. V redkih primerih lahko Google indeksira blokirano stran na podlagi zunanjih povezav.

Zaključek

Robots.txt je majhna, vendar močna datoteka, ki lahko bistveno vpliva na SEO vaše spletne strani. Pravilno konfiguriran robots.txt pomaga iskalnikom učinkoviteje indeksirati vašo spletno stran, varčuje crawl budget in preprečuje indeksiranje nepotrebne vsebine. Za večino WordPress strani bo priporočen robots.txt z blokiranjem wp-admin, wp-includes in iskalnih strani povsem dovolj. Vedno testirajte datoteko pred postavitvijo v produkcijo in jo redno preverjajte v Google Search Console.

BeoHosting Ekipa

10+ let izkušenj — Strokovnjaki za spletno gostovanje in infrastrukturo

  • Web Hosting
  • WordPress Hosting
  • VPS
  • Dedicated Serveri
  • Domeni
  • SSL
  • cPanel
  • LiteSpeed
  • Linux administracija
  • DNS

Zadnja posodobitev: