Vodič za robots.txt fajl

Šta je robots.txt fajl
Robots.txt je jednostavan tekstualni fajl koji se nalazi u korenu (root) vašeg sajta i daje instrukcije web crawler-ima (botovima pretraživača) koje delove sajta smeju da indeksiraju, a koje treba da ignorisu. Svaki ozbiljan pretraživač - Google, Bing, Yahoo - proverava ovaj fajl pre nego što počne da indeksira vaš sajt.
Robots.txt nije bezbednosni mehanizam - on je preporuka, ne zabrana. Dobronamereni botovi će ga postovati, ali zlonamerni neće. Za zabranu pristupa osetljivim stranicama, koristite lozinke ili server-side autentifikaciju. Robots.txt je SEO alat koji pomaze pretraživačima da efikasnije indeksiraju vaš sajt.
Gde se nalazi robots.txt
Robots.txt fajl mora biti u korenu domena, dostupan na URL-u:
- https://vasdomen.rs/robots.txt
Fajl na bilo kojoj drugoj putanji neće biti prepoznat od strane crawler-a. Svaki poddomen treba svoj robots.txt - fajl na vasdomen.rs ne vazi za blog.vasdomen.rs.
Osnovna sintaksa
Robots.txt koristi jednostavnu sintaksu sa svega nekoliko direktiva. Svaki blok počinje sa User-agent linijom koja određuje za kog bota vaze pravila.
User-agent
- User-agent: * - pravila vaze za sve botove.
- User-agent: Googlebot - pravila vaze samo za Google-ovog bota.
- User-agent: Bingbot - pravila vaze samo za Bing-ovog bota.
Disallow
- Disallow: /admin/ - zabranjuje pristup /admin/ direktorijumu i svemu u njemu.
- Disallow: /privatno.html - zabranjuje pristup specifičnoj stranici.
- Disallow: / - zabranjuje pristup celom sajtu (oprezno!).
- Disallow: (prazno) - dozvoljava pristup svemu (default ponašanje).
Allow
- Allow: /admin/public/ - eksplicitno dozvoljava pristup poddirektorijumu koji bi inace bio zabranjen Disallow pravilom.
- Allow se koristi za kreiranje izuzetaka od Disallow pravila.
Najčešće direktive i primeri
Osnovni robots.txt za WordPress sajt
Evo preporučenog robots.txt za WordPress sajtove koji blokira nepotrebne sekcije a dozvoljava indeksiranje važnog sadržaja:
- User-agent: * - vazi za sve botove
- Disallow: /wp-admin/ - admin panel ne treba indeksirati
- Allow: /wp-admin/admin-ajax.php - ali AJAX endpoint je potreban za funkcionisanje nekih tema i plugina
- Disallow: /wp-includes/ - sistemski fajlovi WordPressa
- Disallow: /wp-content/plugins/ - plugin fajlovi
- Disallow: /wp-json/ - REST API (opciono, zavisi od potreba)
- Disallow: /?s= - stranice pretrage (thin content)
- Disallow: /author/ - autorske arhive (spreci duplicate content)
Blokiranje specifičnih fajl tipova
- Disallow: /*.pdf$ - blokira indeksiranje PDF fajlova.
- Disallow: /*.xml$ - blokira XML fajlove (ali ne sitemap!).
Blokiranje specifičnih botova
- Neki sajtovi žele da blokiraju AI crawler-e koji prikupljaju podatke za treniranje modela:
- User-agent: GPTBot - OpenAI-jev bot
- Disallow: /
- User-agent: anthropic-ai - Anthropic-ov bot
- Disallow: /
Wildcard karakteri
Robots.txt podržava ograničen skup wildcard karaktera:
- * (zvezdica): Zamenjuje bilo koji niz karaktera. Primer: Disallow: /*.php blokira sve URL-ove koji sadrze .php.
- $ (dolar): Oznacava kraj URL-a. Primer: Disallow: /*.php$ blokira samo URL-ove koji se završavaju na .php (ne i .php?parametar=vrednost).
Ovi wildcard karakteri su specifični za robots.txt i nisu standardni regex. Koristite ih paalivo jer mogu imati neočekivane efekte.
Testiranje robots.txt
Pre postavljanja robots.txt na produkcioni sajt, obavezno ga testirajte da ne biste slučajno blokirali važan sadržaj.
Alati za testiranje
- Google Search Console: U sekciji "Settings" → "Crawling" → "robots.txt" možete videti kako Google tumaci vaš fajl i testirati specifične URL-ove.
- Bing Webmaster Tools: Slična funkcionalnost za Bing pretraživač.
- Online validatori: Alati poput robots-txt.com ili technicalseo.com/tools/robots-txt/ proveravaju sintaksu i upozoravaju na greške.
- Screaming Frog: Desktop SEO alat koji može simulirati crawling i pokažati koje stranice su blokirane robots.txt fajlom.
Ceste greške
- Blokiranje CSS/JS fajlova: Google mora pristupiti CSS-u i JavaScript-u da bi pravilno renderovao stranice. Ne blokirajte ove resurse.
- Disallow: / za sve botove - ovo blokira ceo sajt od indeksiranja. Cesta greška kod migracije sajta.
- Razmaci u putanjama: Putanje moraju biti tačne, bez visak razmaka.
- Veličina fajla: Google ignorise robots.txt veći od 500KB. Držite fajl kratak i jasan.
Robots.txt i sitemap
Robots.txt i sitemap su komplementarni - robots.txt govori botovima šta da ne indeksiraju, a sitemap im govori šta da indeksiraju.
- Dodajte lokaciju sitemap-a na kraj robots.txt fajla: Sitemap: https://vasdomen.rs/sitemap.xml
- Ovo pomaze pretraživačima da pronađu vaš sitemap čak i pre nego što ga dodate u Search Console.
- Možete navesti više sitemap-a ako ih imate (npr. za postove, stranice i proizvode).
- Sitemap URL mora biti apsolutna putanja sa protokolom (https://).
Važna napomena: stranica koja je u sitemap-u ali je blokirana u robots.txt neće biti indeksirana. Robots.txt ima prioritet. Ako želite da stranica bude u indeksu, ne sme biti blokirana u robots.txt.
Robots.txt vs. meta robots tag
Pored robots.txt, postoji i meta robots tag koji se stavlja u HTML kod pojedinačnih stranica. Ova dva mehanizma se dopunjuju:
- robots.txt: Blokira crawling (pristup) stranici. Bot ne posecuje stranicu i ne cita njen sadržaj.
- meta noindex: Dozvoljava botu da poseti stranicu, ali mu govori da je ne uključi u indeks pretrage.
- Ako želite da stranica ne bude u Google rezultatima, koristite meta noindex. Ako želite da bot uopšte ne pristupa stranici (npr. da ne trosi crawl budget), koristite robots.txt.
- Pažnja: ako robots.txt blokira stranicu, Google ne može videti meta noindex tag na njoj. U retkim slučajevima, Google može indeksirati blokiranu stranicu na osnovu eksternih linkova.
Zaključak
Robots.txt je mali ali moćan fajl koji može značajno uticati na SEO vašeg sajta. Pravilno konfigurisan robots.txt pomaže pretraživačima da efikasnije indeksiraju vaš sajt, štedi crawl budget i sprečava indeksiranje nepotrebnog sadržaja. Za većinu WordPress sajtova, preporučeni robots.txt sa blokiranjem wp-admin, wp-includes i stranica pretrage će biti sasvim dovoljan. Uvek testirajte fajl pre postavljanja na produkciju i redovno ga proveravajte u Google Search Console.
BeoHosting Tim
10+ godina iskustva — Stručnjaci za web hosting i infrastrukturu
- Web Hosting
- WordPress Hosting
- VPS
- Dedicated Serveri
- Domeni
- SSL
- cPanel
- LiteSpeed
- Linux administracija
- DNS
Poslednje ažurirano: