Vai al contenuto
BeoHosting
BeoHosting
SEO

Guida al file robots.txt

BeoHosting Team··8 min read di lettura
Guida al file robots.txt

Che cos'è il file robots.txt

robots.txt è un semplice file di testo che si trova nella root del tuo sito e fornisce istruzioni ai web crawler (i bot dei motori di ricerca) su quali parti del sito possono indicizzare e quali ignorare. Ogni motore di ricerca serio — Google, Bing, Yahoo — controlla questo file prima di iniziare a indicizzare il tuo sito.

robots.txt non è un meccanismo di sicurezza: è una raccomandazione, non un divieto. I bot ben educati lo rispetteranno, ma quelli malevoli no. Per limitare l'accesso a pagine sensibili, usa password o autenticazione lato server. robots.txt è uno strumento SEO che aiuta i motori di ricerca a indicizzare il tuo sito in modo più efficiente.

Dove si trova robots.txt

Il file robots.txt deve trovarsi nella root del dominio, disponibile all'indirizzo:

  • https://iltuodominio.com/robots.txt

Un file in qualsiasi altro percorso non verrà riconosciuto dai crawler. Ogni sottodominio ha bisogno del proprio robots.txt: il file su iltuodominio.com non si applica a blog.iltuodominio.com.

Sintassi di base

robots.txt utilizza una sintassi semplice con poche direttive. Ogni blocco inizia con una riga User-agent che definisce a quale bot si applicano le regole.

User-agent

  • User-agent: * — le regole si applicano a tutti i bot.
  • User-agent: Googlebot — le regole si applicano solo al bot di Google.
  • User-agent: Bingbot — le regole si applicano solo al bot di Bing.

Disallow

  • Disallow: /admin/ — blocca l'accesso alla directory /admin/ e a tutto ciò che contiene.
  • Disallow: /private.html — blocca l'accesso a una pagina specifica.
  • Disallow: / — blocca l'accesso all'intero sito (attenzione!).
  • Disallow: (vuoto) — consente l'accesso a tutto (comportamento predefinito).

Allow

  • Allow: /admin/public/ — consente esplicitamente l'accesso a una sottodirectory che altrimenti sarebbe bloccata da una regola Disallow.
  • Allow si usa per creare eccezioni alle regole Disallow.

Direttive comuni ed esempi

robots.txt di base per un sito WordPress

Ecco un robots.txt consigliato per i siti WordPress che blocca le sezioni non necessarie consentendo l'indicizzazione dei contenuti importanti:

  • User-agent: * — si applica a tutti i bot
  • Disallow: /wp-admin/ — il pannello di amministrazione non deve essere indicizzato
  • Allow: /wp-admin/admin-ajax.php — ma l'endpoint AJAX è necessario per il funzionamento di alcuni temi e plugin
  • Disallow: /wp-includes/ — file di sistema di WordPress
  • Disallow: /wp-content/plugins/ — file dei plugin
  • Disallow: /wp-json/ — REST API (facoltativo, a seconda delle esigenze)
  • Disallow: /?s= — pagine di ricerca (contenuto scarno)
  • Disallow: /author/ — archivi degli autori (previene contenuti duplicati)

Bloccare tipi di file specifici

  • Disallow: /*.pdf$ — blocca l'indicizzazione dei file PDF.
  • Disallow: /*.xml$ — blocca i file XML (ma non la sitemap!).

Bloccare bot specifici

  • Alcuni siti vogliono bloccare i crawler AI che raccolgono dati per l'addestramento dei modelli:
  • User-agent: GPTBot — il bot di OpenAI
  • Disallow: /
  • User-agent: anthropic-ai — il bot di Anthropic
  • Disallow: /

Caratteri jolly (wildcard)

robots.txt supporta un insieme limitato di caratteri jolly:

  • * (asterisco): corrisponde a qualsiasi sequenza di caratteri. Esempio: Disallow: /*.php blocca tutti gli URL che contengono .php.
  • $ (dollaro): indica la fine dell'URL. Esempio: Disallow: /*.php$ blocca solo gli URL che terminano con .php (non .php?parametro=valore).

Questi caratteri jolly sono specifici di robots.txt e non sono le espressioni regolari standard. Usali con attenzione perché possono avere effetti inaspettati.

Testare robots.txt

Prima di pubblicare robots.txt su un sito di produzione, testalo sempre per evitare di bloccare accidentalmente contenuti importanti.

Strumenti di test

  • Google Search Console: in "Impostazioni" → "Scansione" → "robots.txt" puoi vedere come Google interpreta il tuo file e testare URL specifici.
  • Bing Webmaster Tools: funzionalità simili per il motore di ricerca Bing.
  • Validatori online: strumenti come robots-txt.com o technicalseo.com/tools/robots-txt/ controllano la sintassi e avvisano in caso di errori.
  • Screaming Frog: uno strumento SEO desktop che può simulare la scansione e mostrare quali pagine sono bloccate da robots.txt.

Errori comuni

  • Bloccare i file CSS/JS: Google deve accedere a CSS e JavaScript per renderizzare correttamente le pagine. Non bloccare queste risorse.
  • Disallow: / per tutti i bot: blocca l'intero sito dall'indicizzazione. Un errore comune durante le migrazioni dei siti.
  • Spazi nei percorsi: i percorsi devono essere esatti, senza spazi superflui.
  • Dimensione del file: Google ignora i robots.txt più grandi di 500KB. Mantieni il file breve e chiaro.

robots.txt e sitemap

robots.txt e sitemap sono complementari: robots.txt dice ai bot cosa non indicizzare, mentre la sitemap dice loro cosa indicizzare.

  • Aggiungi la posizione della sitemap alla fine del file robots.txt: Sitemap: https://iltuodominio.com/sitemap.xml
  • Questo aiuta i motori di ricerca a trovare la tua sitemap ancor prima di aggiungerla in Search Console.
  • Puoi elencare più sitemap se ne hai diverse (ad esempio per articoli, pagine e prodotti).
  • L'URL della sitemap deve essere un percorso assoluto con protocollo (https://).

Nota importante: una pagina presente nella sitemap ma bloccata in robots.txt non verrà indicizzata. robots.txt ha la priorità. Se vuoi che una pagina sia nell'indice, non deve essere bloccata in robots.txt.

robots.txt vs tag meta robots

Oltre a robots.txt, esiste il tag meta robots inserito nell'HTML delle singole pagine. Questi due meccanismi si completano a vicenda:

  • robots.txt: blocca la scansione (l'accesso) alla pagina. Il bot non visita la pagina e non ne legge il contenuto.
  • meta noindex: consente al bot di visitare la pagina ma gli dice di non includerla nell'indice di ricerca.
  • Se vuoi che una pagina non compaia nei risultati di Google, usa meta noindex. Se vuoi che il bot non acceda affatto alla pagina (ad esempio per risparmiare crawl budget), usa robots.txt.
  • Attenzione: se robots.txt blocca una pagina, Google non può vedere il tag meta noindex su di essa. In rari casi, Google può indicizzare una pagina bloccata sulla base di link esterni.

Conclusione

robots.txt è un file piccolo ma potente che può influenzare in modo significativo la SEO del tuo sito. Un robots.txt configurato correttamente aiuta i motori di ricerca a indicizzare il sito in modo più efficiente, risparmia crawl budget e previene l'indicizzazione di contenuti non necessari. Per la maggior parte dei siti WordPress, il robots.txt consigliato con wp-admin, wp-includes e pagine di ricerca bloccate sarà sufficiente. Testa sempre il file prima di pubblicarlo in produzione e controllalo regolarmente in Google Search Console.

BeoHosting Team

10+ anni di esperienza — Specialisti di web hosting e infrastrutture

  • Web Hosting
  • WordPress Hosting
  • VPS
  • Dedicated Serveri
  • Domeni
  • SSL
  • cPanel
  • LiteSpeed
  • Linux administracija
  • DNS

Ultimo aggiornamento: