Saltar para o conteúdo
BeoHosting
BeoHosting
SEO

Guia do Ficheiro robots.txt

Equipa BeoHosting··8 min de leitura de leitura
Guia do Ficheiro robots.txt

O que é o ficheiro robots.txt

O robots.txt é um simples ficheiro de texto localizado na raiz do seu site que dá instruções aos crawlers da web (os bots dos motores de busca) sobre que partes do site podem indexar e quais devem ignorar. Todos os motores de busca sérios - Google, Bing, Yahoo - verificam este ficheiro antes de começarem a indexar o seu site.

O robots.txt não é um mecanismo de segurança - é uma recomendação, não uma proibição. Os bots de bom comportamento respeitam-no, mas os maliciosos não. Para restringir o acesso a páginas sensíveis, utilize palavras-passe ou autenticação do lado do servidor. O robots.txt é uma ferramenta de SEO que ajuda os motores de busca a indexar o seu site de forma mais eficiente.

Onde se localiza o robots.txt

O ficheiro robots.txt tem de estar na raiz do domínio, disponível em:

  • https://oseudominio.com/robots.txt

Um ficheiro em qualquer outro caminho não será reconhecido pelos crawlers. Cada subdomínio precisa do seu próprio robots.txt - o ficheiro em oseudominio.com não se aplica a blog.oseudominio.com.

Sintaxe básica

O robots.txt utiliza uma sintaxe simples com apenas algumas diretivas. Cada bloco começa com uma linha User-agent que define a que bot se aplicam as regras.

User-agent

  • User-agent: * - as regras aplicam-se a todos os bots.
  • User-agent: Googlebot - as regras aplicam-se apenas ao bot do Google.
  • User-agent: Bingbot - as regras aplicam-se apenas ao bot do Bing.

Disallow

  • Disallow: /admin/ - bloqueia o acesso ao diretório /admin/ e a tudo o que está dentro dele.
  • Disallow: /private.html - bloqueia o acesso a uma página específica.
  • Disallow: / - bloqueia o acesso a todo o site (cuidado!).
  • Disallow: (vazio) - permite o acesso a tudo (comportamento predefinido).

Allow

  • Allow: /admin/public/ - permite explicitamente o acesso a um subdiretório que, de outra forma, seria bloqueado por uma regra Disallow.
  • O Allow é utilizado para criar exceções às regras Disallow.

Diretivas comuns e exemplos

robots.txt básico para um site WordPress

Eis um robots.txt recomendado para sites WordPress que bloqueia secções desnecessárias permitindo, ao mesmo tempo, a indexação do conteúdo importante:

  • User-agent: * - aplica-se a todos os bots
  • Disallow: /wp-admin/ - o painel de administração não deve ser indexado
  • Allow: /wp-admin/admin-ajax.php - mas o endpoint AJAX é necessário para que alguns temas e plugins funcionem
  • Disallow: /wp-includes/ - ficheiros de sistema do WordPress
  • Disallow: /wp-content/plugins/ - ficheiros dos plugins
  • Disallow: /wp-json/ - REST API (opcional, conforme as necessidades)
  • Disallow: /?s= - páginas de pesquisa (conteúdo pobre)
  • Disallow: /author/ - arquivos de autor (evita conteúdo duplicado)

Bloquear tipos de ficheiro específicos

  • Disallow: /*.pdf$ - bloqueia a indexação de ficheiros PDF.
  • Disallow: /*.xml$ - bloqueia ficheiros XML (mas não o sitemap!).

Bloquear bots específicos

  • Alguns sites querem bloquear os crawlers de IA que recolhem dados para o treino de modelos:
  • User-agent: GPTBot - o bot da OpenAI
  • Disallow: /
  • User-agent: anthropic-ai - o bot da Anthropic
  • Disallow: /

Caracteres curinga

O robots.txt suporta um conjunto limitado de caracteres curinga:

  • * (asterisco): Corresponde a qualquer sequência de caracteres. Exemplo: Disallow: /*.php bloqueia todos os URLs que contêm .php.
  • $ (cifrão): Marca o final do URL. Exemplo: Disallow: /*.php$ bloqueia apenas os URLs que terminam em .php (não os .php?parametro=valor).

Estes caracteres curinga são específicos do robots.txt e não são expressões regulares (regex) padrão. Utilize-os com cuidado porque podem ter efeitos inesperados.

Testar o robots.txt

Antes de publicar o robots.txt num site em produção, teste-o sempre para evitar bloquear acidentalmente conteúdo importante.

Ferramentas de teste

  • Google Search Console: Em "Definições" → "Rastreio" → "robots.txt" pode ver como o Google interpreta o seu ficheiro e testar URLs específicos.
  • Bing Webmaster Tools: Funcionalidade semelhante para o motor de busca Bing.
  • Validadores online: Ferramentas como o robots-txt.com ou o technicalseo.com/tools/robots-txt/ verificam a sintaxe e alertam para erros.
  • Screaming Frog: Uma ferramenta de SEO para computador que consegue simular o rastreio e mostrar que páginas estão bloqueadas pelo robots.txt.

Erros comuns

  • Bloquear ficheiros CSS/JS: O Google tem de aceder ao CSS e ao JavaScript para renderizar as páginas corretamente. Não bloqueie estes recursos.
  • Disallow: / para todos os bots - isto bloqueia a indexação de todo o site. Um erro comum durante as migrações de sites.
  • Espaços em branco nos caminhos: Os caminhos têm de ser exatos, sem espaços extra.
  • Tamanho do ficheiro: O Google ignora robots.txt com mais de 500KB. Mantenha o ficheiro curto e claro.

robots.txt e sitemap

O robots.txt e o sitemap são complementares - o robots.txt diz aos bots o que não devem indexar, e o sitemap diz-lhes o que devem indexar.

  • Adicione a localização do sitemap no final do ficheiro robots.txt: Sitemap: https://oseudominio.com/sitemap.xml
  • Isto ajuda os motores de busca a encontrar o seu sitemap mesmo antes de o adicionar no Search Console.
  • Pode indicar vários sitemaps, se os tiver (por exemplo, para publicações, páginas e produtos).
  • O URL do sitemap tem de ser um caminho absoluto com protocolo (https://).

Nota importante: uma página que está no sitemap mas bloqueada no robots.txt não será indexada. O robots.txt tem prioridade. Se quiser uma página no índice, ela não pode estar bloqueada no robots.txt.

robots.txt vs meta tag robots

Além do robots.txt, existe a meta tag robots colocada no HTML de páginas individuais. Estes dois mecanismos complementam-se:

  • robots.txt: Bloqueia o rastreio (acesso) à página. O bot não visita a página nem lê o seu conteúdo.
  • meta noindex: Permite que o bot visite a página, mas diz-lhe para não incluir a página no índice de pesquisa.
  • Se quiser uma página fora dos resultados do Google, utilize meta noindex. Se quiser que o bot não aceda de todo à página (por exemplo, para poupar orçamento de rastreio), utilize o robots.txt.
  • Atenção: se o robots.txt bloquear uma página, o Google não consegue ver a meta tag noindex nela. Em casos raros, o Google pode indexar uma página bloqueada com base em ligações externas.

Conclusão

O robots.txt é um ficheiro pequeno mas poderoso que pode afetar significativamente o SEO do seu site. Um robots.txt corretamente configurado ajuda os motores de busca a indexar o seu site de forma mais eficiente, poupa orçamento de rastreio e evita a indexação de conteúdo desnecessário. Para a maioria dos sites WordPress, o robots.txt recomendado com wp-admin, wp-includes e páginas de pesquisa bloqueados será suficiente. Teste sempre o ficheiro antes de o enviar para produção e verifique-o regularmente no Google Search Console.

Equipa BeoHosting

10+ anos de experiência — Especialistas em alojamento web e infraestrutura

  • Web Hosting
  • WordPress Hosting
  • VPS
  • Dedicated Serveri
  • Domeni
  • SSL
  • cPanel
  • LiteSpeed
  • Linux administracija
  • DNS

Última atualização: