Guia do Ficheiro robots.txt

O que é o ficheiro robots.txt
O robots.txt é um simples ficheiro de texto localizado na raiz do seu site que dá instruções aos crawlers da web (os bots dos motores de busca) sobre que partes do site podem indexar e quais devem ignorar. Todos os motores de busca sérios - Google, Bing, Yahoo - verificam este ficheiro antes de começarem a indexar o seu site.
O robots.txt não é um mecanismo de segurança - é uma recomendação, não uma proibição. Os bots de bom comportamento respeitam-no, mas os maliciosos não. Para restringir o acesso a páginas sensíveis, utilize palavras-passe ou autenticação do lado do servidor. O robots.txt é uma ferramenta de SEO que ajuda os motores de busca a indexar o seu site de forma mais eficiente.
Onde se localiza o robots.txt
O ficheiro robots.txt tem de estar na raiz do domínio, disponível em:
- https://oseudominio.com/robots.txt
Um ficheiro em qualquer outro caminho não será reconhecido pelos crawlers. Cada subdomínio precisa do seu próprio robots.txt - o ficheiro em oseudominio.com não se aplica a blog.oseudominio.com.
Sintaxe básica
O robots.txt utiliza uma sintaxe simples com apenas algumas diretivas. Cada bloco começa com uma linha User-agent que define a que bot se aplicam as regras.
User-agent
- User-agent: * - as regras aplicam-se a todos os bots.
- User-agent: Googlebot - as regras aplicam-se apenas ao bot do Google.
- User-agent: Bingbot - as regras aplicam-se apenas ao bot do Bing.
Disallow
- Disallow: /admin/ - bloqueia o acesso ao diretório /admin/ e a tudo o que está dentro dele.
- Disallow: /private.html - bloqueia o acesso a uma página específica.
- Disallow: / - bloqueia o acesso a todo o site (cuidado!).
- Disallow: (vazio) - permite o acesso a tudo (comportamento predefinido).
Allow
- Allow: /admin/public/ - permite explicitamente o acesso a um subdiretório que, de outra forma, seria bloqueado por uma regra Disallow.
- O Allow é utilizado para criar exceções às regras Disallow.
Diretivas comuns e exemplos
robots.txt básico para um site WordPress
Eis um robots.txt recomendado para sites WordPress que bloqueia secções desnecessárias permitindo, ao mesmo tempo, a indexação do conteúdo importante:
- User-agent: * - aplica-se a todos os bots
- Disallow: /wp-admin/ - o painel de administração não deve ser indexado
- Allow: /wp-admin/admin-ajax.php - mas o endpoint AJAX é necessário para que alguns temas e plugins funcionem
- Disallow: /wp-includes/ - ficheiros de sistema do WordPress
- Disallow: /wp-content/plugins/ - ficheiros dos plugins
- Disallow: /wp-json/ - REST API (opcional, conforme as necessidades)
- Disallow: /?s= - páginas de pesquisa (conteúdo pobre)
- Disallow: /author/ - arquivos de autor (evita conteúdo duplicado)
Bloquear tipos de ficheiro específicos
- Disallow: /*.pdf$ - bloqueia a indexação de ficheiros PDF.
- Disallow: /*.xml$ - bloqueia ficheiros XML (mas não o sitemap!).
Bloquear bots específicos
- Alguns sites querem bloquear os crawlers de IA que recolhem dados para o treino de modelos:
- User-agent: GPTBot - o bot da OpenAI
- Disallow: /
- User-agent: anthropic-ai - o bot da Anthropic
- Disallow: /
Caracteres curinga
O robots.txt suporta um conjunto limitado de caracteres curinga:
- * (asterisco): Corresponde a qualquer sequência de caracteres. Exemplo: Disallow: /*.php bloqueia todos os URLs que contêm .php.
- $ (cifrão): Marca o final do URL. Exemplo: Disallow: /*.php$ bloqueia apenas os URLs que terminam em .php (não os .php?parametro=valor).
Estes caracteres curinga são específicos do robots.txt e não são expressões regulares (regex) padrão. Utilize-os com cuidado porque podem ter efeitos inesperados.
Testar o robots.txt
Antes de publicar o robots.txt num site em produção, teste-o sempre para evitar bloquear acidentalmente conteúdo importante.
Ferramentas de teste
- Google Search Console: Em "Definições" → "Rastreio" → "robots.txt" pode ver como o Google interpreta o seu ficheiro e testar URLs específicos.
- Bing Webmaster Tools: Funcionalidade semelhante para o motor de busca Bing.
- Validadores online: Ferramentas como o robots-txt.com ou o technicalseo.com/tools/robots-txt/ verificam a sintaxe e alertam para erros.
- Screaming Frog: Uma ferramenta de SEO para computador que consegue simular o rastreio e mostrar que páginas estão bloqueadas pelo robots.txt.
Erros comuns
- Bloquear ficheiros CSS/JS: O Google tem de aceder ao CSS e ao JavaScript para renderizar as páginas corretamente. Não bloqueie estes recursos.
- Disallow: / para todos os bots - isto bloqueia a indexação de todo o site. Um erro comum durante as migrações de sites.
- Espaços em branco nos caminhos: Os caminhos têm de ser exatos, sem espaços extra.
- Tamanho do ficheiro: O Google ignora robots.txt com mais de 500KB. Mantenha o ficheiro curto e claro.
robots.txt e sitemap
O robots.txt e o sitemap são complementares - o robots.txt diz aos bots o que não devem indexar, e o sitemap diz-lhes o que devem indexar.
- Adicione a localização do sitemap no final do ficheiro robots.txt: Sitemap: https://oseudominio.com/sitemap.xml
- Isto ajuda os motores de busca a encontrar o seu sitemap mesmo antes de o adicionar no Search Console.
- Pode indicar vários sitemaps, se os tiver (por exemplo, para publicações, páginas e produtos).
- O URL do sitemap tem de ser um caminho absoluto com protocolo (https://).
Nota importante: uma página que está no sitemap mas bloqueada no robots.txt não será indexada. O robots.txt tem prioridade. Se quiser uma página no índice, ela não pode estar bloqueada no robots.txt.
robots.txt vs meta tag robots
Além do robots.txt, existe a meta tag robots colocada no HTML de páginas individuais. Estes dois mecanismos complementam-se:
- robots.txt: Bloqueia o rastreio (acesso) à página. O bot não visita a página nem lê o seu conteúdo.
- meta noindex: Permite que o bot visite a página, mas diz-lhe para não incluir a página no índice de pesquisa.
- Se quiser uma página fora dos resultados do Google, utilize meta noindex. Se quiser que o bot não aceda de todo à página (por exemplo, para poupar orçamento de rastreio), utilize o robots.txt.
- Atenção: se o robots.txt bloquear uma página, o Google não consegue ver a meta tag noindex nela. Em casos raros, o Google pode indexar uma página bloqueada com base em ligações externas.
Conclusão
O robots.txt é um ficheiro pequeno mas poderoso que pode afetar significativamente o SEO do seu site. Um robots.txt corretamente configurado ajuda os motores de busca a indexar o seu site de forma mais eficiente, poupa orçamento de rastreio e evita a indexação de conteúdo desnecessário. Para a maioria dos sites WordPress, o robots.txt recomendado com wp-admin, wp-includes e páginas de pesquisa bloqueados será suficiente. Teste sempre o ficheiro antes de o enviar para produção e verifique-o regularmente no Google Search Console.
Equipa BeoHosting
10+ anos de experiência — Especialistas em alojamento web e infraestrutura
- Web Hosting
- WordPress Hosting
- VPS
- Dedicated Serveri
- Domeni
- SSL
- cPanel
- LiteSpeed
- Linux administracija
- DNS
Última atualização: