Guía del archivo robots.txt

Qué es el archivo robots.txt
robots.txt es un sencillo archivo de texto ubicado en la raíz de tu sitio que da instrucciones a los rastreadores web (los bots de los motores de búsqueda) sobre qué partes del sitio pueden indexar y cuáles deben ignorar. Todo motor de búsqueda serio (Google, Bing, Yahoo) comprueba este archivo antes de empezar a indexar tu sitio.
robots.txt no es un mecanismo de seguridad: es una recomendación, no una prohibición. Los bots que se comportan correctamente lo respetarán, pero los malintencionados no. Para restringir el acceso a páginas sensibles, usa contraseñas o autenticación del lado del servidor. robots.txt es una herramienta de SEO que ayuda a los motores de búsqueda a indexar tu sitio de forma más eficiente.
Dónde se ubica robots.txt
El archivo robots.txt debe estar en la raíz del dominio, disponible en:
- https://tudominio.com/robots.txt
Un archivo en cualquier otra ruta no será reconocido por los rastreadores. Cada subdominio necesita su propio robots.txt: el archivo de tudominio.com no se aplica a blog.tudominio.com.
Sintaxis básica
robots.txt usa una sintaxis sencilla con solo unas pocas directivas. Cada bloque empieza con una línea User-agent que define a qué bot se aplican las reglas.
User-agent
- User-agent: *: las reglas se aplican a todos los bots.
- User-agent: Googlebot: las reglas se aplican solo al bot de Google.
- User-agent: Bingbot: las reglas se aplican solo al bot de Bing.
Disallow
- Disallow: /admin/: bloquea el acceso al directorio /admin/ y a todo lo que contiene.
- Disallow: /private.html: bloquea el acceso a una página concreta.
- Disallow: /: bloquea el acceso a todo el sitio (¡cuidado!).
- Disallow: (vacío): permite el acceso a todo (comportamiento por defecto).
Allow
- Allow: /admin/public/: permite explícitamente el acceso a un subdirectorio que, de otro modo, quedaría bloqueado por una regla Disallow.
- Allow se usa para crear excepciones a las reglas Disallow.
Directivas habituales y ejemplos
robots.txt básico para un sitio WordPress
Aquí tienes un robots.txt recomendado para sitios WordPress que bloquea las secciones innecesarias y a la vez permite indexar el contenido importante:
- User-agent: * - se aplica a todos los bots
- Disallow: /wp-admin/ - el panel de administración no debe indexarse
- Allow: /wp-admin/admin-ajax.php - pero el endpoint AJAX es necesario para que funcionen algunos temas y plugins
- Disallow: /wp-includes/ - archivos del sistema de WordPress
- Disallow: /wp-content/plugins/ - archivos de los plugins
- Disallow: /wp-json/ - REST API (opcional, según necesidades)
- Disallow: /?s= - páginas de búsqueda (thin content)
- Disallow: /author/ - archivos de autor (evita el contenido duplicado)
Bloquear tipos de archivo concretos
- Disallow: /*.pdf$ - bloquea la indexación de archivos PDF.
- Disallow: /*.xml$ - bloquea archivos XML (¡pero no el sitemap!).
Bloquear bots concretos
- Algunos sitios quieren bloquear los rastreadores de IA que recopilan datos para entrenar modelos:
- User-agent: GPTBot - el bot de OpenAI
- Disallow: /
- User-agent: anthropic-ai - el bot de Anthropic
- Disallow: /
Comodines
robots.txt admite un conjunto limitado de caracteres comodín:
- * (asterisco): Coincide con cualquier secuencia de caracteres. Ejemplo: Disallow: /*.php bloquea todas las URL que contengan .php.
- $ (dólar): Marca el final de la URL. Ejemplo: Disallow: /*.php$ bloquea solo las URL que terminan en .php (no .php?parametro=valor).
Estos comodines son específicos de robots.txt y no son expresiones regulares estándar. Úsalos con cuidado porque pueden tener efectos inesperados.
Probar robots.txt
Antes de publicar robots.txt en un sitio en producción, pruébalo siempre para no bloquear contenido importante por accidente.
Herramientas de prueba
- Google Search Console: En «Configuración» → «Rastreo» → «robots.txt» puedes ver cómo interpreta Google tu archivo y probar URL concretas.
- Bing Webmaster Tools: Funcionalidad similar para el motor de búsqueda de Bing.
- Validadores online: Herramientas como robots-txt.com o technicalseo.com/tools/robots-txt/ comprueban la sintaxis y avisan de errores.
- Screaming Frog: Una herramienta SEO de escritorio que puede simular el rastreo y mostrar qué páginas bloquea robots.txt.
Errores habituales
- Bloquear archivos CSS/JS: Google necesita acceder al CSS y al JavaScript para renderizar las páginas correctamente. No bloquees estos recursos.
- Disallow: / para todos los bots: esto impide que se indexe todo el sitio. Un error frecuente durante las migraciones.
- Espacios en las rutas: Las rutas deben ser exactas, sin espacios de más.
- Tamaño del archivo: Google ignora los robots.txt de más de 500 KB. Mantén el archivo corto y claro.
robots.txt y sitemap
robots.txt y sitemap son complementarios: robots.txt indica a los bots qué no deben indexar, y el sitemap les indica qué sí deben indexar.
- Añade la ubicación del sitemap al final del archivo robots.txt: Sitemap: https://tudominio.com/sitemap.xml
- Esto ayuda a los motores de búsqueda a encontrar tu sitemap incluso antes de añadirlo en Search Console.
- Puedes incluir varios sitemaps si los tienes (por ejemplo, para entradas, páginas y productos).
- La URL del sitemap debe ser una ruta absoluta con protocolo (https://).
Nota importante: una página que está en el sitemap pero bloqueada en robots.txt no se indexará. robots.txt tiene prioridad. Si quieres una página en el índice, no debe estar bloqueada en robots.txt.
robots.txt frente a la metaetiqueta robots
Además de robots.txt, existe la metaetiqueta robots, que se coloca en el HTML de cada página. Estos dos mecanismos se complementan:
- robots.txt: Bloquea el rastreo (el acceso) a la página. El bot no visita la página ni lee su contenido.
- meta noindex: Permite que el bot visite la página, pero le indica que no la incluya en el índice de búsqueda.
- Si quieres una página fuera de los resultados de Google, usa meta noindex. Si quieres que el bot no acceda en absoluto a la página (por ejemplo, para ahorrar crawl budget), usa robots.txt.
- Cuidado: si robots.txt bloquea una página, Google no puede ver la metaetiqueta noindex que contenga. En casos raros, Google puede indexar una página bloqueada a partir de enlaces externos.
Conclusión
robots.txt es un archivo pequeño pero potente que puede afectar de forma notable al SEO de tu sitio. Un robots.txt bien configurado ayuda a los motores de búsqueda a indexar tu sitio de forma más eficiente, ahorra crawl budget y evita la indexación de contenido innecesario. Para la mayoría de los sitios WordPress, el robots.txt recomendado con wp-admin, wp-includes y las páginas de búsqueda bloqueadas será suficiente. Prueba siempre el archivo antes de pasarlo a producción y revísalo con regularidad en Google Search Console.
BeoHosting Team
10+ años de experiencia — Especialistas en alojamiento web e infraestructura
- Web Hosting
- WordPress Hosting
- VPS
- Dedicated Serveri
- Domeni
- SSL
- cPanel
- LiteSpeed
- Linux administracija
- DNS
Última actualización: