Guía del archivo robots.txt

BeoHosting Team·3. novembar 2025.·8 min read de lectura

Qué es el archivo robots.txt

robots.txt es un sencillo archivo de texto ubicado en la raíz de tu sitio que da instrucciones a los rastreadores web (los bots de los motores de búsqueda) sobre qué partes del sitio pueden indexar y cuáles deben ignorar. Todo motor de búsqueda serio (Google, Bing, Yahoo) comprueba este archivo antes de empezar a indexar tu sitio.

robots.txt no es un mecanismo de seguridad: es una recomendación, no una prohibición. Los bots que se comportan correctamente lo respetarán, pero los malintencionados no. Para restringir el acceso a páginas sensibles, usa contraseñas o autenticación del lado del servidor. robots.txt es una herramienta de SEO que ayuda a los motores de búsqueda a indexar tu sitio de forma más eficiente.

Dónde se ubica robots.txt

El archivo robots.txt debe estar en la raíz del dominio, disponible en:

https://tudominio.com/robots.txt

Un archivo en cualquier otra ruta no será reconocido por los rastreadores. Cada subdominio necesita su propio robots.txt: el archivo de tudominio.com no se aplica a blog.tudominio.com.

Sintaxis básica

robots.txt usa una sintaxis sencilla con solo unas pocas directivas. Cada bloque empieza con una línea User-agent que define a qué bot se aplican las reglas.

User-agent

User-agent: *: las reglas se aplican a todos los bots.
User-agent: Googlebot: las reglas se aplican solo al bot de Google.
User-agent: Bingbot: las reglas se aplican solo al bot de Bing.

Disallow

Disallow: /admin/: bloquea el acceso al directorio /admin/ y a todo lo que contiene.
Disallow: /private.html: bloquea el acceso a una página concreta.
Disallow: /: bloquea el acceso a todo el sitio (¡cuidado!).
Disallow: (vacío): permite el acceso a todo (comportamiento por defecto).

Allow

Allow: /admin/public/: permite explícitamente el acceso a un subdirectorio que, de otro modo, quedaría bloqueado por una regla Disallow.
Allow se usa para crear excepciones a las reglas Disallow.

Directivas habituales y ejemplos

robots.txt básico para un sitio WordPress

Aquí tienes un robots.txt recomendado para sitios WordPress que bloquea las secciones innecesarias y a la vez permite indexar el contenido importante:

User-agent: * - se aplica a todos los bots
Disallow: /wp-admin/ - el panel de administración no debe indexarse
Allow: /wp-admin/admin-ajax.php - pero el endpoint AJAX es necesario para que funcionen algunos temas y plugins
Disallow: /wp-includes/ - archivos del sistema de WordPress
Disallow: /wp-content/plugins/ - archivos de los plugins
Disallow: /wp-json/ - REST API (opcional, según necesidades)
Disallow: /?s= - páginas de búsqueda (thin content)
Disallow: /author/ - archivos de autor (evita el contenido duplicado)

Bloquear tipos de archivo concretos

Disallow: /*.pdf$ - bloquea la indexación de archivos PDF.
Disallow: /*.xml$ - bloquea archivos XML (¡pero no el sitemap!).

Bloquear bots concretos

Algunos sitios quieren bloquear los rastreadores de IA que recopilan datos para entrenar modelos:
User-agent: GPTBot - el bot de OpenAI
Disallow: /
User-agent: anthropic-ai - el bot de Anthropic
Disallow: /

Comodines

robots.txt admite un conjunto limitado de caracteres comodín:

* (asterisco): Coincide con cualquier secuencia de caracteres. Ejemplo: Disallow: /*.php bloquea todas las URL que contengan .php.
$ (dólar): Marca el final de la URL. Ejemplo: Disallow: /*.php$ bloquea solo las URL que terminan en .php (no .php?parametro=valor).

Estos comodines son específicos de robots.txt y no son expresiones regulares estándar. Úsalos con cuidado porque pueden tener efectos inesperados.

Probar robots.txt

Antes de publicar robots.txt en un sitio en producción, pruébalo siempre para no bloquear contenido importante por accidente.

Herramientas de prueba

Google Search Console: En «Configuración» → «Rastreo» → «robots.txt» puedes ver cómo interpreta Google tu archivo y probar URL concretas.
Bing Webmaster Tools: Funcionalidad similar para el motor de búsqueda de Bing.
Validadores online: Herramientas como robots-txt.com o technicalseo.com/tools/robots-txt/ comprueban la sintaxis y avisan de errores.
Screaming Frog: Una herramienta SEO de escritorio que puede simular el rastreo y mostrar qué páginas bloquea robots.txt.

Errores habituales

Bloquear archivos CSS/JS: Google necesita acceder al CSS y al JavaScript para renderizar las páginas correctamente. No bloquees estos recursos.
Disallow: / para todos los bots: esto impide que se indexe todo el sitio. Un error frecuente durante las migraciones.
Espacios en las rutas: Las rutas deben ser exactas, sin espacios de más.
Tamaño del archivo: Google ignora los robots.txt de más de 500 KB. Mantén el archivo corto y claro.

robots.txt y sitemap

robots.txt y sitemap son complementarios: robots.txt indica a los bots qué no deben indexar, y el sitemap les indica qué sí deben indexar.

Añade la ubicación del sitemap al final del archivo robots.txt: Sitemap: https://tudominio.com/sitemap.xml
Esto ayuda a los motores de búsqueda a encontrar tu sitemap incluso antes de añadirlo en Search Console.
Puedes incluir varios sitemaps si los tienes (por ejemplo, para entradas, páginas y productos).
La URL del sitemap debe ser una ruta absoluta con protocolo (https://).

Nota importante: una página que está en el sitemap pero bloqueada en robots.txt no se indexará. robots.txt tiene prioridad. Si quieres una página en el índice, no debe estar bloqueada en robots.txt.

robots.txt frente a la metaetiqueta robots

Además de robots.txt, existe la metaetiqueta robots, que se coloca en el HTML de cada página. Estos dos mecanismos se complementan:

robots.txt: Bloquea el rastreo (el acceso) a la página. El bot no visita la página ni lee su contenido.
meta noindex: Permite que el bot visite la página, pero le indica que no la incluya en el índice de búsqueda.
Si quieres una página fuera de los resultados de Google, usa meta noindex. Si quieres que el bot no acceda en absoluto a la página (por ejemplo, para ahorrar crawl budget), usa robots.txt.
Cuidado: si robots.txt bloquea una página, Google no puede ver la metaetiqueta noindex que contenga. En casos raros, Google puede indexar una página bloqueada a partir de enlaces externos.

Conclusión

robots.txt es un archivo pequeño pero potente que puede afectar de forma notable al SEO de tu sitio. Un robots.txt bien configurado ayuda a los motores de búsqueda a indexar tu sitio de forma más eficiente, ahorra crawl budget y evita la indexación de contenido innecesario. Para la mayoría de los sitios WordPress, el robots.txt recomendado con wp-admin, wp-includes y las páginas de búsqueda bloqueadas será suficiente. Prueba siempre el archivo antes de pasarlo a producción y revísalo con regularidad en Google Search Console.