Robots.txt: Qué es, cómo funciona y cómo configurarlo correctamente

,
que es robotstxt

El archivo robots.txt es una herramienta fundamental en SEO técnico, ya que permite indicar a los motores de búsqueda qué partes de un sitio web pueden rastrear y cuáles no. A pesar de su importancia, es común encontrar configuraciones erróneas que afectan negativamente la indexación de una web.

En este artículo, aprenderás qué es el archivo robots.txt, cómo funciona, cómo configurarlo correctamente y cuáles son los errores más comunes que debes evitar.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto ubicado en la raíz de un sitio web que establece reglas de acceso para los bots de los motores de búsqueda. Se basa en el protocolo de exclusión de robots (Robots Exclusion Protocol o REP) y permite controlar qué páginas o secciones del sitio deben o no ser rastreadas.

Ejemplo de un archivo robots.txt:

User-agent: *

Disallow: /admin/

Allow: /blog/

Sitemap: https://www.ejemplo.com/sitemap.xml

En este caso:

  • Se impide el acceso a la carpeta /admin/.
  • Se permite el acceso a /blog/.
  • Se indica la ubicación del sitemap.xml para facilitar la indexación.

¿Para qué sirve el archivo robots.txt?

El robots.txt es útil para:

  • Optimizar el rastreo: Evita que los bots pierdan tiempo en secciones irrelevantes.
  • Evitar la indexación de contenido duplicado: Se pueden bloquear URLs con parámetros que generen duplicados.
  • Proteger áreas privadas: Aunque no es un método de seguridad, puede evitar el rastreo de paneles de administración.
  • Mejorar la eficiencia del presupuesto de rastreo (crawl budget): En sitios grandes, ayuda a los motores de búsqueda a centrarse en el contenido importante.

Cómo funciona el robots.txt

Cuando un bot accede a un sitio web, primero busca el archivo robots.txt en la raíz del dominio (https://www.ejemplo.com/robots.txt). Dependiendo de las reglas establecidas, el bot decidirá qué puede rastrear y qué no.

Ejemplo práctico

Si configuras el siguiente robots.txt Googlebot (bot de Google) no rastreará la carpeta /pruebas/:

User-agent: Googlebot

Disallow: /pruebas/

En cambio, si iusacell siguiente, todos los bots tienen prohibido rastrear el sitio web completo:

User-agent: *

Disallow: /

Cómo configurar un robots.txt correctamente

Para crear un archivo robots.txt, sigue estos pasos:

  1. Accede a la raíz de tu sitio web. El archivo debe ubicarse en https://www.tuweb.com/robots.txt.
  2. Define las reglas básicas. Edita el archivo con un editor de texto y añade instrucciones según tus necesidades. Ejemplo para un eCommerce en WordPress:

User-agent: *

Disallow: /wp-admin/

Disallow: /carrito/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.tuweb.com/sitemap.xml

  1. Verifica tu archivo robots.txt. Puedes comprobar su validez en la Google Search Console (Herramienta de prueba de robots.txt).

Errores comunes en robots.txt y cómo evitarlos

  • Bloquear todo el sitio accidentalmente
    Disallow: / → Evita usar esta regla sin verificar que no afecte páginas importantes.
  • Impedir el rastreo de archivos CSS y JS
    Disallow: /wp-content/ → Puede impedir que Google cargue correctamente el diseño del sitio.
  • No incluir el sitemap.xml
    Añadir Sitemap: https://www.tuweb.com/sitemap.xml ayuda a Google a indexar el contenido más rápido.

¿Es obligatorio tener robots.txt?

El archivo robots.txt no es obligatorio, pero sí es muy recomendable en sitios web grandes o con contenido que no deseas indexar. Si se configura incorrectamente, puede afectar la visibilidad en los buscadores.

Para evitar problemas, revisa regularmente su configuración en Google Search Console y asegúrate de que cumple con los objetivos de tu estrategia SEO.