Diccionario SEO

¿ Qué es el Disallow y para que sirve ?

Post placeholder image

¿ Qué es la Directiva disallow ?

Disallow es una instrucción que  se introduce en el Robots.txt y sirve para denegar el acceso a los bots de los motores de búsqueda  a una determinada página o a un directorio completo. 

La instrucción Disallow, pertenece al Protocolo Estándar de Exclusión de Robots, el cual fue creado por primera vez en 1984,y el 1 de Julio de 2019, Google inicio los trámites para convertirlo en un estándar en internet.


Este protocolo establece que los rastreadores de los Motores de búsqueda deben de acceder y leer el fichero llamado robots.txt antes de empezar a rastrear una página web.

Por este motivo, las páginas deberían tener en el directorio raíz un fichero llamado robots.txt que es el fichero que contendrá la instrucción Disallow.

disallow, es una directiva, no una obligación

Es importante tener en cuenta, que la instrucción disallow es una directiva, por lo tanto, no es de obligado cumplimiento, ya que, si el motor de búsqueda en cuestión, considera que sí que debe de poder acceder al contenido, accederá sin ningún problema.

Esto suele pasar, cuando nosotros intentamos bloquear un directorio o página en concreto, y tenemos webs externas que nos están enlazando, en este caso, lo normal es que el motor de búsqueda indexe ese contenido que hemos querido bloquear con la instrucción disallow.

Por este motivo, es recomendable, que si queremos que Google no nos indexe una determinada página o carpeta,  utilicemos otros método más eficaces, como utilizar la directiva noindex de la metaetiqueta robots o la cabecera HTTP X-Robots-Tag o incluso bloquear el acceso a la página en cuestión con programación.

En el caso de que usemos la directiva noindex, debemos de permitir la indexación de la página, ya que es necesario rastrearla para ver la etiqueta.

Para que sirve la instrucción disallow

Como hemos comentado anteriormente , la instrucción disallow, sirve para indicar a los robots de los buscadores, qué contenido no deben de seguir.

Una utilidad con la que se suele usar mucho, es para ocultar información, sin embargo, como hemos dicho, no es una buena opción, por dos motivos, primero ,por que esta información siempre será accesible para todo el mundo con solo tener la url, y segundo, por que el motor de búsqueda puede indexarla si considera que es relevante.

Como debemos de usar la directiva disallow

La directiva disallow es muy sencilla de usar, ya que tenemos muy pocas opciones, las cuales vamos a detallar a continuación:

Disallow: /

Es la típica instrucción que se utiliza cuando estamos desarrollando una web, y lo que hace es indicar a los bots que crawlean nuestra página web, que no accedan a la web, con lo cual conseguiremos que la web no sea indexada.

User-agent: *
Disallow: /

User-agent: * significa que la instrucción se aplica a todos los robots. Disallow: /  indica que se bloqueará el acceso a todas las páginas o archivos que estén disponibles en ese dominio.

Es importante destacar que si tenemos páginas enlazas desde otras webs externas a la nuestra, los motores de búsqueda accederán a las páginas en cuestión.

Es importante tener en cuenta que si ponemos la siguiente instrucción, los motores de búsqueda rastrearán todo.

Disallow:

Cuando ponemos la instrucción disallow:, lo que queremos decirle al bot del motor de búsqueda es que acceda a todo el contenido.

User-agent: *
Disallow:

Disallow con carpetas o ficheros

Para indicar al bot del motor de búsqueda que no acceda a una carpeta, solo debemos de indicar las carpetas en cada una de las lineas, tal como indicamos en el ejemplo

User-agent: *
Disallow: /wp-admin/
Disallow: /seo/
Disallow: /ppc/
Disallow: /hidden/file.html

Cómo hacer un disallow para determinados bots

Si, lo que queremos hacer, es crear un disallow para solo un determinado tipo de bot, debemos de indicar en el User-agent del bot al que le queremos indicar la acción disallow. Si queremos que se aplique a todos los bots debemos de indicar *

// Esta acción se aplicará al bot de Bing

User-agent: Bingbot 
Disallow: /

// Esta acción se aplicará a todos los Bots

User-agent: *
Disallow:

En el fondo, en la línea del “User-agent“ debemos de indicar para que crawler va dirigido, pudiendo ser alguno de los que indicamos a continuación, que son los más importantes en la actualidad:

  • Googlebot (Google search engine)
  • Googlebot-Image (Google-image search)
  • Adsbot-Google (Google AdWords)
  • Slurp (Yahoo)
  • bingbot (Bing)