En el lado técnico de tu estrategia de contenidos , la protección de tu página web es un aspecto que no se debe descuidar. Con el auge de la Inteligencia Artificial y los chatbots ya se han visto casos de robo de contenido a través de estas herramientas.
Un caso en concreto muy relacionado con el SEO se publicó en este medio sobre marketing digital. Te lo recomiendo para ver un ejemplo y las consecuencias de usar este tipo de estrategias.
Es entonces vital saber cómo protegerse ante la visita de los bots que pertenecen a las principales herramientas de Inteligencia Artificial; ChatGPT, Copilot, Perplexity…
El robots.txt es tu principal aliado para protegerte de las herramientas de Inteligencia Artificial
El archivo robots.txt es una manera super simple de decirle a los motores de búsqueda principalmente en qué páginas pueden o no pueden entrar. Se trata de una simple hoja de texto con un formato similar al siguiente:
User-agent: *
Disallow: /
En este caso por ejemplo, diríamos a todos los bots (Google incluído) que no pueden acceder al sitio web.
Para bloquear a los principales bots de herramientas de IA usaremos esto:
User-agent: CCBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: Omgilibot
User-agent: Omgili
User-agent: FacebookBot
User-agent: anthropic-ai
User-agent: cohere-ai
Disallow: /
Si quieres saber más sobre el Robots.txt lo puedes ver en este vídeo.
https://www.youtube.com/watch?v=9F_YIupWOm8
Otras maneras de bloquear a los bots de IA
Existen otros métodos que pueden ser igual de efectivos pero ciertamente tienen un coste mayor.
Captchas
El clásico CAPTCHA, (las siglas se refieren a «Completely Automated Public Turing tests to tell Computers and Humans Apart» Son una herramienta pensada para distinguir humanos de robots, básicamente. Si te interesa la Inteligencia Artificial hay muchos artículos muy buenos sobre los Captcha y la inteligencia artificical y cómo no son casi nunca capaces de resolverlos. (Te recomiendo este de El confidencial)
El bloqueo de contenido con captchas hace imposible a los bots acceder al contenido. Por ahora.
Bloqueo de IP´s
Los bots llegan a tu sitio web desde una IP, al igual que los usuarios normales.
Estas son por ejemplo las que usan los bots de búsqueda de Google. Sólo las 6 primeras.
Sabiendo cuáles son estas IP podemos bloquear el acceso desde herramientas como Cloudfare, Kinsta o los propios CMS tipo WordPress te permiten hacer este bloqueo.