Denuncian que Bots controlados por IA están robando datos de las webs de autónomos y negocios
Para entrenar sus modelos de Inteligencia Artificial, cada vez más empresas utilizan ‘bots’ que recopilan todo tipo de información publicada en las páginas web de los autónomos y negocios, perjudicando el tráfico de sus clientes y causando problemas técnicos.
La creciente popularidad de la Inteligencia Artificial (IA) generativa ha disparado la demanda de contenido para entrenar modelos. Uno de los métodos empleados para hacerlo es el llamado web scraping, esto es, la extracción automatizada de información de sitios web mediante robots. Según datos de la compañía Cloudflare, durante el último año, los bots de IA accedieron a casi el 40% de las páginas web más visitadas que utilizan sus servicios (de entre un millón). Y sólo el 3% de estas tomaron medidas para bloquearlos.
Sin embargo, aunque algunas empresas identifican claramente a sus bots, no todas son transparentes al respecto. Así, los bots de IA tienen carta blanca para extraer contenido de sitios web sin permiso, dejando a las páginas de autónomos y pequeños negocios en una situación de vulnerabilidad, al perder parte del tráfico que antes tenían en sus portales, y también generando problemas técnicos.
Uno de los principales problemas para los propietarios de páginas web es que las plataformas que crean estos robots, como ChatGPT, Gemini (Google) y Copilot (Microsoft) desvalorizan su contenido. Estos asistentes utilizan los propios contenidos para generar sus respuestas, reduciendo así la necesidad de que los usuarios accedan a las fuentes originales. “Es decir, en lugar de visitar un portal para obtener información, los usuarios pueden simplemente pedir a Google o Bing que generen un resumen de la información que necesitan. Esto plantea un primer gran problema: la pérdida de tráfico web”, explicó a este diario aseguró a este diario Javier Navarro Sánchez, director técnico de InnovAI Solutions.
Los bots de IA roban visitas y desvalorizan el contenido de las páginas web de los negocios
Cloudflare también ha identificado los bots de web scraping más activos, como Bytespider. Operado por ByteDance, la empresa matriz de TikTok, se utiliza para recopilar datos de entrenamiento para sus modelos de lenguaje, incluyendo su rival de ChatGPT, Doubao. Por su parte, Amazonbot y ClaudeBot son utilizados para indexar contenido para Alexa y entrenar el chatbot Claude, respectivamente, y también están entre los más activos en términos de volumen de solicitudes.
Pero quizás el mayor problema de todos es que, a pesar de la existencia de estos bots, la mayoría de aquellos pequeños negocios con una página web no son conscientes de su actividad y del impacto que tienen.
En los primeros días de Internet, la única forma para buscar datos y recopilar información era hacerlo manualmente, navegando por las páginas web. Este método, además de ser laborioso, era propenso a errores. A medida que Internet creció, también llegó la automatización, y así surgieron los primeros bots de web scraping, que simplificaron esta tarea. Con los avances tecnológicos, estos robots han evolucionado hasta convertirse en herramientas sofisticadas, impulsadas por IA.
La principal función de estos sistemas es que permiten a las empresas recopilar y analizar grandes conjuntos de datos de manera eficiente, siendo esenciales para tareas como el análisis de mercado y la investigación. De hecho, no tendríamos Google sin ellos. Además, los mencionados avances drásticamente la eficiencia en la conversión de datos no estructurados en formatos utilizables; es decir, en transformar datos brutos en información de utilidad para otros usos.
Sin embargo, para los autónomos y los pequeños negocios, estos avances también representan una serie de riesgos significativos. “Ya hemos mencionado dos, el impacto en el tráfico web, lo que se traduce en menos visitas; y la desvalorización del contenido en el que los propietarios de las páginas han puesto sus esfuerzos por crear, lo que afecta también a su reputación y autoridad en línea”, recapituló aseguró Javier Navarro Sánchez. A los que este experto añade los siguientes:
- Consumo de recursos. Cada vez que se accede a una página, se consume ancho de banda del alojamiento. Los bots de IA, al rastrear extensivamente un sitio web, pueden agotar estos recursos, lo que puede llevar a tiempos de carga más lentos para los visitantes legítimos y aumentar los costes operativos para sus propietarios.
- Problemas legales y éticos. La recopilación de datos sin el consentimiento adecuado puede infringir los derechos de propiedad intelectual y violar los términos de servicio de los sitios web. Además, existen serias consideraciones éticas cuando el scraping implica datos personales.
¿Cómo pueden bloquear los pequeños negocios los bots de IA en sus páginas web?
Para los autónomos y los pequeños negocios que no desean que los bots de IA utilicen su contenido web, la forma más común de intentarlo es a través del archivo ‘robots.txt’. Se trata de un simple archivo de texto, alojado en el mismo servidor que una página, que permite indicar qué partes de un portal pueden ser rastreadas por los bots.
Esto puede ofrecer una primera línea de defensa, pero no es infalible por varias razones. En primer lugar, hace falta identificar y nombrar a cada bot que se quiere bloquear. Y con la proliferación de bots de IA en el mercado, esto se convierte en una tarea casi imposible de gestionar. “Además, no todos son conocidos; el propio Google, por ejemplo, es muy reservado sobre los datos de entrenamiento que utiliza”, según el experto.
En segundo lugar, las instrucciones que se puedan añadir en el archivo ‘robots.txt’ no son obligatorias. Aunque muchos bots, como Common Crawl y ChatGPT, respetan sus directrices, hay muchos otros que no lo hacen. “De hecho, un problema adicional es que algunos bots se crean para intentar hacerse pasar por navegadores reales –algo conocido como spoofing–, por lo que se saltarían igualmente la detección”, indicó Javier Navarro Sánchez.
No obstante, hay otros métodos disponibles, por ejemplo:
- Uso del archivo ‘.htaccess’. Los bots pueden ser bloqueados mediante este archivo de forma semejante al de ‘robots.txt’, pero en este caso sí que se prohíbe el acceso, basándose en los encabezados, es decir, en cómo se identifica. Pero al igual que con aquel, solo es efectivo si se conoce el nombre exacto del bot.
- Cortafuegos de Aplicaciones Web (WAF). Instalar un firewall permite filtrar el tráfico del portal web, y se puede configurar para bloquear solicitudes de bots, IP específicas o basadas en su comportamiento al navegar por el sitio.
- Uso de captchas. Añadir los conocidos retos de autentificación en el acceso a una página puede disuadir a los bots automatizados. Aunque podría perjudicar a los usuarios legítimos.
- Protección con contraseña. Un paso más lejos sería requerir el registro de usuario para acceder a un sitio web. Evidentemente, esto no es posible ni adecuado para todas las páginas, y puede que ni siquiera sea una solución infalible, dependiendo de cómo se implemente.
Puede parecer una batalla perdida, pero también se trata de un campo que está evolucionando rápidamente. De hecho, el propio Cloudflare ofrece una herramienta para realizar este bloqueo de bots de forma automática para sus clientes, incluso con cuentas gratuitas.