Wikimedia advierte del impacto en sus operaciones por bots para alimentar modelos de AI | IT Masters Mag

CIBERSEGURIDAD

Wikimedia advierte del impacto en sus operaciones por bots para alimentar modelos de AI



Dirección copiada

Desde enero de 2024 el ancho de banda dedicado a atender solicitudes de archivos multimedia ha aumentado 50%.

Publicado el 3 abr 2025



Prague,,Czechia,-,10,21,2024:,Smartphone,On,Surface,Showing
Crédito: Archivo ShutterStock

Los bots de extracción de datos web se han convertido en una carga insoportable para la comunidad Wikimedia debido a su insaciable apetito por contenido en línea para entrenar modelos de inteligencia artificial (AI, por sus siglas en inglés).

Representantes de la Fundación Wikimedia, que supervisa Wikipedia y proyectos comunitarios similares, afirman que desde enero de 2024 el ancho de banda dedicado a atender solicitudes de archivos multimedia ha aumentado 50%.

“Este aumento no proviene de lectores humanos, sino principalmente de programas automatizados que extraen datos del catálogo de imágenes de Wikimedia Commons con licencia abierta para alimentar modelos de AI”, explicaron Birgit Mueller, Chris Danis y Giuseppe Lavagetto de Wikimedia, en una publicación de blog.

“Nuestra infraestructura está diseñada para soportar picos repentinos de tráfico generados por humanos durante eventos de gran interés, pero la cantidad de tráfico generado por los bots de extracción de datos no tiene precedentes y presenta riesgos y costos crecientes”.

Las razones

Según los wikimedistas, al menos 65% del tráfico del contenido más caro que ofrecen los centros de datos de la Fundación Wikimedia es generado por bots, a pesar de que estos agentes de software solo representan alrededor de 35% de las visitas a las páginas.

Esto se debe al sistema de almacenamiento en caché de la Fundación Wikimedia, que distribuye el contenido popular a centros de datos regionales de todo el mundo para un mejor rendimiento.

Los bots visitan las páginas sin importar su popularidad, y sus solicitudes de contenido menos popular implican que el material debe obtenerse del centro de datos principal, lo que consume más recursos informáticos.

La Fundación Wikimedia, en su documento de planificación anual 2025/2026, como parte de su sección sobre Uso Responsable de la Infraestructura, cita el objetivo de “reducir la cantidad de tráfico generado por los rastreadores en 20% en términos de tasa de solicitudes, y en un 30% en términos de ancho de banda”.

Al destacar que Wikipedia y su repositorio multimedia Wikimedia Commons son invaluables para el entrenamiento de modelos de aprendizaje automático, el documento de planificación afirma: “Debemos priorizar a quiénes servimos con esos recursos, y queremos favorecer el consumo humano, así como priorizar el apoyo a los proyectos y colaboradores de Wikimedia con nuestros escasos recursos”.

Wikimedia no es la única

La despreocupación de los bots maliciosos ha sido una queja común durante el último año, aproximadamente, entre quienes operan infraestructuras informáticas para proyectos de código abierto, como señalaron los propios wikimedistas al citar nuestro reciente informe sobre el tema.

El mes pasado, Sourcehut, un servicio de alojamiento en Git, denunció a los rastreadores web excesivamente exigentes que roban contenido para las empresas de inteligencia artificial. El desarrollador de Diaspora, Dennis Schubert, el sitio de reparaciones iFixit y ReadTheDocs también se han opuesto a los rastreadores agresivos de AI, entre otros.

La mayoría de los sitios web reconocen la necesidad de proporcionar ancho de banda para atender las consultas de los bots como un costo para operar, ya que estas visitas programadas facilitan el descubrimiento del contexto en línea al indexarlo para los motores de búsqueda.

Pero desde que ChatGPT se lanzó y la inteligencia artificial generativa (GenAI, por sus siglas en inglés) despegó, los bots se han mostrado más dispuestos a extraer contenido de sitios web enteros para entrenar modelos de AI. Y estos modelos podrían terminar como competidores comerciales, ofreciendo el conocimiento agregado que han recopilado por una tarifa de suscripción o de forma gratuita. Cualquier escenario tiene el potencial de reducir la necesidad del sitio web de origen o de las consultas de búsqueda que generan ingresos por publicidad en línea.

Las soluciones

Dado que la preocupación por la recolección abusiva de contenido por parte de la AI ha sido un problema desde hace tiempo, han surgido diversas herramientas para frustrar a los rastreadores agresivos.

Estas incluyen proyectos de envenenamiento de datos como Glaze, Nightshade y ArtShield; y herramientas basadas en red como Kudurru, Nepenthes, AI Labyrinth y Anubis.

El año pasado, cuando el descontento web con los rastreadores de AI llegó a los principales usuarios de bots de AI (Google, OpenAI y Anthropic, entre otros), se intentó proporcionar métodos para evitar que los rastreadores de AI visitaran sitios web mediante la aplicación de directivas robots.txt.

Sin embargo, estas instrucciones, almacenadas en la raíz de los sitios web para que puedan ser leídas por los rastreadores web que llegan, no se implementan ni respetan universalmente. Este protocolo defensivo declarativo opcional, si no se realiza mediante caracteres comodín para cubrir todas las posibilidades, tampoco puede mantenerse cuando un cambio de nombre es suficiente para evadir una lista de bloqueo. Una afirmación común entre quienes operan sitios web es que los bots con mal comportamiento se identifican erróneamente como Googlebot o algún otro rastreador ampliamente aceptado para evitar ser bloqueados.

Wikipedia.org, por ejemplo, no se molesta en bloquear los rastreadores de AI de Google, OpenAI o Anthropic en su archivo robots.txt. Bloquea varios bots considerados problemáticos por su afición a saturar sitios web enteros, pero no ha incluido entradas de importantes empresas comerciales de AI.

Artículos relacionados

Artículo 1 de 5