Truffle Security encontró cerca de 12,000 secretos válidos que incluyen contraseñas y claves API expuestas en un conjunto de datos de Common Crawl utilizado para entrenar múltiples modelos de inteligencia artificial (AI, por sus siglas en inglés).
La organización sin fines de lucro Common Crawl mantiene un enorme repositorio de código abierto con petabytes de datos web recopilados desde 2008 que es de uso gratuito para cualquier persona.
Debido al gran conjunto de datos, muchos proyectos de AI pueden depender, al menos en parte, del archivo digital para entrenar modelos grandes de lenguaje (LLM, por sus siglas en inglés), incluidos los de DeepSeek —a quien menciona Truffle Security—, OpenAI, Google, Meta, Anthropic y Stability.
En una publicación de blog en febrero pasado, la empresa detrás del escáner de código abierto para datos confidenciales TruffleHog explicó que “sospechamos que podría haber credenciales codificadas en los datos de entrenamiento, lo que podría influir en el comportamiento del modelo”.
Para probar esto, agregó, descargaron el archivo de Common Crawl de diciembre de 2024, que contenía 400 terabytes de datos web de 2,670 millones de páginas web y lo escanearon.
Claves API expuestas de AWS y MailChimp
Los investigadores de Truffle Security descubrieron 11,908 contraseñas y claves API expuestas que se autentican correctamente y que los desarrolladores codificaron de forma rígida, lo que indica la posibilidad de que los LLM se entrenen con código inseguro.
Cabe señalar que los datos de entrenamiento de LLM no se utilizan en forma bruta y pasan por una etapa de preprocesamiento que implica la limpieza y el filtrado de contenido innecesario, como datos irrelevantes, duplicados, información dañina o confidencial.
A pesar de estos esfuerzos, es difícil eliminar datos confidenciales y el proceso no ofrece garantías de eliminar de un conjunto de datos tan grande toda la información de identificación personal (PII), datos financieros, registros médicos y otro contenido confidencial.
Después de analizar los datos escaneados, Truffle Security encontró claves API válidas para los servicios Amazon Web Services (AWS), MailChimp y WalkScore.
Los investigadores explicaron que el error de los desarrolladores fue codificarlas en formularios HTML y fragmentos de JavaScript y no usar variables de entorno del lado del servidor.
Un atacante podría usar estas claves para actividades maliciosas como campañas de phishing y suplantación de marca. Además, filtrar dichos secretos podría llevar a la exfiltración de datos.
Otro punto destacado del informe es la alta tasa de reutilización de los secretos descubiertos, ya que 63% estaban presentes en varias páginas. Sin embargo, uno de ellos, una clave API de WalkScore, “apareció 57,029 veces en 1,871 subdominios”.
También encontraron una página web con 17 webhooks de Slack activos únicos, que deberían mantenerse en secreto porque permiten que las aplicaciones publiquen mensajes en Slack.
“Manténgalo en secreto, manténgalo seguro. La URL de su webhook contiene un secreto. No lo comparta en línea, ni siquiera a través de repositorios de control de versiones públicos”, advierte Slack.
Revocan miles de claves
Después de la investigación, Truffle Security se puso en contacto con los proveedores afectados y trabajó con ellos para revocar las claves de sus usuarios. “Ayudamos con éxito a esas organizaciones a rotar/revocar colectivamente varios miles de claves”, dicen los investigadores.
Incluso si un modelo de inteligencia artificial utiliza archivos más antiguos que el conjunto de datos que analizaron los investigadores, los hallazgos de Truffle Security sirven como advertencia de que las prácticas de codificación inseguras podrían influir en el comportamiento del LLM.