En el campo del aprendizaje automático (ML, por sus siglas en inglés), los datos sintéticos están destinados a desempeñar un papel fundamental: los algoritmos de ML deben entrenarse con enormes volúmenes de entrada, y las actividades de recopilación o clasificación de datos de calidad real necesarias para este propósito pueden resultar prohibitivas, tanto desde el punto de vista de los costes como de los recursos humanos a emplear.
Es por eso que las organizaciones y los investigadores utilizan cada vez más datos generados sintéticamente (datos sintéticos), sobre los que se comienzan a construir archivos, lo que, mediante la técnica de aprendizaje por transferencia, permitirá entrenar e incluso preentrenar modelos de aprendizaje automático.
Por lo tanto, los datos sintéticos son una gran oportunidad para cualquiera que quiera utilizar el enfoque basado en datos para respaldar los procesos de toma de decisiones o introducir elementos de automatización en su organización. Sin embargo, como cualquier herramienta de alto potencial, los datos sintéticos también deben comprenderse a fondo y adoptarse correctamente.
¿Qué son los datos sintéticos?
Como se mencionó, se trata de información no generada por eventos o interacciones reales, sino producida artificialmente.
Más específicamente, los datos sintéticos se «crean» mediante algoritmos especiales a partir de las entradas existentes y, por lo general, se utilizan como sustitutos de conjuntos de datos operativos o de producción para validar modelos matemáticos y entrenar modelos de aprendizaje automático.
Por lo tanto, la tecnología permite generar de manera rápida y eficiente no solo la cantidad de información deseada, sino también los tipos más adecuados para ese propósito, personalizándolos de acuerdo con las necesidades específicas.
Para proporcionar una definición más rigurosa, podemos decir que los datos sintéticos artificiales son datos generados artificialmente que reproducen fielmente las características y comportamientos de los datos reales, sin contener información confidencial.
Esto es, en esencia, lo que permite intercambiarlos, analizarlos y utilizarlos para entrenar algoritmos de forma segura, sin que ello suponga riesgos para la privacidad de las personas. El proceso de generación de datos sintéticos varía según las herramientas y algoritmos utilizados y el caso de uso específico.
¿En qué se diferencian con los datos reales?
Para entender a nivel práctico cuáles son las principales diferencias entre los datos sintéticos y los datos reales, quizás valga la pena utilizar algunos de los casos de uso implementados por las empresas financieras, sanitarias y de desarrollo de software, tres de los sectores que ya han empezado a obtener ventajas significativas con la adopción de técnicas para la producción de datos sintéticos con atributos similares a los de los datos reales (críticos o regulados).
En el sector financiero, los conjuntos de datos sintéticos que simulan información relacionada con los pagos con tarjeta de crédito y débito se ven y se comportan como los datos de transacciones típicos, y pueden ayudar a desenmascarar actividades fraudulentas: en particular, los científicos de datos bancarios utilizan datos sintéticos para probar o evaluar los sistemas de detección de fraudes y desarrollar nuevos métodos para detectar casos sospechosos.
Gracias a los datos sintéticos, los profesionales que trabajan en el sector de la salud pueden permitir el uso público de los datos a nivel de registro y, al mismo tiempo, mantener la confidencialidad de los pacientes.
Por último, los equipos de DevOps utilizan datos sintéticos para realizar pruebas y realizar actividades de control de calidad del software, e insertan los datos generados artificialmente en el proceso de verificación sin tener que trasladar los datos auténticos de la fase de producción.
¿Cómo se crean los datos sintéticos?
Llegados a este punto, es necesario aclarar mediante qué técnicas se pueden «crear» datos sintéticos. Entre los enfoques más comunes se encuentra el que consiste en extraer números de una distribución, un método que, si bien no es capaz de captar la información de los datos reales, puede producir una distribución de datos muy parecida a la suya.
El modelado basado en agentes, por otro lado, implica la creación de agentes únicos que se comuniquen entre sí. Este método es especialmente útil cuando se examina cómo los diferentes agentes, como los dispositivos conectados, las personas o incluso los programas de computadora, interactúan entre sí en un sistema complejo.
Al utilizar componentes principales prediseñados, los paquetes de Python facilitan el desarrollo rápido de modelos basados en agentes y su visualización a través de una interfaz basada en un navegador.
Uso de algoritmos de inteligencia artificial
Los datos sintéticos también se pueden producir mediante modelos generativos, algoritmos capaces de crear información que replica las propiedades o características estadísticas de los datos reales.
Los modelos generativos utilizan un conjunto de datos de entrenamiento para aprender los modelos estadísticos y las relaciones de los datos y, a continuación, utilizan este conocimiento para generar nuevos datos sintéticos similares a los datos originales.
Las ventajas de utilizarlos
Como se ha mencionado, la principal aplicación de los datos sintéticos es el entrenamiento de redes neuronales y modelos de aprendizaje automático, un área en la que los desarrolladores deben poder contar con conjuntos de datos cuidadosamente etiquetados que pueden variar desde unos pocos miles hasta decenas de millones de elementos.
Los datos sintéticos permiten crear una cantidad amplia y diversificada de insumos para la formación, no solo al contener los gastos y reducir el tiempo, sino también al proteger la privacidad de los usuarios y garantizar el cumplimiento de la normativa con respecto al procesamiento de datos confidenciales.
Sin embargo, optar por utilizar datos sintéticos tiene otras ventajas: son, ante todo, personalizables, lo que significa que una organización puede crear conjuntos de datos de acuerdo con sus necesidades, adaptándolos a ciertas condiciones que pueden no obtenerse con datos auténticos.
Cabe señalar que, incluso cuando los datos sintéticos están ampliamente disponibles, no siempre están etiquetados. Y, especialmente en el caso de las actividades de aprendizaje supervisado, el etiquetado manual de una multitud de instancias puede requerir habilidades específicas, además de implicar mucho tiempo y, por lo tanto, estar sujeto a errores. Afortunadamente, con el fin de acelerar el proceso de desarrollo del modelo y garantizar la precisión de las etiquetas y rótulos, es posible crear datos etiquetados sintéticos.
Además, precisamente porque los datos sintéticos no se recopilan a partir de eventos reales, con las herramientas adecuadas es posible crear conjuntos con mucha más rapidez, eliminando por completo las operaciones manuales y automatizando el proceso de anotación de datos.
Protección de datos y control total
Cuando hablamos de las ventajas de los datos sintéticos, habría que dedicar un capítulo aparte a la privacidad, la protección de datos y el control que se puede ejercer sobre los archivos.
En primer lugar, este enfoque permite a los científicos de datos cumplir con los principales marcos dedicados a la confidencialidad de los datos, como la Ley de Portabilidad y Responsabilidad de los Seguros Médicos, el Reglamento General de Protección de Datos y la Ley de Privacidad del Consumidor de California.
Al fin y al cabo, el usuario tiene el control total sobre cada uno de los aspectos relacionados con las simulaciones. La persona que administra el conjunto de datos puede controlar la frecuencia de los eventos, la distribución de los elementos y muchos otros factores. Incluso los profesionales del aprendizaje automático tienen un control total sobre los conjuntos de datos, ya que pueden determinar el grado de separación de las clases, el tamaño de la muestra y el nivel de ruido del archivo.
Riesgos y desafíos en el uso de datos sintéticos: atención a los sesgos
Por supuesto, también hay algunos posibles inconvenientes. Uno de los principales riesgos es la inconsistencia de los datos sintéticos, una condición que podría presentarse al intentar replicar la complejidad del conjunto de datos original, ante la imposibilidad de reemplazar completamente los datos auténticos.
Por otro lado, no se puede olvidar que los seres humanos siguen involucrados en el proceso de síntesis de datos: los usuarios, por lo tanto, tenderán inevitablemente a aportar sesgos cognitivos al proceso y, por lo tanto, no se puede ignorar el riesgo potencial de prejuicio inherente a cualquier operación para generar artificialmente nuevos conjuntos de datos.
Así es como las organizaciones utilizan los datos sintéticos
Sin embargo, si se toman las precauciones necesarias, los datos sintéticos reflejarán adecuadamente los datos originales que se pretende reemplazar o mejorar. Y es sobre la base de esta prerrogativa que las empresas están desarrollando sus aplicaciones, que van desde el suministro de datos multimedia, explotados por algoritmos de procesamiento de imágenes y gráficos por ordenador para generar imágenes sintéticas, audio y vídeo, hasta el entrenamiento de chatbots, algoritmos de traducción automática y análisis de sentimientos.
También hay organizaciones que utilizan datos sintéticos no estructurados, como imágenes, vídeo y audio, para utilizarlos en campos como la visión artificial, el reconocimiento de voz y la tecnología de vehículos autónomos.
Además de los casos de uso ya mencionados desarrollados en el sector financiero, finalmente podemos mencionar los datos de producción: en la industria manufacturera ya hay quienes utilizan datos sintéticos para las pruebas de control de calidad y el mantenimiento predictivo.
Datos sintéticos: perspectivas de futuro
Gracias a los datos sintéticos, cada vez más empresas podrán llenar los vacíos que caracterizan a los conjuntos de datos reales, manteniendo bajo control el tiempo y los costes necesarios para alimentar los modelos de aprendizaje automático e inteligencia artificial.
Las estimaciones de Gartner sobre el fenómeno no son sorprendentes: para 2024, según la empresa de investigación, el 60% de los datos utilizados en el campo del análisis empresarial se generarán artificialmente. Una previsión que confirma el peso que la tecnología está destinada a tener, tanto económica como funcionalmente, en los procesos de suministro de conjuntos de datos de alta calidad.
Fuente: Digital4.biz, Network Digital360