Cuando uno oye la palabra "sintético", puede asociarla con algo artificial o fabricado. Por ejemplo, las fibras sintéticas como el poliéster y el nailon se fabrican mediante procesos químicos.
Aunque las fibras sintéticas son más asequibles y más fáciles de producir en masa, su calidad puede rivalizar con la de las fibras naturales. Suelen estar diseñadas para imitar a sus contrapartes naturales y están diseñadas para usos específicos, ya sea elastano elástico, acrílico que retiene el calor o poliéster duradero.
Lo mismo ocurre con los datos sintéticos. Esta información generada artificialmente puede complementar o incluso reemplazar los datos del mundo real al entrenar o probar los modelos de inteligencia artificial (IA). En comparación con los conjuntos de datos reales que pueden ser costosos de obtener, de difícil acceso, lentos de etiquetar y tener un suministro limitado, los conjuntos de datos sintéticos se pueden sintetizar mediante simulaciones por ordenador o modelos generativos. Esto hace que sea más barato producirlos bajo demanda en volúmenes casi ilimitados y personalizados según las necesidades de una organización.
A pesar de sus beneficios, los datos sintéticos también conllevan desafíos. El proceso de generación puede ser complejo, ya que los científicos de datos tienen que crear datos realistas manteniendo la calidad y la privacidad.
Sin embargo, los datos sintéticos han llegado para quedarse. La empresa de investigación Gartner predice que para 2026, el 75 % de las empresas utilizarán la IA generativa para crear datos sintéticos de los clientes1.
Para ayudar a las empresas a aprovechar al máximo los datos artificiales, estas son ocho buenas prácticas para la generación de datos sintéticos:
Comprenda por qué su empresa necesita datos sintéticos y los casos de uso en los que podrían ser más útiles que los datos reales. En el sector sanitario, por ejemplo, los registros de pacientes o las imágenes médicas pueden generarse artificialmente, sin contener datos confidenciales ni información de identificación personal (PII). Esto también permite compartir datos de forma segura entre los investigadores y los equipos de ciencia de datos.
Los datos sintéticos se pueden utilizar como datos de prueba durante el desarrollo de software, en lugar de datos de producción confidenciales, pero emulando sus características. También permite a las empresas evitar problemas de derechos de autor y propiedad intelectual, generando datos en lugar de emplear rastreadores web para extraer y recopilar información de los sitios web sin el conocimiento o consentimiento de los usuarios.
Además, los datos artificiales pueden actuar como una forma de aumento de datos. Se puede utilizar para aumentar la diversidad de datos, especialmente para los grupos infrarrepresentados en el entrenamiento de modelos de IA. Y cuando la información es escasa, los datos sintéticos pueden llenar los vacíos.
A la empresa de servicios financieros JP Morgan, por ejemplo, le resultó difícil entrenar modelos con IA para la detección del fraude debido a la falta de casos fraudulentos en comparación con los no fraudulentos. La organización utilizó la generación de datos sintéticos para crear más ejemplos de transacciones fraudulentas (enlace externo a ibm.com), mejorando así el entrenamiento del modelo.
La calidad de los datos sintéticos es tan buena como los datos del mundo real que la sustentan. Al preparar conjuntos de datos originales para la generación de datos sintéticos mediante algoritmos de machine learning (ML), asegúrese de comprobar y corregir cualquier error, imprecisión e incoherencia. Elimine los duplicados e introduzca los valores que faltan.
Considere la posibilidad de añadir casos extremos o valores atípicos a los datos originales. Estos puntos de datos pueden representar sucesos poco comunes, escenarios poco frecuentes o casos extremos que reflejen la imprevisibilidad y variabilidad del mundo real.
"Todo se reduce a los ejemplos semilla", afirma Akash Srivastava, arquitecto jefe de InstructLab (enlace externo a ibm.com), un proyecto de código abierto de IBM y Red Hat que emplea un enfoque colaborativo para añadir nuevos conocimientos y habilidades a un modelo, que se nutre del nuevo método de generación de datos sintéticos de IBM y del protocolo de formación por fases. "Los ejemplos a través de los que se siembra la generación deben imitar su caso de uso del mundo real".
Los datos sintéticos siguen siendo propensos a heredarse y a reflejar los sesgos que podrían estar presentes en los datos originales en los que se basan. Combinar información de varias fuentes, incluidos diferentes grupos demográficos y regiones, puede ayudar a mitigar el sesgo en los datos generados.
Las diversas fuentes de datos también pueden mejorar la calidad de los conjuntos de datos sintéticos. Varias fuentes pueden ofrecer detalles esenciales o un contexto vital del que carecen una sola fuente o solo un puñado de fuentes. Además, la incorporación de la generación aumentada por recuperación en el proceso de generación de datos sintéticos puede proporcionar acceso a datos actualizados y específicos del dominio, lo que puede aumentar la precisión y mejorar aún más la calidad.
La selección de la técnica adecuada de generación de datos sintéticos depende de algunos factores, como el tipo de datos y su complejidad. Los datos relativamente sencillos podrían obtener beneficio de los métodos estadísticos. Los conjuntos de datos más intrincados, datos estructurados como, por ejemplo, los datos tabulares o datos no estructurados como imágenes o vídeos, podrían requerir modelos de deep learning. Las empresas también pueden optar por combinar técnicas de síntesis en función de sus necesidades.
Estos son algunos mecanismos comunes para la generación de datos sintéticos:
Los científicos de datos pueden analizar distribuciones estadísticas en datos reales y generar muestras sintéticas que reflejen esas distribuciones. Sin embargo, esto requiere un conocimiento y una experiencia significativos, y no todos los datos encajan en una distribución conocida.
Las redes generativas adversarias (GAN) constan de dos redes neuronales: un generador que crea datos sintéticos y un discriminador que actúa como adversario, discriminando entre datos artificiales y reales. Ambas redes se entrenan de forma iterativa, con el feedback del discriminador mejorando la salida del generador hasta que el discriminador ya no es capaz de distinguir los datos artificiales de los reales.
Las GAN se pueden utilizar para generar imágenes sintéticas para visión artificial y tareas de clasificación de imágenes.
Los autocodificadores variacionales (VAE) son modelos de deep learning que generan variaciones de los datos con los que se entrenan. Un codificador comprime los datos de entrada en un espacio de menor dimensión, capturando la información significativa contenida en la entrada. A continuación, un decodificador reconstruye nuevos datos a partir de esta representación comprimida. Al igual que las GAN, los VAE se pueden utilizar para generar imágenes.
Los modelos de transformadores, como los transformadores generativos preentrenados (GPT), destacan por comprender la estructura y los patrones del lenguaje. Se pueden utilizar para generar datos de texto sintético para aplicaciones de procesamiento del lenguaje natural o para crear datos tabulares artificiales para tareas de clasificación o regresión.
Es importante tener en cuenta el colapso del modelo, en el que el rendimiento de un modelo disminuye a medida que se entrena repetidamente con datos generados por la IA. Por eso es esencial fundamentar el proceso de generación de datos sintéticos en datos reales.
En InstructLab, por ejemplo, la generación de datos sintéticos está impulsada por una taxonomía, que define el dominio o los temas de los que provienen los datos originales. Esto evita que el modelo decida los datos con los que debe entrenarse.
"No se pide al modelo que entre en un bucle y se colapse. Evitamos completamente el colapso desacoplando el modelo del proceso de muestreo", afirma Srivastava.
Los datos de alta calidad son vitales para el rendimiento del modelo. Verifique la calidad de los datos sintéticos utilizando métricas basadas en la fidelidad y la utilidad. La fidelidad se refiere a lo mucho que se parecen los conjuntos de datos sintéticos a los conjuntos de datos del mundo real. La utilidad evalúa qué tan bien se pueden utilizar los datos sintéticos para entrenar modelos de deep learning o ML.
Medir la fidelidad implica comparar los datos sintéticos con los datos originales, a menudo mediante el uso de métodos estadísticos y visualizaciones como histogramas. Esto ayuda a determinar si los conjuntos de datos generados conservan las propiedades estadísticas de los conjuntos de datos reales, como la distribución, la media, la mediana, el rango y la varianza, entre otros.
Evaluar la similitud correlacional a través de coeficientes de correlación y contingencia, por ejemplo, también es esencial para ayudar a garantizar que las dependencias y relaciones entre los puntos de datos se mantengan y representen con precisión patrones del mundo real. Las redes neuronales, los modelos generativos y los modelos de lenguaje suelen ser capaces de capturar relaciones en datos tabulares y datos de series de tiempo.
Medir la utilidad implica utilizar datos sintéticos como datos de entrenamiento para modelos de machine learning y, a continuación, comparar el rendimiento del modelo con el entrenamiento con datos reales. Estas son algunas métricas comunes para la evaluación comparativa:
La exactitud o precisión calcula el porcentaje de predicciones correctas.
La recuperación cuantifica las predicciones correctas reales.
La puntuación F1 combina precisión y recuperación en una sola métrica.
Tanto la puntuación inicial como la distancia inicial de Fréchet (FID) evalúan la calidad de las imágenes generadas.
Es posible que las herramientas o proveedores de generación de datos sintéticos ya dispongan de estas métricas, pero también puede utilizar otros paquetes de análisis como SDMetrics (enlace externo a ibm.com), una biblioteca de código abierto Python para evaluar datos sintéticos tabulares.
El toque humano sigue siendo crucial a la hora de validar datos artificiales, y puede ser tan sencillo como tomar de cinco a diezmuestras aleatorias del conjunto de datos sintéticos y evaluarlas uno mismo. "Hay que tener a un humano en el bucle de verificación", dice Srivastava. "Son sistemas muy complicados y, como en cualquier sistema complicado, hay muchos puntos delicados en los que las cosas pueden ir mal. Confíe en las métricas, confíe en los puntos de referencia, pruebe rigurosamente su canalización, pero tome siempre algunas muestras aleatorias y compruebe manualmente que le están dando el tipo de datos que quiere".
Una de las ventajas de utilizar datos sintéticos es que no contienen ningún dato confidencial ni PII. Sin embargo, las empresas aún deben Verify que los nuevos datos que generan cumplen con la normativa de privacidad. Como el Reglamento General de Protección de Datos (RGPD) de la Unión Europea o la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) de los EE. UU.
Trate los datos sintéticos como datos de propiedad, aplicando medidas de seguridad integradas y controles de acceso para evitar el pirateo y la filtración de datos. También deben aplicarse salvaguardas durante el proceso de generación para evitar el riesgo de que los datos sintéticos sean sometidos a ingeniería inversa y rastreados hasta su equivalente en el mundo real, revelando información sensible durante el análisis de los datos. Estas salvaguardas incluyen técnicas como el enmascaramiento para ocultar o enmascarar datos sensibles, la anonimización para borrar o eliminar información de identificación personal y la privacidad diferencial para añadir "ruido" o introducir aleatoriedad en el conjunto de datos.
"Como mínimo, se requiere enmascarar o depurar la PII, o podría ir un paso más allá y utilizar métodos de privacidad diferencial", dice Srivastava. "Se vuelve aún más importante si no se utilizan modelos locales. Si envía [datos] a algún proveedor externo, es aún más importante que tenga mucho cuidado con estos aspectos".
Tenga en cuenta que los datos sintéticos normalmente no se pueden optimizar simultáneamente en términos de fidelidad, utilidad y privacidad; a menudo habrá que hacer concesiones. El enmascaramiento o la anonimización podrían reducir nominalmente la utilidad, mientras que la privacidad diferencial podría disminuir levemente la precisión. Sin embargo, no implementar ninguna medida de privacidad puede potencialmente exponer información PII. Las organizaciones deben equilibrar y priorizar lo que es crucial para sus casos de uso específicos.
Mantenga un registro de su flujo de trabajo de generación de datos sintéticos, como estrategias para limpiar y preparar conjuntos de datos originales, mecanismos para generar datos y mantener la privacidad y resultados de verificación. Incluya la justificación de sus elecciones y decisiones para la rendición de cuentas y la transparencia.
La documentación es especialmente valiosa cuando se realizan revisiones periódicas del proceso de generación de datos sintéticos. Estos registros sirven como pistas de auditoría que pueden ayudar a evaluar la eficacia y reproducibilidad del flujo de trabajo.
Monitorice de forma rutinaria cómo se utilizan los datos sintéticos y cómo funcionan para identificar cualquier comportamiento inesperado que pueda surgir u oportunidades de mejora. Ajuste y perfeccione el proceso de generación según sea necesario.
Al igual que las fibras son la base de los tejidos, los datos son la piedra angular de los modelos de IA. Y aunque la generación de datos sintéticos está aún en sus primeras fases. Los avances en el proceso de generación pueden ayudar a mejorar los datos sintéticos en el futuro hasta un punto en el que igualen la calidad, fiabilidad y utilidad de los datos reales, del mismo modo que las fibras sintéticas casi igualan a las naturales.
1 3 Bold and Actionable Predictions for the Future of GenAI (enlace externo a ibm.com). Gartner. 12 de abril de 2024
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.