8 mejores prácticas para la generación de datos sintéticos

línea de producción de fábrica de objetos pequeños

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Al escuchar la palabra “sintético”, es posible que la asocie con algo artificial o fabricado. Tomemos como ejemplo las fibras sintéticas, como el poliéster y el nailon, que se crean mediante procesos químicos.

Si bien las fibras sintéticas son más asequibles y fáciles de producir en masa, su calidad puede rivalizar con la de las fibras naturales. A menudo están diseñadas para imitar a sus equivalentes naturales y están previstas para usos específicos, ya sea elastano elástico, fibra acrílica o poliéster duradero.

Lo mismo ocurre con los datos sintéticos. Esta información generada artificialmente puede complementar o incluso reemplazar los datos del mundo real al entrenar o probar los modelos de inteligencia artificial. En comparación con los conjuntos de datos reales, que suponen desventajas en cuestión de costo, acceso, tiempo para etiquetarlos y suministro, los conjuntos de datos sintéticos se pueden sintetizar mediante simulaciones por computadora o modelos generativos. Por lo tanto, es más económico producirlos a demanda en volúmenes casi ilimitados y personalizarlos en función de las necesidades de una organización.

A pesar de sus beneficios, los datos sintéticos también conllevan dificultades. El proceso de generación puede ser complejo, ya que los científicos de datos tienen que crear datos realistas sin sacrificar su calidad y privacidad.

Sin embargo, los datos sintéticos llegaron para quedarse. La firma de investigación Gartner predice que para 2026, el 75 % de las empresas utilizará IA generativa para crear datos sintéticos de los clientes1.

Para ayudar a las empresas a aprovechar al máximo los datos artificiales, he aquí ocho mejores prácticas para la generación de datos sintéticos:

1. Conozca su propósito

Comprenda por qué su empresa necesita datos sintéticos y los casos de uso en los que podrían ser más útiles que los datos reales. En la atención médica, por ejemplo, los registros de pacientes o las imágenes médicas pueden generarse artificialmente, sin contener datos confidenciales o información de identificación personal (PII, por sus siglas en inglés). Esto también permite compartir datos de forma segura entre los investigadores y los equipos de ciencia de datos.

Los datos sintéticos se pueden emplear como datos de prueba durante el desarrollo de software, sustituyendo a los datos de producción confidenciales, pero emulando sus características. También facilita que las empresas eviten problemas de derechos de autor y propiedad intelectual, generando datos en lugar de emplear rastreadores web para raspar y recopilar información de sitios web sin el conocimiento o consentimiento de los usuarios.

Además, los datos artificiales pueden actuar como una forma de refuerzo de datos. Se pueden utilizar para impulsar la diversidad de los datos, especialmente para grupos subrepresentados en el entrenamiento de modelos de IA. Y cuando la información es escasa, los datos sintéticos pueden llenar los vacíos.

A la empresa de servicios financieros JP Morgan, por ejemplo, le resultó difícil entrenar eficazmente modelos impulsados por IA para la detección de fraudes debido a la falta de casos fraudulentos en comparación con los no fraudulentos. La organización utilizó la generación de datos sintéticos para crear más ejemplos de transacciones fraudulentas (enlace externo a ibm.com), mejorando así el entrenamiento de los modelos.

2. La preparación es clave

La calidad de los datos sintéticos es solo tan buena como la de los datos reales que la sustentan. Al preparar conjuntos de datos originales para la generación de datos sintéticos mediante algoritmos de aprendizaje automático (ML), asegúrese de verificar y corregir errores, imprecisiones e incongruencias. Elimine los duplicados e ingrese los valores faltantes.

Considere agregar situaciones limítrofes o valores atípicos a los datos originales. Estos puntos de datos pueden representar eventos poco comunes, escenarios raros o casos extremos que reflejan la imprevisibilidad y variabilidad del mundo real.

“Todo se reduce a los ejemplos iniciales”, afirma Akash Srivastava, arquitecto en jefe de InstructLab (enlace externo a ibm.com), un proyecto de código abierto de IBM y Red Hat que emplea un enfoque colaborativo para añadir nuevos conocimientos y habilidades a un modelo, que se nutre del nuevo método de generación de datos sintéticos y del protocolo de entrenamiento por etapas de IBM. “Los ejemplos a través de los cuales se inicia la generación deben imitar su caso de uso en el mundo real”.

3. Diversifique las fuentes de datos

Los datos sintéticos siguen siendo propensos a heredar y reflejar los sesgos que podrían estar presentes en los datos originales en los que se basan. La combinación de información de múltiples fuentes, incluidos diferentes grupos demográficos y regiones, puede ayudar a mitigar el sesgo en los datos generados.

Las diversas fuentes de datos también pueden elevar la calidad de los conjuntos de datos sintéticos. Las fuentes variadas pueden ofrecer detalles esenciales o contexto vital del que carece una sola fuente o solo un puñado de fuentes. Además, la incorporación de la generación aumentada por recuperación en el proceso de generación de datos sintéticos puede proporcionar acceso a datos actualizados y específicos del dominio que pueden aumentar la precisión y mejorar aún más la calidad.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

4. Elija técnicas de síntesis adecuadas

La selección de la técnica de generación de datos sintéticos adecuada depende de algunos factores, como el tipo y la complejidad de los datos. Los datos relativamente simples podrían beneficiarse de los métodos estadísticos. Los conjuntos de datos más complejos—datos estructurados como datos tabulares o datos no estructurados, como imágenes o videos, por ejemplo— pueden requerir modelos de aprendizaje profundo. Las empresas también pueden optar por combinar técnicas de síntesis de acuerdo con sus requisitos.

A continuación, presentamos algunos mecanismos comunes para la generación de datos sintéticos:

Distribución estadística

Los científicos de datos pueden analizar distribuciones estadísticas en datos reales y generar muestras sintéticas que reflejen esas distribuciones. Sin embargo, para esto se requieren conocimientos y pericia, y no todos los datos encajan en una distribución conocida.

Redes generativas adversarias

Las redes generativas adversarias (GAN) constan de dos redes neuronales: un generador que crea datos sintéticos y un discriminador que actúa como adversario, discriminando entre datos artificiales y reales. Ambas redes se entrenan de forma iterativa, y la retroalimentación del discriminador mejora la salida del generador hasta que el discriminador ya no es capaz de distinguir los datos artificiales de los reales.

Las GAN se pueden utilizar para generar imágenes sintéticas para tareas de visión artificial y de clasificación de imágenes.

Autocodificadores variacionales

Los autocodificadores variacionales (VAE) son modelos de aprendizaje profundo que generan variaciones de los datos con los que se entrenan. Un codificador comprime los datos de entrada en un espacio de menor dimensionalidad, capturando la información significativa contenida en la entrada. Luego, un decodificador reconstruye nuevos datos a partir de esta representación comprimida. Al igual que las GAN, los VAE se pueden utilizar para la generación de imágenes.

modelos de transformador

Los modelos de transformadores, como los transformadores generativos preentrenados (GPT), se destacan por comprender la estructura y los patrones del lenguaje. Se pueden utilizar para generar datos de texto sintético para aplicaciones de procesamiento de lenguaje natural o para crear datos tabulares artificiales para tareas de clasificación o regresión.

5. Considere el colapso del modelo

Es importante tener en cuenta el colapso del modelo, en el que el rendimiento de un modelo disminuye a medida que se entrena repetidamente con datos generados por IA. Por eso es esencial basar el proceso de generación de datos sintéticos en datos reales.

En InstructLab, por ejemplo, la generación de datos sintéticos se rige por una taxonomía, que define el dominio o los temas de los que proceden los datos originales. Esto impide que el modelo decida los datos con los que se debe entrenar.

“No le estamos pidiendo al modelo que siga funcionando en un bucle y luego colapse. Evitamos por completo el colapso al desacoplar el modelo del proceso de muestreo”, comenta Srivastava.

6. Emplee métodos de validación

Los datos de alta calidad son vitales para el rendimiento del modelo. Verifique la calidad de los datos sintéticos utilizando métricas basadas en la fidelidad y la utilidad. La fidelidad se refiere al grado de similitud de los datos sintéticos a los conjuntos de datos del mundo real. La utilidad evalúa qué tan bien se pueden usar los datos sintéticos para entrenar modelos de aprendizaje profundo o aprendizaje automático (ML).

Fidelidad

Medir la fidelidad implica comparar datos sintéticos con los datos originales, a menudo empleando métodos estadísticos y visualizaciones como histogramas. Esto ayuda a determinar si los conjuntos de datos generados conservan las propiedades estadísticas de los conjuntos de datos reales, como distribución, media, mediana, rango y varianza, entre otras.

Evaluar la similitud correlacional a través de coeficientes de correlación y contingencia, por ejemplo, también es esencial para ayudar a garantizar que las dependencias y las relaciones entre los puntos de datos se mantengan y representen con precisión los patrones del mundo real. Las redes neuronales, los modelos generativos y los modelos de lenguaje suelen ser hábiles para capturar relaciones en datos tabulares y datos de series temporales.

Utilidad

Medir la utilidad implica utilizar datos sintéticos como datos de entrenamiento para modelos de machine learning y luego comparar el rendimiento del modelo con el entrenamiento con datos reales. A continuación, presentamos algunas métricas comunes para la evaluación comparativa:

  • Exactitud o precisión: calcula el porcentaje de predicciones correctas.

  • Recall: cuantifica las predicciones correctas reales.

  • Puntuación F1: combina las métricas de precisión y recall en una sola métrica.

  • Tanto la puntuación de inicio como la distancia de inicio de Fréchet (FID) evalúan la calidad de las imágenes generadas.

Es posible que las herramientas o proveedores de generación de datos sintéticos ya tengan estas métricas a mano, pero también se pueden usar otros paquetes de analytics, como SDMetrics (enlace externo a ibm.com), una biblioteca Python de código abierto para evaluar datos sintéticos tabulares.

El toque humano sigue siendo crucial a la hora de validar datos artificiales, y puede ser tan simple como tomar de 5 a 10 muestras aleatorias del conjunto de datos sintéticos y evaluarlas usted mismo. “Es necesario que un humano participe en la verificación”, afirma Srivastava. “Estos son sistemas muy complicados y, al igual que en cualquier sistema complejo, hay muchos puntos delicados en los que las cosas pueden salir mal. Confíe en las métricas, confíe en los puntos de referencia, pruebe rigurosamente su pipeline, pero siempre tome algunas muestras aleatorias y verifique manualmente que le estén brindando el tipo de datos que desea”.

7. Mantenga la privacidad de datos como prioridad

Una de las ventajas de usar datos sintéticos es que no contienen datos confidenciales ni PII. Sin embargo, las empresas aún deben verificar que los nuevos datos que generan cumplen con las regulaciones de privacidad, como el Reglamento General de Protección de Datos (RGPD) de la Unión Europea o la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) de EE. UU.

Trate los datos sintéticos como datos patentados, aplicando medidas de seguridad integradas y controles de acceso para evitar ataques y filtraciones de datos. También se deben aplicar salvaguardas durante el proceso de generación para evitar el riesgo de que los datos sintéticos se sometan a ingeniería inversa y se rastreen hasta su equivalente en el mundo real, revelando información confidencial durante el análisis de datos. Estas medidas de seguridad incluyen técnicas como el enmascaramiento para ocultar o enmascarar datos confidenciales, la anonimización para borrar o eliminar PII y la privacidad diferencial para agregar “ruido” o introducir aleatoriedad en el conjunto de datos.

“Como mínimo, se requiere enmascarar o borrar la PII, o se puede ir un paso más allá y emplear métodos de privacidad diferencial”, afirma Srivastava. “Esto se vuelve aún más importante si no se emplean modelos locales. Si se envían [datos] a un proveedor externo, es aún más importante ser extremadamente cauteloso con estos aspectos”.

Tenga en cuenta que los datos sintéticos generalmente no se pueden optimizar simultáneamente para la fidelidad, la utilidad y la privacidad;a menudo habrá una compensación. El enmascaramiento o la anonimización podrían reducir nominalmente la utilidad, mientras que la privacidad diferencial podría disminuir ligeramente la precisión. Sin embargo, no implementar ninguna medida de privacidad puede exponer potencialmente la PII. Las organizaciones deben equilibrar y priorizar lo que es imprescindible para sus casos de uso específicos.

8. Documente, monitoree y perfeccione

Mantenga un registro de su flujo de trabajo de generación de datos sintéticos, con información como estrategias para limpiar y preparar conjuntos de datos originales, mecanismos para generar datos y mantener la privacidad, y resultados de la verificación. Incluya la justificación detrás de sus elecciones y decisiones para efectos de rendición de cuentas y transparencia.

La documentación es especialmente valiosa cuando se realizan revisiones periódicas de su proceso de generación de datos sintéticos. Estos registros sirven como pistas de auditoría que ayudan a evaluar la eficacia y reproducibilidad del flujo de trabajo.

Supervise de forma rutinaria cómo se utilizan los datos sintéticos y cómo funcionan para identificar comportamientos inesperados que puedan surgir u oportunidades de mejora. Ajuste y perfeccione el proceso de generación según sea necesario.

Al igual que las fibras son la base de los tejidos, los datos son el componente básico de los modelos de IA. Y si bien la generación de datos sintéticos aún se encuentra en sus primeras etapas, los avances en el proceso de generación pueden ayudar a mejorar los datos sintéticos en el futuro hasta un punto en el que coincidan con la calidad, confiabilidad y utilidad de los datos reales, de forma similar a la manera en que las fibras sintéticas casi igualan a las fibras naturales.

 

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Notas de pie de página

1 3 Bold and Actionable Predictions for the Future of GenAI (enlace externo a ibm.com), Gartner, 12 de abril de 2024

Soluciones relacionadas
Herramientas y soluciones de analytics

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.

Explorar Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics Descubra los servicios de analytics