¿Qué son los datos sintéticos?

Autor

Rina Diane Caballar

Staff Writer

IBM Think

¿Qué son los datos sintéticos?

Los datos sintéticos son datos artificiales diseñados para imitar los datos reales. Se genera a través de métodos estadísticos o mediante el uso de técnicas de inteligencia artificial (IA) como el deep learning y la IA generativa.

Pese a ser generados artificialmente, los datos sintéticos conservan las propiedades estadísticas subyacentes de los datos originales en los que se basan. Como tales, los conjuntos de datos sintéticos pueden complementar o incluso sustituir a los conjuntos de datos reales.

Los datos sintéticos pueden servir de marcador de posición para los datos de las pruebas y se utilizan principalmente para entrenar modelos de machine learning, lo que sirve como posible solución a la creciente necesidad (aunque escasa) de datos de entrenamiento de alta calidad en el mundo real para modelos de IA. Sin embargo, los datos sintéticos también están ganando terreno en sectores como las finanzas y la sanidad, en los que la oferta de datos es limitada, su obtención lleva mucho tiempo o es difícil acceder a ellos debido a la preocupación por la protección de datos y los requisitos de seguridad. De hecho, la empresa de investigación Gartner predice que el 75 % de las empresas emplearán la IA generativa para crear datos sintéticos de los clientes para 20261.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de datos sintéticos

Los datos sintéticos pueden presentarse en formato multimedia, tabular o de texto. Los datos de texto sintéticos se pueden utilizar para el procesamiento del lenguaje natural (PLN), mientras que los datos tabulares sintéticos se pueden utilizar para crear tablas de bases de datos relacionales. Los datos multimedia sintéticos, como vídeos, imágenes u otros datos no estructurados, se pueden utilizar para tareas de visión artificial como clasificación de imágenes, reconocimiento de imágenes y detección de objetos.

Los datos sintéticos también se pueden clasificar según su nivel de síntesis:

  • Totalmente sintético

  • Parcialmente sintético

  • Híbrida

Totalmente sintéticos

Los datos totalmente sintéticos implican generar datos completamente nuevos que no incluyen ninguna información del mundo real. Estima los atributos, patrones y relaciones que sustentan los datos reales para emularlos lo más fielmente posible.

Las organizaciones financieras, por ejemplo, pueden carecer de muestras de transacciones sospechosas para entrenar eficazmente los modelos de IA en la detección del fraude. A continuación, pueden generar datos totalmente sintéticos que representan transacciones fraudulentas para mejorar el entrenamiento del modelo.

Parcialmente sintéticos

Los datos parcialmente sintéticos se obtienen a partir de información del mundo real, pero sustituyen partes del conjunto de datos original, típicamente las que contienen información sensible, por valores artificiales. Esta técnica de preservación de la privacidad ayuda a proteger los datos personales manteniendo las características de los datos reales.

Los datos parcialmente sintéticos pueden ser especialmente valiosos en la investigación clínica, por ejemplo, donde los datos reales son cruciales para los resultados, pero la protección de la información de identificación personal (PII) y los registros médicos de los pacientes es igualmente crítica.

Híbridos

Los datos sintéticos híbridos combinan conjuntos de datos reales con otros totalmente sintéticos. Toma registros del conjunto de datos original y los empareja aleatoriamente con registros de sus homólogos sintéticos. Los datos sintéticos híbridos pueden utilizarse para analizar y extraer conocimientos de los datos de los clientes, por ejemplo, sin rastrear ningún dato sensible hasta un cliente concreto.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Cómo se generan los datos sintéticos?

Las organizaciones pueden optar por generar sus propios datos sintéticos. También pueden utilizar soluciones como Synthetic Data Vault, una biblioteca de Python para crear datos sintéticos, u otros algoritmos, marcos, paquetes y herramientas de código abierto. Los conjuntos de datos prediseñados, como IBM Synthetic Data Sets, son otra opción.

Estas son algunas técnicas comunes de generación de datos sintéticos:

  • Métodos estadísticos

  • Redes generativas adversativas (GAN)

  • Modelos de transformadores

  • Autocodificadores variacionales (VAE)

  • Modelado basado en agentes

Métodos estadísticos

Estas metodologías son adecuadas para datos cuya distribución, correlaciones y rasgos son bien conocidos y, por tanto, pueden simularse mediante modelos matemáticos.

En los enfoques basados en la distribución, se pueden utilizar funciones estadísticas para definir la distribución de los datos. A continuación, mediante un muestreo aleatorio de esta distribución, se pueden generar nuevos puntos de datos.

Para las estrategias basadas en la correlación, se puede aplicar la interpolación o la extrapolación. En los datos de series temporales, por ejemplo, la interpolación lineal puede crear nuevos puntos de datos entre los adyacentes, mientras que la extrapolación lineal puede generar puntos de datos más allá de los existentes.

Redes generativas adversativas (GAN)

Las redes generativas adversariales (GAN) implican un par de redes neuronales: un generador que crea datos sintéticos y un discriminador que actúa como un adversario que distingue los datos reales de los artificiales. Ambas redes se entrenan de forma iterativa, con el feedback del discriminador mejorando la salida del generador hasta que el discriminador ya no es capaz de diferenciar entre datos artificiales y reales. Las GAN se utilizan a menudo para generar imágenes.

Modelos de transformadores

Los modelos de transformadores, como los transformadores generativos preentrenados (GPT) de OpenAI , sirven como base tanto para los modelos de lenguaje pequeños (SLM) como para los modelos de lenguaje de gran tamaño (LLM). Los transformadores procesan datos mediante codificadores y decodificadores.

Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas embeddings que capturan la semántica y la posición de los tokens en la secuencia de entrada. Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición. Los decodificadores luego utilizan este mecanismo de autoatención y los embeddings de los codificadores para generar la secuencia de salida más probable a nivel estadístico.

Los modelos de transformadores destacan en la comprensión de la estructura y los patrones del lenguaje. Como tales, se pueden utilizar para crear datos de texto artificiales o generar datos tabulares sintéticos.

Autocodificadores variacionales (VAE)

Los autocodificadores variacionales (VAE) son modelos generativos que producen variaciones de los datos con los que se entrenan. Un codificador comprime los datos de entrada en un espacio de menor dimensión, capturando la información significativa contenida en la entrada. A continuación, un decodificador reconstruye nuevos datos a partir de esta representación comprimida. Al igual que las GAN, los VAE se pueden utilizar para generar imágenes sintéticas.

Modelado basado en agentes

Esta estrategia de simulación implica modelar un sistema complejo como un entorno virtual que contiene entidades individuales, también conocidas como agentes. Los agentes operan en función de un conjunto predefinido de reglas, interactuando con su entorno y con otros agentes. El modelado basado en agentes simula estas interacciones y comportamientos de los agentes para producir datos sintéticos.

Por ejemplo, los modelos basados en agentes en epidemiología representan a los individuos de una población como agentes. Al modelar las interacciones entre agentes, se pueden generar datos sintéticos como la tasa de contacto y la probabilidad de infección. Los datos pueden ayudar a predecir la propagación de enfermedades infecciosas y a examinar los efectos de las intervenciones.

Beneficios de los datos sintéticos

Los datos sintéticos son una tecnología en crecimiento, que ofrece estas ventajas a las empresas:

  • Personalización

  • Eficiencia

  • Aumento de la protección de datos

  • Datos más ricos

Personalización

Los equipos de ciencia de datos pueden adaptar los datos sintéticos para que se ajusten a las especificaciones y necesidades exactas de una empresa. Y como los científicos de datos tienen un mayor control sobre los conjuntos de datos sintéticos, gestionarlos y analizarlos se vuelve más fácil.

Eficiencia

La generación de datos sintéticos elimina el lento proceso de recopilación de datos reales, lo que hace que su producción sea más rápida y ayuda a acelerar los flujos de trabajo. Los datos sintéticos también vienen preetiquetados, lo que elimina el tedioso paso de etiquetar manualmente volúmenes de datos y anotarlos a mano.

Mayor protección de datos

Los datos sintéticos se asemejan a los datos del mundo real, pero pueden generarse de tal manera que los datos personales no puedan rastrearse hasta un individuo en particular. Esto actúa como una forma de anonimización de datos, ayudando a mantener segura la información confidencial. Los datos sintéticos también permiten a las empresas evitar problemas de propiedad intelectual y derechos de autor, eliminando los rastreadores web que extraen y recopilan información de sitios web sin el conocimiento o consentimiento de los usuarios.

Datos más ricos

Los conjuntos de datos artificiales pueden ayudar a impulsar la diversidad de datos, creando o aumentando los datos para grupos infrarrepresentados en el entrenamiento de IA. Los datos sintéticos también pueden llenar los vacíos cuando los datos originales son escasos o no existen datos reales. Y la inclusión de casos extremos o valores atípicos como puntos de datos puede ampliar el alcance de los conjuntos de datos sintéticos, reflejando la variabilidad e imprevisibilidad del mundo real.

Desafíos de los datos sintéticos

A pesar de los beneficios de los datos sintéticos, también tienen algunas desventajas. Seguir las buenas prácticas para la generación de datos sintéticos puede ayudar a abordar estos inconvenientes y permitir a las empresas maximizar el valor de los datos artificiales.

Estos son algunos retos asociados a los datos sintéticos:

  • Sesgo

  • Colapso del modelo

  • Equilibrio entre precisión y privacidad

  • Verificación

Sesgo

Los datos sintéticos aún pueden presentar los sesgos que podrían estar presentes en los datos del mundo real en los que se basan. El uso de diversas fuentes de datos y la adición de múltiples fuentes de datos, incluso de diversas regiones y grupos demográficos, puede ayudar a mitigar el sesgo.

Colapso del modelo

El colapso del modelo ocurre cuando un modelo de IA se entrena repetidamente con datos generados por IA, lo que hace que el rendimiento del modelo disminuya. Una combinación saludable de conjuntos de datos de entrenamiento reales y artificiales puede ayudar a prevenir este problema.

Equilibrio entre precisión y privacidad

Durante el proceso de generación de datos sintéticos, se produce una batalla entre la precisión y la privacidad. Dar prioridad a la precisión puede significar retener más datos personales, mientras que mantener la privacidad como prioridad puede dar lugar a una reducción de la precisión. Encontrar el equilibrio adecuado para los casos de uso de una empresa es vital.

Verificación

Se deben realizar comprobaciones y pruebas adicionales para validar la calidad de los datos sintéticos una vez generados. Esto introduce un paso adicional en el flujo de trabajo, pero es crucial para asegurarse de que los conjuntos de datos artificiales estén libres de errores, incoherencias o imprecisiones.

Casos de uso de datos sintéticos

Los datos sintéticos son versátiles y pueden generarse para una amplia gama de aplicaciones. Estos son algunos sectores en los que los datos sintéticos pueden ser de gran ayuda:

  • Automoción

  • Finanzas

  • Sanidad

  • Fabricación

Automoción

El modelado basado en agentes se puede emplear para generar datos artificiales relacionados con el flujo de tráfico, lo que ayuda a mejorar los sistemas de carreteras y transporte. El uso de datos sintéticos puede ayudar a los fabricantes de automóviles a evitar el costoso y lento proceso de obtener datos reales de accidentes para las pruebas de seguridad de los vehículos. Los fabricantes de vehículos autónomos pueden utilizar datos sintéticos para entrenar a los coches autónomos en la navegación por diferentes escenarios.

Finanzas

Los datos financieros sintéticos se pueden implementar para evaluar y gestionar riesgos, modelar predictivos y forecasting y probar algoritmos comerciales, entre otras aplicaciones. IBM Synthetic Data Sets, por ejemplo, consiste en datos simulados para ayudar a la detección del fraude en tarjetas de crédito y reclamaciones de seguros de hogar y transacciones bancarias simuladas para soluciones contra el blanqueo de dinero.

Sanidad

Los conjuntos de datos sintéticos pueden ayudar a las compañías farmacéuticas a acelerar el desarrollo de fármacos. Los investigadores médicos, por su parte, pueden utilizar datos parcialmente sintéticos para ensayos clínicos o datos totalmente sintéticos para crear historiales artificiales de pacientes o imágenes médicas para formular tratamientos innovadores o preventivos. El modelado basado en agentes también se puede aplicar en epidemiología para estudiar la transmisión de enfermedades y las intervenciones.

Fabricación

Las empresas manufactureras pueden utilizar datos sintéticos para mejorar las capacidades de inspección visual de los modelos de visión artificial que examinan los productos en tiempo real para detectar defectos y desviaciones de los estándares. Los conjuntos de datos artificiales también pueden mejorar el mantenimiento predictivo, ya que los datos de sensores sintéticos ayudan a los modelos de machine learning a anticipar mejor las fallos del equipo y recomendar medidas apropiadas y oportunas.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página