A medida que la inteligencia artificial remodela las industrias en todo el mundo, los desarrolladores se enfrentan a un desafío inesperado: la escasez de datos del mundo real de alta calidad para entrenar sus modelos cada vez más sofisticados. Ahora, una posible solución está surgiendo de una fuente poco probable: datos que en realidad no existen en absoluto.
Los datos sintéticos, información generada artificialmente y diseñada para imitar escenarios del mundo real, están ganando terreno rápidamente en el desarrollo de la IA. Promete superar los cuellos de botella de datos, abordar las preocupaciones de privacidad y reducir los costos. Sin embargo, a medida que el campo evoluciona, surgen preguntas sobre sus limitaciones y su impacto en el mundo real.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Los gigantes tecnológicos están apostando fuerte por los datos sintéticos. NVIDIA ha anunciado recientemente Nemotron-4 340B, una familia de modelos abiertos diseñados para generar datos sintéticos para entrenar modelos de lenguaje grandes (LLM) en diversas industrias. Esta dirección aborda un desafío crítico en el desarrollo de la IA: el costo prohibitivo y la dificultad de mover los conjuntos de datos robustos.
“Los datos de entrenamiento de alta calidad desempeñan un papel crítico en el rendimiento, la precisión y la calidad de las respuestas de un LLM personalizado”, NVIDIA escribió en su blog. La familia Nemotron-4 340B incluye modelos base, de instrucciones y de recompensa que forman un pipeline para generar y refinar datos sintéticos, acelerando potencialmente el desarrollo de LLM potentes y específicos de dominio.
El investigador de IBM Akash Srivastava explica que, en el contexto de los grandes modelos lingüísticos, los datos sintéticos suelen ser generados por un modelo de IA para entrenar o personalizar otro. "Los investigadores y desarrolladores de la industria están utilizando estos modelos para generar datos para tareas específicas", señala Srivastava.
Investigadores del MIT-IBM Watson IA Lab y IBM investigación introdujeron recientemente un nuevo enfoque para mejorar los LLM empleando datos sintéticos. El método, llamado LAB (Large-scale Alignment for chatBots), tiene como objetivo reducir la dependencia de las anotaciones humanas y los modelos de IA patentados como GPT-4.
LAB emplea un proceso de generación de datos sintéticos guiado por taxonomía y una infraestructura de varias fases. Los investigadores informan: "Los modelos entrenados en LAB pueden lograr un rendimiento competitivo en varios puntos de referencia en comparación con los modelos entrenados con datos sintéticos tradicionales anotados por humanos o generados por GPT-4".
Para demostrar la eficacia de LAB, el equipo creó dos modelos, LABRADORITE-13B y MERLINITE-7B, que supuestamente superaron a otras versiones ajustadas de los mismos modelos base en varias métricas clave. Los investigadores utilizaron el modelo Mixtral de código abierto para generar datos de entrenamiento sintéticos, lo que podría ofrecer un enfoque más rentable para mejorar los LLM.
La calidad de los datos sintéticos es crucial para su eficacia. Raul Salles de Padua, Director de Ingeniería, AI y Quantum en Multiverse Computing, explica: “La fidelidad de los datos sintéticos se calcula comparándolos con datos del mundo real mediante pruebas estadísticas y analíticas. Esto incluye una evaluación de la capacidad de los datos sintéticos para conservar propiedades estadísticas clave, como medias, varianzas y correlaciones entre variables.
A pesar de su promesa, los datos sintéticos no están exentos de desafíos. De Padua señala: “El desafío con los datos sintéticos es crear datos que sean útiles y que preserven la privacidad. Sin implementar estas medidas de seguridad, los datos sintéticos podrían revelar detalles personales, lo que podría provocar robo de identidad, discriminación u otras violaciones de la privacidad”.
Investigaciones recientes han descubierto posibles dificultades al depender demasiado de datos sintéticos. Un estudio reciente publicado en Nature reveló un fenómeno llamado “colapso del modelo”. Cuando los modelos de IA se capacitan repetidamente con texto generado por IA, sus resultados pueden volver cada vez más absurdos, lo que genera preocupaciones sobre la viabilidad a largo plazo del uso de datos sintéticos, especialmente a medida que el contenido generado por IA se vuelve más común en línea.
Las consideraciones éticas también son muy importantes. De Padua advierte sobre el "riesgo de que los datos sintéticos no representen con precisión la diversidad de la población del mundo real, produciendo un posible sesgo en los modelos que no funcionan de manera equitativa en diferentes grupos demográficos".
En aplicaciones críticas como la atención médica y los vehículos autónomos, los datos sintéticos pueden desempeñar un papel vital. De Padua señala: “En la atención médica, los datos sintéticos pueden complementar conjuntos de datos reales, proporcionando una gama más amplia de escenarios para los modelos de capacitación, lo que conduce a mejores capacidades de diagnóstico y predicción”. Para los vehículos autónomos, agrega: “Al usar datos sintéticos para el aumento, los modelos pueden estar expuestos a una gama más amplia de condiciones y casos de borde que podrían no estar presentes en el conjunto de datos original”.
Mirando hacia el futuro, de Padua cree que los datos sintéticos probablemente complementarán, en lugar de reemplazarlos, los datos del mundo real en el entrenamiento de IA. “La precisión y representatividad de los datos sintéticos son cruciales. Los avances tecnológicos en los algoritmos de generación de datos desempeñarán un papel importante en el aumento de la confiabilidad de los datos sintéticos”, explica.
A medida que la IA se integre cada vez más en nuestra vida diaria, desde los diagnósticos de atención médica hasta los automóviles autónomos, el equilibrio entre los datos sintéticos y del mundo real en el entrenamiento de la IA será crucial. El reto para los desarrolladores de IA en el futuro será aprovechar los beneficios de los datos sintéticos y mitigar al mismo tiempo sus riesgos.
"Estamos en un momento crítico en el desarrollo de la IA", dice Srivastava. “Conseguir el equilibrio adecuado entre los datos sintéticos y los del mundo real determinará el futuro de la IA: sus capacidades, limitaciones y, en última instancia, su impacto en la sociedad”.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.