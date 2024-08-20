Los gigantes tecnológicos están apostando fuerte por los datos sintéticos. NVIDIA ha anunciado recientemente Nemotron-4 340B, una familia de modelos abiertos diseñados para generar datos sintéticos para entrenar modelos de lenguaje grandes (LLM) en diversas industrias. Esta dirección aborda un desafío crítico en el desarrollo de la IA: el costo prohibitivo y la dificultad de mover los conjuntos de datos robustos.

“Los datos de entrenamiento de alta calidad desempeñan un papel crítico en el rendimiento, la precisión y la calidad de las respuestas de un LLM personalizado”, NVIDIA escribió en su blog. La familia Nemotron-4 340B incluye modelos base, de instrucciones y de recompensa que forman un pipeline para generar y refinar datos sintéticos, acelerando potencialmente el desarrollo de LLM potentes y específicos de dominio.

El investigador de IBM Akash Srivastava explica que, en el contexto de los grandes modelos lingüísticos, los datos sintéticos suelen ser generados por un modelo de IA para entrenar o personalizar otro. "Los investigadores y desarrolladores de la industria están utilizando estos modelos para generar datos para tareas específicas", señala Srivastava.

Investigadores del MIT-IBM Watson IA Lab y IBM investigación introdujeron recientemente un nuevo enfoque para mejorar los LLM empleando datos sintéticos. El método, llamado LAB (Large-scale Alignment for chatBots), tiene como objetivo reducir la dependencia de las anotaciones humanas y los modelos de IA patentados como GPT-4.

LAB emplea un proceso de generación de datos sintéticos guiado por taxonomía y una infraestructura de varias fases. Los investigadores informan: "Los modelos entrenados en LAB pueden lograr un rendimiento competitivo en varios puntos de referencia en comparación con los modelos entrenados con datos sintéticos tradicionales anotados por humanos o generados por GPT-4".

Para demostrar la eficacia de LAB, el equipo creó dos modelos, LABRADORITE-13B y MERLINITE-7B, que supuestamente superaron a otras versiones ajustadas de los mismos modelos base en varias métricas clave. Los investigadores utilizaron el modelo Mixtral de código abierto para generar datos de entrenamiento sintéticos, lo que podría ofrecer un enfoque más rentable para mejorar los LLM.

La calidad de los datos sintéticos es crucial para su eficacia. Raul Salles de Padua, Director de Ingeniería, AI y Quantum en Multiverse Computing, explica: “La fidelidad de los datos sintéticos se calcula comparándolos con datos del mundo real mediante pruebas estadísticas y analíticas. Esto incluye una evaluación de la capacidad de los datos sintéticos para conservar propiedades estadísticas clave, como medias, varianzas y correlaciones entre variables.

A pesar de su promesa, los datos sintéticos no están exentos de desafíos. De Padua señala: “El desafío con los datos sintéticos es crear datos que sean útiles y que preserven la privacidad. Sin implementar estas medidas de seguridad, los datos sintéticos podrían revelar detalles personales, lo que podría provocar robo de identidad, discriminación u otras violaciones de la privacidad”.

Investigaciones recientes han descubierto posibles dificultades al depender demasiado de datos sintéticos. Un estudio reciente publicado en Nature reveló un fenómeno llamado “colapso del modelo”. Cuando los modelos de IA se capacitan repetidamente con texto generado por IA, sus resultados pueden volver cada vez más absurdos, lo que genera preocupaciones sobre la viabilidad a largo plazo del uso de datos sintéticos, especialmente a medida que el contenido generado por IA se vuelve más común en línea.

Las consideraciones éticas también son muy importantes. De Padua advierte sobre el "riesgo de que los datos sintéticos no representen con precisión la diversidad de la población del mundo real, produciendo un posible sesgo en los modelos que no funcionan de manera equitativa en diferentes grupos demográficos".