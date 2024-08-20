Los gigantes tecnológicos están apostando fuerte por los datos sintéticos. NVIDIA anunció recientemente Nemotron-4 340B, una familia de modelos abiertos diseñados para generar datos sintéticos para entrenar modelos de lenguaje de gran tamaño (LLM) en varios sectores. Esta medida aborda un reto crítico en el desarrollo de la IA: el coste prohibitivo y la dificultad de acceder a un conjunto de datos robusto.

“Los datos de entrenamiento de alta calidad juegan un papel crítico en el rendimiento, la precisión y la calidad de las respuestas de un LLM personalizado”, escribió NVIDIA en su blog. La familia Nemotron-4 340B incluye modelos base, de instrucciones y de recompensa que forman un pipeline para generar y refinar datos sintéticos, acelerando potencialmente el desarrollo de potentes LLM específicos de dominio.

El investigador de IBM Akash Srivastava explica que, en el contexto de los modelos de lenguaje de gran tamaño, los datos sintéticos suelen ser generados por un modelo de IA para entrenar o personalizar otro. “Los investigadores y desarrolladores del sector están utilizando estos modelos para generar datos para tareas específicas”, señala Srivastava.

Investigadores del MIT-IBM® Watson IA Lab e IBM Research han presentado recientemente un nuevo enfoque para mejorar los LLM utilizando datos sintéticos. El método, llamado LAB (Large-scale Alignment for chatBots), tiene como objetivo reducir la dependencia de las anotaciones humanas y los modelos de IA patentados como GPT-4.

LAB emplea un proceso de generación de datos sintéticos guiado por taxonomía y un marco de entrenamiento de varias fases. Los investigadores informan: “Los modelos entrenados en LAB pueden lograr un rendimiento competitivo en varios puntos de referencia en comparación con los modelos entrenados con datos sintéticos tradicionales anotados por humanos o generados por GPT-4”.

Para demostrar la eficacia de LAB, el equipo creó dos modelos, LABRADORITE-13B y MERLINITE-7B, que supuestamente superaron a otras versiones ajustadas de los mismos modelos base en varias métricas clave. Los investigadores utilizaron el modelo de código abierto Mixtral para generar datos sintéticos de entrenamiento, lo que podría ofrecer un enfoque más rentable para mejorar los LLM.

La calidad de los datos sintéticos es crucial para su eficacia. Raul Salles de Padua, director de Ingeniería, IA y Quantum en Multiverse Computing, explica: “La fidelidad de los datos sintéticos se calcula comparándolos con datos del mundo real mediante pruebas estadísticas y analíticas. Esto incluye una evaluación de hasta qué punto los datos sintéticos conservan las propiedades estadísticas clave, como las medias, las varianzas y las correlaciones entre variables”.

A pesar de su promesa, los datos sintéticos no están exentos de retos. De Padua señala: “El desafío con los datos sintéticos radica en crear datos que sean útiles y que preserven la privacidad. Sin establecer estas medidas de seguridad, los datos sintéticos podrían revelar datos personales y provocar robos de identidad, discriminación u otras violaciones de la privacidad”.

Investigaciones recientes han descubierto posibles riesgos al depender demasiado de datos sintéticos. Un estudio reciente publicado en Nature reveló un fenómeno llamado “colapso del modelo”. Cuando los modelos de IA se entrenan repetidamente con texto generado por IA, sus resultados pueden volverse cada vez más absurdos, lo que genera preocupaciones sobre la viabilidad a largo plazo del uso de datos sintéticos, especialmente a medida que el contenido generado por IA se vuelve más común en línea.

Las consideraciones éticas también son muy importantes. De Padua advierte sobre el “riesgo de que los datos sintéticos no representen con precisión la diversidad de la población del mundo real, produciendo un posible sesgo en los modelos que no funcionan de manera equitativa en los diferentes grupos demográficos”.