A medida que la inteligencia artificial transforma los sectores en todo el mundo, los desarrolladores se enfrentan a un reto inesperado: la escasez de datos del mundo real de alta calidad para entrenar sus modelos cada vez más sofisticados. Ahora, una posible solución está surgiendo de una fuente poco probable: datos que en realidad no existen en absoluto.
Los datos sintéticos, información generada artificialmente y diseñada para imitar escenarios del mundo real, están ganando terreno rápidamente en el desarrollo de la IA. Prometen superar los cuellos de botella de datos, solucionar los problemas de privacidad y reducir los costes. Sin embargo, a medida que el campo evoluciona, surgen preguntas sobre sus limitaciones y su impacto en el mundo real.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Los gigantes tecnológicos están apostando fuerte por los datos sintéticos. NVIDIA anunció recientemente Nemotron-4 340B, una familia de modelos abiertos diseñados para generar datos sintéticos para entrenar modelos de lenguaje de gran tamaño (LLM) en varios sectores. Esta medida aborda un reto crítico en el desarrollo de la IA: el coste prohibitivo y la dificultad de acceder a un conjunto de datos robusto.
“Los datos de entrenamiento de alta calidad juegan un papel crítico en el rendimiento, la precisión y la calidad de las respuestas de un LLM personalizado”, escribió NVIDIA en su blog. La familia Nemotron-4 340B incluye modelos base, de instrucciones y de recompensa que forman un pipeline para generar y refinar datos sintéticos, acelerando potencialmente el desarrollo de potentes LLM específicos de dominio.
El investigador de IBM Akash Srivastava explica que, en el contexto de los modelos de lenguaje de gran tamaño, los datos sintéticos suelen ser generados por un modelo de IA para entrenar o personalizar otro. “Los investigadores y desarrolladores del sector están utilizando estos modelos para generar datos para tareas específicas”, señala Srivastava.
Investigadores del MIT-IBM® Watson IA Lab e IBM Research han presentado recientemente un nuevo enfoque para mejorar los LLM utilizando datos sintéticos. El método, llamado LAB (Large-scale Alignment for chatBots), tiene como objetivo reducir la dependencia de las anotaciones humanas y los modelos de IA patentados como GPT-4.
LAB emplea un proceso de generación de datos sintéticos guiado por taxonomía y un marco de entrenamiento de varias fases. Los investigadores informan: “Los modelos entrenados en LAB pueden lograr un rendimiento competitivo en varios puntos de referencia en comparación con los modelos entrenados con datos sintéticos tradicionales anotados por humanos o generados por GPT-4”.
Para demostrar la eficacia de LAB, el equipo creó dos modelos, LABRADORITE-13B y MERLINITE-7B, que supuestamente superaron a otras versiones ajustadas de los mismos modelos base en varias métricas clave. Los investigadores utilizaron el modelo de código abierto Mixtral para generar datos sintéticos de entrenamiento, lo que podría ofrecer un enfoque más rentable para mejorar los LLM.
La calidad de los datos sintéticos es crucial para su eficacia. Raul Salles de Padua, director de Ingeniería, IA y Quantum en Multiverse Computing, explica: “La fidelidad de los datos sintéticos se calcula comparándolos con datos del mundo real mediante pruebas estadísticas y analíticas. Esto incluye una evaluación de hasta qué punto los datos sintéticos conservan las propiedades estadísticas clave, como las medias, las varianzas y las correlaciones entre variables”.
A pesar de su promesa, los datos sintéticos no están exentos de retos. De Padua señala: “El desafío con los datos sintéticos radica en crear datos que sean útiles y que preserven la privacidad. Sin establecer estas medidas de seguridad, los datos sintéticos podrían revelar datos personales y provocar robos de identidad, discriminación u otras violaciones de la privacidad”.
Investigaciones recientes han descubierto posibles riesgos al depender demasiado de datos sintéticos. Un estudio reciente publicado en Nature reveló un fenómeno llamado “colapso del modelo”. Cuando los modelos de IA se entrenan repetidamente con texto generado por IA, sus resultados pueden volverse cada vez más absurdos, lo que genera preocupaciones sobre la viabilidad a largo plazo del uso de datos sintéticos, especialmente a medida que el contenido generado por IA se vuelve más común en línea.
Las consideraciones éticas también son muy importantes. De Padua advierte sobre el “riesgo de que los datos sintéticos no representen con precisión la diversidad de la población del mundo real, produciendo un posible sesgo en los modelos que no funcionan de manera equitativa en los diferentes grupos demográficos”.
En aplicaciones críticas como la atención sanitaria y los vehículos autónomos, los datos sintéticos pueden desempeñar un papel vital. De Padua señala: “En el ámbito sanitario, los datos sintéticos pueden complementar los conjuntos de datos reales, ofreciendo una gama más amplia de escenarios para entrenar modelos, lo que conduce a mejores capacidades de diagnóstico y predicción”. Para los vehículos autónomos, añade: “Al utilizar datos sintéticos para el aumento, los modelos pueden exponerse a una gama más amplia de condiciones y casos extremos que podrían no estar presentes en el conjunto de datos”.
De cara al futuro, de Padua cree que es probable que los datos sintéticos complementen, en lugar de reemplazar, los datos del mundo real en el entrenamiento de la IA. “La precisión y representatividad de los datos sintéticos son cruciales. Los avances tecnológicos en los algoritmos de generación de datos desempeñarán un papel importante a la hora de aumentar la fiabilidad de los datos sintéticos”, explica.
A medida que la IA se integre cada vez más en nuestra vida cotidiana, desde los diagnósticos sanitarios hasta los coches autónomos, el equilibrio entre los datos sintéticos y los del mundo real en el entrenamiento de la IA será crucial. El reto para los desarrolladores de IA en el futuro será aprovechar los beneficios de los datos sintéticos mientras se mitigan sus riesgos.
“Estamos en un momento crítico en el desarrollo de la IA”, afirma Srivastava. “Conseguir el equilibrio adecuado entre los datos sintéticos y los del mundo real determinará el futuro de la IA: sus capacidades, limitaciones y, en última instancia, su impacto en la sociedad”.
Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.
Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.