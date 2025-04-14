Una vez que se han seleccionado los datos para entrenar un modelo específico, el propio modelo está listo para generar sus propios datos a partir de los datos de entrenamiento, un proceso conocido como generación de datos sintéticos. Lo que distingue el enfoque de InstructLab en este paso en el entrenamiento de un LLM es la escala en la que se realiza y la precisión de los datos que puede generar. Basándose una vez más en el método de alineación a gran escala para chatBots (LAB), el enfoque de InstructLab añade un paso automatizado, refinando aún más las respuestas que genera el LLM para garantizar su precisión.

Los nuevos datos generados durante este paso, críticos para el entrenamiento de todos los LLM, no solo de InstructLab, se basan en lo que se conoce como modelo "maestro", un modelo más grande que genera etiquetas y datos para un modelo "estudiante" más pequeño y eficiente para aprender de.

Con el método LAB, los LLM de InstructLab en realidad no utilizan datos almacenados por el modelo del profesor, sino instrucciones específicas que aumentan exponencialmente el conjunto de datos y, al mismo tiempo, garantizan que los ejemplos generados por el modelo "estudiante" permanezcan en línea con el propósito previsto de los LLM.

Según IBM Investigación, este enfoque “genera sistemáticamente datos sintéticos para las tareas que desea que realice su chatbot, y para asimilar nuevos conocimientos y capacidades en el modelo fundacional, sin sobrescribir lo que el modelo ya ha aprendido.”