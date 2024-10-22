El lanzamiento de ChatGPT hace dos años abrió un nuevo capítulo en la IA, impulsado por grandes modelos de lenguaje de tamaño y complejidad sin precedentes. Estos modelos son ahora una fuerza líder en investigación y negocios, pero muchos de ellos no publican sus datos, la receta comercial completa o sus puntos de control. Ahí es donde entra en juego la organización sin fines de lucro Allen Institute for Artificial Intelligence (Ai2). Ai2 comenzó en 2014, fundada por el cofundador de Microsoft, Paul Allen. El grupo de investigación trabaja en modelos de lenguaje, modelos multimodales y marcos de evaluación en código abierto.
Recientemente, Ai2 lanzó Molmo, una familia de modelos de IA multimodal de última generación con el objetivo de cerrar significativamente la brecha entre los sistemas abiertos y propietarios. "Incluso nuestros modelos más pequeños superan a los competidores 10 veces más grandes", dice Ai2.
A principios de septiembre, Ai2 lanzó OlmoE, un modelo de expertos con 1.000 millones de parámetros activos y 7.000 millones de parámetros totales, desarrollado conjuntamente con Contextual AI. Se entrenó con 5 billones de tokens y se basó en una nueva mezcla de datos que incorporó lecciones de Ai2 Dolma.
Hablamos con Hanna Hajishirzi, directora sénior de investigación en Ai2, después de su discurso de apertura en la conferencia PyTorch en San Francisco para hablar sobre los modelos de código abierto y la alfabetización en IA.
Hicimos un lanzamiento menor para OLMoE en septiembre. A pesar de ser un modelo pequeño, funciona muy bien en muchas tareas. Desde entonces, hemos visto una gran recepción por parte de la comunidad. También creamos una aplicación que ejecuta el modelo de lenguaje directamente en teléfonos inteligentes sin conectarse a una GPU. Todavía está en progreso, estamos trabajando en características de seguridad y mejorando la interfaz de usuario, pero es emocionante. También estamos trabajando en el entrenamiento de modelos más grandes.
No es de extrañar que la combinación de modelos expertos funcione bien, ya que los hemos visto incluidos en modelos de frontera. El beneficio de una combinación de expertos es que, con el mismo esfuerzo de entrenamiento, se obtiene una mayor precisión en comparación con los modelos densos. Lo que nos interesaba era llevar esto al extremo y entrenar el modelo más pequeño posible, como un modelo de mil millones de parámetros, para ver qué pasaba. Estábamos entusiasmados con los resultados.
Entonces, ¿cómo llegamos allí? En primer lugar, mejoramos nuestro pipeline de capacitación. Comenzamos con una arquitectura de modelo densa, hicimos varios experimentos y la extendimos con éxito a una mezcla de modelos expertos. En segundo lugar, realizamos mejoras en nuestra combinación de datos, lo que nos permitió obtener un modelo mejor. Juntas, estas dos cosas nos dieron los mejores resultados.
Existe un amplio rango de apertura en la comunidad de IA. Por ejemplo, modelos como ChatGPT de OpenAI han abierto sus API, pero ¿quién sabe qué está pasando a puerta cerrada?
Todo parece muy sofisticado, pero esta falta de transparencia es lo opuesto a promover la alfabetización en IA. El público no tiene una comprensión real de por qué estos modelos se comportan de la manera que lo hacen. Todo parece mágico, ya que estos modelos parecen mejorar cada vez más.
La comunidad de IA debe empezar a divulgar más información sobre los modelos opacos y explicar por qué dan determinadas respuestas. Por ejemplo, podrían explicar que un modelo responde de cierta manera porque encuentra patrones específicos en sus datos de entrenamiento.
Es fundamental educar al público sobre este tema. Aunque es difícil conectar decisiones específicas con puntos de datos de una manera que sea fácil de entender para el público, crear demostraciones que showcase este proceso sería realmente impactante.
¡Exactamente! Ese es un enfoque importante de nuestro proyecto: nuestro objetivo es publicar tanto los pesos del modelo como los datos de entrenamiento.
Con nuestros modelos OLMo y OLMoE, los investigadores de la comunidad están trabajando en cómo las decisiones del modelo se conectan con los datos. Nuestro conjunto de datos abierto, Dolma, ha permitido a los investigadores analizarlo, lo que ha dado lugar a publicaciones que explican cómo los puntos de datos específicos contribuyen al comportamiento del modelo. Esta transparencia también ayudaría a informar al público.
Puedo abordar esto desde dos perspectivas. Primero, cuando comenzamos este proyecto, cuestionamos la validez de los números informados por algunas empresas. Queríamos asegurarnos de que esas cifras no se derivaran de conjuntos de pruebas o puntos de referencia selectivos. Esto resalta un nivel de confianza dentro de la comunidad de investigación.
Para nuestro modelo, es sencillo, porque proporcionamos acceso a nuestros datos y demostramos cómo se evalúan nuestros modelos. Esta transparencia deja claro qué hay en los datos y cómo se entrenan los modelos. También liberamos diversos puntos de control, que son etapas intermedias de capacitación. Los investigadores pueden utilizar estos puntos de control para observar cómo se desarrollan los conocimientos y las mejoras con el tiempo. Y algunos investigadores ya están aprovechando nuestros puntos de control para estudiar esta evolución.
Finalmente, en términos de confianza pública, se aplica un enfoque similar. Mucha gente cree que los modelos de lenguaje simplemente alucinan. Al conectar sus resultados con los datos de entrenamiento y explicar los procesos de toma de decisiones, podemos aumentar la fiabilidad. Aunque todavía no hemos llegado allí, mejorar la transparencia sobre nuestros datos de entrenamiento ofrece oportunidades significativas para generar confianza pública.
Creo que la IA de código abierto es esencial para habilitar y acelerar la ciencia de los modelos lingüísticos. Hemos avanzado mucho en la investigación y el desarrollo de modelos lingüísticos gracias a la investigación científica abierta, y debemos seguir esforzándonos para mantener activa la IA de código abierto.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.