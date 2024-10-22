El lanzamiento de ChatGPT hace 2 años abrió un nuevo capítulo en la IA, impulsado por grandes modelos de lenguaje de tamaño y complejidad sin precedentes. Estos modelos son ahora una fuerza líder en investigación y negocios, pero muchos de ellos no publican sus datos, la receta comercial completa o sus puntos de control. Ahí es donde entra en juego la organización sin ánimo de lucro Allen Institute for Artificial Intelligence (Ai2). Ai2 comenzó en 2014, fundada por el cofundador de Microsoft, Paul Allen. El grupo de investigación trabaja en modelos de lenguaje, modelos multimodales y marcos de evaluación en código abierto.
Recientemente, Ai2 lanzó Molmo, una familia de modelos de IA multimodal de última generación con el objetivo de cerrar significativamente la brecha entre los sistemas abiertos y propietarios. "Incluso nuestros modelos más pequeños superan a los competidores 10 veces más grandes", dice Ai2.
A principios de septiembre, Ai2 lanzó OlmoE, un modelo de expertos con 1000 millones de parámetros activos y 7000 millones de parámetros totales, desarrollado conjuntamente con Contextual AI. Se entrenó con 5 billones de tokens y se basó en una nueva combinación de datos que incorporaba las lecciones de Dolma de Ai2.
Hablamos con Hanna Hajishirzi, directora sénior de investigación de PLN en Ai2, después de su discurso de apertura en la conferencia PyTorch en San Francisco para hablar sobre los modelos de código abierto y la alfabetización en IA.
Hicimos un lanzamiento menor para OLMoE en septiembre. A pesar de ser un modelo pequeño, funciona muy bien en muchas tareas. Desde entonces, hemos tenido una gran acogida por parte de la comunidad. También hemos creado una aplicación que ejecuta el modelo de lenguaje directamente en smartphones sin conectarse a una GPU. Todavía está en progreso (estamos trabajando en características de seguridad y mejorando la interfaz de usuario), pero es emocionante. También estamos trabajando en el entrenamiento de modelos más grandes.
No es de extrañar que la combinación de modelos expertos funcione bien, ya que los hemos visto incluidos en los modelos de frontera. El beneficio de una mezcla de expertos es que, con el mismo esfuerzo de entrenamiento, se obtiene una mayor precisión en comparación con los modelos densos. Lo interesante para nosotros fue llevar esto al extremo y entrenar el modelo más pequeño que pudiéramos, como un modelo de 1000 millones de parámetros, para ver qué pasaba. Estábamos entusiasmados con los resultados.
Entonces, ¿cómo hemos llegado hasta aquí? En primer lugar, mejoramos nuestro proceso de formación. Empezamos con una arquitectura de modelos densos, hicimos varios experimentos y la extendimos con éxito a una mezcla de modelos expertos. En segundo lugar, mejoramos nuestra combinación de datos, lo que nos llevó a un modelo mejor. Juntos, estos dos puntos nos dieron los mejores resultados.
Existe un amplio rango de apertura en la comunidad de IA. Por ejemplo, modelos como ChatGPT de OpenAI han abierto sus API, pero ¿quién sabe lo que sucede a puerta cerrada?
Todo parece muy sofisticado, pero esta falta de transparencia es lo opuesto a promover la alfabetización en IA. El público no comprende realmente por qué estos modelos se comportan de la forma en que lo hacen. Todo parece mágico, ya que estos modelos parecen mejorar.
La comunidad de la IA tiene que empezar a divulgar más información sobre los modelos opacos y explicar por qué dan determinadas respuestas. Por ejemplo, podrían explicar que un modelo responde de una manera determinada porque encuentra patrones específicos en sus datos de entrenamiento.
Educar al público al respecto es esencial. Aunque es difícil conectar decisiones específicas con puntos de datos de una manera que sea fácil de entender para el público, crear demostraciones que muestren este proceso tendría un gran impacto.
¡Exacto! Ese es un enfoque importante de nuestro proyecto: nuestro objetivo es publicar tanto los pesos del modelo como los datos de entrenamiento.
Con nuestros modelos OlMo y OlMoE, los investigadores de la comunidad están trabajando en cómo las decisiones de los modelos se conectan con los datos. Nuestro conjunto de datos abierto, Dolma, ha permitido a los investigadores analizarlo, lo que ha dado lugar a publicaciones que explican cómo los puntos de datos específicos contribuyen al comportamiento del modelo. Esta transparencia también ayudaría a informar al público.
Puedo abordar esta cuestión desde dos perspectivas. Primero, cuando empezamos este proyecto, cuestionamos la validez de los números reportados por algunas empresas. Queríamos asegurarnos de que esas cifras no se derivaran de conjuntos de pruebas selectivas o puntos de referencia. Esto pone de manifiesto un nivel de confianza dentro de la comunidad de investigación.
Para nuestro modelo, es sencillo, porque proporcionamos acceso a nuestros datos y demostramos cómo se evalúan nuestros modelos. Esta transparencia deja claro qué hay en los datos y cómo se entrenan los modelos. También publicamos varios puntos de control, que son fases intermedias del entrenamiento. Los investigadores pueden utilizar estos puntos de control para observar cómo se desarrollan los conocimientos y las mejoras con el tiempo. Y algunos investigadores ya están aprovechando nuestros puntos de control para estudiar esta evolución.
Por último, en términos de confianza pública, se aplica un enfoque similar. Mucha gente cree que los modelos lingüísticos simplemente alucinan. Al conectar sus resultados con datos de entrenamiento y explicar los procesos de toma de decisiones, podemos mejorar la confiabilidad. Aunque todavía no hemos llegado a ese punto, la mejora de la transparencia sobre nuestros datos de formación ofrece importantes oportunidades para fomentar la confianza del público.
Creo que la IA de código abierto es esencial para permitir y acelerar la ciencia de los modelos lingüísticos. Hemos avanzado mucho en la investigación y el desarrollo de modelos lingüísticos gracias a la investigación científica y abierta, y debemos continuar esforzándonos por mantener la IA de código abierto activa.
