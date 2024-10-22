El lanzamiento de ChatGPT hace dos años abrió un nuevo capítulo en la IA, impulsado por grandes modelos de lenguaje de tamaño y complejidad sin precedentes. Estos modelos son ahora una fuerza líder en investigación y negocios, pero muchos de ellos no publican sus datos, la receta comercial completa o sus puntos de control. Ahí es donde entra en juego la organización sin fines de lucro Allen Institute for Artificial Intelligence (Ai2). Ai2 comenzó en 2014, fundada por el cofundador de Microsoft, Paul Allen. El grupo de investigación trabaja en modelos de lenguaje, modelos multimodales y marcos de evaluación en código abierto.

Recientemente, Ai2 lanzó Molmo, una familia de modelos de IA multimodal de última generación con el objetivo de cerrar significativamente la brecha entre los sistemas abiertos y propietarios. "Incluso nuestros modelos más pequeños superan a los competidores 10 veces más grandes", dice Ai2.

A principios de septiembre, Ai2 lanzó OlmoE, un modelo de expertos con 1.000 millones de parámetros activos y 7.000 millones de parámetros totales, desarrollado conjuntamente con Contextual AI. Se entrenó con 5 billones de tokens y se basó en una nueva mezcla de datos que incorporó lecciones de Ai2 Dolma.

Hablamos con Hanna Hajishirzi, directora sénior de investigación en Ai2, después de su discurso de apertura en la conferencia PyTorch en San Francisco para hablar sobre los modelos de código abierto y la alfabetización en IA.