El martes 23 de julio, Meta anunció el lanzamiento de la colección Llama 3.1 de modelos de lenguaje grandes (LLM) multilingües. Llama 3.1 comprende modelos de IA generativa de código abierto de entrada y salida de texto preentrenados y ajustados con instrucciones en tamaños de 8B, 70B y, por primera vez, parámetros 405B.
El Llama 3.1-405B ajustado a instrucciones, que se presenta como el modelo de lenguaje de código abierto más grande y potente disponible en la actualidad y competitivo con los mejores modelos propietarios del mercado, estará disponible en IBM® watsonx.ai hoy, donde se puede implementar en la nube de IBM, en un entorno de nube híbrida u on premises.
El lanzamiento de Llama 3.1 sigue al lanzamiento del 18 de abril de los modelos Llama 3. En el anuncio de lanzamiento adjunto, Meta declaró que "[su] objetivo en el futuro cercano es hacer que Llama 3 sea multilingüe y multimodal, tenga un contexto más largo y continúe mejorando el rendimiento general en todas las capacidades de LLM, como el razonamiento y la programación".
El lanzamiento de hoy de Llama 3.1 demuestra un progreso significativo hacia ese objetivo, desde una longitud de contexto drásticamente mayor hasta un uso ampliado de herramientas y capacidades multilingües.
En diciembre de 2023, Meta y IBM lanzaron la AI Alliance en colaboración con más de 50 miembros fundadores y colaboradores globales. Al reunir a organizaciones líderes de industrias, startups, academia, investigación y gobierno, la AI Alliance aspira a dar forma a la evolución de la IA para reflejar mejor las necesidades y la complejidad de nuestras sociedades. Desde su fundación, la Alianza ha crecido hasta contar con más de 100 miembros.
Más concretamente, la AI Alliance está dedicada a fomentar una comunidad abierta que permita a desarrolladores e investigadores acelerar la innovación responsable, garantizando la confianza, la seguridad, la protección, la diversidad, el rigor científico y la competencia económica. Con ese fin, la Alianza apoya proyectos que desarrollan y despliegan estándares de referencia y evaluación, ayudan a abordar desafíos a nivel social, apoyan el desarrollo global de habilidades en IA y fomentan el desarrollo abierto de la IA de manera segura y beneficiosa.
Llama 3.1 promueve esa misión al proporcionar a la comunidad global de IA una familia de modelos y un ecosistema de desarrollo abiertos y de última generación para construir, experimentar y escalar de manera responsable nuevas ideas y enfoques. Junto a sus nuevos y potentes modelos, el lanzamiento incluye robustas medidas de seguridad a nivel de sistema, nuevas medidas de evaluación de ciberseguridad y barreras actualizadas de tiempo de inferencia. En conjunto, estos recursos fomentan la estandarización del desarrollo y el uso de herramientas de confianza y seguridad para la IA generativa.
Los próximos modelos Llama con "más de 400 000 millones de parámetros" se analizaron en el anuncio de abril de Llama 3, incluida una evaluación preliminar del rendimiento del modelo, pero su tamaño exacto y detalles no se hicieron públicos hasta el lanzamiento de hoy. Si bien Llama 3.1 representa importantes actualizaciones en todos los tamaños de modelos, el nuevo modelo de código abierto 405B logra una paridad sin precedentes con los principales LLM patentados de código cerrado.
Las cifras actualizadas publicadas hoy por Meta muestran una imagen completa de lo impresionante que es el modelo 405B frente a otras ofertas de última generación. A continuación, se muestra una comparación con los principales LLM en términos de puntos de referencia comunes.[1]
Al comparar el 405B con otros modelos de vanguardia, los puntos de referencia de rendimiento no son el único factor a considerar. A diferencia de sus pares de código cerrado, a los que solo se puede acceder a través de una API en la que el modelo subyacente puede cambiar sin previo aviso, Llama 3.1-405B es una plataforma estable que se puede construir, modificar e incluso ejecutar on premises. Ese nivel de control y previsibilidad es una bendición para los investigadores, las empresas y otras entidades que valoran la coherencia y la reproducibilidad.
IBM, al igual que Meta, cree que la disponibilidad de modelos abiertos viables facilita productos mejores y más seguros, acelera la innovación y contribuye a un mercado de IA más saludable en general. La escala y la capacidad de un sofisticado modelo de código abierto con parámetros 405B presentan oportunidades y casos de uso únicos para organizaciones de todos los tamaños.
Además del uso directo del modelo para la inferencia y la generación de texto, que, dado su tamaño y las correspondientes demandas computacionales, podría requerir cuantificación u otros métodos de optimización para ejecutarse localmente en la mayoría de las configuraciones de hardware, el 405B se puede aprovechar para lo siguiente:
Para un lanzamiento exitoso con los modelos Llama 3.1, Meta IA "recomienda encarecidamente" el uso de una plataforma que, como IBM watsonx, ofrece características básicas para la evaluación de modelos, medidas de seguridad y generación aumentada por recuperación (RAG, por sus siglas en inglés).
El tan esperado modelo 405B puede ser el aspecto más notable del lanzamiento de Llama 3.1, pero está lejos de ser el único aspecto notable. Si bien los modelos Llama 3.1 comparten la misma arquitectura transformadora de Llama 3, representan varias mejoras significativas con respecto a sus homólogos de Llama 3 en todos los tamaños de modelo.
Para todos los modelos Llama 3.1 preentrenados y ajustados a las instrucciones, la longitud del contexto se ha ampliado profundamente de 8192 tokens en Llama 3 a 128 000 tokens en Llama 3.1, un aumento del 1600 %. Esto hace que la longitud del contexto de Llama 3.1 sea igual a la de la versión de GPT-4o ofrecida a los usuarios empresariales, significativamente mayor que la de GPT-4 (o la versión de GPT-4o en ChatGPT Free) y comparable a la ventana de 200 000 tokens ofrecida por Claude 3. Dado que Llama 3.1 se puede desplegar en el hardware del usuario o en el proveedor de la nube de su elección, la longitud de su contexto no está sujeta a restricciones temporales durante los periodos de alta demanda. Del mismo modo, Llama 3.1 generalmente no está sujeto a límites de uso amplios.
La longitud del contexto de un modelo, también llamada ventana de contexto, se refiere a la cantidad total de texto (en tokens) que un LLM puede considerar o "recordar" en un momento dado. Cuando una conversación, documento o base de código excede la longitud máxima de contexto de un modelo, debe recortarse o resumirse para que el modelo continúe. La ventana de contexto ampliada de Llama 3.1 significa que los modelos Llama ahora pueden llevar a cabo conversaciones mucho más largas sin olvidar detalles e ingerir documentos mucho más grandes o muestras de código durante el entrenamiento y la inferencia.
Aunque la conversión de texto en tokens no implica ningún “tipo de cambio” fijo de palabra a token, una estimación decente sería de aproximadamente 1.5 tokens por palabra. Por lo tanto, la ventana de contexto de 128 000 tokens de Llama 3.1 equivale a alrededor de 85 000 palabras. El Tokenizer Playground de Hugging Face es una manera fácil de ver y experimentar cómo los diferentes modelos tokenizan las entradas de texto.
Los modelos Llama 3.1 continúan disfrutando de los beneficios del nuevo tokenizador implementado para Llama 3, que codifica el lenguaje de manera mucho más eficiente que Llama 2.
En consonancia con su enfoque responsable de la innovación, Meta ha sido cautelosa y minuciosa en su enfoque de la ampliación de la longitud del contexto. Cabe señalar que los anteriores esfuerzos experimentales de código abierto han dado lugar a derivados de Llama con 128 000 ventanas de token, o incluso 1 millón de ventanas de token. Aunque estos proyectos son un excelente ejemplo de los beneficios del compromiso de Meta con los modelos abiertos, deben abordarse con precaución: investigaciones recientes indican que las ventanas de contexto muy largas "presentan una nueva y rica superficie de ataque para los LLM" en ausencia de contramedidas estrictas.
Afortunadamente, la versión Llama 3.1 también incluye un nuevo conjunto de medidas de seguridad de inferencia. Además de las versiones actualizadas de Llama Guard y CyberSec Eval, el lanzamiento cuenta con el respaldo de la introducción de Prompt Guard, que proporciona filtrado directo e indirecto de inyección de instrucciones. Meta proporciona una mayor mitigación de riesgos con CodeShield, una herramienta robusta de filtrado de tiempo de inferencia diseñada para evitar la introducción de código inseguro generado por LLM en sistemas de producción.
Al igual que con cualquier implementación de IA generativa, siempre es aconsejable desplegar modelos solo en una plataforma con medidas sólidas de seguridad y privacidad.
Tanto los modelos Llama 3.1 preentrenados como los ajustados con instrucciones, en todos los tamaños, ahora serán multilingües. Además del inglés, los modelos Llama 3.1 hablan otros idiomas, como español, portugués, italiano, alemán y tailandés. Meta ha señalado que "algunos otros idiomas" todavía están en validación posterior al entrenamiento y podrían lanzarse en el futuro.
Los modelos Llama 3.1 Instruct están ajustados para el "uso de herramientas", lo que significa que Meta ha optimizado su capacidad para interactuar con ciertos programas que complementan o amplían las capacidades del LLM. Esto incluye entrenamiento para generar llamadas a herramientas para búsqueda específica, generación de imágenes, ejecución de código y herramientas de razonamiento matemático, así como soporte para el uso de herramientas zero-shot, es decir, la capacidad de integrarse sin problemas con herramientas nunca antes vistas en el entrenamiento.
La última versión de Meta es una oportunidad sin precedentes para ajustar y adaptar modelos de IA generativa verdaderamente de última generación a su caso de uso específico.
El soporte para Llama 3.1 es parte del compromiso de IBM de promover la innovación de código abierto en IA y proporcionar a nuestros clientes acceso a los mejores modelos abiertos de su clase en watsonx, incluidos modelos de terceros y la familia de modelos IBM Granite.
IBM watsonx ayuda a los clientes a personalizar realmente la implementación de modelos de código abierto como Llama 3.1 de la manera que mejor se adapte a sus necesidades, desde la flexibilidad para desplegar modelos on premises o en su entorno de nube preferido hasta flujos de trabajo intuitivos para una ingeniería rápida y precisa e integración con aplicaciones empresariales. Cree oportunamente aplicaciones de IA personalizadas para su negocio, gestione todas las fuentes de datos y acelere los flujos de trabajo de IA responsables, todo en una sola plataforma.
Llama 3.1-405B estará disponible en IBM watsonx.ai hoy, y pronto seguirán los modelos 8B y 70B.
Comience hoy mismo con los tutoriales de RAG con Llama 3.1-405B y watsonx.ai:
[1] Las evaluaciones de puntos de referencia citadas para los modelos patentados se han extraído de las cifras facilitadas por Anthropic el 20 de junio de 2024 (para Claude 3.5 Sonnet y Claude 3 Opus) y el 4 de marzo de 2024 (para Claude 3 Sonnet y Haiku), OpenAI el 13 de mayo de 2024 (para los modelos GPT) y Google Deepmind en mayo de 2024 (para los modelos Gemini).