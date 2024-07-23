El martes 23 de julio, Meta anunció el lanzamiento de la colección Llama 3.1 de modelos de lenguaje de gran tamaño (LLM) multilingües. Llama 3.1 comprende modelos de IA generativa de código abierto de entrada/salida de texto preentrenados y ajustados por instrucciones en tamaños de parámetros 8B, 70B y, por primera vez, 405B.
El Llama 3.1-405B ajustado por instrucciones, que parece ser el modelo de lenguaje de código abierto más grande y potente disponible en la actualidad y competitivo con los mejores modelos propietarios del mercado, estará disponible en IBM watsonx.ai hoy donde se puede implementar en IBM Cloud, en un entorno de nube híbrida o en local.
El lanzamiento de Llama 3.1 se produce tras el lanzamiento el 18 de abril de los modelos Llama 3. En el comunicado de prensa adjunto, Meta declaró que "[su] objetivo a corto plazo es hacer que Llama 3 sea multilingüe y multimodal, ampliar su contexto y seguir mejorando el rendimiento general de todas las capacidades del LLM, como el razonamiento y la codificación".
El lanzamiento de hoy de Llama 3.1 demuestra un progreso significativo hacia ese objetivo, desde una longitud de contexto drásticamente mayor hasta un uso ampliado de herramientas y capacidades multilingües.
En diciembre de 2023, Meta e IBM lanzaron la AI Alliance en colaboración con más de 50 miembros fundadores y colaboradores globales. Reuniendo a organizaciones líderes de sectores, startups, academia, investigación y gobierno, la AI Alliance aspira a moldear la evolución de la IA para reflejar mejor las necesidades y complejidad de nuestras sociedades. Desde su fundación, la Alliance ha crecido hasta contar con más de 100 miembros.
Más concretamente, la AI Alliance está dedicada a fomentar una comunidad abierta que permita a desarrolladores e investigadores acelerar la innovación responsable, garantizando al mismo tiempo la confianza, la seguridad, la protección, la diversidad, el rigor científico y la competitividad económica. Con ese fin, la Alliance apoya proyectos que desarrollan e implementan referencias y estándares de evaluación, ayudan a dirigirse a desafíos a nivel social, apoyan el desarrollo global de habilidades en IA y fomentan el desarrollo abierto de la IA de manera segura y beneficiosa.
Llama 3.1 promueve esa misión al proporcionar a la comunidad global de IA una familia de modelos y un ecosistema de desarrollo abiertos y de última generación para construir, experimentar y escalar de manera responsable nuevas ideas y enfoques. Además de sus nuevos y potentes modelos, la versión incluye medidas de seguridad sólidas a nivel del sistema, nuevas medidas de evaluación de la ciberseguridad y barreras actualizadas en el tiempo de inferencia. En conjunto, estos recursos fomentan la normalización del desarrollo y el uso de herramientas de confianza y seguridad para la IA generativa.
Los próximos modelos Llama con "más de 400 000 millones de parámetros" se discutieron en el anuncio de abril de Llama 3, incluida una evaluación preliminar del rendimiento del modelo, pero su tamaño exacto y detalles no se hicieron públicos hasta el lanzamiento de hoy. Si bien Llama 3.1 representa importantes actualizaciones en todos los tamaños de modelos, el nuevo modelo de código abierto 405B logra una paridad sin precedentes con los principales LLM propietarios de código cerrado.
Las cifras actualizadas publicadas hoy por Meta ofrecen una visión completa de cómo se compara el modelo 405B frente a otras ofertas de última generación. He aquí cómo se compara con los principales LLM en los puntos de referencia comunes[1].
Al comparar la 405B con otros modelos de vanguardia, las referencias de rendimiento no son el único factor a tener en cuenta. A diferencia de sus homólogos de código cerrado, a los que solo se puede acceder a través de una API en la que el modelo subyacente puede cambiarse sin previo aviso, Llama 3.1-405B es una plataforma estable que se puede construir, modificar e incluso ejecutar en las instalaciones. Ese nivel de control y previsibilidad es una bendición para los investigadores, las empresas y otras entidades que valoran la coherencia y la reproducibilidad.
IBM, al igual que Meta, cree que la disponibilidad de modelos abiertos viables facilita productos mejores y más seguros, acelera la innovación y contribuye a un mercado de IA más saludable en general. La escala y la capacidad de un sofisticado modelo de código abierto de parámetros 405B presentan oportunidades únicas y casos de uso para organizaciones de todos los tamaños.
Aparte del uso directo del modelo para la inferencia y la generación de textos (que, dado su tamaño y las demandas computacionales correspondientes, podría requerir la cuantificación u otros métodos de optimización para ejecutarse localmente en la mayoría de las configuraciones de hardware), el 405B puede aprovecharse para:
Para un lanzamiento exitoso con los modelos Llama 3.1, Meta IA "recomienda encarecidamente" el uso de una plataforma que, como IBM® watsonx, ofrece características básicas para evaluación de modelos, barreras de seguridad y generación aumentada por recuperación (RAG).
El tan esperado modelo 405B puede ser el aspecto más notable de la versión Llama 3.1, pero está lejos de ser el único aspecto digno de mención. Aunque los modelos Llama 3.1 comparten la misma arquitectura de transformadores densos de Llama 3, representan varias mejoras significativas con respecto a sus homólogos de Llama 3 en todos los tamaños de modelo.
Para todos los modelos Llama 3.1 preentrenados y ajustados a las instrucciones, la longitud del contexto se ha ampliado profundamente de 8192 tokens en Llama 3 a 128 000 tokens en Llama 3.1, un aumento del 1600 %. Esto hace que la longitud del contexto de Llama 3.1 sea igual a la de la versión de GPT-4o ofrecida a los usuarios empresariales, significativamente mayor que la de GPT-4 (o la versión de GPT-4o en ChatGPT Free) y comparable a la ventana de 200 000 tokens ofrecida por Claude 3. Dado que Llama 3.1 puede implementarse en el hardware del usuario o en el proveedor de servicios en la nube de su elección, su duración contextual no está sujeta a recortes temporales durante periodos de gran demanda. Del mismo modo, Llama 3.1 generalmente no está sujeto a límites de uso amplios.
La longitud del contexto de un modelo, también llamada ventana de contexto, se refiere a la cantidad total de texto (en tokens) que un LLM puede considerar o "recordar" en un momento dado. Cuando una conversación, documento o base de código supera la longitud máxima de contexto de un modelo, debe recortarse o resumirse para que el modelo continúe. La ventana contextual ampliada de Llama 3.1 significa que los modelos Llama ahora pueden llevar a cabo conversaciones mucho más largas sin olvidar detalles y consumir documentos o muestras de código mucho más grandes durante el entrenamiento y la inferencia.
Aunque convertir texto en tokens no implica ningún "tipo de cambio" fijo de palabra a token, una estimación decente sería de aproximadamente 1,5 tokens por palabra. Por lo tanto, la ventana de contexto de 128 000 tokens de Llama 3.1 equivale a unas 85 000 palabras. El Tokenizer Playground de Hugging Face es una forma fácil de ver y experimentar cómo los diferentes modelos tokenizan las entradas de texto.
Los modelos Llama 3.1 continúan disfrutando de los beneficios del nuevo tokenizador implementado para Llama 3, que codifica el lenguaje de manera mucho más eficiente que Llama 2.
En consonancia con su enfoque responsable de la innovación, Meta ha sido prudente y minuciosa en su planteamiento de la ampliación de la longitud del contexto. Vale la pena señalar que esfuerzos experimentales previos de código abierto han producido derivados de Llama con 128 000 ventanas de token, o incluso 1 millón de ventanas de tokens. Aunque estos proyectos son un excelente ejemplo de los beneficios del compromiso de Meta con los modelos abiertos, deben abordarse con precaución: investigaciones recientes indican que las ventanas de contexto muy largas "presentan una nueva y rica superficie de ataque para los LLM" en ausencia de contramedidas estrictas.
Afortunadamente, la versión 3.1 de Llama también incluye un nuevo conjunto de barreras de inferencia. Además de las versiones actualizadas de Llama y CyberSec Eval, la versión cuenta con el apoyo de la introducción de Guardia de instrucción, que ofrece un filtrado directo e indirecto de inyección de instrucciones. Meta proporciona una mayor mitigación de riesgos con CodeShield, una herramienta sólida de filtrado de tiempo de inferencia diseñada para evitar la introducción de código inseguro generado por LLM en sistemas de producción.
Al igual que con cualquier implementación de IA generativa, siempre es aconsejable implementar modelos solo en una plataforma con medidas sólidas de seguridad, privacidad y protección.
Tanto los modelos Llama 3.1 preentrenados como los ajustados con instrucciones, en todos los tamaños, ahora serán multilingües. Además del inglés, los modelos Llama 3.1 hablan otros idiomas, como español, portugués, italiano, alemán y tailandés. Meta ha señalado que "algunos otros idiomas" todavía están en validación posterior al entrenamiento y podrían publicarse en el futuro.
Los modelos Llama 3.1 Instruct están ajustados para el "uso de herramientas", lo que significa que Meta ha optimizado su capacidad para interactuar con ciertos programas que complementan o amplían las capacidades del LLM. Esto incluye entrenamiento para generar llamadas a herramientas de búsqueda específicas, generación de imágenes, ejecución de código y herramientas de razonamiento matemático, así como soporte para el uso de herramientas sin entrenamiento previo; es decir, la capacidad de integrarse sin problemas con herramientas que no se han visto antes en el entrenamiento.
El último lanzamiento de Meta es una oportunidad sin precedentes para ajustar y adaptar modelos de IA generativa realmente de última generación a su caso de uso específico.
El soporte para Llama 3.1 forma parte del compromiso de IBM de promover la innovación de código abierto en IA y proporcionar a nuestros clientes acceso a los mejores modelos abiertos de watsonx, incluidos modelos de terceros y la familia de modelos IBM Granite.
IBM watsonx ayuda a los clientes a personalizar realmente la implementación de modelos de código abierto como Llama 3.1 de la manera que mejor se adapte a sus necesidades, desde la flexibilidad para implementar modelos en local o en su entorno de nube preferido hasta flujos de trabajo intuitivos para afinado, prompt engineering e integración con aplicaciones empresariales. Cree de manera sencilla aplicaciones de IA personalizadas para su empresa, gestione todas las fuentes de datos y acelere los flujos de trabajo de IA responsable, todo en una sola plataforma.
El Llama 3.1-405B estará disponible en IBM watsonx.ai hoy, y pronto llegarán los modelos 8B y 70B.
Empiece hoy mismo con los tutoriales de RAG con Llama 3.1-405B y watsonx.ai:
[1] Las evaluaciones de referencia citadas para los modelos propietarios proceden de cifras autodeclaradas por Anthropic el 20 de junio de 2024 (para Claude 3.5 Sonnet y Claude 3 Opus) y el 4 de marzo de 2024 (para Claude 3 Sonnet y Haiku), OpenAI el 13 de mayo de 2024 (para los modelos GPT) y Google Deepmind en mayo de 2024 (para los modelos Gemini).