¿Qué son los modelos de lenguaje de gran tamaño de código abierto?

Los modelos de lenguaje de gran tamaño (LLM) son modelos fundacionales que utilizan inteligencia artificial (IA), aprendizaje profundo y conjuntos de datos masivos, incluidos sitios web, artículos y libros, para generar texto, traducir entre idiomas y escribir muchos tipos de contenido. Hay dos tipos de estos modelos de IA generativa: modelos de lenguaje de gran tamaño patentados y modelos de lenguaje de gran tamaño de código abierto.

En este video, Martin Keen explica brevemente los modelos de lenguaje de gran tamaño, cómo se relacionan con los modelos fundacionales, cómo funcionan y cómo se pueden utilizar para abordar diversos problemas empresariales.

Los LLM patentados son propiedad de una empresa y solo pueden ser utilizados por clientes que compren una licencia. La licencia puede restringir la forma en que se puede usar el LLM. Por otro lado, los LLM de código abierto son gratuitos y están disponibles para que cualquiera pueda acceder a ellos, usarlos para cualquier propósito, modificarlos y distribuirlos.

El término "código abierto" se refiere a que el código LLM y la arquitectura subyacente son accesibles al público, lo que significa que los desarrolladores e investigadores son libres de usar, mejorar o modificar el modelo.

¿Cuáles son los beneficios de los LLM de código abierto?

Anteriormente, parecía que cuanto más grande era un LLM, mejor, pero ahora las empresas se están dando cuenta de que pueden ser prohibitivamente costosas en términos de investigación e innovación. En respuesta, un ecosistema de modelos de código abierto comenzó a mostrarse prometedor y desafiar el modelo de negocio LLM.

Transparencia y flexibilidad

Las empresas que no tienen talento interno de machine learning pueden usar LLM de código abierto, que brindan transparencia y flexibilidad, dentro de su propia infraestructura, ya sea en la nube o on premises. Eso les da un control total sobre sus datos y significa que la información confidencial permanece dentro de su red. Todo esto reduce el riesgo de fuga de datos o acceso no autorizado.

Un LLM de código abierto ofrece transparencia con respecto a cómo funciona, su arquitectura y datos y metodologías de entrenamiento, y Cómo se usa. Ser capaz de inspeccionar el código y tener visibilidad de los algoritmos permite a una empresa tener más confianza, ayuda con respecto a las auditorías y ayuda a garantizar el cumplimiento ético y legal. Además, la optimización eficiente de un LLM de código abierto puede reducir la latencia y aumentar el rendimiento.

Ahorro de costos

Por lo general, son mucho menos costosos a largo plazo que los LLM patentados porque no implican tarifas de licencia. Sin embargo, el costo de operar un LLM incluye los costos de infraestructura en la nube u on premises, y generalmente implican un costo de implementación inicial significativo.

Características añadidas y contribuciones de la comunidad

Los LLM de código abierto previamente entrenados permiten realizar ajustes. Las empresas pueden agregar características al LLM que beneficien su uso específico, y los LLM también se pueden entrenar en conjuntos de datos específicos. Hacer estos cambios o especificaciones en un LLM patentado implica trabajar con un proveedor y cuesta tiempo y dinero.

Si bien los LLM patentados significan que una empresa debe confiar en un único proveedor, uno de código abierto permite a la empresa aprovechar las contribuciones de la comunidad, múltiples proveedores de servicios y posiblemente equipos internos para manejar las actualizaciones, el desarrollo, el mantenimiento y el soporte. El código abierto permite a las empresas experimentar y utilizar las contribuciones de personas con diferentes perspectivas. Eso puede dar como resultado soluciones que permitan a las empresas mantenerse a la vanguardia de la tecnología. También brinda a las empresas que utilizan LLM de código abierto más control sobre su tecnología y las decisiones con respecto a cómo la usan.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Qué tipos de proyectos pueden permitir los modelos LLM de código abierto?

Las organizaciones pueden utilizar modelos LLM de código abierto para crear prácticamente cualquier proyecto útil para sus empleados o, cuando la licencia de código abierto lo permita, que pueda ofrecerse como productos comerciales. Estas incluyen:

Generación de texto

Los modelos LLM de código abierto te permiten crear una aplicación con capacidades de generación de lenguaje, como escribir correos electrónicos, entradas en el blog o historias creativas. Un LLM como Falcon-40B, ofrecido bajo una licencia Apache 2.0, puede responder a una instrucción con sugerencias de texto de alta calidad que luego puede refinar y pulir.

Generación de código

Los LLM de código abierto capacitados en código y lenguajes de programación existentes pueden ayudar a los desarrolladores a crear aplicaciones y encontrar errores y fallas relacionadas con la seguridad.

Tutoría virtual

Los LLM de código abierto le permiten crear aplicaciones que ofrecen experiencias de aprendizaje personalizadas, que se pueden personalizar y ajustar a estilos de aprendizaje particulares.

Resumen de contenido

Una herramienta LLM de código abierto que resume artículos largos, noticias, informes de investigación y más puede facilitar la extracción de datos clave.

Chatbots impulsados por IA

Estos pueden comprender y responder preguntas, ofrecer sugerencias y entablar una conversación en lenguaje natural.

Traducción de idiomas

Los LLM de código abierto que se entrenan con conjuntos de datos multilingües pueden proporcionar traducciones precisas y fluidas en muchos idiomas.

Análisis de sentimiento

Los LLM pueden analizar el texto para determinar el tono emocional o de sentimiento, lo cual es valioso en la gestión de la reputación de la marca y el análisis del feedback.

Filtrado y moderación de contenido

Los LLM pueden ser valiosos para identificar y filtrar contenido en línea inapropiado o dañino, lo cual es de gran ayuda para mantener un entorno en línea más seguro.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Ir al episodio

¿Qué tipo de organizaciones utilizan LLM de código abierto?

Una amplia gama de tipos de organizaciones utilizan LLM de código abierto. Por ejemplo, IBM y la NASA desarrollaron un LLM de código abierto entrenado en datos geoespaciales para ayudar a los científicos y sus organizaciones a combatir el cambio climático.

Los editores y periodistas utilizan LLM de código abierto internamente para analizar, identificar y resumir información sin compartir datos de propiedad exclusiva fuera de la sala de redacción.

Algunas organizaciones de salud utilizan código abierto LLMs para software de salud, incluidas herramientas de diagnóstico, optimizaciones de tratamiento y herramientas que manejan información del paciente, salud pública y más.

El LLM FinGPT de código abierto se desarrolló específicamente para la industria financiera.

Algunos de los mejores LLM curados de código abierto

Open LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM y chatbots de código abierto en diferentes puntos de referencia.

Un LLM de código abierto de buen rendimiento con una licencia que permite acuerdos para uso comercial es LLaMa 2 por Meta IA, que abarca modelos de texto generativo previamente entrenados y ajustados con 7 a 70 mil millones de parámetros y está disponible en el estudio watsonx.ai. También está disponible a través del ecosistema Hugging Face y la biblioteca de transformadores.
Vicuna y Alpaca se crearon sobre el modelo LLaMa y, al igual que Bard de Google y ChatGPT de OpenAI, están ajustados para seguir instrucciones. Vicuna, que supera a Alpaca, iguala el rendimiento de GPT-4.
Bloom (enlace externo a ibm.com) de BigScience es un modelo de lenguaje multilingüe creado por más de 1000 investigadores de IA. Es el primer LLM multilingüe capacitado en transparencia total.
Falcon (enlace externo a ibm.com) un LLM del Instituto de Tecnología e innovación (TII) se puede utilizar con chatbots para generar texto creativo, resolver problemas complejos y reducir y automatizar tareas repetitivas. Tanto Falcon 6B como 40B están disponibles como modelos sin procesar para refinar o como modelos ya ajustados por instrucciones que se pueden usar tal cual. Falcon utiliza solo alrededor del 75 % del presupuesto de cómputo de entrenamiento de GPT-3 y lo supera significativamente.
MPT-7B y MPT-30B (enlace externo a ibm.com) son LLM de código abierto con licencia para uso comercial de MosaicML (adquirida recientemente por Databricks). MPT-7B coincide con el rendimiento de LlaMA. MPT-30B supera a GPT-3. Ambos están entrenados en 1T tokens.
FLAN-T5, lanzado por Google IA, puede manejar más de 1800 tareas diversas.
StarCoder (enlace externo a ibm.com) de Hugging Face es un asistente de programación LLM de código abierto entrenado en código permisivo de GitHub.
RedPajama-INCITE (enlace externo a ibm.com), con licencia Apache-2, es un modelo de lenguaje preentrenado con parámetros 6.9B desarrollado por Together y líderes de varias instituciones, incluida la Universidad de Montreal y el Centro de Investigación sobre modelos fundacionales.
Cerebras-GPT (enlace externo a ibm.com) de Cerebras es una familia de siete modelos GPT que van desde 111 millones hasta 13 000 millones de parámetros.
StableLM es un LLM de código abierto de Stability AI, que creó el generador de imágenes de IA Stable Diffusion. Se entrenó en un conjunto de datos que contiene 1,5 billones de tokens llamado "The Pile" y se ajusta con una combinación de conjuntos de datos de código abierto de Alpaca, GPT4All (que ofrece una gama de modelos basados en GPT-J, MPT y LlaMa), Dolly, ShareGPT y HH.

Riesgos asociados con modelos de lenguaje de gran tamaño

Aunque los resultados de LLM suenan fluidos y fidedignos, puede haber riesgos que incluyen ofrecer información basada en "alucinaciones", así como problemas de sesgo, consentimiento o seguridad. La educación sobre estos riesgos es una respuesta a estos problemas de datos e IA.

Las alucinaciones, o falsedades, pueden se resultado del entrenamiento del LLM con datos incompletos, contradictorios o inexactos o de predecir la siguiente palabra precisa en función del contexto sin comprender el significado.
El sesgo ocurre cuando la fuente de datos no es diversa o representativa.
El consentimiento se refiere a si los datos de entrenamiento se recopilaron con responsabilidad, lo que significa que sigue procesos de Gobernanza de la IA que la hacen cumplir con las leyes y regulaciones y ofrece formas para que las personas incorporen feedback.
Los problemas de seguridad pueden incluir fugas de PII, delincuentes cibernéticos que utilizan el LLM para tareas maliciosas, como phishing y spam, y hackers que cambian la programación original.

Modelos de lenguaje de gran tamaño de código abierto e IBM

Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. A medida que las nuevas regulaciones de IA imponen pautas en torno al uso de la IA, es crítico no solo administrar y gobernar modelos de IA sino, lo que es igualmente importante, gobernar los datos ingresados en la IA.

Para ayudar a las organizaciones a abordar estas necesidades y multiplicar el impacto de la IA, IBM ofrece watsonx, nuestra plataforma de datos e IA preparada para empresas. En conjunto, watsonx ofrece a las organizaciones la capacidad de:

Entrenar, ajustar y desplegar IA en toda su empresa con watsonx.ai
Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con watsonx.data
Habilitar datos y flujos de trabajo de IA responsables, transparentes y explicables con watsonx.governance

La funcionalidad de búsqueda conversacional de IBM watsonx Assistant se basa en sus integraciones predefinidas, su infraestructura de integración de código bajo (enlace externo a ibm.com® ), y su experiencia de creación sin código. Tanto los desarrolladores como los usuarios empresariales pueden automatizar la respuesta a preguntas con la búsqueda conversacional, liberándose para crear flujos transaccionales de mayor valor y experiencias digitales integradas con sus asistentes virtuales.

Más allá de la búsqueda conversacional, watsonx Assistant continúa colaborando con IBM investigación y watsonx para desarrollar LLM watsonx personalizados que se especializan en clasificación, razonamiento, extracción de información, resumen y otros casos de uso conversacional. watsonx Assistant ya ha logrado importantes avances en su capacidad para comprender a los clientes con menos esfuerzo utilizando modelos de lenguaje de gran tamaño.

Autor

IBM Data and AI Team

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos fundacionales.

Modelos de lenguaje de gran tamaño de código abierto: beneficios, riesgos y tipos