¿Qué son los modelos de lenguaje de gran tamaño de código abierto?

Los modelos de lenguaje de gran tamaño (LLM) son modelos fundacionales que utilizan inteligencia artificial (IA), deep learning y conjuntos de datos masivos, incluidos sitios web, artículos y libros, para generar texto, traducir entre idiomas y escribir muchos tipos de contenido. Hay dos tipos de estos modelos de IA generativa: modelos de lenguaje de gran tamaño patentados y modelos de lenguaje de gran tamaño de código abierto.

En este vídeo, Martin Keen explica brevemente los grandes modelos lingüísticos, cómo se relacionan con los modelos fundacionales, cómo funcionan y cómo se pueden utilizar para dar dirección a diversos problemas empresariales.

Los LLM propietarios son propiedad de una empresa y solo pueden ser utilizados por clientes que compren una licencia. La licencia puede restringir el uso del LLM. Por otro lado, los LLM de código abierto son gratuitos y están disponibles para que cualquiera pueda acceder a ellos, utilizarlos para cualquier propósito, modificarlos y distribuirlos.

El término "código abierto" se refiere a que el código LLM y la arquitectura subyacente son accesibles al público, lo que significa que los desarrolladores e investigadores son libres de usar, mejorar o modificar el modelo.

¿Cuáles son los beneficios de los LLM de código abierto?

Antes parecía que cuanto más grande fuera un LLM, mejor, pero ahora las empresas se están dando cuenta de que pueden ser prohibitivamente caros en términos de investigación e innovación. En respuesta, un ecosistema de modelos de código abierto comenzó a mostrarse prometedor y a desafiar el modelo de negocio de LLM.

Transparencia y flexibilidad

Las empresas que no tienen talento interno de machine learning pueden utilizar LLM de código abierto, que proporcionan transparencia y flexibilidad, dentro de su propia infraestructura, ya sea en la nube o en las instalaciones. Esto les da un control total sobre sus datos y significa que la información confidencial permanece dentro de su red. Todo esto reduce el riesgo de fuga de datos o acceso no autorizado.

Un LLM de código abierto ofrece transparencia sobre cómo funciona, su arquitectura y datos y metodologías de entrenamiento, y cómo se utiliza. Ser capaz de inspeccionar el código y tener visibilidad de los algoritmos permite a una empresa más confianza, ayuda con respecto a las auditorías y ayuda a garantizar el cumplimiento ético y legal. Además, la optimización eficiente de un LLM de código abierto puede reducir la latencia y aumentar el rendimiento.

Ahorro de costes

Por lo general, son mucho menos costosos a largo plazo que los LLM propietarios porque no implican tarifas de licencia. Sin embargo, el coste de funcionamiento de un LLM incluye los costes de infraestructura en la nube o en local, y normalmente implican un coste de implementación inicial significativo.

Características añadidas y contribuciones de la comunidad

Los LLM preentrenados y de código abierto permiten un ajuste preciso. Las empresas pueden añadir características al LLM que beneficien su uso específico, y los LLM también pueden entrenarse en conjuntos de datos específicos. Realizar estos cambios o especificaciones en un LLM propietario implica trabajar con un proveedor y cuesta tiempo y dinero.

Mientras que los LLM propietarios significan que una empresa debe confiar en un único proveedor, un LLM de código abierto permite a la empresa beneficiarse de las contribuciones de la comunidad, múltiples proveedores de servicios y posiblemente equipos internos para gestionar las actualizaciones, el desarrollo, el mantenimiento y el soporte. El código abierto permite a las empresas experimentar y utilizar las contribuciones de personas con diferentes perspectivas. Esto puede dar lugar a soluciones que permitan a las empresas mantenerse a la vanguardia de la tecnología. También ofrece a las empresas que utilizan LLM de código abierto más control sobre su tecnología y las decisiones sobre cómo la utilizan.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¿Qué tipos de proyectos pueden permitir los modelos LLM de código abierto?

Las organizaciones pueden utilizar modelos LLM de código abierto para crear prácticamente cualquier proyecto útil para sus empleados o, cuando la licencia de código abierto lo permita, que puedan ofrecerse como productos comerciales. Entre ellos figuran:

Generación de textos

Los modelos LLM de código abierto le permiten crear una aplicación con capacidades de generación de lenguaje, como escribir correos electrónicos, entradas de blog o historias creativas. Un LLM como Falcon-40B, ofrecido bajo una licencia Apache 2.0, puede responder a una instrucción con sugerencias de texto de alta calidad que luego puede refinar y pulir.

Generación de código

Los LLM de código abierto formados en el código y los lenguajes de programación existentes pueden ayudar a los desarrolladores a crear aplicaciones y a encontrar errores y fallos relacionados con la seguridad.

Tutoría virtual

Los LLM de código abierto le permiten crear aplicaciones que ofrecen experiencias de aprendizaje personalizadas, que se pueden personalizar y ajustar a estilos de aprendizaje particulares.

Resumen de contenido

Una herramienta LLM de código abierto que resuma artículos largos, noticias, informes de investigación y más puede facilitar la extracción de datos clave.

Chatbots impulsados por IA

Estos pueden entender y responder preguntas, ofrecer sugerencias y entablar una conversación en lenguaje natural.

Traducción de idiomas

Los LLM de código abierto que se entrenan con conjuntos de datos multilingües pueden proporcionar traducciones precisas y fluidas en muchos idiomas.

Análisis de sentimiento

Los LLM pueden analizar el texto para determinar el tono emocional o de sentimiento, lo cual es valioso en la gestión de la reputación de la marca y el análisis de los comentarios de los clientes.

Filtrado y moderación de contenidos

Los LLM pueden ser valiosos para identificar y filtrar contenido en línea inapropiado o dañino, lo que es de gran ayuda para mantener un entorno en línea más seguro.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Ir al episodio

¿Qué tipo de organizaciones utilizan LLM de código abierto?

Una amplia gama de tipos de organizaciones utilizan LLM de código abierto. Por ejemplo, IBM y la NASA desarrollaron un LLM de código abierto entrenado en datos geoespaciales para ayudar a los científicos y sus organizaciones a luchar contra el cambio climático.

Los editores y periodistas utilizan LLM de código abierto internamente para analizar, identificar y resumir información sin compartir datos de propiedad fuera de la sala de redacción.

Algunas organizaciones sanitarias utilizan LLM de código abierto para el software sanitario, incluidas herramientas de diagnóstico, optimizaciones de tratamientos y herramientas que gestionan la información del paciente, la salud pública y mucho más.

El LLM FinGPT de código abierto se desarrolló específicamente para el sector financiero.

Algunos de los mejores LLM de código abierto seleccionados

El Open LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM y chatbots de código abierto en diferentes puntos de referencia.

LLaMA 2 de Meta AI es un LLM de código abierto con buen rendimiento y una licencia que permite acuerdos para uso comercial. Incluye modelos de texto generativo preentrenados y ajustados con entre 7000 y 70 000 millones de parámetros, y está disponible en el estudio Watsonx.ai. También está disponible a través del ecosistema Hugging Face y la biblioteca de transformadores.
Vicuna y Alpaca se crearon sobre el modelo LLaMa y, al igual que Bard de Google y ChatGPT de OpenAI, están ajustados para seguir instrucciones. Vicuna, que supera a Alpaca, iguala el rendimiento de GPT-4.
Bloom (enlace externo a ibm.com) de BigScience es un modelo lingüístico multilingüe creado por más de 1000 investigadores de IA. Es el primer LLM multilingüe formado en total transparencia.
The Falcon (enlace externo a ibm.com) El LLM del Instituto de Innovación Tecnológica (TII) se puede utilizar con chatbots para generar texto creativo, resolver problemas complejos y reducir y automatizar tareas repetitivas. Tanto Falcon 6B como 40B están disponibles como modelos sin procesar para el ajuste preciso o como modelos ya ajustados por instrucciones que se pueden utilizar tal cual. Falcon utiliza solo alrededor del 75 % del presupuesto de cálculo de entrenamiento de GPT-3 y lo supera significativamente.
MPT-7B y MPT-30B (enlace externo a ibm.com) son LLM de código abierto con licencia para uso comercial de MosaicML (recientemente adquirida por Databricks). MPT-7B coincide con el rendimiento de LlaMA. MPT-30B supera a GPT-3. Ambos están entrenados en 1T tokens.
FLAN-T5, lanzado por Google AI, puede realizar más de 1800 tareas diferentes.
StarCoder (enlace externo a ibm.com) de Hugging Face es un asistente de codificación LLM de código abierto entrenado en código permisivo de GitHub.
RedPajama-INCITE (enlace externo a ibm.com), con licencia Apache-2, es un modelo de lenguaje preentrenado de 6,9 mil millones de parámetros desarrollado por Together y líderes de varias instituciones, incluida la Universidad de Montreal y el Centro de Investigación sobre Modelos Fundacionales de Stanford.
Cerebras-GPT (enlace externo a ibm.com) de Cerebras es una familia de siete modelos GPT que van desde 111 millones hasta 13 mil millones de parámetros.
StableLM es un LLM de código abierto de Stability AI, que creó el generador de imágenes de IA Stable Diffusion. Se entrenó en un conjunto de datos que contiene 1,5 billones de tokens llamado "The Pile" y se ajusta con una combinación de conjuntos de datos de código abierto de Alpaca, GPT4All (que ofrece una gama de modelos basados en GPT-J, MPT y LlaMa), Dolly, ShareGPT y HH.

Riesgos asociados a los grandes modelos de lenguaje

Aunque los outputs de LLM suenan fluidos y fidedignos, puede haber riesgos que incluyen ofrecer información basada en alucinaciones, así como problemas de sesgo, consentimiento o seguridad. La formación sobre estos riesgos es una respuesta a estos problemas de datos e IA.

Las alucinaciones, o falsedades, pueden ser el resultado de que el LLM se entrene con datos incompletos, contradictorios o inexactos o de predecir la siguiente palabra precisa basada en el contexto sin comprender el significado.
El sesgo ocurre cuando la fuente de datos no es diversa o representativa.
El consentimiento se refiere a si los datos de entrenamiento se recopilaron con responsabilidad, lo que significa que sigue procesos de gobierno de la IA que la hacen cumplir con las leyes y regulaciones y ofrece formas para que las personas incorporen feedback.
Los problemas de seguridad pueden incluir fugas de PII, ciberdelincuentes que utilizan el LLM para tareas maliciosas como phishing y spam, y hackers que cambian la programación original.

Modelos de lenguaje de gran tamaño de código abierto e IBM

Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. A medida que las nuevas regulaciones de IA imponen pautas en torno al uso de la IA, es crítico no solo administrar y gobernar modelos de IA, sino también gobernar los datos introducidos en la IA.

Para ayudar a las organizaciones a abordar estas necesidades y multiplicar el impacto de la IA, IBM ofrece watsonx, nuestra plataforma de IA y datos preparada para la empresa. En conjunto, watsonx ofrece a las organizaciones la capacidad de:

Entrene, ajuste e implemente IA en toda su empresa con watsonx.ai
Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con watsonx.data
Habilite flujos de trabajo de datos e IA responsables, transparentes y explicables con watsonx.governance

La funcionalidad de búsqueda conversacional de IBM watsonx Assistant se basa en sus integraciones predefinidas, su marco de integraciones low-code (enlace externo a ibm.com) y su experiencia de creación no-code. Tanto los desarrolladores como los usuarios empresariales pueden automatizar la respuesta a preguntas con la búsqueda conversacional, liberándose para crear flujos transaccionales de mayor valor y experiencias digitales integradas con sus asistentes virtuales.

Más allá de la búsqueda conversacional, watsonx Assistant sigue colaborando con IBM Research y watsonx para desarrollar modelos de lenguaje de gran tamaño (LLM) personalizados que se especializan en clasificación, razonamiento, extracción de información, resumen y otros casos de uso conversacional. Watsonx Assistant ya ha logrado importantes avances en su capacidad para comprender a los clientes con menos esfuerzo utilizando modelos de lenguaje de gran tamaño.

Autor

IBM Data and AI Team

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.

Grandes modelos lingüísticos de código abierto: ventajas, riesgos y tipos