Los modelos de lenguaje de gran tamaño (LLM) son modelos fundacionales que utilizan inteligencia artificial (IA), deep learning y conjuntos de datos masivos, incluidos sitios web, artículos y libros, para generar texto, traducir entre idiomas y escribir muchos tipos de contenido. Hay dos tipos de estos modelos de IA generativa: modelos de lenguaje de gran tamaño patentados y modelos de lenguaje de gran tamaño de código abierto.
En este vídeo, Martin Keen explica brevemente los grandes modelos lingüísticos, cómo se relacionan con los modelos fundacionales, cómo funcionan y cómo se pueden utilizar para dar dirección a diversos problemas empresariales.
Los LLM propietarios son propiedad de una empresa y solo pueden ser utilizados por clientes que compren una licencia. La licencia puede restringir el uso del LLM. Por otro lado, los LLM de código abierto son gratuitos y están disponibles para que cualquiera pueda acceder a ellos, utilizarlos para cualquier propósito, modificarlos y distribuirlos.
El término "código abierto" se refiere a que el código LLM y la arquitectura subyacente son accesibles al público, lo que significa que los desarrolladores e investigadores son libres de usar, mejorar o modificar el modelo.
Antes parecía que cuanto más grande fuera un LLM, mejor, pero ahora las empresas se están dando cuenta de que pueden ser prohibitivamente caros en términos de investigación e innovación. En respuesta, un ecosistema de modelos de código abierto comenzó a mostrarse prometedor y a desafiar el modelo de negocio de LLM.
Las empresas que no tienen talento interno de machine learning pueden utilizar LLM de código abierto, que proporcionan transparencia y flexibilidad, dentro de su propia infraestructura, ya sea en la nube o en las instalaciones. Esto les da un control total sobre sus datos y significa que la información confidencial permanece dentro de su red. Todo esto reduce el riesgo de fuga de datos o acceso no autorizado.
Un LLM de código abierto ofrece transparencia sobre cómo funciona, su arquitectura y datos y metodologías de entrenamiento, y cómo se utiliza. Ser capaz de inspeccionar el código y tener visibilidad de los algoritmos permite a una empresa más confianza, ayuda con respecto a las auditorías y ayuda a garantizar el cumplimiento ético y legal. Además, la optimización eficiente de un LLM de código abierto puede reducir la latencia y aumentar el rendimiento.
Por lo general, son mucho menos costosos a largo plazo que los LLM propietarios porque no implican tarifas de licencia. Sin embargo, el coste de funcionamiento de un LLM incluye los costes de infraestructura en la nube o en local, y normalmente implican un coste de implementación inicial significativo.
Los LLM preentrenados y de código abierto permiten un ajuste preciso. Las empresas pueden añadir características al LLM que beneficien su uso específico, y los LLM también pueden entrenarse en conjuntos de datos específicos. Realizar estos cambios o especificaciones en un LLM propietario implica trabajar con un proveedor y cuesta tiempo y dinero.
Mientras que los LLM propietarios significan que una empresa debe confiar en un único proveedor, un LLM de código abierto permite a la empresa beneficiarse de las contribuciones de la comunidad, múltiples proveedores de servicios y posiblemente equipos internos para gestionar las actualizaciones, el desarrollo, el mantenimiento y el soporte. El código abierto permite a las empresas experimentar y utilizar las contribuciones de personas con diferentes perspectivas. Esto puede dar lugar a soluciones que permitan a las empresas mantenerse a la vanguardia de la tecnología. También ofrece a las empresas que utilizan LLM de código abierto más control sobre su tecnología y las decisiones sobre cómo la utilizan.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Las organizaciones pueden utilizar modelos LLM de código abierto para crear prácticamente cualquier proyecto útil para sus empleados o, cuando la licencia de código abierto lo permita, que puedan ofrecerse como productos comerciales. Entre ellos figuran:
Los modelos LLM de código abierto le permiten crear una aplicación con capacidades de generación de lenguaje, como escribir correos electrónicos, entradas de blog o historias creativas. Un LLM como Falcon-40B, ofrecido bajo una licencia Apache 2.0, puede responder a una instrucción con sugerencias de texto de alta calidad que luego puede refinar y pulir.
Los LLM de código abierto formados en el código y los lenguajes de programación existentes pueden ayudar a los desarrolladores a crear aplicaciones y a encontrar errores y fallos relacionados con la seguridad.
Los LLM de código abierto le permiten crear aplicaciones que ofrecen experiencias de aprendizaje personalizadas, que se pueden personalizar y ajustar a estilos de aprendizaje particulares.
Una herramienta LLM de código abierto que resuma artículos largos, noticias, informes de investigación y más puede facilitar la extracción de datos clave.
Estos pueden entender y responder preguntas, ofrecer sugerencias y entablar una conversación en lenguaje natural.
Los LLM de código abierto que se entrenan con conjuntos de datos multilingües pueden proporcionar traducciones precisas y fluidas en muchos idiomas.
Los LLM pueden analizar el texto para determinar el tono emocional o de sentimiento, lo cual es valioso en la gestión de la reputación de la marca y el análisis de los comentarios de los clientes.
Los LLM pueden ser valiosos para identificar y filtrar contenido en línea inapropiado o dañino, lo que es de gran ayuda para mantener un entorno en línea más seguro.
Una amplia gama de tipos de organizaciones utilizan LLM de código abierto. Por ejemplo, IBM y la NASA desarrollaron un LLM de código abierto entrenado en datos geoespaciales para ayudar a los científicos y sus organizaciones a luchar contra el cambio climático.
Los editores y periodistas utilizan LLM de código abierto internamente para analizar, identificar y resumir información sin compartir datos de propiedad fuera de la sala de redacción.
Algunas organizaciones sanitarias utilizan LLM de código abierto para el software sanitario, incluidas herramientas de diagnóstico, optimizaciones de tratamientos y herramientas que gestionan la información del paciente, la salud pública y mucho más.
El LLM FinGPT de código abierto se desarrolló específicamente para el sector financiero.
El Open LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM y chatbots de código abierto en diferentes puntos de referencia.
Aunque los outputs de LLM suenan fluidos y fidedignos, puede haber riesgos que incluyen ofrecer información basada en alucinaciones, así como problemas de sesgo, consentimiento o seguridad. La formación sobre estos riesgos es una respuesta a estos problemas de datos e IA.
Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. A medida que las nuevas regulaciones de IA imponen pautas en torno al uso de la IA, es crítico no solo administrar y gobernar modelos de IA, sino también gobernar los datos introducidos en la IA.
Para ayudar a las organizaciones a abordar estas necesidades y multiplicar el impacto de la IA, IBM ofrece watsonx, nuestra plataforma de IA y datos preparada para la empresa. En conjunto, watsonx ofrece a las organizaciones la capacidad de:
La funcionalidad de búsqueda conversacional de IBM watsonx Assistant se basa en sus integraciones predefinidas, su marco de integraciones low-code (enlace externo a ibm.com) y su experiencia de creación no-code. Tanto los desarrolladores como los usuarios empresariales pueden automatizar la respuesta a preguntas con la búsqueda conversacional, liberándose para crear flujos transaccionales de mayor valor y experiencias digitales integradas con sus asistentes virtuales.
Más allá de la búsqueda conversacional, watsonx Assistant sigue colaborando con IBM Research y watsonx para desarrollar modelos de lenguaje de gran tamaño (LLM) personalizados que se especializan en clasificación, razonamiento, extracción de información, resumen y otros casos de uso conversacional. Watsonx Assistant ya ha logrado importantes avances en su capacidad para comprender a los clientes con menos esfuerzo utilizando modelos de lenguaje de gran tamaño.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.