Los modelos de lenguaje de gran tamaño (LLM) son modelos fundacionales que utilizan inteligencia artificial (IA), aprendizaje profundo y conjuntos de datos masivos, incluidos sitios web, artículos y libros, para generar texto, traducir entre idiomas y escribir muchos tipos de contenido. Hay dos tipos de estos modelos de IA generativa: modelos de lenguaje de gran tamaño patentados y modelos de lenguaje de gran tamaño de código abierto.
En este video, Martin Keen explica brevemente los modelos de lenguaje de gran tamaño, cómo se relacionan con los modelos fundacionales, cómo funcionan y cómo se pueden utilizar para abordar diversos problemas empresariales.
Los LLM patentados son propiedad de una empresa y solo pueden ser utilizados por clientes que compren una licencia. La licencia puede restringir la forma en que se puede usar el LLM. Por otro lado, los LLM de código abierto son gratuitos y están disponibles para que cualquiera pueda acceder a ellos, usarlos para cualquier propósito, modificarlos y distribuirlos.
El término "código abierto" se refiere a que el código LLM y la arquitectura subyacente son accesibles al público, lo que significa que los desarrolladores e investigadores son libres de usar, mejorar o modificar el modelo.
Anteriormente, parecía que cuanto más grande era un LLM, mejor, pero ahora las empresas se están dando cuenta de que pueden ser prohibitivamente costosas en términos de investigación e innovación. En respuesta, un ecosistema de modelos de código abierto comenzó a mostrarse prometedor y desafiar el modelo de negocio LLM.
Las empresas que no tienen talento interno de machine learning pueden usar LLM de código abierto, que brindan transparencia y flexibilidad, dentro de su propia infraestructura, ya sea en la nube o on premises. Eso les da un control total sobre sus datos y significa que la información confidencial permanece dentro de su red. Todo esto reduce el riesgo de fuga de datos o acceso no autorizado.
Un LLM de código abierto ofrece transparencia con respecto a cómo funciona, su arquitectura y datos y metodologías de entrenamiento, y Cómo se usa. Ser capaz de inspeccionar el código y tener visibilidad de los algoritmos permite a una empresa tener más confianza, ayuda con respecto a las auditorías y ayuda a garantizar el cumplimiento ético y legal. Además, la optimización eficiente de un LLM de código abierto puede reducir la latencia y aumentar el rendimiento.
Por lo general, son mucho menos costosos a largo plazo que los LLM patentados porque no implican tarifas de licencia. Sin embargo, el costo de operar un LLM incluye los costos de infraestructura en la nube u on premises, y generalmente implican un costo de implementación inicial significativo.
Los LLM de código abierto previamente entrenados permiten realizar ajustes. Las empresas pueden agregar características al LLM que beneficien su uso específico, y los LLM también se pueden entrenar en conjuntos de datos específicos. Hacer estos cambios o especificaciones en un LLM patentado implica trabajar con un proveedor y cuesta tiempo y dinero.
Si bien los LLM patentados significan que una empresa debe confiar en un único proveedor, uno de código abierto permite a la empresa aprovechar las contribuciones de la comunidad, múltiples proveedores de servicios y posiblemente equipos internos para manejar las actualizaciones, el desarrollo, el mantenimiento y el soporte. El código abierto permite a las empresas experimentar y utilizar las contribuciones de personas con diferentes perspectivas. Eso puede dar como resultado soluciones que permitan a las empresas mantenerse a la vanguardia de la tecnología. También brinda a las empresas que utilizan LLM de código abierto más control sobre su tecnología y las decisiones con respecto a cómo la usan.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Las organizaciones pueden utilizar modelos LLM de código abierto para crear prácticamente cualquier proyecto útil para sus empleados o, cuando la licencia de código abierto lo permita, que pueda ofrecerse como productos comerciales. Estas incluyen:
Los modelos LLM de código abierto te permiten crear una aplicación con capacidades de generación de lenguaje, como escribir correos electrónicos, entradas en el blog o historias creativas. Un LLM como Falcon-40B, ofrecido bajo una licencia Apache 2.0, puede responder a una instrucción con sugerencias de texto de alta calidad que luego puede refinar y pulir.
Los LLM de código abierto capacitados en código y lenguajes de programación existentes pueden ayudar a los desarrolladores a crear aplicaciones y encontrar errores y fallas relacionadas con la seguridad.
Los LLM de código abierto le permiten crear aplicaciones que ofrecen experiencias de aprendizaje personalizadas, que se pueden personalizar y ajustar a estilos de aprendizaje particulares.
Una herramienta LLM de código abierto que resume artículos largos, noticias, informes de investigación y más puede facilitar la extracción de datos clave.
Estos pueden comprender y responder preguntas, ofrecer sugerencias y entablar una conversación en lenguaje natural.
Los LLM de código abierto que se entrenan con conjuntos de datos multilingües pueden proporcionar traducciones precisas y fluidas en muchos idiomas.
Los LLM pueden analizar el texto para determinar el tono emocional o de sentimiento, lo cual es valioso en la gestión de la reputación de la marca y el análisis del feedback.
Los LLM pueden ser valiosos para identificar y filtrar contenido en línea inapropiado o dañino, lo cual es de gran ayuda para mantener un entorno en línea más seguro.
Una amplia gama de tipos de organizaciones utilizan LLM de código abierto. Por ejemplo, IBM y la NASA desarrollaron un LLM de código abierto entrenado en datos geoespaciales para ayudar a los científicos y sus organizaciones a combatir el cambio climático.
Los editores y periodistas utilizan LLM de código abierto internamente para analizar, identificar y resumir información sin compartir datos de propiedad exclusiva fuera de la sala de redacción.
Algunas organizaciones de salud utilizan código abierto LLMs para software de salud, incluidas herramientas de diagnóstico, optimizaciones de tratamiento y herramientas que manejan información del paciente, salud pública y más.
El LLM FinGPT de código abierto se desarrolló específicamente para la industria financiera.
Open LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM y chatbots de código abierto en diferentes puntos de referencia.
Aunque los resultados de LLM suenan fluidos y fidedignos, puede haber riesgos que incluyen ofrecer información basada en "alucinaciones", así como problemas de sesgo, consentimiento o seguridad. La educación sobre estos riesgos es una respuesta a estos problemas de datos e IA.
Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. A medida que las nuevas regulaciones de IA imponen pautas en torno al uso de la IA, es crítico no solo administrar y gobernar modelos de IA sino, lo que es igualmente importante, gobernar los datos ingresados en la IA.
Para ayudar a las organizaciones a abordar estas necesidades y multiplicar el impacto de la IA, IBM ofrece watsonx, nuestra plataforma de datos e IA preparada para empresas. En conjunto, watsonx ofrece a las organizaciones la capacidad de:
La funcionalidad de búsqueda conversacional de IBM watsonx Assistant se basa en sus integraciones predefinidas, su infraestructura de integración de código bajo (enlace externo a ibm.com® ), y su experiencia de creación sin código. Tanto los desarrolladores como los usuarios empresariales pueden automatizar la respuesta a preguntas con la búsqueda conversacional, liberándose para crear flujos transaccionales de mayor valor y experiencias digitales integradas con sus asistentes virtuales.
Más allá de la búsqueda conversacional, watsonx Assistant continúa colaborando con IBM investigación y watsonx para desarrollar LLM watsonx personalizados que se especializan en clasificación, razonamiento, extracción de información, resumen y otros casos de uso conversacional. watsonx Assistant ya ha logrado importantes avances en su capacidad para comprender a los clientes con menos esfuerzo utilizando modelos de lenguaje de gran tamaño.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.