Más grande no siempre es mejor: cómo un patrón híbrido de IA permite modelos de lenguaje más pequeños

Varios cubos azules, rosas y morados

A medida que los grandes modelos de lenguaje (LLMs) entraron en el lenguaje común, la gente descubrió cómo usar aplicaciones que acceden a ellos. Las herramientas modernas de IA pueden generar, crear, resumir, traducir, clasificar e incluso conversar. Las herramientas del ámbito de la IA generativa nos permiten generar respuestas a las instrucciones tras aprender de artefactos existentes.

Un área que no ha visto mucha innovación es en el borde lejano y en dispositivos restringidos. Vemos algunas versiones de aplicaciones de IA que se ejecutan localmente en dispositivos móviles con características de traducción de idiomas, pero no hemos llegado al punto en el que las LLM generen valor fuera de los proveedores de la nube.

Sin embargo, hay modelos más pequeños que tienen el potencial de innovar las capacidades de IA generativa en dispositivos móviles. Examinemos estas soluciones desde la perspectiva de un modelo de IA híbrida.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Los conceptos básicos de los LLM

Los LLM son una clase especial de modelos de IA que impulsan este nuevo paradigma. El procesamiento de lenguaje natural (NLP) permite esta capacidad. Para entrenar a los LLM, los desarrolladores utilizan cantidades masivas de datos de diversas fuentes, incluido Internet. Los miles de millones de parámetros procesados los hacen tan grandes.

Si bien los LLM conocen una amplia gama de temas, se limitan únicamente a los datos en los que fueron capacitados. Esto significa que no siempre son “actuales” o precisos. Debido a su tamaño, los LLM suelen estar alojados en la nube, lo que requiere despliegues de hardware robustos con muchas GPU.

Esto significa que las empresas que buscan extraer información de sus datos comerciales privados o de propiedad exclusiva no pueden utilizar los LLM tal cual. Para responder preguntas específicas, generar resúmenes o crear informes, deben incluir sus datos con LLM públicos o crear sus propios modelos. La forma de agregar los propios datos al LLM se conoce como generación de aumento de recuperación o patrón RAG. Es un patrón de diseño de IA generativa que agrega datos externos al LLM.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, obtenga la guía que le ayudará a pasar a la acción.

¿Más pequeño es mejor?

Las compañías que operan en dominios especializados, como las operadoras de telecomunicaciones, la sanidad o las compañías de petróleo y gas, tienen un enfoque láser. Aunque pueden y se benefician de los escenarios y casos de uso típicos de IA generativa, les iría mejor con modelos más pequeños.

En el caso de las empresas de telecomunicaciones, por ejemplo, algunos de los casos de uso más comunes son los asistentes de IA en los centros de contacto, las ofertas personalizadas en la prestación de servicios y los chatbots impulsados por IA para una mejor experiencia del cliente. Los casos de uso que ayudan a las empresas de telecomunicaciones a mejorar el rendimiento de su red, aumentar la eficiencia espectral en las redes 5G o ayudarlas a determinar cuellos de botella específicos en su red se resuelven mejor con los propios datos de la empresa (a diferencia de un LLM público).

Esto nos lleva a la idea de que cuanto más pequeño es mejor. Ahora hay modelos de lenguaje pequeño (SLM) que son “más pequeños” en tamaño en comparación con los LLM. Los SLM se entrenan en decenas de miles de millones de parámetros, mientras que los LLM se entrenan en cientos de miles de millones de parámetros. Más importante aún, los SLM se entrenan con datos pertenecientes a un dominio específico. Es posible que no tengan información contextual amplia, pero se desempeñan muy bien en el dominio elegido. 

Debido a su menor tamaño, estos modelos pueden alojarse en el centro de datos de una empresa en lugar de en la nube. Los SLM podrían incluso funcionar a escala con un solo chip de GPU, lo que supondría un ahorro de miles de dólares en costos anuales de computación. Sin embargo, la delimitación entre lo que solo se puede ejecutar en una nube o en un centro de datos empresarial se vuelve menos clara con los avances en el diseño de chips.

Ya sea por el costo, la privacidad de datos o la soberanía de los datos, es posible que las empresas deseen ejecutar estos SLM en sus centros de datos. A la mayoría de las empresas no les gusta enviar sus datos a la nube. Otra razón clave es el rendimiento. La IA generativa en el edge realiza el cálculo y la inferencia lo más cerca posible de los datos, lo que lo hace más rápido y seguro que a través de un proveedor de la nube.

Vale la pena señalar que los SLM requieren menos potencia computacional y son ideales para despliegue en entornos con recursos limitados e incluso en dispositivos móviles.

Un ejemplo on premises podría ser una ubicación de IBM Cloud Satellite que tiene una conexión segura de alta velocidad a IBM Cloud que aloja los LLM. Las empresas de telecomunicaciones podrían alojar estos SLM en sus estaciones base y ofrecer esta opción también a sus clientes. Se trata de optimizar el uso de las GPU, ya que se reduce la distancia que deben recorrer los datos, lo que se traduce en una mejora del ancho de banda.

¿Qué tan pequeño puede ser?

Volver a la pregunta original de poder ejecutar estos modelos en un dispositivo móvil. El dispositivo móvil podría ser un teléfono de gama alta, un automóvil o incluso un robot. Los fabricantes de dispositivos han descubierto que se requiere un ancho de banda significativo para ejecutar LLM. Los LLM diminutos son modelos de menor tamaño que se pueden ejecutar localmente en teléfonos móviles y dispositivos médicos.

Los desarrolladores utilizan técnicas como la adaptación de bajo rango para crear estos modelos. Permiten a los usuarios ajustar los modelos a requisitos únicos, manteniendo relativamente bajo el número de parámetros entrenables. De hecho, incluso hay un proyecto TinyLlama en GitHub.

Los fabricantes de chips están desarrollando chips que pueden ejecutar una versión reducida de LLM a través de la difusión de imágenes y la destilación de conocimientos. El sistema en chip (SOC) y las unidades de neuroprocesamiento (NPU) ayudan a los dispositivos edge a ejecutar tareas de IA generativa.

Si bien algunos de estos conceptos aún no están en producción, los arquitectos de soluciones deben considerar lo que es posible hoy en día. Los SLM que trabajan y colaboran con los LLM pueden ser una solución viable. Las empresas pueden decidir usar modelos de IA existentes especializados para sus industrias o crear sus propios modelos de IA para proporcionar una experiencia del cliente.

¿Es la IA híbrida la respuesta?

Si bien la ejecución de SLM on premises parece práctica y los LLM diminutos en dispositivos móviles edge son atractivos, ¿qué sucede si el modelo requiere un corpus de datos más grande para responder a algunas instrucciones? 

La computación en la nube híbrida ofrece lo mejor de ambos mundos. ¿Podría aplicarse lo mismo a los modelos de IA?

Cuando los modelos más pequeños se quedan cortos, el modelo de IA híbrida podría proporcionar la opción de acceder a LLM en la nube pública. Tiene sentido habilitar dicha tecnología. Esto permitiría a las empresas mantener sus datos seguros dentro de sus instalaciones mediante el uso de SLM específicos del dominio, y podrían acceder a los LLM en la nube pública cuando sea necesario. A medida que los dispositivos móviles con SOC se vuelven más capaces, esta parece ser una forma más eficiente de distribuir cargas de trabajo de IA generativa.

IBM anunció recientemente la disponibilidad del modelo de IA Mistral de código abierto en su plataforma watson. Este LLM compacto requiere menos recursos para ejecutarse, pero es igual de eficaz y tiene un mejor rendimiento en comparación con los LLM tradicionales. IBM también lanzó un modelo Granite 7B como parte de su familia de modelos fundacionales altamente curados y confiables.

Creemos que las empresas deben centrarse en crear modelos pequeños y específicos de dominio con datos internos de la empresa para diferenciar su competencia principal y utilizar insights de sus datos (en lugar de aventurarse a crear sus propios LLM genéricos, a los que pueden acceder fácilmente desde múltiples proveedores ).

Más grande no siempre es mejor

Las empresas de telecomunicaciones son un ejemplo primordial de una empresa que se beneficiaría del beneficio de adoptar este modelo híbrido de IA. Tienen un papel único, ya que pueden ser tanto consumidores como proveedores. Escenarios similares pueden aplicarse a la atención médica, las plataformas petroleras, las empresas de logística y otras industrias. ¿Están preparadas las empresas de telecomunicaciones para hacer un buen uso de la IA generativa? Sabemos que tienen muchos datos, pero ¿tienen un modelo de series temporales que se ajuste a los datos?

Cuando se trata de modelos de IA, IBM tiene una estrategia multimodelo para adaptarse a cada caso de uso único. Más grande no siempre es mejor, ya que los modelos especializados superan a los modelos de propósito general con menores requisitos de infraestructura.

 

Autor

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explorar los modelos de IA de IBM Granite