Más grande no siempre es mejor: cómo el patrón híbrido de IA permite modelos de lenguaje más pequeños

Varios cubos azules, rosas y morados

A medida que los modelos de lenguaje de gran tamaño (LLM) han entrado en el lenguaje común, la gente ha descubierto cómo usar aplicaciones que acceden a ellos. Las herramientas modernas de IA pueden generar, crear, resumir, traducir, clasificar e incluso conversar. Las herramientas del ámbito de la IA generativa nos permiten generar respuestas a las instrucciones tras aprender de artefactos existentes.

Un área que no ha experimentado mucha innovación se encuentra en el edge más lejano y en dispositivos con restricciones. Vemos algunas versiones de aplicaciones de IA ejecutándose localmente en dispositivos móviles con características de traducción de idiomas, pero aún no hemos llegado al punto en que los LLM generen valor fuera de los proveedores de servicios en la nube.

Sin embargo, hay modelos más pequeños que tienen el potencial de innovar las capacidades de IA generativa en dispositivos móviles. Examinemos estas soluciones desde la perspectiva de un modelo de IA híbrido.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Conceptos básicos sobre los LLM

Los LLM son una clase especial de modelos de IA que impulsan este nuevo paradigma. El procesamiento del lenguaje natural (PLN) permite esta capacidad. Para entrenar los LLM, los desarrolladores utilizan enormes cantidades de datos de varias fuentes, incluida internet. Los miles de millones de parámetros procesados los hacen tan grandes.

Si bien los LLM conocen una amplia gama de temas, se limitan únicamente a los datos en los que fueron capacitados. Esto significa que no siempre son “actuales” o precisos. Debido a su tamaño, los LLM suelen alojarse en la nube, lo que requiere implementaciones de hardware robustas con muchas GPU.

Esto significa que las empresas que buscan extraer información de sus datos empresariales privados o patentados no pueden utilizar los LLM sin más. Para responder a preguntas específicas, generar resúmenes o crear informes, deben incluir sus datos en LLM públicos o crear sus propios modelos. La forma de añadir los propios datos al LLM se conoce como generación de aumento de recuperación, o patrón RAG. Es un patrón de diseño de IA generativa que añade datos externos al LLM.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, consiga la guía que le ayudará a pasar a la acción.

¿Cuanto más pequeño, mejor?

Las empresas que operan en dominios especializados, como las operadoras de telecomunicaciones, la sanidad o las empresas de petróleo y gas, tienen un enfoque muy específico. Aunque pueden beneficiarse y se benefician de los escenarios y casos de uso típicos de la IA generativa, les convendría más utilizar modelos más pequeños.

En el caso de las empresas de telecomunicaciones, por ejemplo, algunos de los casos de uso comunes son asistentes de IA en centros de contacto, ofertas personalizadas en la prestación de servicios y chatbots con IA para una experiencia del cliente mejorada. Los casos de uso que ayudan a las empresas de telecomunicaciones a mejorar el rendimiento de su red, aumentar la eficiencia espectral en redes 5G o a identificar cuellos de botella específicos en su red se sirven mejor con los propios datos de la empresa (en lugar de un LLM público).

Esto nos lleva a la idea de que cuanto más pequeño, mejor. En la actualidad existen modelos de lenguaje pequeños (SLM) que son “más pequeños” en tamaño en comparación con los LLM. Los SLM se entrenan con decenas de miles de millones de parámetros, mientras que los LLM se entrenan con cientos de miles de millones de parámetros. Más importante aún, los SLM se entrenan con datos relacionados con un dominio específico. Es posible que no tengan información contextual amplia, pero funcionan muy bien en el dominio elegido. 

Debido a su menor tamaño, estos modelos pueden alojarse en el centro de datos de una empresa en lugar de en la nube. Los SLM podrían incluso funcionar en un único chip de GPU a escala, lo que supondría un ahorro de miles de dólares en costes anuales de computación. Sin embargo, la delimitación entre lo que solo se puede ejecutar en una nube o en un centro de datos empresarial se vuelve menos clara con los avances en el diseño de chips.

Ya sea por costes, privacidad o soberanía de datos, las empresas podrían querer ejecutar estos SLM en sus centros de datos. A la mayoría de las empresas no les gusta enviar sus datos a la nube. Otra razón clave es el rendimiento. La IA generativa en el edge realiza el cálculo y la inferencia lo más cerca posible de los datos, lo que lo hace más rápido y seguro que a través de un proveedor de servicios en la nube.

Cabe señalar que los SLM requieren menos potencia de cálculo y son ideales para su implementación en entornos con recursos limitados e incluso en dispositivos móviles.

Un ejemplo on-premises podría ser una ubicación de IBM® Cloud Satellite, que tiene una conexión segura de alta velocidad a IBM Cloud que aloja los LLM. Las empresas de telecomunicaciones podrían alojar estos SLM en sus estaciones base y ofrecer esta opción también a sus clientes. Todo es cuestión de optimizar el uso de las GPU, ya que la distancia que deben recorrer los datos disminuye, lo que se traduce en una mejora del ancho de banda.

¿Qué tan pequeño puede llegar a ser?

Volvamos a la cuestión original de poder ejecutar estos modelos en un dispositivo móvil. El dispositivo móvil puede ser un teléfono de gama alta, un automóvil o incluso un robot. Los fabricantes de dispositivos han descubierto que se requiere un ancho de banda significativo para ejecutar LLM. Los LLM pequeños son modelos de menor tamaño que se pueden ejecutar localmente en teléfonos móviles y dispositivos médicos.

Los desarrolladores utilizan técnicas como la adaptación de bajo rango para crear estos modelos. Permiten a los usuarios afinar los modelos a requisitos únicos manteniendo el número de parámetros entrenables relativamente bajo. De hecho, incluso hay un proyecto TinyLlama en GitHub.

Los fabricantes de chips están desarrollando chips que pueden ejecutar una versión reducida de los LLM mediante la difusión de imágenes y la destilación del conocimiento. El sistema en chip (SOC) y las unidades de neuroprocesamiento (NPU) ayudan a los dispositivos edge a ejecutar tareas de IA generativa.

Aunque algunos de estos conceptos aún no están en producción, los arquitectos de soluciones deben considerar lo que es posible hoy en día. Los SLM que trabajan y colaboran con los LLM pueden ser una solución viable. Las empresas pueden decidir utilizar modelos de IA especializados más pequeños existentes para su sector o crear los suyos propios para proporcionar una experiencia del cliente personalizada.

¿Es la IA híbrida la respuesta?

Si bien la ejecución de SLM on-premises parece práctica y los LLM pequeños en dispositivos móviles edge son atractivos, ¿qué pasa si el modelo requiere un corpus de datos más grande para responder a algunas instrucciones? 

La computación en la nube híbrida ofrece lo mejor de ambos mundos. ¿Podría aplicarse lo mismo a los modelos de IA?

Cuando los modelos más pequeños no funcionan, el modelo híbrido de IA podría ofrecer la opción de acceder a LLM en la nube pública. Tiene sentido habilitar dicha tecnología. Esto permitiría a las empresas mantener sus datos seguros dentro de sus instalaciones mediante el uso de SLM específicos del dominio, y podrían acceder a los LLM en la nube pública cuando sea necesario. A medida que los dispositivos móviles con SOC se vuelven más capaces, esta parece ser una forma más eficiente de distribuir las cargas de trabajo de IA generativa.

IBM anunció recientemente la disponibilidad del modelo de IA Mistral de código abierto en su plataforma watson. Este LLM compacto requiere menos recursos para ejecutarse, pero es igual de eficaz y tiene un mejor rendimiento en comparación con los LLM tradicionales. IBM también lanzó un modelo Granite 7B como parte de su familia de modelos fundacionales altamente seleccionados y confiables.

Sostenemos que las empresas deberían centrarse en construir modelos pequeños y específicos de dominio con datos internos de la empresa para diferenciar sus competencias principales y utilizar conocimiento a partir de sus datos (en lugar de aventurarse a crear sus propios LLMs genéricos, a los que pueden acceder fácilmente desde varios proveedores).

Más grande no siempre es mejor

Las empresas de telecomunicaciones son un buen ejemplo de organización que se beneficiaría de adoptar estos modelos de IA. Tienen una función única, ya que pueden ser tanto consumidores como proveedores. Escenarios similares podrían aplicarse a la sanidad, las plataformas petrolíferas, las empresas de logística y otros sectores. ¿Están las empresas de telecomunicaciones preparadas para hacer un buen uso de la IA generativa? Sabemos que tienen muchos datos, pero ¿tienen un modelo de series temporales que encaje con los datos?

En lo que respecta a los modelos de IA, IBM tiene una estrategia multimodelo para adaptarse a cada caso de uso único. Más grande no siempre es mejor, ya que los modelos especializados superan a los modelos de uso general con requisitos de infraestructura más bajos.

 

Autor

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explore los modelos de IA de IBM Granite