¿Qué es la orquestación de LLM?

Un hombre sentado frente a la mesa estudiando.

Autores

Vanna Winland

AI Advocate & Technology Writer

Joshua Noble

Data Scientist

La orquestación de LLM ayuda a instrucciónes, encadenar, gestionar y monitorear modelos de lenguaje de gran tamaño.LLM La orquestación de LLM está impulsada por infraestructura de orquestación. Estas infraestructuras son herramientas integrales que optimizan la construcción y administración de aplicaciones impulsadas por LLM.

Los LLMOps utilizan la orquestación en una amplia gama de aplicaciones, como la generación de lenguaje natural, la traducción automática, la toma de decisiones y los chatbots. A medida que las organizaciones adoptan la IA para crear este tipo de aplicaciones de IA generativa, la orquestación eficiente de LLM es crucial.

Por poderoso que sea el modelo fundacional de un LLM, los LLM están limitados en lo que pueden lograr por sí solos. Por ejemplo, los LLM carecen de la capacidad de retener o aprender información nueva en tiempo real y tienen dificultades para completar problemas de varios pasos porque están limitados en lo que pueden retener del contexto.1 Además, la coordinación de numerosos LLM puede volverse compleja rápidamente mientras se lidia con las interfaces de programación de aplicaciones (API) de los diferentes proveedores de LLM.

Los infraestructuras de orquestación de LLM compensan estas limitaciones mediante la simplificación de los complejos procesos de integración de la ingeniería de instrucción, la interacción de API, la recuperación de datos y la gestión de estado en conversaciones con modelos de lenguaje.2

Cada día se desarrollan nuevas infraestructuras de orquestación de LLM que ganan popularidad. Algunas orquestaciones de LLM se especializan como infraestructuras de configuración o bases de datos, mientras que otras utilizan agentes de IA para colaborar y completar tareas u objetivos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Cómo funcionan las infraestructuras de orquestación de LLM

Para comprender cómo funcionan las infraestructuras de orquestación de LLM, es útil comprender dónde se encuentra la orquestación dentro de la arquitectura de las aplicaciones controladas por LLM.

La capa de orquestación

La capa de orquestación es la columna vertebral de la pila de aplicaciones LLM. El orquestador crea un flujo de trabajo coherente gestionando las interacciones entre las demás capas de la arquitectura de la aplicación.3 De forma similar a un orquestador musical, el orquestador LLM delega y gestiona el flujo de trabajo de cada componente técnico en función de la composición de la aplicación.

Estos componentes incluyen la interacción entre LLM, plantillas de instrucciones, bases de datos vectoriales y agentes.La orquestación garantiza que cada componente de una aplicación de IA generativa funcione de manera coherente al proporcionar herramientas y mecanismos para gestionar el ciclo de vida de los LLM de manera eficaz dentro de diversas aplicaciones y entornos.

Tareas de orquestación

Los infraestructuras de orquestación simplifican tareas complejas, incluido el encadenamiento de instrucciones, la interfaz con API externas, la obtención de datos contextuales de bases de datos vectoriales y la gestión de la memoria en múltiples interacciones LLM. A continuación, se muestra una descripción general de las tareas operativas que se usan normalmente en las orquestaciones de LLM:

Gestión rápida de la cadena

Ingeniería rápida es la práctica de estructurar entradas LLM (instrucciones) para que las herramientas de IA generativa produzcan resultados optimizados. Los marcos de infraestructura proporcionan plantillas de instrucciones que incluyen instrucciones, ejemplos breves y un contexto específico, así como preguntas apropiadas para una tarea5

El encadenamiento se refiere a una secuencia de llamadas que conectan varios LLM para combinar sus resultados y lograr resultados más matizados (también conocido como encadenamiento de instrucción ), una herramienta o un paso de preprocesamiento dedatos. 6

La capa de orquestación gestiona estas tareas de instrucciones almacenándolas en una base de conocimientos o biblioteca en la que se pueden buscar y recuperar fácilmente datos de instrucciones. El orquestador puede seleccionar dinámicamente instrucciones de la biblioteca en función de las entradas en tiempo real, el contexto o las preferencias del usuario. Además, puede secuenciar las instrucciones en un orden lógico para gestionar los flujos de conversación.

Los LLM carecen de la capacidad inherente de aprender continuamente y tienen una comprensión contextual limitada. Al administrar las instrucciones, el orquestador refina los resultados evaluando las respuestas. 

Los LLM tampoco son capaces de autocomprobarse los hechos, que genera alucinaciones si no se gestionan. El orquestador puede verificar las respuestas y asegurarse de que cumplan con las pautas personalizadas. Si una respuesta se queda corta, el orquestador puede marcarla para revisión humana o hacer sugerencias alternativas de manera efectiva, lo que permite que el LLM aprenda y mejore. 7

Gestión de recursos y rendimiento de LLM

La mayoría de las infraestructuras de orquestación de LLM incluyen alguna forma de LLMOps para el monitoreo operativo. Estas características incluyen la recopilación de métricas de rendimiento basadas en pruebas de punto de referencia de LLM. Estas métricas se pueden observar a través de paneles que permiten a los usuarios mantenerse informados con las métricas de rendimiento de LLM en tiempo real.

Otros Recursos LLMOps incluyen herramientas de diagnóstico para el análisis de causa principal (RCA), lo que reduce el tiempo que se tarda en depurar.

Gestión y preprocesamiento de datos

El orquestador facilita el acceso y la recuperación de datos de orígenes identificados mediante el uso de conectores o API adecuados. El preprocesamiento se refiere a la conversión de datos “sin procesar” de múltiples fuentes a un formato adecuado para el LLM. Cuanto más grande es una colección de datos, más sofisticado debe ser el mecanismo de datos que la analiza. El procesamiento previo garantiza que los datos se adapten a los requisitos planteados por cada algoritmo de minería de datos.8 Los orquestadores pueden facilitar el procesamiento previo ajustando y refinando los datos para hacerlos más valiosos.

Integración e interacción de LLM

El orquestador inicia el LLM para ejecutar su tarea asignada. Una vez que se completa el procesamiento, el orquestador recibe el resultado del modelo e integra cualquier mecanismo de retroalimentación para evaluar su calidad general y lo entrega al destino correspondiente.

El orquestador contiene almacenes de memoria que actúan como una base de conocimiento para mejorar los resultados y las interacciones de LLM y proporcionar comprensión contextual. Al manejar y almacenar mensajes o entradas anteriores, el orquestador acumula conocimiento a largo plazo que proporciona respuestas más precisas basadas en interacciones pasadas.9

El orquestador es responsable de facilitar la implementación de las características de observabilidad y las infraestructuras de medidas de seguridad. Desde la perspectiva de LLMOps, los LLM que se ejecutan sin estas capacidades corren el riesgo de producir resultados erróneos y correr riesgos de seguridad basados en las capacidades limitadas de los LLM que no están altamente sintonizados.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Beneficios de la orquestación de LLM

Los marcos de orquestación de LLM proporcionan la gestión y optimización necesarias para optimizar las interacciones y los flujos de trabajo de LLM para mejorar LLMOps.

  • Escalabilidad: utilización óptima de los recursos por parte de la habilitación para escalar hacia arriba o hacia abajo según la demanda. 
  • Gestión de recursos: Los marcos gestionan recursos como la CPU, la GPU, la memoria y el almacenamiento asignándolos dinámicamente en función de la carga de trabajo.
  • Automatización del flujo de trabajo: permite automatizar flujos de trabajo complejos que involucran LLM como preprocesamiento de datos, capacitación de modelos, inferencia y postprocesamiento. La optimización de las operaciones reduce el esfuerzo manual y mejora la eficiencia general al renunciar a estas cargas de los desarrolladores.
  • Equilibrio de la carga: al distribuir las solicitudes entre varias instancias LLM, las infraestructuras evitan la sobrecarga de instancias específicas y mejoran la fiabilidad general del sistema y los tiempos de respuesta.
  • Tolerancia a fallas: la mayoría de los infraestructuras incluyen mecanismos para detectar fallas en instancias de LLM y redirigir automáticamente el tráfico a instancias en buen estado, minimizando el tiempo de inactividad y manteniendo la disponibilidad del servicio.
  • Control de versiones y actualizaciones: administre diferentes versiones de LLMs y despliegue actualizaciones sin distribución.
  • Rentabilidad: una orquestación eficaz puede optimizar los costos mediante la asignación dinámica de recursos en función de la demanda. 
  • Seguridad y cumplimiento: el control y la monitoreo centralizados en todas las instancias de LLM garantizan el cumplimiento de las normas reglamentarias. 
  • Integración con otros servicios: Promueve un ecosistema cohesivo al admitir la integración con otros servicios, como almacenamiento de datos, registro, monitoreo y analytics.
  • Disminución de las barreras técnicas: permite la implementación con los equipos existentes, no se necesitan expertos en IA. Las herramientas se están construyendo sobre infraestructura para facilitar su uso. Por ejemplo, LangFlow es una interfaz de usuario gráfica (IU) para LangChain.10

Elegir el marco de orquestación LLM adecuado

Los desarrolladores de aplicaciones tienen la opción de adoptar las soluciones emergentes o crear las suyas propias desde cero. Elegir el marco de orquestación LLM adecuado requiere una planificación y una estrategia cuidadosas.

Aspectos a considerar antes de elegir una infraestructura de orquestación LLM: 

Usabilidad

Consulte la documentación de la API de la infraestructura y asegúrese de que sea útil y permita a los desarrolladores comenzar fácilmente. Además, consulte los recursos de la comunidad de la infraestructura para evaluar el tipo de soporte de resolución de problemas proporcionado.

Consideraciones de costos

Evaluar las implicaciones de costos de adoptar diferentes infraestructuras. Muchos entornos de orquestación LLM son de código abierto con una opción a nivel empresarial de pago. Asegúrese de que el modelo de precios sea el adecuado, no solo con la inversión inicial sino también con los gastos continuos, como licencias, actualizaciones y servicios de soporte. Un marco rentable ofrece un equilibrio entre el precio y las características que proporciona.

Consideraciones de seguridad

Al elegir el LLM adecuado, verifique las características de seguridad, como cifrado, controles de acceso y registros de auditoría, que brindan seguridad de datos y ayudan a proteger sus datos y cumplir con las regulaciones de privacidad pertinentes.

Herramientas de control y gestión del rendimiento

Informar sobre herramientas de monitoreo y gestión. Estos incluyen funciones para rastrear métricas como tiempos de respuesta, precisión y utilización de recursos. 

Infraestructura de orquestación de LLM

Estos son algunos marcos de orquestación conocidos y emergentes:

IBM watsonx Orchestrate

IBM watsonx Orchestrate utiliza el procesamiento de lenguaje natural para acceder a una amplia gama de habilidades de aprendizaje automático. La infraestructura de IBM consta de miles de aplicaciones y habilidades prediseñadas, incluido un creador de asistentes de IA y un estudio de habilidades. 

Los casos de uso incluyen ayudar a los departamentos de recursos humanos dando a los equipos las herramientas necesarias para incorporar y apoyar a las nuevas contrataciones e impulsar los equipos de compras y ventas.

LangChain

Un código abierto basado en python para crear aplicaciones LLM. LangChain se compone de varias bibliotecas de código abierto que proporcionan una interfaz flexible con los componentes principales de la aplicación LLM, como modelos de incrustación, LLM, almacenes vectoriales, recuperadores y más.11

Los casos de uso comunes de extremo a extremo de LangChain incluyen la cadena de preguntas y respuestas y el agente sobre una SQL database, chatbots, extracción, análisis de consultas, resumen, simulaciones de agentes, agentes autónomos y mucho más.12

AutoGen

La infraestructura de conversación multiagente de código abierto de Microsoft ofrece una abstracción de alto nivel de modelos fundacionales. AutoGen es una infraestructura que significa que utiliza múltiples agentes para conversar y resolver tareas. Sus principales características incluyen agentes de IA personalizables que participan en conversaciones multiagente con patrones flexibles para crear una amplia gama de aplicaciones LLM.13

Las implementaciones de AutoGen en aplicaciones impulsadas por LLM incluyen chatbots de tutoría matemática, ajedrez conversacional, toma de decisiones, chat grupal dinámico y multiagente programación.14 AutoGen ofrece análisis de monitoreo y reproducción para la depuración a través de AgentOps.15

LlamaIndex

LlamaIndex proporciona las herramientas para crear aplicaciones LLM aumentadas por contexto. Estos incluyen herramientas de Integración de datos como conectores de datos para procesar datos de más de 160 fuentes y formatos.16 LlamaIndex también incluye una suite para evaluar el rendimiento de las aplicaciones LLM.

Los muchos casos de uso populares de LlamaIndex incluyen aplicaciones de preguntas y respuestas (generación aumentada por recuperación también conocida como RAG), chatbots, comprensión de documentos y extracción de datos, y modelos de ajuste de datos para mejorar el rendimiento.17

Haystack

Haystack es una infraestructura Python de código abierto creada con dos conceptos principales para crear sistemas personalizados de IA generativa de extremo a extremo: componentes y pipelines. Haystack tiene asociaciones con muchos proveedores de LLM, bases de datos vectoriales y herramientas de IA que hacen que las herramientas para construir sobre ellas sean completas y flexibles.18

Los casos de uso comunes que ofrece haystack incluyen sistemas de búsqueda semántica, extracción de información y respuesta a preguntas de estilo FAQ.19

crewAI

crewAI es un marco multiagente de código abierto creado sobre LangChain. Los agentes autónomos de rol de IA se ensamblan en equipos para completar los flujos de trabajo y tareas relacionados con las aplicaciones LLM.20 crewAI ofrece una versión empresarial llamada crewAI+. 

Las aplicaciones tanto para principiantes como para usuarios más técnicos incluyen generación de páginas de destino, análisis de acciones y conexión. CrewAI usa AgentOps para brindar monitoreo y métricas a los agentes.21

El futuro de la orquestación de los LLM

Los marcos de orquestación LLM siguen madurando a medida que avanzan las aplicaciones de IA generativa, agilizando los LLMOps flujos de trabajo para más soluciones de inteligencia artificial.

Las infraestructuras proporcionan las herramientas y la estructura necesarias para que una aplicación LLM saque el máximo partido de sus modelos. Los marcos futuros podrían utilizar agentes de IA y sistemas multiagente para facilitar la automatización inteligente.

Los patrones en las infraestructuras de orquestación emergentes sugieren que la creación de arquitecturas más complejas, como sistemas multiagente que admiten la integración para implementar características, brinda a los agentes las habilidades que necesitan para lograr flujos de trabajo autónomos.

La usabilidad también se está convirtiendo en una prioridad para las plataformas de orquestación. A medida que el mercado madure, se desarrollarán más herramientas que se centren en la experiencia del usuario. Este enfoque también reduce las barreras técnicas para usar estos marcos. Algunas infraestructuras de orquestación, como IBM watsonx Orchestrate, aprovechan una interfaz de lenguaje natural para una interacción y usabilidad sencillas.

Gestionar la orquestación de LLM es una tarea compleja, mientras que la orquestación es clave para escalar y automatizar los flujos de trabajo basados en LLM.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas de pie de página

1 Andrei Kucharavy, “Fundamental Limitations of Generative LLMS,” SpringerLink, January 1, 1970, https://link.springer.com/chapter/10.1007/978-3-031-54827-7_5.

2 Anna Vyshnevska, “LLM Orchestration for Competitive Business Advantage: Tools & Frameworks,” Master of Code Global, June 26, 2024. https://masterofcode.com/blog/llm-orchestration.

3 Matt Bornstein, Rajko Radovanovic, “Emerging Architectures for LLM Applications,” Andreessen Horowitz, May 8, 2024. https://a16z.com/emerging-architectures-for-llm-applications/

4 Vyshnevska, “LLM Orchestration for Competitive Business.” 

5 “Quick Reference,” LangChain, https://python.langchain.com/v0.1/docs/modules/model_io/prompts/quick_start/

6 “Chains,” LangChain, https://python.langchain.com/v0.1/docs/modules/chains/.

7 Manish, “Compounding GenAI Success.”

8 Salvador Garcia and others, “Big Data Preprocessing: Methods and Prospects - Big Data Analytics,” SpringerLink, November 1, 2016, https://link.springer.com/article/10.1186/s41044-016-0014-0.

9 Manish, “Compounding GenAI Success.”

10 “Create Your AI App!” Langflow, https://www.langflow.org/.

11 “Conceptual Guide,” LangChain, https://python.langchain.com/v0.2/docs/concepts/.

12 “Use Cases,” LangChain, https://js.langchain.com/v0.1/docs/use_cases/.

13 “Getting Started: Autogen,” AutoGen RSS, https://microsoft.github.io/autogen/docs/Getting-Started/.

14 “Multi-Agent Conversation Framework: Autogen,” AutoGen RSS, https://microsoft.github.io/autogen/docs/Use-Cases/agent_chat/#diverse-applications-implemented-with-autogen.

15 “AgentOps,” AgentOps, https://www.agentops.ai/?=autogen.

16 “Loading Data (Ingestion),” LlamaIndex, https://docs.llamaindex.ai/en/stable/understanding/loading/loading/.

17 “Use Cases,” LangChain, https://js.langchain.com/v0.1/docs/use_cases/.

18 “What Is Haystack?” Haystack, https://haystack.deepset.ai/overview/intro.

19 “Use Cases,” Haystack, https://haystack.deepset.ai/overview/use-cases.

20 “Ai Agents Forreal Use Cases,” crewAI, https://www.crewai.com/.

21 crewAI, Inc. “Agent Monitoring with AgentOps,” crewAI, https://docs.crewai.com/introduction#agentops.