La observabilidad es la capacidad de comprender el estado interno de un sistema al analizar sus outputs externos, principalmente a través de datos de telemetría como métricas, eventos, registros y rastreos, denominados colectivamente "datos MELT".
La observabilidad va más allá de las soluciones de monitorización tradicionales para proporcionar conocimiento crítico sobre los sistemas de software y los entornos de cloud computing, y ayuda a los equipos de TI a garantizar la disponibilidad, optimizar el rendimiento y detectar anomalías.
La mayoría de los sistemas de TI se comportan de forma determinista, lo que hace que el análisis de la causa raíz sea bastante sencillo. Cuando falla una aplicación, las herramientas de observabilidad pueden utilizar los datos MELT para correlacionar las señales, localizar los fallos y determinar si se trata de una fuga de memoria, un fallo de conexión a la base de datos o un tiempo de espera de la API.
Pero los modelos de lenguaje de gran tamaño (LLM) y otras aplicaciones de inteligencia artificial (IA) generativa complican la observabilidad. A diferencia del software tradicional, los LLM producen outputs probabilísticos, lo que significa que entradas idénticas pueden producir respuestas diferentes. Esta falta de interpretabilidad, o la dificultad para rastrear cómo las entradas (o inputs) dan forma a las salidas (u outputs), puede causar problemas a las herramientas de observabilidad convencionales. Como resultado, la resolución de problemas, la depuración y la monitorización del rendimiento son significativamente más complejas en los sistemas de IA generativa.
"La observabilidad puede detectar si una respuesta de IA contiene información de identificación personal (PII), por ejemplo, pero no puede evitar que suceda", explica Drew Flowers, líder de ventas de Instana en América de IBM. "El proceso de toma de decisiones del modelo sigue siendo una caja negra".
Este fenómeno de "caja negra" pone de relieve un desafío crítico para la observabilidad de LLM. Aunque las herramientas de observabilidad pueden detectar los problemas que se han producido, no pueden evitarlos porque tienen problemas con la explicabilidad de la IA, es decir, con la capacidad de ofrecer una razón comprensible para el ser humano sobre por qué un modelo tomó una decisión específica o generó un output concreto.
Hasta que se resuelva el problema de la explicabilidad, las soluciones de observabilidad de la IA deben priorizar las cosas que pueden medir y analizar de manera efectiva. Esto incluye una combinación de datos MELT tradicionales y métricas de observabilidad específicas de la IA.
Si bien las métricas tradicionales no proporcionan una visibilidad completa del comportamiento de los modelos, siguen siendo componentes esenciales de la observabilidad de la IA. El rendimiento de la CPU, la memoria y la red repercute directamente en la funcionalidad del sistema de IA y en la experiencia del usuario. Pueden ayudar a las organizaciones a evaluar la eficiencia con la que se ejecutan las cargas de trabajo de IA y si las limitaciones de la infraestructura están afectando al rendimiento del modelo y a los tiempos de respuesta.
Sin embargo, la observabilidad de la IA requiere métricas que monitoricen las cualidades específicas del comportamiento y los outputs del modelo de IA, que incluyen:
Un token es una unidad individual de lenguaje, generalmente una palabra o parte de una palabra, que un modelo de IA es capaz de entender. El número de tokens que procesa un modelo para comprender una entrada o producir un output directamente impacta el coste y el rendimiento de una aplicación basada en LLM. Un mayor consumo de tokens puede aumentar los gastos operativos y la latencia de respuesta.
Las métricas clave para el seguimiento del uso de tokens incluyen:
Estas métricas pueden ayudar a las organizaciones a identificar oportunidades de optimización para reducir el consumo de tokens, por ejemplo, al refinar las instrucciones para transmitir más información con menos tokens. Al optimizar la utilización de tokens, las organizaciones pueden mantener una alta calidad de respuesta y, al mismo tiempo, reducir potencialmente los costes de inferencia para las cargas de trabajo de machine learning.
A diferencia del software tradicional, los modelos de IA pueden cambiar gradualmente su comportamiento a medida que evolucionan los datos del mundo real. Este fenómeno, conocido como desviación del modelo, puede afectar significativamente a la fiabilidad y el rendimiento del sistema de IA.
Las métricas clave para el seguimiento de la desviación del modelo incluyen:
Los mecanismos de detección de desviaciones pueden proporcionar alertas tempranas cuando la precisión de un modelo disminuye para casos de uso específicos, lo que permite a los equipos intervenir antes de que el modelo interrumpa las operaciones empresariales.
El seguimiento de la calidad de los outputs de la IA es esencial para mantener la confianza, la fiabilidad y el cumplimiento. Las métricas clave para realizar un seguimiento de la calidad de las respuestas incluyen:
Aunque el seguimiento de estas métricas puede ayudar a señalar las respuestas anómalas, las herramientas de observabilidad no pueden explicar completamente por qué se producen las alucinaciones, ni pueden determinar automáticamente la corrección del contenido generado por la IA. Se trata de retos fundamentales para la confianza y el gobierno de la IA que aún no han sido abordados por nadie.
Garantizar la implementación ética de la IA y el cumplimiento normativo requiere una monitorización exhaustiva de los contenidos generados por la IA.
Las métricas clave para el seguimiento de la IA responsable incluyen:
Los paneles de control de visualización en tiempo real con detección automatizada de anomalías pueden alertar a los equipos cuando los resultados de la IA se desvían de las normas esperadas. Este enfoque proactivo ayuda a las organizaciones a abordar los problemas rápidamente, monitorizar el rendimiento de la IA a lo largo del tiempo y garantizar una implementación responsable de la IA a escala.
OpenTelemetry (OTel) se ha convertido en el marco estándar del sector para recopilar y transmitir datos de telemetría, y también puede ayudar con la observabilidad de la IA generativa. Este proyecto de código abierto proporciona un enfoque independiente del proveedor para la observabilidad que es particularmente valioso en ecosistemas de IA complejos.
Para los proveedores de IA, OpenTelemetry ofrece una forma de estandarizar la forma en que comparten los datos de rendimiento sin exponer los detalles del modelo propietario o el código fuente. Para las empresas, garantiza que los datos de observabilidad fluyan de manera coherente a través de complejos pipelines de IA que pueden incluir múltiples modelos, varias dependencias y sistemas de generación aumentada por recuperación (RAG).
Las principales ventajas de OpenTelemetry para la observabilidad de la IA generativa incluyen:
Las aplicaciones de IA requieren una inversión significativa, desde los costes de licencias de modelos hasta los gastos de infraestructura y recursos para desarrolladores. Las organizaciones que retrasan la observabilidad de la IA generativa corren el riesgo de desperdiciar recursos si no pueden descubrir problemas de rendimiento, problemas éticos o implementaciones ineficientes.
"Para la observabilidad de la IA, el tiempo de obtención de valor (TTV) lo es todo", dice Flowers. "Si no puedo empezar a obtener conocimientos rápidamente, estoy desperdiciando dinero a la espera de optimizar mi sistema".
Algunos retos comunes que ralentizan la adopción de la observabilidad de la IA incluyen:
Para superar estos retos, las organizaciones deben considerar soluciones de observabilidad que admitan:
Las organizaciones deben priorizar las soluciones de observabilidad que puedan implementar rápidamente para obtener conocimientos inmediatos. Las plataformas preconfiguradas pueden reducir significativamente el tiempo de configuración y acelerar el TTV, lo que permite a los equipos comenzar a monitorizar los sistemas de IA en cuestión días en vez de semanas.
Las capacidades clave de una solución para una rápida implementación de la observabilidad de la IA incluyen:
El análisis manual de grandes cantidades de datos generados por IA puede requerir mucho tiempo y experiencia, lo que a menudo provoca retrasos, errores o problemas no detectados. Las soluciones de observabilidad pueden automatizar este proceso, lo que permite a los equipos centrarse en cuestiones más urgentes que examinar los datos de telemetría sin procesar.
Las automatizaciones clave en las soluciones de observabilidad de IA incluyen:
La observabilidad no debería ser una cuestión secundaria. Incorporarla en todo el ciclo de vida de desarrollo de la IA permitirá a los equipos de toda la organización disponer de una visibilidad compartida del rendimiento del sistema de IA, lo que permitirá una resolución de problemas más rápida y una toma de decisiones más informada.
Para la observabilidad de la IA, el TTV no se trata solo de la rapidez con la que se pueden implementar las herramientas de observabilidad. También se trata de la rapidez con la que estas herramientas ofrecen conocimientos procesables que optimizan las inversiones en IA y evitan el tiempo de inactividad.
Las formas clave de integrar la observabilidad de la IA en los flujos de trabajo de desarrollo de IA incluyen:
A medida que madura la observabilidad de la IA, las organizaciones están pasando de una monitorización reactiva a enfoques predictivos que anticipan los problemas antes de que afecten a los usuarios o a los resultados empresariales. Para ello, las soluciones de observabilidad más avanzadas incorporan ahora sus propias herramientas de IA especializadas para analizar patrones en los datos de telemetría e identificar problemas antes de que se conviertan en críticos.
"La IA más valiosa en observabilidad es la IA predictiva y causal, no la IA generativa", explica Flowers.
Las herramientas de observabilidad con capacidades de IA predictiva y causal pueden:
Este cambio de la observabilidad reactiva a la predictiva representa la próxima frontera para las operaciones de IA, ya que permite una gestión más proactiva de las aplicaciones e infraestructuras de la IA y, al mismo tiempo, garantiza resultados consistentes y de alta calidad.
A partir de los retos y soluciones analizados, he aquí cinco principios esenciales que hay que tener en cuenta a la hora de buscar la solución de observabilidad adecuada para las aplicaciones de IA generativa:
Si bien la observabilidad de la IA proporciona conocimientos críticos sobre los patrones de rendimiento y las anomalías, no puede explicar del todo los procesos internos de toma de decisiones de los modelos de lenguaje de gran tamaño. Céntrese en las métricas que indiquen la salud y el rendimiento del sistema.
La observabilidad integral de la IA generativa requiere monitorizar los patrones de uso de los tokens, los indicadores de deriva del modelo y las relaciones de instrucción-respuesta, junto con las métricas de rendimiento de la infraestructura tradicionales, como la utilización de la CPU y el consumo de memoria.
Seleccione plataformas de observabilidad que ofrezcan capacidades de implementación rápida con paneles de control preconfigurados y alertas automatizadas para obtener una rentabilidad más rápida de las inversiones en IA y evitar problemas operativos costosos.
Integre la observabilidad en una fase temprana del ciclo de vida de desarrollo del software para identificar problemas antes de la implementación, establecer líneas de base de rendimiento y crear bucles de feedback que mejoren la calidad del sistema de IA.
La estandarización en marcos de observabilidad abiertos ayuda a preparar las estrategias de observabilidad para el futuro, a la vez que proporciona una visibilidad integral de principio a fin en los complejos sistemas de IA y evita el vendor lock-in.
Además, recuerde que adoptar OpenTelemetry no significa que tenga que elegir una solución de observabilidad de código abierto. Muchas plataformas comerciales, que puede que su organización ya utilice, son totalmente compatibles con OTel y ofrecen capacidades adicionales de nivel empresarial.
Las soluciones comerciales de observabilidad pueden proporcionar una observabilidad totalmente gestionada con conocimientos impulsados por IA y asistencia continua, minimizando la configuración manual y el mantenimiento y mejorando el TTV.
"Si estoy sentado creando paneles de control, creando alertas, creando contexto y datos, literalmente solo estoy centrado en crear herramientas. No estoy optimizando el sistema. No estoy apoyando las iniciativas de los clientes", dice Flowers. "Lo que estoy haciendo fundamentalmente no me ayuda a ganar dinero".
Con las soluciones de observabilidad comercial, gran parte de esa configuración se puede automatizar o preconfigurar. Los equipos, en cambio, pueden centrarse en optimizar el rendimiento y la fiabilidad de sus modelos de IA generativa, maximizando tanto sus inversiones en observabilidad como los impactos en el mundo real de las aplicaciones de IA.
Identifique y corrija rápidamente el origen del problema. Los datos en tiempo real y de gran fidelidad ofrecen una visibilidad completa de los entornos dinámicos de aplicaciones e infraestructuras.
Aumente la automatización y las operaciones de TI con IA generativa, alineando todos los aspectos de su infraestructura de TI con las prioridades empresariales.
IBM SevOne Network Performance Management es un software de monitorización y análisis que proporciona visibilidad e información en tiempo real sobre redes complejas.