La observabilidad es la capacidad de comprender el estado interno de un sistema mediante el análisis de sus resultados externos, principalmente a través de datos de telemetría como métricas, eventos, registros y trazas, denominados colectivamente “datos MELT”.
La observabilidad va más allá de las soluciones de monitoreo tradicionales para proporcionar insights críticos sobre los sistemas de software y los entornos de computación en la nube, lo que ayuda a los equipos de TI a garantizar la disponibilidad, optimizar el rendimiento y detectar anomalías.
La mayoría de los sistemas de TI se comportan de forma determinista, lo que hace que el análisis de la causa principal sea bastante sencillo. Cuando una aplicación falla, las herramientas de observabilidad pueden usar datos MELT para correlacionar señales e identificar fallas, determinando si se trata de una pérdida de memoria, una falla de conexión a la base de datos o el tiempo de espera de la API.
Pero los modelos de lenguaje de gran tamaño (LLM) y otras aplicaciones de inteligencia artificial (IA) generativa complican la observabilidad. A diferencia del software tradicional, los LLM producen resultados probabilísticos, lo que significa que entradas idénticas pueden dar resultados diferentes. Esta falta de interpretabilidad,o la dificultad para rastrear cómo las entradas dan forma a los resultados, puede causar problemas para las herramientas de observabilidad convencionales. Como resultado, la resolución de problemas, la depuración y el rendimiento son mucho más complejos en los sistemas de IA generativa.
"La observabilidad, por ejemplo, puede detectar si una respuesta de IA contiene información de identificación personal (PII), pero no puede evitar que eso suceda”, explica Drew Flowers, líder de ventas para las Américas de IBM para Instana. “El proceso de toma de decisiones del modelo sigue siendo una caja negra".
Este fenómeno de "caja negra" destaca un desafío crítico para la observabilidad de los LLM. Si bien las herramientas de observabilidad pueden detectar problemas que ocurrieron, no pueden prevenir esos problemas porque luchan con la explicabilidad de la IA, que es la capacidad de proporcionar una razón comprensible para el ser humano por la que un modelo tomó una decisión específica o generó un resultado particular.
Hasta que se resuelva el problema de explicabilidad, las soluciones de observabilidad de la IA deben priorizar las cosas que pueden medir y analizar de manera efectiva. Esto incluye una combinación de datos MELT tradicionales y métricas de observabilidad específicas de la IA.
Si bien las métricas tradicionales no proporcionan una visibilidad completa del comportamiento del modelo, siguen siendo componentes esenciales de la observabilidad de la IA. El rendimiento de CPU, la memoria y la red tiene un impacto directo en la funcionalidad del sistema de IA y en la experiencia del usuario. Pueden ayudar a las organizaciones a evaluar la eficiencia con la que se ejecutan las cargas de trabajo de IA y si las limitaciones de la infraestructura están afectando al rendimiento del modelo y a los tiempos de respuesta.
Sin embargo, la observabilidad integral de la IA requiere métricas adicionales que monitoreen las cualidades específicas del comportamiento y los resultados del modelo de IA, que incluyen:
Un token es una unidad individual de lenguaje, generalmente una palabra o parte de una palabra, que puede entender un modelo de IA. La cantidad de tokens que procesa un modelo para comprender una entrada o producir resultados directamente impacta el costo y el rendimiento de una aplicación basada en LLM. Un mayor consumo de tokens puede aumentar los gastos operativos y la latencia de respuesta.
Las métricas clave para el seguimiento del uso de token incluyen:
Estas métricas pueden ayudar a las organizaciones a identificar oportunidades de optimización para reducir el consumo de tokens, como por ejemplo, refinando las instrucciones para transmitir más información en menos tokens. Al optimizar la utilización de los tokens, las organizaciones pueden mantener una alta calidad de respuesta y, al mismo tiempo, reducir potencialmente los costos de inferencia para las carga de trabajo de machine learning.
A diferencia del software tradicional, los modelos de IA pueden cambiar gradualmente su comportamiento a medida que evolucionan los datos del mundo real. Este fenómeno, conocido como deriva del modelo, puede afectar significativamente la confiabilidad y el rendimiento del sistema de IA.
Las métricas clave para el seguimiento de la deriva del modelo incluyen:
Los mecanismos de detección de la deriva pueden proporcionar alertas tempranas cuando la precisión de un modelo disminuye para casos de uso específicos, lo que permite a los equipos intervenir antes de que el modelo interrumpa las operaciones del negocio.
Monitorear la calidad de los resultados de la IA es esencial para mantener la confianza, la confiabilidad y el cumplimiento. Las métricas clave para el seguimiento de la calidad de la respuesta incluyen:
Si bien el seguimiento de estas métricas puede ayudar a marcar respuestas anómalas, las herramientas de observabilidad no pueden explicar completamente por qué ocurren las alucinaciones, ni pueden determinar automáticamente la corrección del contenido generado por IA. Estos son desafíos centrales para la confianza y la gobernanza de la IA que aún no han sido abordados por completo por nadie.
Garantizar el despliegue ético de la IA y el cumplimiento normativo requiere una supervisión exhaustiva del contenido generado por la IA.
Las métricas clave para el seguimiento de la IA responsable incluyen:
Los paneles de visualización en tiempo real con detección automatizada de anomalías pueden alertar a los equipos cuando los resultados de la IA se desvían de las normas esperadas. Este enfoque proactivo ayuda a las organizaciones a abordar los problemas rápidamente, monitorear el rendimiento de la IA a lo largo del tiempo y garantizar un despliegue de IA responsable a escala.
OpenTelemetry (OTel) se ha convertido en la infraestructura estándar de la industria para recopilar y transmitir datos de telemetría, y también puede ayudar con la observabilidad de la IA generativa. Este proyecto de código abierto proporciona un enfoque neutral del proveedor para la observabilidad que es particularmente valioso en ecosistemas complejos de IA.
Para los proveedores de IA, OpenTelemetry ofrece una manera de estandarizar la forma en que comparten datos de rendimiento sin exponer los detalles del modelo propietario o el código fuente. Para las empresas, garantiza que los datos de observabilidad fluyan de manera consistente a través de pipelines complejos de IA que pueden incluir múltiples modelos, diversas dependencias y sistemas de generación aumentada por recuperación (RAG).
Los beneficios clave de OpenTelemetry para la observabilidad de la IA generativa incluyen:
Las aplicaciones de IA requieren una inversión significativa, desde costos de licencias de modelos hasta gastos de infraestructura y recursos para desarrolladores. Las organizaciones que retrasan la observabilidad de IA generativa corren el riesgo de desperdiciar Recursos si no pueden descubrir problemas de rendimiento, problemas éticos o implementaciones ineficientes.
"Para la observabilidad de la IA, el tiempo de creación de valor (TTV) lo es todo", dice Flowers. "Si no puedo empezar a obtener insights rápidamente, estoy quemando dinero mientras espero optimizar mi sistema".
Algunos desafíos comunes que ralentizan la adopción de la observabilidad de la IA incluyen:
Para resolver estos problemas, las organizaciones deben considerar soluciones de observabilidad que admitan:
Las organizaciones deben priorizar las soluciones de observabilidad que pueden desplegar rápidamente para obtener insights inmediatos. Las plataformas preconfiguradas pueden reducir significativamente el tiempo de configuración y acelerar el tiempo de creación de valor (TTV), permitiendo a los equipos empezar a monitorear los sistemas de IA en días en lugar de semanas.
Las capacidades clave de la solución de observabilidad para un rápido despliegue de la observabilidad de la IA incluyen:
Analizar manualmente grandes cantidades de datos generados por IA puede requerir mucho tiempo y experiencia, lo que a menudo provoca retrasos, errores o problemas no detectados. Las soluciones de observabilidad pueden automatizar este proceso, lo que permite a los equipos centrarse en cuestiones más urgentes que examinar datos de telemetría sin procesar.
Las automatizaciones clave en las soluciones de observabilidad de IA incluyen:
La observabilidad no debería ser una idea tardía. Su incorporación a lo largo del ciclo de vida del desarrollo de IA capacitará a los equipos de toda la organización con visibilidad compartida del rendimiento del sistema de IA, lo que permitirá una resolución de problemas más rápida y una toma de decisiones más informada.
Para la observabilidad de IA, el TTV no se trata solo de la rapidez con la que se pueden implementar las herramientas de observabilidad. También se trata de la rapidez con la que estas herramientas ofrecen insights aplicables en la práctica que optimizan las inversiones en IA y evitan el tiempo de inactividad.
Las formas clave de integrar la observabilidad de la IA en los flujos de trabajo de desarrollo de IA incluyen:
A medida que la observabilidad de la IA madura, las organizaciones están pasando de un monitoreo reactivo a enfoques predictivos que anticipan los problemas antes de que afecten a los usuarios o a los resultados empresariales. Para ello, las soluciones de observabilidad más avanzadas incorporan ahora sus propias herramientas de IA especializadas para analizar patrones en los datos de telemetría e identificar problemas antes de que se conviertan en críticos.
"La IA más valiosa en la observabilidad es la IA predictiva y causal, no la IA generativa, " explica Flowers.
Las herramientas de observabilidad con capacidades de IA predictivas y causales pueden:
Este cambio de la observabilidad reactiva a la predictiva representa la próxima frontera para las operaciones de IA, ya que permite una gestión más proactiva de las aplicaciones y la infraestructura de IA, al tiempo que garantiza resultados coherentes y de alta calidad.
A partir de los retos y soluciones analizados, estos son cinco principios esenciales a tener en cuenta cuando se busca la solución de observabilidad adecuada para aplicaciones de IA generativa:
Si bien la observabilidad de la IA proporciona insights críticos sobre los patrones de rendimiento y las anomalías, no puede explicar completamente los procesos internos de toma de decisiones de los grandes modelos de lenguaje. Concéntrese en métricas medibles que indiquen el estado y el rendimiento del sistema.
La observabilidad integral de la IA generativa requiere monitorear los patrones de uso de tokens, los indicadores de deriva del modelo y las relaciones de instrucción-respuesta junto con las métricas tradicionales de rendimiento de la infraestructura, como la utilización de CPU y el consumo de memoria.
Seleccione plataformas de observabilidad que ofrezcan capacidades de despliegue rápido con paneles preconfigurados y alertas automatizadas para obtener retornos más rápidos de las inversiones en IA y evitar costosos problemas operacionales.
Integre la instrumentación de la observabilidad en una fase temprana del ciclo de vida de desarrollo de software para identificar problemas antes del despliegue, establecer puntos de referencia de rendimiento y crear bucles de retroalimentación que mejoren la calidad del sistema de IA.
La estandarización de los marcos de observabilidad abiertos ayuda a preparar las estrategias de observabilidad para el futuro, al tiempo que proporciona una visibilidad completa de extremo a extremo en sistemas de IA complejos y evita la vendor lock-in (dependencia de proveedores).
Además, recuerde que adoptar OpenTelemetry no significa que tenga que elegir una solución de observabilidad de código abierto. Muchas plataformas comerciales, que su organización ya puede utilizar, son totalmente compatibles con OTel y ofrecen capacidades adicionales de nivel empresarial.
Las soluciones comerciales de observabilidad pueden proporcionar una observabilidad totalmente gestionada con insights impulsados por IA y soporte continuo, para minimizar la configuración y el mantenimiento manuales y mejorar el TTV.
“Si estoy construyendo paneles, creando alertas, creando contexto y datos, literalmente solo estoy enfocado en construir herramientas. No estoy optimizando el sistema. No estoy apoyando las iniciativas de los clientes”, dice Flowers. “Lo que estoy haciendo fundamentalmente no me ayuda a ganar dinero”.
Con las soluciones comerciales de observabilidad, gran parte de esa configuración se puede automatizar o preconfigurar. En su lugar, los equipos pueden enfocarse en optimizar el rendimiento y la fiabilidad de sus modelos de IA generativa, maximizando tanto sus inversiones en observabilidad como los impactos en el mundo real de las aplicaciones de IA.
Identifique y arregle rápidamente el origen del problema. Los datos en tiempo real y de gran fidelidad ofrecen una visibilidad completa de los entornos dinámicos de aplicaciones e infraestructuras.
Aumente la automatización y las operaciones de TI con IA generativa, alineando todos los aspectos de su infraestructura de TI con las prioridades empresariales.
IBM SevOne Network Performance Management es un software de monitoreo y análisis que proporciona visibilidad e información en tiempo real sobre redes complejas.