Cómo la observabilidad se adapta a la IA generativa

Autores

Staff Writer

IBM Think

La observabilidad es la capacidad de comprender el estado interno de un sistema mediante el análisis de sus resultados externos, principalmente a través de datos de telemetría como métricas, eventos, registros y trazas, denominados colectivamente “datos MELT”.

La observabilidad va más allá de las soluciones de monitoreo tradicionales para proporcionar insights críticos sobre los sistemas de software y los entornos de computación en la nube, lo que ayuda a los equipos de TI a garantizar la disponibilidad, optimizar el rendimiento y detectar anomalías.

La mayoría de los sistemas de TI se comportan de forma determinista, lo que hace que el análisis de la causa principal sea bastante sencillo. Cuando una aplicación falla, las herramientas de observabilidad pueden usar datos MELT para correlacionar señales e identificar fallas, determinando si se trata de una pérdida de memoria, una falla de conexión a la base de datos o el tiempo de espera de la API.

Pero los modelos de lenguaje de gran tamaño (LLM) y otras aplicaciones de inteligencia artificial (IA) generativa complican la observabilidad. A diferencia del software tradicional, los LLM producen resultados probabilísticos, lo que significa que entradas idénticas pueden dar resultados diferentes. Esta falta de interpretabilidad,o la dificultad para rastrear cómo las entradas dan forma a los resultados, puede causar problemas para las herramientas de observabilidad convencionales. Como resultado, la resolución de problemas, la depuración y el rendimiento son mucho más complejos en los sistemas de IA generativa.

"La observabilidad, por ejemplo, puede detectar si una respuesta de IA contiene información de identificación personal (PII), pero no puede evitar que eso suceda”, explica Drew Flowers, líder de ventas para las Américas de IBM para Instana. “El proceso de toma de decisiones del modelo sigue siendo una caja negra".

Este fenómeno de "caja negra" destaca un desafío crítico para la observabilidad de los LLM. Si bien las herramientas de observabilidad pueden detectar problemas que ocurrieron, no pueden prevenir esos problemas porque luchan con la explicabilidad de la IA, que es la capacidad de proporcionar una razón comprensible para el ser humano por la que un modelo tomó una decisión específica o generó un resultado particular.

Hasta que se resuelva el problema de explicabilidad, las soluciones de observabilidad de la IA deben priorizar las cosas que pueden medir y analizar de manera efectiva. Esto incluye una combinación de datos MELT tradicionales y métricas de observabilidad específicas de la IA.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Métricas críticas para la observabilidad de la IA generativa

Si bien las métricas tradicionales no proporcionan una visibilidad completa del comportamiento del modelo, siguen siendo componentes esenciales de la observabilidad de la IA. El rendimiento de CPU, la memoria y la red tiene un impacto directo en la funcionalidad del sistema de IA y en la experiencia del usuario. Pueden ayudar a las organizaciones a evaluar la eficiencia con la que se ejecutan las cargas de trabajo de IA y si las limitaciones de la infraestructura están afectando al rendimiento del modelo y a los tiempos de respuesta.

Sin embargo, la observabilidad integral de la IA requiere métricas adicionales que monitoreen las cualidades específicas del comportamiento y los resultados del modelo de IA, que incluyen:

Uso del token
Model drift
Calidad de la respuesta
Monitoreo de IA responsable

Uso del token

Un token es una unidad individual de lenguaje, generalmente una palabra o parte de una palabra, que puede entender un modelo de IA. La cantidad de tokens que procesa un modelo para comprender una entrada o producir resultados directamente impacta el costo y el rendimiento de una aplicación basada en LLM. Un mayor consumo de tokens puede aumentar los gastos operativos y la latencia de respuesta.

Las métricas clave para el seguimiento del uso de token incluyen:

Tasas y costos de consumo de token, que pueden ayudar a cuantificar los gastos operativos.
Eficiencia del token, una medida de la eficacia con la que se utiliza cada token en una interacción. Las interacciones eficientes producen resultados de alta calidad al tiempo que minimizan la cantidad de tokens consumidos.
Patrones de uso de tokens en diferentes tipos de instrucciones, que pueden ayudar a identificar usos de modelos que consumen muchos recursos.

Estas métricas pueden ayudar a las organizaciones a identificar oportunidades de optimización para reducir el consumo de tokens, como por ejemplo, refinando las instrucciones para transmitir más información en menos tokens. Al optimizar la utilización de los tokens, las organizaciones pueden mantener una alta calidad de respuesta y, al mismo tiempo, reducir potencialmente los costos de inferencia para las carga de trabajo de machine learning.

Deriva del modelo

A diferencia del software tradicional, los modelos de IA pueden cambiar gradualmente su comportamiento a medida que evolucionan los datos del mundo real. Este fenómeno, conocido como deriva del modelo, puede afectar significativamente la confiabilidad y el rendimiento del sistema de IA.

Las métricas clave para el seguimiento de la deriva del modelo incluyen:

Cambios en los patrones de respuesta a lo largo del tiempo para identificar inconsistencias emergentes.
Variaciones en la calidad o relevancia del resultado que podrían indicar una disminución en el rendimiento del modelo.
Cambios en la latencia o en la utilización de recursos que podrían indicar ineficiencias computacionales.

Los mecanismos de detección de la deriva pueden proporcionar alertas tempranas cuando la precisión de un modelo disminuye para casos de uso específicos, lo que permite a los equipos intervenir antes de que el modelo interrumpa las operaciones del negocio.

Calidad de la respuesta

Monitorear la calidad de los resultados de la IA es esencial para mantener la confianza, la confiabilidad y el cumplimiento. Las métricas clave para el seguimiento de la calidad de la respuesta incluyen:

Frecuencia de alucinaciones en diferentes tipos de instrucciones para identificar posibles desencadenantes de resultados inexactos.
Precisión fáctica de las respuestas generadas, aunque esto a menudo requiere validación externa y supervisión humana.
Consistencia de los resultados para entradas similares para verificar la estabilidad del modelo a lo largo del tiempo.
Relevancia de las respuestas a las instrucciones del usuario para evaluar cómo se alinea el modelo con la intención del usuario.
El seguimiento de la latencia es crítico para las aplicaciones de IA orientadas al usuario, donde la velocidad y la precisión a menudo requieren que se hagan concesiones. Monitorear los tiempos de respuesta en diferentes tipos de instrucciones puede ayudar a las organizaciones a identificar cuellos de botella en el rendimiento e ineficiencias computacionales.

Si bien el seguimiento de estas métricas puede ayudar a marcar respuestas anómalas, las herramientas de observabilidad no pueden explicar completamente por qué ocurren las alucinaciones, ni pueden determinar automáticamente la corrección del contenido generado por IA. Estos son desafíos centrales para la confianza y la gobernanza de la IA que aún no han sido abordados por completo por nadie.

Monitoreo de IA responsable

Garantizar el despliegue ético de la IA y el cumplimiento normativo requiere una supervisión exhaustiva del contenido generado por la IA.

Las métricas clave para el seguimiento de la IA responsable incluyen:

Ocurrencias de sesgos en las respuestas para ayudar a garantizar la imparcialidad en las interacciones de los usuarios.
Instancias de PII en el contenido generado para ayudar a proteger la información confidencial.
Cumplimiento de las pautas éticas de IA para alinearse con los estándares y regulaciones de la industria.
Idoneidad del contenido para mantener la reputación de la marca y la confianza del usuario.

Los paneles de visualización en tiempo real con detección automatizada de anomalías pueden alertar a los equipos cuando los resultados de la IA se desvían de las normas esperadas. Este enfoque proactivo ayuda a las organizaciones a abordar los problemas rápidamente, monitorear el rendimiento de la IA a lo largo del tiempo y garantizar un despliegue de IA responsable a escala.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

OpenTelemetry y observabilidad de la IA

OpenTelemetry (OTel) se ha convertido en la infraestructura estándar de la industria para recopilar y transmitir datos de telemetría, y también puede ayudar con la observabilidad de la IA generativa. Este proyecto de código abierto proporciona un enfoque neutral del proveedor para la observabilidad que es particularmente valioso en ecosistemas complejos de IA.

Para los proveedores de IA, OpenTelemetry ofrece una manera de estandarizar la forma en que comparten datos de rendimiento sin exponer los detalles del modelo propietario o el código fuente. Para las empresas, garantiza que los datos de observabilidad fluyan de manera consistente a través de pipelines complejos de IA que pueden incluir múltiples modelos, diversas dependencias y sistemas de generación aumentada por recuperación (RAG).

Los beneficios clave de OpenTelemetry para la observabilidad de la IA generativa incluyen:

Independencia del proveedor: las organizaciones evitan el bloqueo a plataformas de observabilidad específicas, manteniendo la flexibilidad a medida que evolucionan las tecnologías de IA.
Visibilidad de extremo a extremo: los datos de telemetría fluyen de manera constante desde todos los componentes de la infraestructura de aplicaciones de IA.
Preparación para el futuro: a medida que evolucionan las tecnologías de IA, el estándar de OpenTelemetry se adapta, asegurando que las estrategias de observabilidad sigan siendo relevantes.
Integración del ecosistema: los estándares abiertos permiten la observabilidad en soluciones de IA de múltiples proveedores y modelos de despliegue híbridos.
Estandarización de metadatos: capture metadatos esenciales, incluidas las marcas de tiempo de entrenamiento, los orígenes del conjunto de datos y la entrada del modelo, para proporcionar un contexto crítico para comprender el comportamiento del sistema de IA.

Imagen de boletín para mensajes de automatización

Desbloquee el poder de IBM Instana Observability

IBM Instana Observability puede ayudarle a lograr un retorno de la inversión (ROI) del 219 % y reducir el tiempo de resolución de problemas de los desarrolladores en un 90 %

La velocidad lo es todo

Las aplicaciones de IA requieren una inversión significativa, desde costos de licencias de modelos hasta gastos de infraestructura y recursos para desarrolladores. Las organizaciones que retrasan la observabilidad de IA generativa corren el riesgo de desperdiciar Recursos si no pueden descubrir problemas de rendimiento, problemas éticos o implementaciones ineficientes.

"Para la observabilidad de la IA, el tiempo de creación de valor (TTV) lo es todo", dice Flowers. "Si no puedo empezar a obtener insights rápidamente, estoy quemando dinero mientras espero optimizar mi sistema".

Algunos desafíos comunes que ralentizan la adopción de la observabilidad de la IA incluyen:

Paneles personalizados complejos que requieren una amplia configuración.
Volumen de datos abrumador que crea cuellos de botella en el procesamiento.
Falta de automatización en la configuración de alertas y generación de informes.
Dificultades de integración entre plataformas de IA y herramientas de observabilidad.
Brechas de habilidades en la interpretación de datos de telemetría específicos de IA.

Para resolver estos problemas, las organizaciones deben considerar soluciones de observabilidad que admitan:

Despliegue rápido
Insights automatizados
Flujos de trabajo integrados de IA

Despliegue rápida

Las organizaciones deben priorizar las soluciones de observabilidad que pueden desplegar rápidamente para obtener insights inmediatos. Las plataformas preconfiguradas pueden reducir significativamente el tiempo de configuración y acelerar el tiempo de creación de valor (TTV), permitiendo a los equipos empezar a monitorear los sistemas de IA en días en lugar de semanas.

Las capacidades clave de la solución de observabilidad para un rápido despliegue de la observabilidad de la IA incluyen:

Plantillas de panel específicas de IA que funcionan de inmediato con una personalización mínima.
Instrumentación automatizada que puede comenzar a recopilar datos de inmediato de marcos y plataformas comunes de IA.
Conectores prediseñados para proveedores populares de LLM e infraestructura de IA que eliminan la necesidad de trabajo de integración personalizado.
Guías de implementación de inicio rápido para ayudar a los equipos a ponerse en marcha con enfoques comprobados para casos de uso comunes de IA.

Insights automatizados

Analizar manualmente grandes cantidades de datos generados por IA puede requerir mucho tiempo y experiencia, lo que a menudo provoca retrasos, errores o problemas no detectados. Las soluciones de observabilidad pueden automatizar este proceso, lo que permite a los equipos centrarse en cuestiones más urgentes que examinar datos de telemetría sin procesar.

Las automatizaciones clave en las soluciones de observabilidad de IA incluyen:

Uso de la detección de anomalías para identificar irregularidades en el comportamiento y el rendimiento de IA sin requerir una configuración manual de umbrales.
Generar recomendaciones aplicables en la práctica para la optimización del sistema en lugar de simplemente identificar problemas.
Traducir los problemas técnicos en explicaciones relevantes para el negocio.
Priorizar las alertas según el impacto para evitar la fatiga alerta y reducir el tiempo de inactividad.

Flujos de trabajo integrados de IA

La observabilidad no debería ser una idea tardía. Su incorporación a lo largo del ciclo de vida del desarrollo de IA capacitará a los equipos de toda la organización con visibilidad compartida del rendimiento del sistema de IA, lo que permitirá una resolución de problemas más rápida y una toma de decisiones más informada.

Para la observabilidad de IA, el TTV no se trata solo de la rapidez con la que se pueden implementar las herramientas de observabilidad. También se trata de la rapidez con la que estas herramientas ofrecen insights aplicables en la práctica que optimizan las inversiones en IA y evitan el tiempo de inactividad.

Las formas clave de integrar la observabilidad de la IA en los flujos de trabajo de desarrollo de IA incluyen:

Creación de observabilidad en pipelines de CI/CD para aplicaciones de IA.
Probar la instrumentación de observabilidad durante la preproducción.
Captura de métricas de la fase de desarrollo para la monitoreo de la producción.

Del monitoreo a la predicción

A medida que la observabilidad de la IA madura, las organizaciones están pasando de un monitoreo reactivo a enfoques predictivos que anticipan los problemas antes de que afecten a los usuarios o a los resultados empresariales. Para ello, las soluciones de observabilidad más avanzadas incorporan ahora sus propias herramientas de IA especializadas para analizar patrones en los datos de telemetría e identificar problemas antes de que se conviertan en críticos.

"La IA más valiosa en la observabilidad es la IA predictiva y causal, no la IA generativa, " explica Flowers.

Las herramientas de observabilidad con capacidades de IA predictivas y causales pueden:

Predecir cuándo la deriva del modelo alcanzará niveles problemáticos.
Pronosticar los requerimientos de recursos basados en patrones de uso de IA.
Identificar los patrones de instrucción que pueden producir alucinaciones.
Detectar tendencias de sesgo sutiles antes de que se vuelvan significativas.

Este cambio de la observabilidad reactiva a la predictiva representa la próxima frontera para las operaciones de IA, ya que permite una gestión más proactiva de las aplicaciones y la infraestructura de IA, al tiempo que garantiza resultados coherentes y de alta calidad.

Encontrar la solución de observabilidad de IA generativa adecuada

A partir de los retos y soluciones analizados, estos son cinco principios esenciales a tener en cuenta cuando se busca la solución de observabilidad adecuada para aplicaciones de IA generativa:

Reconocer las limitaciones inherentes

Si bien la observabilidad de la IA proporciona insights críticos sobre los patrones de rendimiento y las anomalías, no puede explicar completamente los procesos internos de toma de decisiones de los grandes modelos de lenguaje. Concéntrese en métricas medibles que indiquen el estado y el rendimiento del sistema.

Vea más allá de las métricas tradicionales

La observabilidad integral de la IA generativa requiere monitorear los patrones de uso de tokens, los indicadores de deriva del modelo y las relaciones de instrucción-respuesta junto con las métricas tradicionales de rendimiento de la infraestructura, como la utilización de CPU y el consumo de memoria.

Céntrese en el tiempo de creación de valor

Seleccione plataformas de observabilidad que ofrezcan capacidades de despliegue rápido con paneles preconfigurados y alertas automatizadas para obtener retornos más rápidos de las inversiones en IA y evitar costosos problemas operacionales.

Integre la observabilidad en el desarrollo de software

Integre la instrumentación de la observabilidad en una fase temprana del ciclo de vida de desarrollo de software para identificar problemas antes del despliegue, establecer puntos de referencia de rendimiento y crear bucles de retroalimentación que mejoren la calidad del sistema de IA.

Adoptar OpenTelemetry

La estandarización de los marcos de observabilidad abiertos ayuda a preparar las estrategias de observabilidad para el futuro, al tiempo que proporciona una visibilidad completa de extremo a extremo en sistemas de IA complejos y evita la vendor lock-in (dependencia de proveedores).

Además, recuerde que adoptar OpenTelemetry no significa que tenga que elegir una solución de observabilidad de código abierto. Muchas plataformas comerciales, que su organización ya puede utilizar, son totalmente compatibles con OTel y ofrecen capacidades adicionales de nivel empresarial.

Las soluciones comerciales de observabilidad pueden proporcionar una observabilidad totalmente gestionada con insights impulsados por IA y soporte continuo, para minimizar la configuración y el mantenimiento manuales y mejorar el TTV.

“Si estoy construyendo paneles, creando alertas, creando contexto y datos, literalmente solo estoy enfocado en construir herramientas. No estoy optimizando el sistema. No estoy apoyando las iniciativas de los clientes”, dice Flowers. “Lo que estoy haciendo fundamentalmente no me ayuda a ganar dinero”.

Con las soluciones comerciales de observabilidad, gran parte de esa configuración se puede automatizar o preconfigurar. En su lugar, los equipos pueden enfocarse en optimizar el rendimiento y la fiabilidad de sus modelos de IA generativa, maximizando tanto sus inversiones en observabilidad como los impactos en el mundo real de las aplicaciones de IA.

Desbloquee el poder de IBM Instana Observability

IBM Instana Observability puede ayudarle a lograr un retorno de la inversión (ROI) del 219 % y reducir en un 90 % el tiempo que los desarrolladores dedican a la resolución de problemas

Cómo se está ajustando la observabilidad a la IA generativa

Autores

Las últimas novedades e insights sobre IA

Métricas críticas para la observabilidad de la IA generativa

Uso del token

Deriva del modelo

Calidad de la respuesta

Monitoreo de IA responsable

Decodificación de la IA: Resumen semanal de noticias

OpenTelemetry y observabilidad de la IA

Desbloquee el poder de IBM Instana Observability

La velocidad lo es todo

Despliegue rápida

Insights automatizados

Flujos de trabajo integrados de IA

Del monitoreo a la predicción

Encontrar la solución de observabilidad de IA generativa adecuada

Share

Recursos