Reducción de la fatiga por alertas con agentes de IA

Dos colegas en un escritorio mirando datos de rendimiento en cuatro monitores
Michael Goodwin

Staff Editor, Automation & ITOps

IBM Think

Los equipos de ingeniería de fiabilidad del sitio (SRE) y DevOps están agotados. Los extensos parques informáticos, la sobrecarga de herramientas y el continuo estado de guardia contribuyen a un problema general: la fatiga por alertas.

La fatiga por alertas (a veces llamada fatiga por alarmas) se refiere a "un estado de agotamiento mental y operativo causado por un número abrumador de alertas". Erosiona la capacidad de respuesta y la eficacia de DevOps, el centro de operaciones de seguridad (SOC), la ingeniería de fiabilidad del sitio (SRE) y otros equipos responsables de la seguridad y el rendimiento de TI, y es un problema generalizado y con consecuencias.

El informe "2023 State of Threat Detection" de Vectra (basado en una encuesta a 2000 analistas de seguridad de TI de empresas con 1000 o más empleados) reveló que los equipos de SOC reciben una media de 4484 alertas al día. De ellas, el 67 % se ignoran debido al elevado volumen de falsos positivos y a la fatiga por alertas. El informe también reveló que el 71 % de los analistas creía que su organización ya podría haberse visto "comprometida sin su conocimiento, debido a la falta de visibilidad y confianza en las capacidades de detección de amenazas".

Aunque el informe de Vectra se centra específicamente en la seguridad, los equipos encargados de monitorizar el rendimiento de las aplicaciones y la infraestructura se enfrentan a una sobrecarga similar. Por ejemplo, un solo error de configuración puede causar cientos o miles de alertas de rendimiento, una "tormenta de alertas" que puede distraer o insensibilizar a los equipos de TI y provocar retrasos en las respuestas a alertas críticas y problemas reales. Esos problemas reales pueden ser costosos.

¿Qué está provocando este agotamiento? ¿Puede la IA agéntica formar parte de una solución escalable?

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Causas principales de la fatiga por alertas

Hay varios culpables y, a menudo, se cita un volumen abrumador de telemetría como uno de ellos. Pero centrarse en el volumen de datos oculta específicamente un tema fundamental: la calidad de los datos y el contexto.

Falta de contexto y ruido de alertas

Cuando los equipos trabajan con montones de datos de baja calidad y poco contextualizados, que alimentan docenas de fuentes diferentes de inteligencia sobre amenazas o rendimiento, están abocados a encontrarse con problemas. Este es el tipo de entorno en el que proliferan los falsos positivos y las alertas redundantes, y el ruido de baja prioridad distrae de las amenazas reales y los problemas de rendimiento. Estas "falsas alarmas" pueden extenuar a los equipos de TI, DevOps y seguridad.

Limitarse a alimentar estos flujos masivos de telemetría en un modelo de lenguaje de gran tamaño (LLM) tampoco es una solución viable. Para empezar, es un desperdicio de computación. También es una buena forma de producir alucinaciones.

Una solución práctica comienza con el desarrollo de un flujo de trabajo que sintetice datos sin procesar y agregue datos de mayor calidad y ricos en contexto dentro de una plataforma centralizada. Allí pueden utilizarse para la observabilidad en toda la empresa y el entrenamiento de modelos de IA.

Herramientas fragmentadas

Las empresas suelen utilizar muchas soluciones de monitorización del rendimiento y la seguridad: las grandes empresas tienen una media de 76 herramientas de seguridad. Estas herramientas pueden ser específicas de un equipo o de un producto, o específicas de un determinado entorno de TI (soluciones on-premises vs. soluciones en la nube, por ejemplo).

Cada una de estas herramientas puede ser responsable de monitorizar docenas o cientos de aplicaciones, interfaces de programación de aplicaciones (API) o servidores, cada uno alimentando su propio pipeline de datos. Con tales silos, herramientas separadas pueden generar múltiples alertas derivadas del mismo problema subyacente. Esta falta de integración limita la visibilidad, lo que dificulta la correlación y el análisis de la causa raíz. Los SRE pierden tiempo investigando cada una de estas alertas antes de identificar las redundancias.

Mala integración y visibilidad de los datos

Cuando los flujos de datos no se integran en un sistema de monitorización integral, los equipos de TI no disponen de la observabilidad de todo el sistema necesaria para una correlación eficaz de las alertas, el análisis de la causa raíz y la corrección.

Y lo que es peor, esta falta de integración dificulta la eficacia de las herramientas de automatización para la gestión de alertas, como los flujos de trabajo de priorización y correlación de alertas, establecidos para ayudar en la detección y resolución y reducir el volumen de alertas. Los equipos tienen que conectar manualmente los puntos, una tarea ardua y que requiere mucho tiempo (si no imposible).

Una encuesta citada en el informe "Adaptive Defense: Custom Alerts for Modern Threats" de Deloitte reveló que "la falta de visibilidad o contexto de las herramientas de seguridad dio lugar a que el 47 % de los ataques se pasaran por alto en un periodo de 12 meses".

Aunque los agentes individuales no requieren necesariamente la centralización, una plataforma centralizada en la que se agreguen los datos de los agentes facilita el análisis, el almacenamiento y la visualización de todo el sistema.

¿Pueden la IA y las soluciones de agencia ofrecer algún tipo de alivio?

Sí... con una estrategia enfocada.

Un reciente informe del MIT desató una tormenta con la afirmación de que "el 95 % de las organizaciones obtienen un rendimiento cero" de sus inversiones en IA generativa

Al margen de la incendiaria estadística y de la cascada de opiniones que suscitó el informe,  este destaca un tema valioso: muchos proyectos de IA fracasan debido a "flujos de trabajo frágiles, falta de aprendizaje contextual y desalineación con las operaciones cotidianas". Como señala Marina Danilevsky, científica investigadora sénior de IBM en un pódcast reciente de Mixture of Experts, las implementaciones de mayor éxito "están enfocadas, tienen un alcance y abordan un punto débil adecuado".

El informe del MIT refuerza el hecho de que las empresas que ven la IA como una especie de panacea o algo que se puede meter con calzador al azar en un proceso, probablemente no verán el rendimiento de su inversión. Las organizaciones que pueden implementar estratégicamente herramientas de IA en sus flujos de trabajo para resolver un problema específico, y reforzar estas herramientas con el tiempo, están mejor preparadas para el éxito.

Mixture of Experts | 28 de agosto, episodio 70

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Cómo podría ser esta implementación específica?

Una solución de observabilidad o seguridad que pueda incorporar machine learning adaptativo, priorización contextual, IA explicable, automatización con IA e inteligencia en tiempo real en una estrategia integrada puede permitir a los equipos crear flujos de trabajo más sólidos que ayuden a correlacionar, priorizar y corregir las alertas de rendimiento o seguridad.

Los agentes de IA pueden mejorar los sistemas tradicionales que se basan en reglas estáticas y umbrales preestablecidos al incorporar factores como la importancia de los activos, las garantías de rendimiento, los perfiles de riesgo y las tendencias históricas. 

Por ejemplo, considere un flujo de trabajo de detección y corrección posterior a un incidente, y cómo un agente de IA podría ayudar a un equipo de SRE.

Una notificación llega al sistema de alertas señalando un elevado uso de la CPU para un nodo en un clúster de Kubernetes. En un sistema tradicional, los SRE podrían tener que analizar los datos MELT (métricas, eventos, registros, trazas) y las dependencias para identificar la causa raíz.

En este flujo de trabajo agéntico hipotético, el agente utiliza el grafo de conocimiento de la herramienta de observabilidad y la correlación consciente de la topología para extraer únicamente la telemetría relacionada con la alerta (como los registros de los servicios que se ejecutan en ese nodo, las implementaciones recientes, la telemetría del servidor API de Kubernetes o los equilibradores de carga que dirigen el tráfico al nodo o al clúster). Con esta información adicional, el agente puede enriquecer las alertas sin procesar y proporcionar telemetría rica en contexto a un modelo local de IA entrenado con los datos de rendimiento y las referencias de la empresa.

El agente excluye la información irrelevante, como los registros de servicios no relacionados que casualmente se ejecutan en el mismo clúster. Durante esta recopilación de contexto, el agente también puede identificar señales relacionadas y correlacionar alertas que probablemente procedan de la misma causa raíz y agrupar estas alertas para investigarlas como un solo incidente.

Con esta información, el modelo puede proponer una hipótesis. El agente también puede solicitar más información (quizás comprobando las configuraciones de los contenedores o los datos de las series temporales en torno al pico de uso) para comprobar y refinar la hipótesis del modelo, añadiendo contexto adicional antes de proponer una causa raíz probable.

Abordar dos puntos importantes de la IA: transparencia y confianza

El uso de agentes e IA explicable es una parte crucial para resolver la cuestión de la confianza, de "ver dentro de la caja negra", o el funcionamiento interno, de una herramienta de IA.

La inteligencia artificial explicable (XAI) "es un conjunto de procesos y métodos que permite a los usuarios humanos comprender y confiar en los resultados y el output creados por los algoritmos de machine learning".

Además de la causa raíz probable, el agente puede ofrecer explicaciones a través de su cadena de pensamiento (su proceso de razonamiento), junto con las pruebas de apoyo que demuestren cómo llegó a la causa raíz probable propuesta. Esta explicabilidad y las pruebas de apoyo:

-       Permiten a los humanos ver por qué se ha recomendado o filtrado algo de una determinada manera

-       Proporciona la transparencia necesaria para revisar el análisis y la propuesta del agente, y juzgar si se puede confiar en él

El análisis y la evaluación de SRE de las recomendaciones de los agentes pueden retroalimentar al modelo para mejorar aún más la precisión.

Pasar a la resolución

Existen varias vías para llegar a una resolución. Los equipos pueden decidir cuánta autonomía proporcionar a un agente, o definir esta autonomía en función del tipo de incidente, la gravedad, el entorno u otros factores. Los próximos pasos incluyen:

-       Validación: un agente puede generar pasos para ayudar a los equipos de SRE y DevOps a validar que la causa raíz que el agente identificó es correcta. Esto ayuda a mantener la aportación humana en el sistema.

-       Runbook: una vez validado, el agente puede generar una guía paso a paso de las medidas de corrección (un runbook). Se trata de un guión que los miembros del equipo pueden seguir para resolver el problema.

-       Scripts de automatización: el agente también puede llevar a cabo las acciones que ha sugerido y crear flujos de trabajo (scripts de automatización). Puede convertir estos pasos del runbook en un fragmento de guía de estrategias de Ansible con la sintaxis del comando y los parámetros de los pasos.

-       Documentación: los agentes pueden producir documentación automática, como una revisión posterior al incidente, que resuma el mismo, las acciones tomadas y las razones para hacerlo. Un agente también puede producir un resumen en curso que ayude a los nuevos en la tarea a comprender rápidamente lo que está sucediendo. Esta documentación se puede utilizar para el aprendizaje por refuerzo.   

Todos estos pasos ayudan a optimizar la respuesta ante incidentes y reducir el tiempo medio de reparación. Para ver un vídeo tutorial de una situación hipotética similar, haga clic aquí.

 

Más allá de la corrección posterior al incidente

Los marcos de IA pueden utilizarse para mejorar varios aspectos de la fatiga por alertas, como la priorización de aquellas procesables en un entorno de TI.

En un artículo de 2023 titulado "That Escalated Quickly: An ML Framework for Alert Prioritization", Gelman et al presentan un marco de machine learning diseñado para reducir la fatiga por alertas con cambios mínimos en los flujos de trabajo existentes mediante un sistema de puntuación del nivel de alerta y la procesabilidad a nivel de incidente. Ejecutado con datos del mundo real, el modelo TEQ redujo el tiempo de respuesta a incidentes procesables en un 22,9 % y suprimió el 54 % de los falsos positivos (con una tasa de detección del 95,1 %). También redujo el número de alertas dentro de incidentes singulares en un 14 %1.

En "Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence", Tellache et al demuestran cómo un marco basado en la generación aumentada por recuperación (RAG) puede mejorar la resolución de incidentes mediante la integración de datos procedentes de fuentes de inteligencia de amenazas2.Una solución similar que utilice agentes para basarse en el enfoque RAG podría utilizarse para añadir un mayor contexto a los datos de rendimiento, por ejemplo, obteniendo umbrales de rendimiento acordados a partir de los acuerdos de nivel de servicio (SLA) de la empresa para ayudar a decidir qué alertas de aplicaciones deben priorizarse.

Un equipo de TI puede utilizar varios agentes para mejorar los procesos de alerta, cada uno diseñado para abordar una faceta diferente de la fatiga por alertas, como un agente de clasificación de incidentes que extrae amenazas críticas para su atención inmediata, o un agente de enrutamiento que detecta alertas priorizadas y las dirige a la dirección adecuada junto con la documentación y el análisis.

Al dirigir los datos a un sistema centralizado, las empresas pueden ayudar a eliminar los puntos ciegos y presentar a los agentes una comprensión más completa del entorno en el que operan. La IA es más eficaz cuando se trabaja con datos fiables y de alta calidad, y una plataforma centralizada puede ayudar a garantizar la aplicación uniforme de las normas de gobierno de datos. A medida que las organizaciones escalan las soluciones de IA, esta plataforma desempeña un papel crucial en el mantenimiento de la coherencia en la gestión de datos y la implementación de agentes en todas las unidades de negocio.

En conclusión

¿Puede una organización limitarse a "utilizar la IA" y acabar con el diluvio de alertas? No. ¿Pueden los modelos y agentes bien entrenados ayudar a sintetizar y analizar la telemetría, y clasificar las alertas para dar un respiro a los equipos de TI? Hay muchos más motivos para ser optimistas.

El uso eficaz de la IA y los agentes para aliviar la fatiga por alertas depende de algunos factores clave: la orientación a un caso de uso específico, la implementación estratégica y la capacidad de la IA para aprender y mejorar junto a entornos dinámicos. Los líderes empresariales deben comprender lo que se necesita, estar dispuestos a realizar los cambios culturales y asignar los recursos necesarios para que el sistema funcione y encontrar un proveedor cuyas herramientas puedan personalizarse para adaptarse a sus necesidades.

Soluciones relacionadas
Soluciones de seguridad para la empresa

Transforme su programa de seguridad con las soluciones del mayor proveedor de seguridad empresarial.

Explore las soluciones de ciberseguridad
Servicios de ciberseguridad

Transforme su negocio y gestione el riesgo con servicios de consultoría de ciberseguridad, nube y seguridad gestionada.

    Explore los servicios de ciberseguridad
    Ciberseguridad de la inteligencia artificial (IA)

    Mejore la velocidad, la precisión y la productividad de los equipos de seguridad con soluciones de ciberseguridad basadas en IA.

    Explore la ciberseguridad de la IA
    Dé el siguiente paso

    Utilice las soluciones de detección y respuesta a amenazas de IBM para reforzar su seguridad y acelerar la detección de amenazas.

     

    Explore las soluciones de detección de amenazas Explore IBM Verify
    Notas a pie de página

     1 That Escalated Quickly: An ML Framework for Alert Prioritization”. Gelman, Taoufiq, Vörös, Berlin. 15 de febrero de 2023.

    2 Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence”. Tellache, Korba, Mokhtari, Moldovan, Ghamri-Doudane. 14 de agosto de 2025.