As equipes de engenharia de confiabilidade do site (SRE) e DevOps estão esgotadas. Extensas propriedades de TI, sobrecarga de ferramentas e a natureza de plantão do trabalho desempenham um papel em um problema abrangente: fadiga de alerta.
A fadiga de alertas (também conhecida como fadiga de alarmes) refere-se a “um estado de esgotamento mental e operacional causado por um número avassalador de alertas”. Ele corrói a capacidade de resposta e a eficácia do DevOps, da central de operações de segurança (SOC), da engenharia de confiabilidade local (SRE) e de outras equipes responsáveis pelo desempenho e pela segurança de TI, sendo um problema generalizado e consequente.
O relatório “2023 State of Threat Detection” da Vectra (com base em uma pesquisa com 2 mil analistas de segurança de TI entrevistados em empresas com mil ou mais funcionários) descobriu que as equipes de SOC enviam uma média de 4.484 alertas por dia. Desses, 67% são ignorados devido ao alto volume de falsos positivos e à fadiga de alerta. O relatório também descobriu que 71% dos analistas acreditavam que sua organização poderia já ter sido “comprometida sem seu conhecimento, devido à falta de visibilidade e confiança nos recursos de detecção de ameaças”.
Embora o relatório da Vectra assuma um foco específico para a segurança, as equipes encarregadas de monitorar o desempenho de aplicações e infraestrutura enfrentam sobrecarga semelhante. Por exemplo, uma única configuração incorreta pode causar centenas ou milhares de alertas de desempenho, uma "tempestade de alertas" que pode distrair ou dessensibilizar as equipes de TI e causar respostas atrasadas a alertas críticos e problemas reais. Esses problemas reais podem custar caro.
O que está motivando esse esgotamento? A IA agêntica pode fazer parte de uma solução escalável?
Boletim informativo do setor
Mantenha-se atualizado sobre as tendências mais importantes e fascinantes do setor em IA, automação, dados e muito mais com o boletim informativo da Think. Consulte a declaração de privacidade da IBM.
Sua inscrição será entregue em inglês. Você pode encontrar um link para cancelar a inscrição em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa declaração de privacidade da IBM para obter mais informações.
Há vários culpados e um volume enorme de telemetria é frequentemente citado como um deles, mas um foco no volume de dados obscurece especificamente uma questão central: a qualidade de dados e contexto.
Quando as equipes lidam com grandes quantidades de dados de baixa qualidade e contexto inadequado, alimentando dezenas de diferentes feeds de inteligência de ameaças ou desempenho, certamente podem enfrentar problemas. Esse é o tipo de ambiente em que falsos positivos e alertas redundantes proliferam e ruídos de baixa prioridade desviam a atenção de ameaças reais e problemas de desempenho. Esses “alarmes falsos” podem sobrecarregar as equipes de TI, DevOps e segurança.
Simplesmente alimentar esses fluxos massivos de telemetria em um grandes modelos de linguagem (LLM) também não é uma solução viável. Por um lado, é um desperdício de computação. Também é uma ótima maneira de produzir alucinações.
Uma solução prática começa com o desenvolvimento de um fluxo de trabalho que sintetiza dados brutos e agrega esses dados de alta qualidade e com contexto em uma plataforma centralizada. Lá ele pode ser usado para observabilidade em toda a empresa e para o treinamento de modelos de IA locais.
As empresas costumam usar muitas soluções de monitoramento de desempenho e segurança — as grandes empresas têm uma média de 76 ferramentas de segurança. Essas ferramentas podem ser específicas da equipe ou do produto ou específicas de um determinado ambiente de TI (soluções locais versus soluções em nuvem, por exemplo).
Cada uma dessas ferramentas pode ser responsável por monitorar dezenas ou centenas de aplicações, interfaces de programação de aplicativos ou servidores, cada um alimentando seu próprio pipeline de dados. Com esses silos, ferramentas separadas podem gerar vários alertas decorrentes do mesmo problema subjacente. Essa falta de integração limita a visibilidade, o que prejudica a correlação e a análise da causa raiz. Os SREs perdem tempo buscando cada um desses alertas antes de identificar as redundâncias.
Quando os fluxos de dados não são integrados a um sistema de monitoramento abrangente, as equipes de TI não têm a observabilidade em todo o sistema necessária para correlação eficiente de alertas, análise de causa raiz e remediação.
O que é pior, essa falta de integração dificulta a eficácia das ferramentas de automação para o gerenciamento de alertas, como fluxos de trabalho de priorização e correlação de alertas, configurados para auxiliar na detecção e resolução e reduzir o volume de alertas. Deixa-se que as equipes conectem manualmente os pontos, uma tarefa árdua e demorada (se não impossível).
Uma pesquisa citada no relatório “Adaptive Defense: Custom Alerts for Modern Threats” da Deloitte descobriu que “a falta de visibilidade ou contexto das ferramentas de segurança resultou na perda de 47% dos ataques em um período de 12 meses”.
Embora agentes individuais não precisem necessariamente de centralização, uma plataforma centralizada em que os dados dos agentes são agregados facilita a análise, o armazenamento e a visualização de todo o sistema.
Sim...com uma estratégia dedicada.
Um relatório recente do MIT provocou uma tempestade com a alegação de que “95% das organizações estão obtendo retorno zero” sobre seus investimentos em IA generativa.
Deixando de lado a estatística provocativa e a cascata de opiniões solicitadas pelo relatório, o relatório destaca um tema valioso: muitos projetos deIA falham devido a “fluxos de trabalho frágeis, falta de aprendizado contextual e inadequação às operações diárias”. Como observa Marina Danilevsky, pesquisadora sênior da IBM, em um podcast recente do Mixture of Experts, as implantações mais bem-sucedidas são “dedicadas e delineadas e abordam um ponto problemático adequado”.
O relatório do MIT reforça o fato de que as empresas que veem a IA como uma espécie de panaceia ou algo que pode ser ajustado ao acaso em um processo provavelmente não terão retorno sobre seu investimento. Organizações capazes de implementar estrategicamente ferramentas de IA em seus fluxos de trabalho para resolver um problema específico e reforçar essas ferramentas ao longo do tempo são mais adequadas para o sucesso.
Uma solução de observabilidade ou segurança que possa incorporar aprendizado de máquina adaptável, priorização contextual, IA explicável, automação impulsionada por IA e inteligência em tempo real em uma estratégia integrada pode permitir que as equipes criem fluxos de trabalho mais sólidos que ajudem a correlacionar, priorizar e corrigir alertas de desempenho ou segurança.
Os agentes de IA podem melhorar sistemas tradicionais que dependem de regras estáticas e limites predefinidos, trazendo fatores como importância dos ativos, garantias de desempenho, perfis de risco e tendências históricas.
Por exemplo, considere um fluxo de trabalho de detecção e remediação pós-incidentes e como um agente de IA pode ajudar uma equipe de SRE.
Uma notificação atinge o sistema de alerta, sinalizando o alto uso da CPU para um nó em um cluster de Kubernetes. Em um sistema tradicional, os SREs podem precisar vasculhar dados MELT (métricas, eventos, registros, rastreamentos) e dependências para identificar a causa raiz.
Nesse fluxo de trabalho de agente hipotético, o agente usa o gráfico de conhecimento da ferramenta de observabilidade e a correlação com reconhecimento de topologia para extrair somente a telemetria relacionada ao alerta (como logs dos serviços em execução nesse nó, implementações recentes, telemetria do servidor de API do Kubernetes ou balanceadores de carga que direcionam o tráfego para o nó ou cluster). Com essas informações adicionais, o agente pode enriquecer alertas brutos e oferecer telemetria rica em contexto para um modelo de IA local treinado com os dados de desempenho e benchmarks da empresa.
O agente exclui informações irrelevantes, como logs de serviços não relacionados que são executados no mesmo cluster. Durante essa coleta de contexto, o agente também pode identificar sinais relacionados e correlacionar alertas que provavelmente têm origem na mesma causa raiz e agrupar esses alertas para serem investigados como um único incidente.
Com essas informações, o modelo pode propor uma hipótese. O agente também pode solicitar mais informações (talvez verificando as configurações do contêiner ou os dados de séries temporais sobre o pico de uso) para verificar e refinar a hipótese do modelo, adicionando mais contexto antes de propor uma causa raiz provável.
O uso de IA explicável e agentes é uma parte crucial de resolver a questão da confiança, de "ver dentro da caixa-preta", ou funcionamento interno, de uma ferramenta de IA.
A inteligência artificial explicável (XAI) é um conjunto de processos e métodos que permite aos usuários humanos conhecerem e confiarem nos resultados e produção criados por algoritmos de aprendizado de máquina.
Além da provável causa raiz, o agente pode oferecer explicabilidade por meio de sua cadeia de pensamento — seu processo de raciocínio — junto com evidências de apoio que demonstram como ele chegou à provável causa raiz proposta. Essa explicabilidade e evidência de apoio:
- Permite que os humanos vejam por que algo foi recomendado ou filtrado de determinada maneira
- Oferece a transparência necessária para revisar a análise e a proposta do agente e julgar se ela é confiável
A análise de SRE e a avaliação das recomendações dos agentes podem ser reincluídas no modelo para melhorar ainda mais a precisão.
Há vários caminhos para a resolução. As equipes podem decidir quanta autonomia entregar a um agente ou definir essa autonomia com base no tipo de incidente, gravidade, ambiente ou outros fatores. As próximas etapas são:
- Validação: um agente pode gerar etapas para ajudar as equipes de SRE e DevOps a validar se a causa raiz identificada pelo agente está correta. Isso ajuda a manter a entrada humana no sistema.
- Runbook: quando validado, o agente pode produzir um guia passo a passo das etapas de remediação (um runbook). Esse é um script que os membros da equipe podem seguir para resolver o problema.
- Scripts de automação: o agente também pode executar as ações sugeridas e criar fluxos de trabalho (scripts de automação). Ele pode transformar essas etapas do runbook em um snippet de playbook do Ansible com a sintaxe de comando e os parâmetros para as etapas.
- Documentação: Os agentes podem produzir documentação automática, como uma avaliação pós-incidente que resume o incidente, as ações tomadas e os motivos. Um agente também pode produzir um resumo em andamento que ajuda os novatos a entender rapidamente o que está acontecendo. Essa documentação pode ser usada para aprendizado por reforço.
Todas essas etapas ajudam a otimizar a resposta a incidentes e reduzir o tempo médio de reparo. Para um vídeo passo a passo de uma hipotética semelhante, clique aqui.
As frameworks de IA podem ser usadas para melhorar vários aspectos da fadiga de alertas, como a priorização de alertas praticáveis em um ambiente de TI.
In a 2023 paper titled “That Escalated Quickly: An ML Framework for Alert Prioritization,” Gelman et al apresentam uma estrutura de aprendizado de máquina projetada para reduzir a fadiga de alertas com alterações mínimas nos fluxos de trabalho existentes por meio de um sistema de pontuação de acionável em nível de alerta e incidente. Executado com dados do mundo real, o modelo TEQ reduziu o tempo de resposta a incidentes práticos em 22,9% e eliminou 54% dos falsos positivos (com uma taxa de detecção de 95,1%). Também reduziu o número de alertas em incidentes singulares em 14%. 1
Em "Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence", Tellache et al demonstram como um framework baseado em Retrieval-augmented generation (RAG)pode melhorar a resolução de incidentes integrando dados de fontes de inteligência de ameaças.2 Uma solução semelhante que usa agentes para desenvolver a abordagem RAG poderia ser usada para adicionar maior contexto aos dados de desempenho, por exemplo, buscando limites de desempenho acordados em acordos de nível de serviço (SLAs) corporativos para ajudar a decidir quais alertas de aplicação precisam ser priorizados.
Uma equipe de TI pode usar vários agentes para melhorar os processos de alertas, cada um projetado para lidar com uma faceta diferente da fadiga de alertas, como um agente de triagem de incidentes que identifica ameaças críticas para atenção imediata ou um agente de roteamento que prioriza os alertas e os encaminha para a equipe apropriada, juntamente com a documentação e a análise.
Encaminhando os dados para um hub centralizado, as empresas ajudam a eliminar os pontos cegos e proporcionam aos agentes uma compreensão mais abrangente do ambiente em que operam. A IA é mais eficaz quando trabalha com dados de alta qualidade e confiáveis e uma plataforma centralizada pode ajudar a garantir a aplicação uniforme dos padrões de gestão de dados. Conforme as organizações escalam as soluções de IA, essa plataforma desempenha um papel crucial na manutenção da consistência no gerenciamento de dados e na implementação de agentes em todas as unidades de negócios.
Uma organização pode simplesmente “usar IA” e apagar a enxurrada de alertas? Não. Modelos e agentes bem treinados podem ajudar a sintetizar e analisar telemetria e fazer a triagem de alertas para dar uma pausa às equipes de TI? Há muito mais motivos para ser otimista nesse ponto.
O uso bem-sucedido da IA e de agentes para aliviar a fadiga de alertas depende de alguns fatores importantes: o direcionamento de um caso de uso específico, a implementação estratégica e a capacidade da IA de aprender e melhorar em ambientes dinâmicos. Os líderes de empresas devem conhecer o que é necessário, estar dispostos a fazer as mudanças culturais e atribuir os recursos necessários para fazer o sistema funcionar e encontrar um fornecedor cujas ferramentas possam ser personalizadas para atender às suas necessidades.
Consiga insights para se preparar e responder a ciberataques com maior velocidade e eficácia com o IBM X-Force Threat Intelligence Index.
Descubra por que a IBM foi nomeada como Major Player e obtenha insights para selecionar o fornecedor de serviços de consultoria em cibersegurança que melhor se adapta às necessidades da sua organização.
Saiba como o cenário de segurança atual está mudando e como enfrentar os desafios e aproveitar a resiliência da IA generativa.
Compreenda as ameaças mais recentes e fortaleça suas defesas na nuvem com o relatório IBM X-Force sobre o cenário de ameaças na nuvem.
Descubra como a segurança de dados ajuda a proteger informações digitais contra acesso não autorizado, corrupção ou roubo ao longo de todo o seu ciclo de vida.
Transforme seu programa de segurança com soluções do maior provedor de segurança corporativa.
Transforme sua empresa e gerencie riscos com consultoria em cibersegurança, nuvem e serviços de segurança gerenciados.
Melhore a velocidade, a precisão e a produtividade das equipes de segurança com soluções de cibersegurança impulsionadas por IA.
Use as soluções de detecção e resposta a ameaças da IBM para fortalecer sua segurança e acelerar a detecção de ameaças.
1 “That Escalated Quickly: An ML Framework for Alert Prioritization,” gelman, Taoufiq, Vörös, Berlim, 15 de fevereiro de 2023
2 “Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence”, Tellache, Korba, Mokhtari, Moldovan, Ghamri-Doudane, 14 de agosto de 2025