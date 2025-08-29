Les équipes d’ingénierie de la fiabilité des sites (SRE) et DevOps sont épuisées. La taille des parcs informatiques, la surcharge d’outils et le caractère astreignant du métier engendrent ensemble un problème majeur : la baisse de la vigilance.
La baisse de la vigilance (parfois appelée « désensibilisation aux alarmes ») désigne « un état d’épuisement mental et opérationnel provoqué par un nombre excessif d’alertes ». Ce phénomène affecte la capacité à réagir et l’efficacité des équipes DevOps, des centres opérationnels de sécurité (SOC), SRE (ingénierie de la fiabilité des sites) et d’autres équipes chargées d’assurer la performance et la sécurité informatiques. Il s’agit d’un problème très répandu et lourd de conséquences.
Selon le rapport « 2023 State of Threat Detection » publié par Vectra à l’issue d’une enquête menée auprès de 2 000 analystes de sécurité informatique au sein d’entreprises comptant au moins 1 000 salariés, les équipes SOC reçoivent en moyenne 4 484 alertes par jour. 67 % de ces alertes sont ignorées en raison d’un volume élevé de faux positifs et d’une baisse de la vigilance. Selon le même rapport, 71 % des analystes estiment que leur entreprise est susceptible d’avoir subi une « compromission à leur insu, en raison d’un manque de visibilité et de confiance dans les capacités de détection des menaces ».
Si le rapport Vectra porte sur la sécurité, les équipes chargées de surveiller la performance des applications et des infrastructures sont confrontées à une surcharge similaire. Par exemple, la moindre erreur de configuration peut générer des centaines, voire des milliers d’alertes de performance, une « tempête d’alertes » susceptible de déconcentrer ou de désensibiliser les équipes informatiques et de retarder la réponse aux alertes critiques et aux problèmes réels. Et ces derniers peuvent coûter cher.
Qu’est-ce qui est à l’origine de cet épuisement ? L’IA agentique peut-elle être intégrée à une solution évolutive ?
Parmi les responsables, on cite souvent le volume excessif de données de télémétrie. Néanmoins, se concentrer exclusivement sur ce dernier, c’est occulter une question essentielle, celle de la qualité des données et du contexte.
Face à une multitude de données de qualité médiocre, sans contexte, qui alimentant divers flux de renseignement sur les menaces ou de performance, les équipes ne peuvent que rencontrer des difficultés. C’est dans ce type d’environnement que prolifèrent les faux positifs et les alertes redondantes. Non prioritaire, ce bruit détourne l’attention des menaces réelles et des problèmes de performance. Ces « fausses alertes » peuvent épuiser les équipes informatiques, DevOps et de sécurité.
La simple introduction de ces énormes flux télémétriques dans un grand modèle de langage (LLM) n’est pas non plus une solution viable. Tout d’abord, c’est un gaspillage de ressources informatiques. C’est aussi un excellent moyen de produire des hallucinations.
Une solution pratique consiste à développer un workflow qui synthétise les données brutes et regroupe ces données de meilleure qualité, riches en contexte, au sein d’une plateforme centralisée. Ici, elles pourront être utilisées pour assurer l’observabilité à l’échelle de l’entreprise et entraîner les modèles d’IA locaux.
Souvent, les entreprises multiplient les solutions de contrôle de la performance et de la sécurité. En effet, les grandes entreprises disposent en moyenne de 76 outils de sécurité. Ces outils peuvent être spécifiques à une équipe, à un produit ou à un environnement informatique (solutions sur site ou cloud, par exemple).
Chacun de ces outils peut être chargé de surveiller des dizaines, voire des centaines d’applications, d’interfaces de programmation d’application (API) ou de serveurs, chacun alimentant son propre pipeline de données. Avec de tels silos, les différents outils peuvent générer plusieurs alertes liées au même problème sous-jacent. Ce manque d’intégration limite la visibilité et entrave donc la corrélation et l’analyse des causes racines. Les équipes SRE perdent du temps à suivre chacune de ces alertes afin d’identifier les redondances.
Lorsque les flux de données ne sont pas intégrés dans un système de surveillance complet, les équipes informatiques ne disposent pas de l’observabilité nécessaire à l’échelle du système pour assurer efficacement corrélation des alertes, analyse des causes racines et résolution.
Pire encore, ce manque d’intégration affecte l’efficacité des outils d’automatisation configurés pour faciliter la détection et la résolution et réduire le nombre d’alertes (par exemple, priorisation des alertes et workflows de corrélation). Les équipes doivent relier les éléments manuellement, une tâche ardue et chronophage (voire impossible).
Selon une enquête citée dans le rapport « Adaptive Defense : Custom Alerts for Modern Threats » de Deloitte, « en raison d’un manque de visibilité ou de contexte dans les outils de sécurité, 47 % des attaques lancées sur une période de 12 mois sont passées inaperçues. »
Si centraliser les agents n’est pas indispensable, les plateformes centralisées agrégeant leurs données facilitent l’analyse, le stockage et la visualisation à l’échelle du système.
Oui…avec une stratégie ciblée.
Un récent rapport du MIT a mis le feu aux poudres en affirmant que « 95 % des entreprises obtiennent zéro retour sur leur investissement dans l’IA générative.
Mis à part le tollé et la polémique suscités, le rapport souligne un aspect important : de nombreux projets d’IA échouent en raison d’un « manque de workflows solides, d’apprentissage contextuel et d’alignement sur les opérations quotidiennes ». Comme le notait Marina Danilevsky, chargée de recherche scientifique chez IBM, dans un récent podcast Mixture of Experts, les déploiements les plus réussis sont « ciblés, calibrés et répondent à un problème réel ».
Le rapport du MIT renforce l’idée que les entreprises qui voient dans l’IA une sorte de panacée ou quelque chose qui peut être intégré au hasard dans un processus, sont susceptibles de n’obtenir aucun retour sur leur investissement. Les entreprises qui intègrent stratégiquement les outils d'IA dans leur workflow pour résoudre un problème particulier, tout en les renforçant au fil du temps, ont davantage de chances de réussir.
Une solution d’observabilité ou de sécurité capable d’incorporer le machine learning adaptatif, la priorisation contextuelle, l’IA explicable, l’automatisation alimentée par l’IA et l’intelligence en temps réel dans une stratégie intégrée permettra aux équipes de créer des workflows plus efficaces pour mettre en corrélation, hiérarchiser et corriger les alertes de performance ou de sécurité.
Les agents IA améliorent les systèmes traditionnels, qui reposent sur des règles statiques et des seuils prédéfinis, en tenant compte de facteurs tels que l’importance des actifs, les garanties de performance, les profils de risque et les tendances historiques.
Prenons comme exemple un workflow de détection et de résolution post-incident et la manière dont un agent IA aiderait l’équipe SRE.
Une notification déclenche le système d’alerte, signalant une utilisation élevée du processeur sur un nœud d’un cluster Kubernetes. Dans un système traditionnel, les SRE doivent analyser les données MELT (métriques, événements, logs, traces) et les dépendances pour identifier la cause racine.
Dans ce workflow agentique, l’agent utilise le graphe de connaissances de l’outil d’observabilité et la corrélation axée sur la topologie pour extraire uniquement les données télémétriques liées à l’alerte (par exemple, les journaux des services exécutés sur ce nœud, les déploiements récents, les données de télémétrie du serveur API Kubernetes ou les équilibreurs de charge qui acheminent le trafic vers le nœud ou le cluster). Grâce à ces informations supplémentaires, l’agent enrichit les alertes brutes et fournir des données de télémétrie riches en contexte au modèle d’IA local, entraîné sur les données de performance et les benchmarks de l’entreprise.
L’agent exclut les informations non pertinentes, telles que les journaux des services non liés qui s’exécutent sur le même cluster. Au cours de cette collecte de contexte, l’agent peut également identifier les signaux connexes et associer les alertes susceptibles de porter sur la même cause racine, puis regrouper ces alertes pour les examiner comme un seul incident.
Grâce à ces informations, le modèle peut proposer une hypothèse. L’agent peut également demander davantage d’informations (par exemple en vérifiant les configurations des conteneurs ou les données chronologiques relatives au pic d’utilisation), afin de vérifier et d’affiner l’hypothèse du modèle en ajoutant un contexte supplémentaire avant de proposer une cause racine probable.
L’utilisation d’IA et d’agents explicables joue un rôle essentiel en termes de confiance, qui permet de «voir l’intérieur de la boîte noire », en d’autres termes, de comprendre les mécanismes internes d’un outil d’IA.
L’intelligence artificielle explicable (ou XAI) « est un ensemble de processus et de méthodes qui permettent aux utilisateurs humains de comprendre et de faire confiance aux résultats créés par les algorithmes de machine learning ».
En plus de la cause profonde probable, l’agent peut fournir une explicabilité à travers sa chaîne de pensée (son processus de raisonnement), ainsi que des preuves à l’appui pour démontrer comment il est parvenu à la cause profonde probable proposée. Cette explicabilité avec preuves à l’appui :
- Permet aux humains de savoir pourquoi l’élément a été recommandé ou filtré d’une certaine manière.
- Offre la transparence nécessaire pour examiner l’analyse et la proposition de l’agent, et décider de leur fiabilité.
L’analyse SRE et l’évaluation des recommandations d’agent peuvent être intégrées au modèle pour améliorer davantage sa précision.
Il existe plusieurs voies de résolution. Les équipes peuvent décider du degré d’autonomie à accorder à l’agent, ou définir cette autonomie en fonction du type d’incident, de sa gravité, de l’environnement ou d’autres facteurs. Prochaines étapes :
- Validation : l’agent peut générer des étapes pour aider les équipes SRE et DevOps à vérifier si la cause racine qu’il a identifiée est correcte. Cela permet d’inclure le feedback humain dans le système.
- Dossier d’exploitation : après validation, l’agent produit un guide de résolution détaillé (dossier d’exploitation). Il s’agit d’un script que les membres de l’équipe peuvent suivre pour résoudre le problème.
- Scripts d’automatisation : l’agent peut également entreprendre les actions qu’il a suggérées et créer des workflows (scripts d’automatisation). Il peut transformer ces étapes du dossier d’exploitation en extrait de protocole Ansible, avec la syntaxe de commande et les paramètres correspondants.
- Documentation :: les agents peuvent produire une documentation automatique telle qu’une analyse post-incident, qui résume l’incident, les mesures prises et les raisons qui les ont motivées. L’agent peut également produire un résumé de l’état d’avancement pour aider ceux qui ne connaissent pas encore la tâche de comprendre rapidement de quoi il s’agit. Cette documentation peut être utilisée pour l’apprentissage par renforcement.
Ces étapes permettent d’optimiser la réponse aux incidents et de réduire le temps moyen de réparation. Pour regarder la vidéo d’une hypothèse similaire, cliquer ici.
Les cadres d’IA peuvent améliorer divers aspects de la baisse de la vigilance, notamment la priorisation des alertes exploitables dans un environnement informatique.
Dans un article publié en 2023 et intitulé « That Escalated Quickly : An ML Framework for Alert Prioritization », Gelman et ses collaborateurs présentent un cadre de machine learning conçu pour prévenir la baisse de la vigilance en modifiant le moins possible les workflows existants, et ce grâce à un système de notation de l’exploitabilité des alertes et des incidents. Exécuté sur des données réelles, le modèle TEQ a permis de réduire de 22,9 % le temps de réponse aux incidents exploitables, et de supprimer 54 % des faux positifs (avec un taux de détection de 95,1 %). Il a également permis de réduire 14 % des alertes liées à un seul et même incident.1
Dans « Advancing Autonomous Incident Response : Leveraging LLMs and Cyber Threat Intelligence », Tellache et ses collaborateurs démontrent comment un cadre de génération augmentée par récupération (RAG) améliore la résolution des incidents en intégrant des données provenant de sources de renseignement sur les cybermenaces.2 Une solution similaire, qui s’appuie sur des agents pour développer l’approche RAG, peut être utilisée pour donner davantage de contexte aux données de performance. Il peut s’agir de récupérer les seuils de performance prévus par les accords de niveau de service (SLA) pour déterminer les alertes à prioriser au sein des applications.
Les équipes informatiques peuvent utiliser plusieurs agents pour améliorer les processus d’alerte, chacun conçu pour répondre à un type différent de la baisse de la vigilance. Il peut s’agir d’un agent de triage des incidents qui extrait les menaces critiques requérant une attention immédiate, ou d’un agent de routage qui classe les alertes prioritaires et les achemine vers l'équipe compétente, accompagnées de la documentation et de l’analyse correspondantes.
En acheminant les données vers un hub centralisé, les entreprises peuvent éliminer les angles morts et offrir aux agents une vision plus complète de l’environnement dans lequel ils opèrent. L’IA est plus efficace lorsque l’on travaille avec des données fiables et de qualité, et les plateformes centralisées garantissent une application uniforme des normes de gouvernance des données. À mesure que les entreprises font évoluer leurs solutions d’IA, cette plateforme est essentielle pour assurer une gestion des données et un déploiement d’agents cohérents à travers les différentes unités commerciales.
Une organisation peut-elle simplement « utiliser l’IA » pour atténuer le flot d’alertes ? Non. Mais des modèles et des agents bien entraînés peuvent-ils aider à synthétiser et analyser les données de télémétrie, et à trier les alertes pour soulager les équipes informatiques ? Oui, de quoi être nettement plus optimiste.
L’efficacité de l’IA et des agents à atténuer la baisse de la vigilance dépend de plusieurs facteurs clés : le ciblage des cas d’utilisation, la mise en œuvre stratégique et la capacité de l’IA à apprendre et à s’améliorer dans un environnement dynamique. Les dirigeants doivent comprendre les exigences, être disposés à opérer un changement culturel et à allouer les ressources nécessaires pour faire fonctionner le système et trouver un fournisseur dont les outils peuvent être personnalisés pour répondre à leurs besoins.
