Qu’est-ce que la surveillance de l’infrastructure ?

28 juin 2023

Qu’est-ce que la surveillance de l’infrastructure ?

La surveillance de l’infrastructure est le processus de suivi, d’analyse et de gestion des performances, de la disponibilité et de l’intégrité des composants principaux de la pile technologique d’une entreprise.

Ces composants, depuis les puces mémoire et les processeurs jusqu’au système d’exploitation et au serveur d’application, jouent tous un rôle essentiel dans la fourniture d’une application ou d’un service aux utilisateurs finaux et ils peuvent exister dans des environnements cloud, sur site et hybrides. La surveillance de ces systèmes est nécessaire, car les temps d’arrêt des applications et la dégradation des services peuvent entraîner des désabonnements des utilisateurs, une perte de revenus importante et une atteinte à la réputation de l’entreprise.

La surveillance de l’infrastructure implique l’utilisation d’outils spécialisés qui collectent, regroupent et analysent automatiquement les données et les indicateurs provenant de serveurs, de machines virtuelles, de conteneurs, de bases de données et d’autres composants principaux. Les outils de surveillance de l’infrastructure couvrent un large éventail de paramètres tels que l’utilisation de l’unité centrale de traitement (CPU) et de la mémoire, le trafic réseau, l’espace disque, les temps de réponse, les taux d’erreur, etc. Ils génèrent des alertes ou des notifications lorsque des seuils prédéfinis sont dépassés ou que des anomalies sont détectées, ce qui permet aux équipes informatiques d’enquêter et de résoudre les problèmes potentiels avant qu’ils ne s’aggravent. L’objectif ultime de la surveillance de l’infrastructure est de garantir la fiabilité, la sécurité et l’efficacité des opérations de leur infrastructure informatique.

Surveillance de l’infrastructure d’hier à aujourd’hui

La surveillance de l’infrastructure a considérablement évolué au fil des ans, sous l’impulsion des progrès technologiques et de l’évolution des besoins des entreprises. Au départ, elle se concentrait principalement sur les composants matériels du centre de données, tels que les serveurs et les périphériques réseau. Ces composants statiques étaient relativement faciles à surveiller.

Avec l’adoption de plateformes de cloud computing, notamment Amazon Web Services, Microsoft Azure, Google Cloud et IBM Cloud, la surveillance de l’infrastructure s’est étendue pour inclure les environnements virtualisés, l’infrastructure cloud, les conteneurs, les microservices, Kubernetes et d’autres technologies modernes. Outre la capacité de surveiller les composants éphémères de l'infrastructure, les logiciels de surveillance des infrastructures actuels doivent intégrer l'automatisation, l' intelligence artificielle, la surveillance en temps réel, une visibilité de bout en bout, l'évolutivité, la flexibilité, l'intégration DevOps, la visualisation, l'analyse et des fonctionnalités de sécurité intégrées.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Fonctionnement de la surveillance de l’infrastructure

La surveillance de l’infrastructure collecte en permanence des données à partir des différents composants traditionnels et natifs de l’infrastructure informatique d’une organisation et à analyser ces données pour évaluer les performances, la disponibilité et l’état des systèmes.

Les deux méthodes de collecte de données système sont basées sur un agent et sans agent.

Surveillance basée sur les agents

Un agent est une couche logicielle légère installée par les ingénieurs sur un hôte (tout système ou appareil devant être surveillé), qui collecte les données de télémétrie pertinentes sur l’état du système. Ce processus d’installation des agents sur les hôtes est appelé instrumentation. Grâce aux principales solutions de surveillance de l’infrastructure actuelles, les agents peuvent utiliser des capteurs pour découvrir les composants en amont et en aval de la pile d’infrastructure après la configuration.

Une fois que tout est entièrement instrumenté, chaque agent commence à collecter un large éventail d’indicateurs qui reflètent le comportement et l’état de l’infrastructure. Ces indicateurs peuvent inclure l’utilisation du processeur et de la mémoire, la bande passante réseau, l’utilisation de l’espace disque, les temps de réponse, les taux d’erreur, le nombre de transactions, etc. Idéalement, la plateforme de surveillance des performances capture en permanence ces données en temps réel à des intervalles d’une seconde sans échantillonnage. Ce type de granularité constitue l’un des principaux avantages de la collecte basée sur des agents, qui facilite l’identification et la résolution des problèmes dès qu’ils surviennent.

La collecte basée sur des agents permet également une surveillance proactive. En définissant des seuils qui déclenchent des alertes lorsque l’utilisation du processeur dépasse un certain pourcentage, les administrateurs peuvent anticiper les problèmes de performance potentiels. Les alertes peuvent être envoyées par e-mail, SMS ou intégrées dans des systèmes de notification comme Slack ou PagerDuty.

Le principal avantage des agents est que la collecte de données est beaucoup plus riche. De plus, des tâches telles que les diagnostics et la résolution des problèmes peuvent être automatisées. En revanche, les agents consomment des ressources système telles que les cycles du processeur, la mémoire et la bande passante réseau pour collecter et transmettre les données de surveillance. Cela peut avoir un léger impact sur les performances du système si la surveillance consomme beaucoup de ressources ou si un système a des ressources limitées.

Surveillance sans agent

Contrairement à la collecte basée sur un agent, la méthode sans agent ne nécessite pas l’installation d’un agent logiciel distinct sur l’hôte. Elle s’appuie sur des protocoles intégrés tels que Windows Management Instrumentation, Simple Network Management Protocol, Secure Shell et NetFlow pour collecter et fournir des données système à la solution de surveillance de l’infrastructure. Il s’agit souvent de la seule option pour le matériel spécialisé sur lequel aucun agent ne peut être installé, comme les routeurs, les commutateurs et les équilibreurs de charge. Elle est également utilisée pour les systèmes et appareils existants dont les ressources disponibles sont limitées.   

L’un des avantages de la collecte sans agent est qu’elle fonctionne sur différents systèmes d’exploitation et plateformes, à condition que les protocoles ou interfaces de programmation d’applications (API) requis soient pris en charge. Cela la rend plus flexible dans les environnements hétérogènes.

Le mode sans agent réduit également l’impact sur les performances. Comme la surveillance sans agent ne nécessite pas l’exécution d’agents logiciels sur les systèmes individuels, il n’y a pas de consommation supplémentaire de ressources ni d’impact sur les performances des systèmes surveillés.

Les capacités de surveillance sans agent dépendent des données exposées par le biais de protocoles réseau ou d’API. Par conséquent, les données disponibles peuvent être limitées par rapport à la collecte basée sur un agent, car tous les indicateurs au niveau du système ou les données spécifiques aux applications peuvent ne pas être accessibles via ces méthodes. En outre, la méthode sans agent dépend fortement du réseau et risque d’échouer en cas de déconnexion du réseau.

Dans les architectures modernes complexes d’aujourd’hui, des méthodes de collecte avec agent et sans agent sont utilisées. Les principales solutions de surveillance des infrastructures peuvent gérer de manière centralisée les méthodes de collecte avec et sans agent.

AI Academy

Se préparer à l’IA avec le cloud hybride

Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.

Cas d’utilisation de la surveillance des infrastructures

La surveillance de l’infrastructure répond à divers cas d’utilisation dans différents secteurs et organisations. Voici quelques façons courantes d’utiliser la surveillance des infrastructures :

Optimisation des performances

La surveillance de l’infrastructure permet de suivre les indicateurs de performance clés pour identifier les domaines à améliorer, tels que l’optimisation de l’utilisation du processeur ou de la mémoire, l’identification de la congestion du réseau ou l’optimisation des requêtes de bases de données.

Détection proactive des problèmes

En surveillant les composants de l’infrastructure en temps réel, les organisations peuvent détecter les problèmes de manière proactive avant qu’ils n’affectent les utilisateurs finaux ou causent des interruptions de service. Les alertes et les notifications peuvent également aider les équipes informatiques à identifier et à résoudre les problèmes d’infrastructure potentiels avant qu’ils ne deviennent des incidents critiques.

Planification et évolutivité de la capacité

La surveillance des indicateurs de l’infrastructure au fil du temps permet aux organisations d’analyser les modèles d’utilisation, de prévoir les besoins futurs en ressources et de planifier l’extension de la capacité. Il peut aider à identifier les ressources sous-utilisées ou surutilisées, à prévoir la croissance et à prendre des décisions éclairées en matière de mise à l’échelle.

Identification des défauts et analyse de l’origine du problème

La surveillance de l’infrastructure permet d’identifier les défauts et les origines du problème des défaillances du système ou de la dégradation des performances. En analysant les indicateurs et les journaux, les équipes informatiques peuvent identifier les problèmes sous-jacents, qu’il s’agisse de pannes matérielles, de mauvaises configurations logicielles, de pannes réseau ou d’erreurs d’application.

Conformité aux SLA

La surveillance de l’infrastructure aide l’organisation à respecter les exigences de l’accord de niveau de service (SLA) en suivant et en rendant compte des indicateurs clés de performance (KPI). Les indicateurs de surveillance tels que le temps de fonctionnement, les temps de réponse et la disponibilité peuvent fournir les données nécessaires pour garantir le respect des SLA et démontrer la fiabilité des services informatiques.

Optimisation de la capacité et gestion des coûts

La surveillance des ressources et de l’utilisation de l’infrastructure permet aux organisations d’optimiser l’allocation des ressources, d’identifier les ressources inutilisées ou sous-utilisées et de prendre des décisions éclairées concernant le provisionnement des ressources. Cette optimisation peut aider à réduire les coûts en évitant les dépenses inutiles en ressources ou en redimensionnant les déploiements d’infrastructure.

Surveillance de la sécurité

La surveillance de l’infrastructure est essentielle pour détecter les incidents de sécurité et assurer la conformité aux politiques de sécurité. En surveillant les journaux système, le trafic réseau et les événements de sécurité, les organisations peuvent identifier les activités suspectes, les violations potentielles ou les vulnérabilités et prendre des mesures en temps opportun pour atténuer les risques de sécurité.

Ce ne sont là que quelques exemples de la façon dont la surveillance de l’infrastructure peut être utilisée. Les cas d’utilisation idéaux varient en fonction du secteur, de la taille de l’organisation et de la criticité des systèmes surveillés pour les opérations commerciales.

Bonnes pratiques en matière de surveillance des infrastructures

Quels que soient les besoins de votre entreprise, il existe plusieurs bonnes pratiques à suivre qui vous aideront à tirer le meilleur parti de votre investissement dans une solution de surveillance de l’infrastructure.

Définir et réviser les indicateurs de référence

Établissez des indicateurs de performance de base et des indicateurs clés de performance pour votre composant d’infrastructure pendant les opérations normales. Les références et les indicateurs de performance clés fournissent un point de référence pour détecter les anomalies et les écarts par rapport aux comportements normaux. Au fur et à mesure que votre infrastructure évolue, mettez à jour et ajustez les bases de référence afin de ne pas créer d’angles morts.

Configurer des alertes complètes

Créez des alertes pertinentes, exploitables et pertinentes pour le problème en question. Évitez de créer du bruit d’alerte en définissant des seuils appropriés et en filtrant les faux positifs. Assurez-vous que les alertes fournissent suffisamment d’informations pour diagnostiquer et résoudre efficacement les problèmes.

Organiser et hiérarchiser les notifications

Lorsque vous configurez une solution de surveillance pour envoyer des notifications sur des types d’événements spécifiques, déterminez quels types de notifications sont prioritaires. Les incidents majeurs tels que les pannes de serveur qui affectent l’expérience utilisateur doivent être traités de toute urgence.

Faire un essai

Attendre qu’une véritable urgence se produise n’est pas le moment de mettre votre système de surveillance à l’épreuve. Planifiez un test de votre système de surveillance pour vous assurer que tout fonctionne exactement comme il le devrait.

Mettre en place des tableaux de bord propres à chaque rôle

Les principales solutions de surveillance de l’infrastructure vous permettent de créer des tableaux de bord configurés sur mesure en fonction du rôle de chaque utilisateur. Après tout, les données et les alertes dont un membre de l’équipe SecOps se soucie seront très différentes de celles qui concernent un directeur financier.

S’appuyer sur l’assistance des fournisseurs

Si vous rencontrez des problèmes lors de la configuration et de l’utilisation de votre solution de surveillance de l’infrastructure, faites appel à l’assistance du fournisseur. Laissez leurs consultants, leur centre d’assistance et leur personnel d’assistance vous aider à résoudre votre problème.

En suivant ces bonnes pratiques, les organisations peuvent établir un cadre des exigences de surveillance d’infrastructure robuste et efficace qui fournit des informations exploitables, permet une résolution proactive des problèmes et contribue à la stabilité et aux performances globales de leurs systèmes informatiques.

Solutions connexes
Surveillance de l’infrastructure avec IBM Instana Observability

Évitez les temps d’arrêt grâce à une visibilité intégrale sur l’état de vos composants back-end.

Découvrir IBM Instana Observability
IBM Consulting AIOps

Intensifiez l’automatisation et les opérations informatiques avec l’IA générative, en alignant chaque aspect de votre infrastructure informatique sur vos priorités métier.

Découvrir les services de conseil AIOps
Solutions d’AIOps

Découvrez comment l’IA appliquée aux opérations informatiques fournit les informations dont vous avez besoin pour parvenir à des performances métier exceptionnelles.

Découvrir les solutions AIOps
Passez à l’étape suivante

IBM Instana Observability offre des capacités de surveillance, d’alerte et de résolution automatisées alimentées par l’IA pour une visibilité intégrale en temps réel sur l’ensemble de vos composants distribués et complexes. 

Découvrir IBM Instana Observability Découvrir Instana
Notes de bas de page

1. « The Total Economic Impact Of IBM Turbonomic », Forrester, janvier 2024