Techniques de traitement des incidents

Le traitement des incidents est une méthode systématique de résolution d'un problème. L'objectif de cette méthode consiste à déterminer pourquoi un composant ne fonctionne pas comme prévu et comment résoudre le problème.

Certaines techniques courantes peuvent vous aider à identifier et à résoudre les problèmes. La première étape du processus d'identification et de résolution des problèmes consiste à décrire le problème de manière exhaustive. Les descriptions de problèmes vous aident, ainsi que les représentants du support technique IBM, à savoir par où commencer pour trouver la cause du problème. Lors de cette étape, vous devez vous poser les questions de base suivantes :

Quels sont les symptômes du problème ?
Où le problème se produit-il ?
Quand le problème se produit-il ?
Dans quelles conditions le problème se produit-il ?
Le problème peut-il être reproduit ?

Les réponses à ces questions vous aident généralement à établir une description exploitable du problème et à trouver la solution permettant de le résoudre.

Quels sont les symptômes du problème ?

Lorsque vous commencez à décrire un problème, la question la plus évidente est Quel est le problème ?. Cette question peut sembler assez basique. Cependant, vous pouvez la fractionner en plusieurs questions plus précises qui vous permettent d'obtenir une vision plus détaillée du problème. Ces questions peuvent être :

Qui ou qu'est-ce qui signale le problème ?
Quels sont les codes et les messages d'erreur ?
Comment la défaillance du système se manifeste-t-elle ? Par exemple, est-ce une boucle, un blocage, une panne, une dégradation des performances ou un résultat incorrect ?

Où le problème se produit-il ?

Il n'est pas toujours facile de déterminer l'origine d'un problème mais cette étape est l'une des plus importantes pour sa résolution. Plusieurs couches de technologie peuvent séparer le composant qui signale le problème et le composant défaillant. Les réseaux, les disques et les pilotes ne sont que quelques-uns des composants à prendre en compte lors de la détermination des problèmes.

Les questions suivantes vous permettent de cerner l'emplacement source du problème afin d'isoler la couche concernée :

Le problème se produit-il sur un seul système d'exploitation ou sur plusieurs systèmes d'exploitation ?
L'environnement et la configuration actuels sont-ils pris en charge ?
Le problème se produit-il chez tous les utilisateurs ?
(Pour les installations multisites) Le problème se produit-il sur tous les sites ?

Le fait qu'une couche signale le problème ne signifie pas forcément qu'il lui soit lié. L'identification de l'origine d'un problème consiste en partie à comprendre l'environnement dans lequel il se produit. Prenez du temps pour décrire en détail l'environnement du problème, notamment le système d'exploitation et la version associés, tous les logiciels et versions associés, ainsi que les informations relatives à la configuration matérielle. Vérifiez que la configuration de votre environnement est prise en charge. De nombreux problèmes peuvent être provoqués par l'utilisation de logiciels incompatibles qui ne sont pas destinés à être exécutés ensemble ou dont l'exécution simultanée n'a pas été testée.

Quand le problème se produit-il ?

Constituez une chronologie détaillée des événements ayant conduit à une panne, surtout s'il s'agit d'occurrences isolées. Il est plus facile de générer le diagramme en partant de la fin : commencez au moment où l'erreur a été signalée (aussi précisément que possible, éventuellement à la milliseconde près), et retracez les événements à l'envers à l'aide des journaux et des informations disponibles. En général, vous utilisez le premier événement suspect signalé dans un journal de diagnostic.

Pour établir une chronologie détaillée des événements, répondez aux questions suivantes :

Le problème se produit-il uniquement à certaines heures du jour ou de la nuit ?
A quelle fréquence le problème se produit-il ?
Quelle succession d'événements a précédé le moment où le problème a été signalé ?
Le problème se produit-il à la suite d'un changement de l'environnement, tel que la mise à niveau ou l'installation de composants logiciels ou matériels ?

Apporter des réponses à ces types de question peut vous fournir un cadre de référence dans lequel vous pourrez étudier le problème.

Dans quelles conditions le problème se produit-il ?

L'identification des systèmes et des applications en cours d'exécution au moment du problème est une étape importante de la procédure. Les questions suivantes sur votre environnement vous permettent d'identifier plus facilement la cause première du problème :

Le problème se produit-il toujours au moment où la même tâche est exécutée ?
Est-ce qu'une séquence d'événements particulière doit se produire pour provoquer le problème ?
Est-ce que l'exécution d'autres applications échoue également ?

Les réponses à ces types de question peuvent vous aider à comprendre l'environnement dans lequel le problème se produit et à établir des corrélations avec des dépendances. N'oubliez pas que le simple fait que plusieurs problèmes se produisent à peu près simultanément ne signifie pas pour autant qu'ils sont liés entre eux.

Pouvez-vous reproduire le problème ?

Du point de vue du traitement des incidents, le problème idéal peut être reproduit. En général, il existe un plus grand nombre d'outils ou de procédures d'analyse à disposition lorsque les problèmes sont reproductibles. Les problèmes qui peuvent être reproduits sont souvent plus faciles à déboguer et à résoudre.

Ces problèmes présentent toutefois un inconvénient. S'ils ont un impact important sur l'activité, vous ne souhaitez pas qu'ils se reproduisent. Si possible, recréez le problème dans un environnement de test ou de développement, qui offre généralement davantage de souplesse et de possibilité de contrôle lors de la recherche de la cause.

Le problème peut-il être recréé sur un système de test ?
Est-ce que plusieurs utilisateurs ou applications rencontrent le même type de problème ?
Le problème peut-il être recréé en exécutant une seule commande, un ensemble de commandes ou une application spécifique ?