Techniques de traitement des incidents

Modifier en ligne

Certaines techniques courantes peuvent être utiles pour la tâche de traitement des incidents. La première étape du processus de traitement des incidents consiste à décrire l'incident de manière exhaustive.

Les descriptions des problèmes vous aident, ainsi que les interlocuteurs du support technique IBM à identifier la cause du problème. Cette étape comprend les questions élémentaires suivantes :

Valeur
	Quels sont les symptômes de l'incident ?
	Où l'incident se produit-il ?
	Quand l'incident se produit-il ?
	Dans quelles conditions l'incident se produit-il ?
	Pouvez-vous reproduire l'incident ?

Les réponses à ces questions mènent généralement à une bonne description de l'incident, ce qui peut ensuite vous conduire à une résolution d'incident.

Quels sont les symptômes de l'incident ?

Lorsque vous commencez à décrire un problème, la question la plus évidente est Quel est le problème ?. Cette question peut sembler simple mais vous pouvez la diviser en différentes questions plus précises qui permettent d'obtenir une description plus détaillée de l'incident. Ces questions peuvent être :

Valeur
	Qui ou quoi signale l'incident ?
	Quels sont les codes et les messages d'erreur ?
	Comment la défaillance du système se produit-elle ? Par exemple, est-ce une boucle, un blocage, un arrêt brutal, une détérioration des performances ou un résultat incorrect ?

Où l'incident se produit-il ?

Il n'est pas toujours facile de déterminer l'endroit où l'incident se produit, pourtant cette étape est essentielle pour la résolution d'un incident. Il peut y avoir de nombreuses couches de technologie entre le composant qui signale l'incident et le composant défaillant. Les réseaux, les disques et les pilotes ne sont que quelques-uns des composants à prendre en compte lorsque vous analysez des incidents.

Les questions suivantes vous aident à identifier l'emplacement de l'incident pour isoler la couche problématique :

Valeur
	Le problème se produit-il sur un seul système d'exploitation ou sur plusieurs systèmes d'exploitation ?
	L'environnement et la configuration en cours sont-ils pris en charge ?
	Le problème se produit-il chez tous les utilisateurs ?
	(Pour les installations multisites.) Le problème concerne-t-il tous les sites ?

Si une couche signale l'incident, cela ne signifie pas forcément que l'origine de l'incident est liée à cette couche. L'identification de l'origine d'un incident consiste en partie à comprendre l'environnement dans lequel il se produit. Prenez du temps pour décrire en détail l'environnement de l'incident, notamment le système d'exploitation et la version associée, tous les logiciels et les versions associées, ainsi que les informations relatives à la configuration matérielle. Confirmez que vous travaillez dans un environnement qui correspond à une configuration prise en charge. De nombreux problèmes peuvent être provoqués par l'utilisation de logiciels incompatibles qui ne sont pas destinés à être exécutés ensemble ou dont l'exécution simultanée n'a pas été testée.

Quand l'incident se produit-il ?

Reconstituez la chronologie détaillée des événements qui ont conduit à l'échec, particulièrement dans les cas où le problème ne s'est produit qu'une seule fois. Pour ce faire, procédez à l'envers : partez du moment où une erreur a été signalée (aussi précisément que possible, même à la milliseconde près) et remontez en arrière à l'aide des journaux et des informations disponibles. En général, vous utilisez le premier événement suspect signalé dans un journal de diagnostic.

Pour dresser un tableau chronologique détaillé, répondez aux questions suivantes :

Valeur
	L'incident se produit-il uniquement à certaines heures du jour ou de la nuit ?
	A quelle fréquence l'incident se produit-il ?
	Quelle série d'événements mène au moment auquel l'incident est signalé ?
	L'incident se produit-il à la suite d'une modification de l'environnement, telle que la mise à niveau ou l'installation de composants logiciels ou matériels ?

En répondant à ces questions, vous définissez un cadre de référence dans lequel mener vos recherches.

Dans quelles conditions l'incident se produit-il ?

L'identification des systèmes et des applications en cours d'exécution au moment de l'incident est une étape importante de la procédure. Les questions suivantes qui s'appliquent à votre environnement peuvent vous aider à identifier la cause de l'incident :

Valeur
	Le problème se produit-il toujours au moment où la même tâche est exécutée ?
	Est-ce qu'une séquence d'événements particulière doit se produire pour provoquer le problème ?
	Est-ce que l'exécution d'autres applications échoue également ?

Les réponses à ces types de questions peuvent vous aider à comprendre l'environnement dans lequel l'incident se produit et à établir des corrélations avec des dépendances. N'oubliez pas que le simple fait que plusieurs problèmes se produisent à peu près simultanément ne signifie pas pour autant qu'ils sont liés entre eux.

Pouvez-vous reproduire l'incident ?

Du point de vue de l'identification et de la résolution, le problème idéal est celui qui peut être reproduit. En général, lorsqu'un problème peut être reproduit, vous disposez d'un plus grand nombre d'outils ou de procédures pour vous aider à mener votre enquête. Les problèmes qui peuvent être reproduits sont souvent plus faciles à déboguer et résoudre.

Ils présentent toutefois un inconvénient. Si l'incident a un impact important sur l'activité, vous ne souhaitez pas qu'il se reproduise. Si possible, recréez le problème dans un environnement de développement ou de test, qui offre généralement davantage de souplesse et de possibilité de contrôle lors de la recherche de la cause.

Valeur
	Le problème peut-il être recréé dans un système de test ?
	Est-ce que plusieurs utilisateurs ou applications rencontrent le même genre de problème ?
	Est-ce que le problème peut être recréé en exécutant une seule commande, un ensemble de commandes ou une application particulière ?