Techniques de traitement des incidents

Le traitement des problèmes est une approche systématique de la phase de résolution d'un problème. Elle détermine les raisons pour lesquelles l'unité ne fonctionne pas correctement et explique la démarche à suivre pour corriger le problème.

Certaines techniques courantes peuvent être utiles pour la tâche de traitement des incidents. La première étape de traitement des problèmes consiste à décrire l'incident de manière exhaustive. Les descriptions du problème vous aident, vous et le représentant du support technique d' IBM®, à savoir par où commencer pour trouver la cause du problème. Cette étape comprend les questions élémentaires suivantes :

  • Quels sont les symptômes de l'incident ?
  • Où le problème se produit-il ?
  • Quand le problème se produit-il ?
  • Dans quelles conditions l'incident se produit-il ?
  • Pouvez-vous reproduire l'incident ?

En règle générale, les réponses à ces questions permettent de décrire le problème avec précision, ce qui peut ensuite vous mener à la solution du problème.

Quels sont les symptômes de l'incident ?

Lorsque vous commencez à décrire un problème, la question la plus évidente est Quel est le problème ?. Cette question peut sembler simple mais vous pouvez la diviser en différentes questions plus précises qui permettent d'obtenir une description plus détaillée de l'incident. Ces questions peuvent être :

  • Qui ou quoi signale l'incident ?
  • Quels sont les codes et les messages d'erreur ?
  • Comment la défaillance du système se produit-elle ? Par exemple, est-ce une boucle, un blocage, un arrêt brutal, une détérioration des performances ou un résultat incorrect ?

Où le problème se produit-il ?

Il n'est pas toujours facile de déterminer l'origine du problème, mais cette étape est l'une des plus importantes pour la résolution du problème. Il peut y avoir de nombreuses couches de technologie entre le composant qui signale l'incident et le composant défaillant. Les réseaux, les disques et les pilotes ne sont que quelques-uns des composants à prendre en compte lorsque vous analysez des incidents.

Les questions suivantes vous aident à identifier l'emplacement de l'incident pour isoler la couche problématique :

  • Le problème se produit-il sur un seul système d'exploitation ou apparaît-il sur plusieurs systèmes d'exploitation ?
  • L'environnement et la configuration actuels sont-ils pris en charge ?
  • Le problème concerne-t-il tous les utilisateurs ?
  • (Pour les installations multisites.) Le problème concerne-t-il tous les sites ?

Si une couche signale le problème, celui-ci ne provient pas nécessairement de cette couche. Pour identifier l'endroit d'où provient un problème, vous devez comprendre l'environnement dans lequel ce problème se produit. Prenez du temps pour décrire en détail l'environnement de l'incident, notamment le système d'exploitation et la version associée, tous les logiciels et les versions associées, ainsi que les informations relatives à la configuration matérielle. Confirmez que vous travaillez dans un environnement qui correspond à une configuration prise en charge. De nombreux problèmes peuvent être provoqués par l'utilisation de logiciels incompatibles qui ne sont pas destinés à être exécutés ensemble ou dont l'exécution simultanée n'a pas été testée.

Quand le problème se produit-il ?

Reconstituez la chronologie détaillée des événements qui ont conduit à l'échec, particulièrement dans les cas où le problème ne s'est produit qu'une seule fois. Il est plus facile de décrire le déroulement en commençant par la fin : commencez par le moment où l'erreur a été signalée (aussi précisément que possible, voire jusqu'aux millisecondes) et remontez la suite des événements à l'aide des journaux et informations disponibles. En général, vous utilisez le premier événement suspect signalé dans un journal de diagnostic.

Pour dresser un tableau chronologique détaillé, répondez aux questions suivantes :

  • L'incident se produit-il uniquement à certaines heures du jour ou de la nuit ?
  • A quelle fréquence le problème se produit-il ?
  • Quelle série d'événements mène au moment auquel l'incident est signalé ?
  • L'incident se produit-il à la suite d'une modification de l'environnement, telle que la mise à niveau ou l'installation de composants logiciels ou matériels ?

En répondant à ces questions, vous définissez un cadre de référence dans lequel mener vos recherches.

Dans quelles conditions l'incident se produit-il ?

L'identification des systèmes et des applications en cours d'exécution au moment du problème est une étape importante de la procédure de traitement des problèmes. Les questions suivantes qui s'appliquent à votre environnement peuvent vous aider à identifier la cause de l'incident :

  • Le problème se produit-il toujours au moment où la même tâche est exécutée ?
  • Est-ce qu'une séquence d'événements particulière doit se produire pour provoquer le problème ?
  • Est-ce que l'exécution d'autres applications échoue également ?

Les réponses à ces types de questions peuvent vous aider à comprendre l'environnement dans lequel l'incident se produit et à établir des corrélations avec des dépendances. N'oubliez pas que le simple fait que plusieurs problèmes se produisent à peu près simultanément ne signifie pas pour autant qu'ils sont liés entre eux.

Pouvez-vous reproduire l'incident ?

En termes de traitement des problèmes, le problème idéal est celui qui peut être reproduit. En effet, vous disposez généralement d'un plus grand nombre d'outils ou de procédures pour en savoir plus sur ces problèmes. Les problèmes qui peuvent être reproduits sont souvent plus faciles à déboguer et résoudre.

Ils présentent toutefois un inconvénient. Si l'incident a un impact important sur l'activité, vous ne souhaitez pas qu'il se reproduise. Si possible, recréez le problème dans un environnement de test ou de développement, qui offre généralement davantage de flexibilité et de contrôle durant votre investigation.

  • Le problème peut-il être recréé sur un système test ?
  • Est-ce que plusieurs utilisateurs ou applications rencontrent le même genre de problème ?
  • Est-ce que le problème peut être recréé en exécutant une seule commande, un ensemble de commandes ou une application particulière ?