問題疑難排解

疑難排解 是解決問題的系統化方法。 疑難排解的目標是要判定某事項為何沒有如預期般運作以及如何解決問題。

疑難排解程序的首要步驟就是完整說明問題。 問題說明可協助您及 IBM 技術支援代表瞭解從何處開始尋找問題的原因。 此步驟包括詢問您自己下列基本問題:

  • 問題的症狀是什麼?
  • 問題發生於何處?
  • 問題發生於何時?
  • 問題會在哪些狀況下發生?
  • 是否可以重現問題?

問題的症狀是什麼?

開始說明問題時,最明顯的問題是問題是什麼? 此問題可能看起來直接明確;然而,您可以將它細分為數個更有針對性的問題,從而更好地說明問題。 這些問題包括:

  • 是誰或何者報告問題?
  • 錯誤碼及訊息為何?
  • 系統是如何失敗的? 例如,是陷入迴圈、當掉、損毀、效能降低,還是結果不正確?

這些問題的回答通常可以很好地說明問題,然後引導您找到問題解決方法。

解決所發生的任何問題的兩種主要方法是理解訊息及使用日誌檔。

訊息

發生非預期的事件時,會發出訊息。 訊息可以具有下列任何嚴重性:
參考資訊
該訊息確認所要求的事件或說明發生另一個正常事件。 參考訊息一般不需要執行任何動作。 參考訊息的 ID 以字母 I 結尾。
警告
此訊息說明可能表示有問題的事件。 閱讀訊息文字並判定事件正常還是有問題。 警告訊息的 ID 以字母 W 結尾。
錯誤
該訊息說明需要回應的事件。 閱讀訊息說明及建議的回應。 錯誤訊息的 ID 以字母 E 結尾。
在 IBM® Knowledge Center 的「搜尋」方框中輸入訊息 ID ,即可輕鬆找到訊息說明。

日誌檔

發生問題時,日誌檔通常會提供線索來指出發生何事以及促使事件發生的原因。 您可以使用「日誌分析器」來收集並分析相關日誌檔。

問題發生於何處?

判斷問題的發生位置往往不容易,但它卻是解決問題的最重要步驟之一。 報告元件和失敗元件之間可能存在許多技術層面。 網路、磁碟及驅動程式只是少數要在探索問題時考量的元件。

下列問題可協助您明確找出發生問題的位置,以釐清問題層級:

  • 這是單一平台或作業系統的特定問題,還是多個平台或作業系統的共通問題?
  • 是否支援現行環境與配置?

如果有一層報告問題,該問題的起因不一定是在該層中。 識別問題發生位置的其中一環就是瞭解它所存在的環境。 請花一些時間來完整說明問題環境,包括:作業系統與版本、所有對應的軟體與版本,以及硬體資訊。 確認您正在其配置受支援的環境內執行。 許多問題都可以追溯到軟體層次不相容上,這些軟體預期並不是一起執行或者未一起完全測試過。

問題發生於何時?

詳述導致失敗的事件時間表,特別是那種只發生一次的案例。 發展時間表的最簡單方式是往回運作:透過可用的日誌和資訊,從報告錯誤的時間開始(盡可能精確,甚至可以細到毫秒為單位),並往回運作。 通常,只需要查看您在診斷日誌中找到的第一個可疑事件即可。

為了發展詳細的事件時間表,請回答下列問題:

  • 問題是否只在白天或夜晚的特定時間發生?
  • 問題發生的頻率如何?
  • 什麼事件序列會導向報告了問題的時間?
  • 問題是在環境變更(例如升級或安裝軟硬體)之後發生嗎?

對這些類型的問題做出回應,可為您提供一個參考範圍,您可以在該參考範圍中探索問題。

問題會在哪些狀況下發生?

知道在問題發生時有哪些系統及應用程式正在執行,是疑難排解中非常重要的一部分。 這些與環境相關的問題可協助您確定問題的主要原因:

  • 是不是在執行相同作業時一定會發生問題?
  • 是不是必須發生特定的事件順序才會出現問題?
  • 同一時間是否有任何其他應用程式失敗?

回答這些類型的問題,可協助您說明發生問題的環境,並找出任何相依項的關聯性。 請記住,只因為許多問題可能大致同時發生,並不表示這些問題彼此相關聯。

是否可以重現問題?

從疑難排解的角度而言,理想的問題是可以重新產生的問題。 一般而言,當問題可以重新產生時,您可以有較大的工具或程序集供您協助調查之用。 因此,您可以重新產生的問題通常較容易除錯和解決。 不過,可以重新產生的問題可能也有不利之處;如果問題會產生重大營運衝擊,您就不會想讓該問題再次發生。 如果可能的話,在測試或開發環境中重建問題,這通常在調查期間為您提供更多彈性及控制。

  • 是否可以在測試系統中重建問題?
  • 是否有多個使用者或應用程式遇到相同類型的問題?
  • 是否可以執行單一指令、一組指令或特定的應用程式來重建問題?