Linux 問題切り分け手順

この手順は、 Linux® パーティションや、 Linux を唯一のオペレーティングシステムとして使用しているサーバーを保守する場合に使用します。

本タスクについて

危険
システムまたはその周辺で作業をする場合は、以下の予防措置を確認してください。

電源ケーブルや電話線、通信ケーブルからの電圧および電流は危険です。 感電を避けるため、IBM から電源コードが供給されている場合は、その電源コードのみを使用して当装置を電源に接続します。 IBM から供給された電源コードは、他の製品には使用しないでください。 電源装置アセンブリーを開いたり、保守しないでください。 雷雨の間はケーブルの接続や切り離し、または本製品の設置、保守、再構成を行わないでください。

  • L003 ラベルイメージ この製品は複数の電源コードを備えていることがあります。 危険な電圧をすべて除去するには、すべての電源コードを取り外してください。 AC 電源では、すべての電源コードをそれぞれの AC 給電部から切り離します。 DC 電力配分パネル (PDP) 付きのラックでは、PDP へのお客様の DC 電源を切断してください。
  • 製品に電源を接続する際には、すべての電源ケーブルが適切に接続されていることを確認します。 AC 電源付きのラックでは、すべての電源コードを正しく配線され接地されたコンセントに接続します。 電源コンセントから 供給される電圧と相回転がシステムの定格銘板に従っていることを確認します。 DC 電力配分パネル (PDP) 付きのラックでは、お客様の DC 電源を PDP へ接続します。 DC 電源および DC 電源帰線を接続する際に、必ず、適切な極性が使用されていることを確認してください。
  • ご使用の製品に接続するすべての装置を、正しく配線されたコンセントに接続してください。
  • シグナル・ケーブルの接続または切り離しは可能なかぎり片手で行ってください。
  • 火災、水害、または建物に構造的損傷の形跡が見られる場合は、どの装置の電源もオンにしないでください。
  • 考えられる危険な状態がすべて修正されるまで、マシンへの電力をオンに切り替えようとしないでください。
  • マシンの検査を実行する際は、電気に関する安全上の問題が存在することを前提としてください。 サブシステムの取り付け手順時に指定された導通、接地、および電源のチェックをすべて実行して、そのマシンが安全要件を満たしていることを確認してください。 考えられる危険な状態がすべて修正されるまで、マシンへの電力をオンに切り替えようとしないでください。 装置のカバーを開ける前に、取り付けおよび構成の手順で別途指示されている場合を除き、接続されている AC 電源コードを切り離し、ラック電力配分パネル (PDP) 内の該当する回路ブレーカーの電源をオフにして、すべての通信システム、ネットワーク、およびモデムを切り離します。
  • ご使用の製品または接続されたデバイスの取り付け、移動、またはカバーの取り外しを行う場合には、以下の手順に従ってケーブルの接続および取り外しを行ってください。

    電源を切るには、1) すべての電源をオフにします (別に指示される場合を除く)。 2) AC 電源では、コンセントから電源コードを取り外します。 3) DC 電力配分パネル (PDP) 付きのラックでは、PDP 内の回路ブレーカーの電源をオフにして、お客様の DC 電源から電力を除去します。 4) シグナル・ケーブルをコネクターから取り外します。 5) すべてのケーブルをデバイスから取り外します。

    接続するには、1) すべての電源をオフにします (別に指示される場合を除く)。 2) すべてのケーブルをデバイスに接続します。 3) シグナル・ケーブルをコネクターに接続します。 4) AC 電源では、電源コードをコンセントに接続します。 5) DC 電力配分パネル (PDP) 付きのラックでは、お客様の DC 電源からの電力を回復し、PDP 内の回路ブレーカーの電源をオンにします。 6) デバイスの電源をオンにします。

  • 鋭利な先端の部品やジョイントがシステムの中や周囲に存在している可能性があります。 機器を取り扱う際には、指を切ったり、こすったり、挟んだりしないように注意してください。 (D005)

これらの手順は、 Linux パーティションや、 Linux を唯一のオペレーティングシステムとするサーバーを保守する際の手順を定義しています。

この手順を続行する前に、 Linux ソリューションを強化するために利用可能な追加ソフトウェアを確認することをお勧めします。 PowerLinux サーバー用のサービスと生産性向上ツールを参照。

注: サーバーが管理コンソールに接続されている場合、 管理コンソールに表示される可能性のあるさまざまなコードは、すべてサービスフォーカルポイント(SFP)の参照コードとしてリストされています。 次の表を使用すると、この手順を使用している際に表示される可能性があるエラー情報のタイプを識別するのに役立ちます。
参照コードの桁数 参照コード 名前またはコード・タイプ
任意の # (番号記号) を含む メニュー・ゴール
任意の - (ハイフン) を含む サービス要求番号 (SRN)
5 # または - のいずれも含まない SRN
8 # または - のいずれも含まない システム参照コード (SRC)

手順

  1. サーバーは、SFP(Service Focal Point)が稼働している管理コンソールで管理されていますか?
    いいえ
    ステップ 3に進む。
    はい
    ステップ 2に進む。
  2. サービス・フォーカル・ポイント搭載サーバー

    SFP のサービス・アクション・イベント・ログでエラーを調べます。 エラーが発生した時間に近いタイム・スタンプを持つエラーに焦点を当てます。 エラー・ログ・エントリーに示された手順に従って、問題を解決します。 問題が解決しない場合は、ステップ 3に進んでください。

  3. オペレーター・パネル上およびサービス・プロセッサーのエラー・ログ (ASMI メニューを表示することでアクセス可能) 内の、すべての参照コード情報およびソフトウェア・メッセージを探して記録します。
  4. Linux、正常に動作しているパーティション(できれば問題のあるパーティション)を選びます。

    Linux がインストールされているパーティションでは、 Linux は使えますか?

    いいえ
    ステップ 10に進む。
    はい
    ステップ 5に進む。
  5. RTAS イベントを診断します。 手順については、 RTASイベントの診断を参照してください。
  6. Linux のシステムログに RTAS のイベントを記録する。

    Linux がインストールされた論理パーティションが複数あるシステムの場合、 Linux がインストールされているすべての論理パーティションについて、ステップ 5 とステップ 6 を繰り返します。

  7. rootユーザーとしてシステムにログインし、以下のコマンドを入力して、 Linux ブート(IPL)ログを調べる:

    cat /var/log/boot.msg |grep RTAS |more

    Linux ブート(IPL)エラーメッセージは/var/log下の boot.msg ファイルに記録される。 Linux ブートエラーログの例:
    RTAS daemon started
    RTAS: -------- event-scan begin --------
    RTAS: Location Code: U0.1-F3
    RTAS: WARNING: (FULLY RECOVERED) type: SENSOR
    RTAS: initiator: UNKNOWN target: UNKNOWN
    RTAS: Status: bypassed new
    RTAS: Date/Time: 20020830 14404000
    RTAS: Environment and Power Warning
    RTAS: EPOW Sensor Value: 0x00000001
    RTAS: EPOW caused by fan failure
    RTAS: -------- event-scan end ----------
  8. ステップ 7 の Linux ブート (IPL) ログで見つかった RTAS イベントを記録します。
    Linux ブート(IPL)ログの他のイベントはすべて無視する。 Linux がインストールされた論理パーティションが複数あるシステムの場合、 Linux がインストールされているすべての論理パーティションについて、ステップ 7 とステップ 8 を繰り返します。
  9. ステップ 5の Linux システムログまたはステップ 7の Linux ブート(IPL)ログで見つかった拡張データを記録する。
    注: Linux 拡張データのうち、以下の行で始まる<4>RTAS: Log Debug: 04には、次の16進数8文字で示される参照コードが含まれる。 前の例では4b27 26fbは参照コードである。 参照コードは、ワード 11 としても知られています。 Linux、拡張データのリファレンス・コードの後の4バイトは、それぞれ別のワードとなる(例えば、04a0 0011はワード12であり702c 0014は単語13、など)。

    Linux がインストールされた論理パーティションが複数あるシステムの場合、 Linux がインストールされているすべての論理パーティションについて、ステップ 9を繰り返します。

  10. ステップ 3689で参照コードやチェックポイントが記録されたか?
    いいえ
    ステップ 11に進む。
    はい
    記録された各参照コードを使用して、 Linux 高速パスの問題の分離に進みます。 各参照コードについて指示されたアクションを、問題が修正されるまで一度に 1 つずつ実行します。 記録されたすべての参照コードが処理され、問題が修正されていない場合は、ステップ 11に進む。
  11. 使用可能な追加のエラー情報がなくなり、問題が修正されていない場合は、次の手順を完了します。
    1. システムをシャットダウンします。
    2. 管理コンソールが接続されていない場合、ASMIにアクセスする手順については、「 Advanced System Management Interfaceを使用したサーバーの管理 」を参照してください。
      注: システム・ポート 1に接続されたパーソナル・コンピューターを使用して、ASMI機能にアクセスすることもできます。

      システム・ユニットのシステム・ポート 1に接続できるパソコンが必要です。 ( システム・ポート 1に接続されたパーソナル・コンピューターでは、 Linux のログイン・プロンプトは表示されない) その他の ASMI 機能が使用できない場合は、次の手順を使用してください。

      1. パソコンとケーブルをシステム・ユニットのシステム・ポート 1に取り付ける。
      2. オペレーター・パネルに 01 が表示されたら、パーソナル・コンピューター上の仮想端末でキーを 1 つ押します。 接続したパーソナル・コンピューターでサービス ASMI メニューが使用可能になります。
      3. パーソナル・コンピューター上でサービス・プロセッサー・メニューが使用できない場合は、次の手順を実行します。
        1. サービス・プロセッサーへのすべての接続を調査および修正します。
        2. サービス・プロセッサーを取り替えます。
          注: サービスプロセッサーは、別のカードやボードに搭載されている場合もある。システムによっては、サービスプロセッサーがシステムバックプレーンに組み込まれている場合もある。 システム・バックプレーンを取り替える前に、次のレベルのサポートに連絡して支援を依頼してください。
    3. サービス・プロセッサー・エラー・ログを調査します。
      サービス・プロセッサー・エラー・ログに書き込まれたすべての参照コードおよびメッセージを記録します。 ステップ 12に進む。
  12. ステップ 11で参照コードは記録されましたか?
    いいえ
    ステップ 20に進む。
    はい
    記録した各参照コードまたは症状について、 Linux ファストパスの問題切り分けに進んでください。 指示されたアクションを、問題が修正されるまで一度に 1 つずつ実行します。 記録されたすべての参照コードが処理され、問題が修正されていない場合は、 20に進む。
  13. システムをリブートし、すべての区画をログイン・プロンプトに表示させます。
    Linux、すべてのパーティションで使用できない場合は、ステップ 17に進んでください。
  14. すべてのパーティションに割り当てられているすべてのリソースを一覧表示するには、 lscfg コマンドを使用します。
    各リソースのアダプターおよび区画を記録します。
  15. 欠落しているデバイスまたはアダプターがないかどうかを判別するには、区画割り当てのリストと検出されたリソースを、お客様の既知の構成と比較します。 欠落したデバイスがあれば、その位置を記録します。
    デバイスの説明あるいは位置の差異もすべて記録します。

    この見つかったリソースのリストは、以下のように、前のバージョンのデバイス・ツリーと比較することもできます。

    注: Linux のコマンドプロンプトで、 vpdupdate とタイプし、Enterを押す。 デバイス・ツリーは /var/lib/lsvpd/ ディレクトリーにファイル名 device-tree-YYYY-MM-DD-HH:MM:SS で保管されます (ここで、YYYY は年、MM は月、DD は日、HH、MM、および SS はそれぞれ時、分、秒で、作成日時を表します)。
    • コマンド行で、次を入力します。
      cd /var/lib/lsvpd/
    • コマンド行で、次を入力します。
      lscfg -vpz /var/lib/lsvpd/<file_name>

      ここで、<file_name> は、データベース・アーカイブを含む .gz ファイル名です。

    diff コマンドによって、現在の lscfg コマンドによる出力と過去の lscfg コマンドによる出力を比較することができます。 現在のデバイス・ツリーと古いデバイス・ツリーのファイル名がそれぞれ current.outold.out の場合は、diff old.out current.out と入力します。 古い行には存在するものの、現在の行には存在しない行はすべてリストされ、その前に小なり記号 (<) が付きます。現在の行には存在するのの、古い行には存在しない行はすべてリストされ、その前に大なり記号 (>) が付きます。両方のファイルで同じ行はリストされません。例えば、同一のファイルは、diff コマンドからの出力を生成しません。 位置または記述が変更されると、< と > の両方が前に付いた行が出力されます。

    Linux がインストールされた論理パーティションが複数あるシステムの場合、 Linux がインストールされているすべての論理パーティションについて 1415 を繰り返します。

  16. 15で記録されたデバイスの位置は1つだけだったのか?
    いいえ
    ステップ 16で 「はい」と答えた場合は、システムを元の構成に戻します。 これで手続きは終了

    MAP 0410:修理チェックアウトへ

    ステップ 16で 「はい」と答えなかった場合は、ステップ 17に進んでください。

    はい
    以下の手順を一度に 1 つずつ完了します。 各ステップの前にシステムの電源を切ってください。 各ステップの後、システムの電源を入れ、ステップ 13に進みます。
    1. システムからデバイスへのすべての接続をチェックします。
    2. デバイス (例えば、テープあるいは DASD) を取り替えます
    3. 利用可能な場合、デバイス・バックプレーンを取り替えます。
    4. デバイス・ケーブルを取り替えます。
    5. アダプターを取り替えます。
      • アダプターが I/O ドロワーにある場合は、I/O バックプレーンを取り替えます。
      • デバイス・アダプターが CEC 内にある場合は、I/O ライザー・カード、あるいはアダプターが差し込まれている CEC のバックプレーンを取り替えます。
    6. サービス・サポートにお問い合わせください。 ステップ 13には進まないでください。
  17. ログインプロンプトに到達する前に、システムが停止したり、ハングアップしているように見えたり、ステップ 15でリソースの問題を記録していませんか?
    注: システム・コンソールまたはVTERMウィンドウが常に空白の場合は、NOを選択してください。 コンソールまたは VTERM が操作可能であり、正しく接続されていることが確実な場合は、このステップの質問に回答してください。
    いいえ
    ステップ 18に進む。
    はい
    I/O デバイスに問題がある可能性があります。 PFW1542: I/O 問題の切り分け手順に進む。 システムをブートするように指示されたら、全システム区画をブートします。
  18. eServer スタンドアロン診断の起動については、 オンラインおよびスタンドアロン診断の実行 をご参照ください。
    すべてのリソースで、問題判別モードで診断を実行します。 全システム区画を確実にブートします。 すべての既知のリソースで必ず診断の実行が終わっているようにします。 各リソースを個別に選択して、一度に 1 つのリソースずつ診断を実行する必要がある場合があります。
    スタンドアロン診断で問題が検出されましたか?
    いいえ
    ステップ 22に進む。
    はい
    参照コードに移動し、記録した各参照コードに対するアクションを実行します。 ステップ 16でまだ処理されていない各参照コードについて、問題が修正されるまでこの操作を繰り返す。 一度に 1 つずつ、指示された処理を実行します。 記録されたすべての参照コードが処理され、問題が修正されていない場合は、ステップ 22に進む。
  19. 1つ以上のパーティションに Linux。
    いいえ
    冒頭の問題分析に戻る。
    はい
    ステップ 3に進む。
  20. ステップ 36891011で記録されたロケーションコードはありましたか?
    いいえ
    ステップ 13に進む。
    はい
    手順 36891011で位置コードが記録された部品のうち、交換されていないものを1つずつ交換する。 部品を交換する前に、システムの電源を切ってください。 部品の交換後にシステムの電源をオンにして、問題が修正されているかを確認します。 問題が改善された場合、または場所コードリストの部品がすべて交換された場合は、ステップ 21に進んでください。
  21. ステップ 20で問題は修正されましたか?
    いいえ
    ステップ 13に進む。
    はい
    システムを元の構成に戻します。 これで手続きは終了

    MAP 0410:修理チェックアウトへ

  22. ステップ 3で他の症状は記録されましたか?
    いいえ
    サポートに連絡します。
    はい
    記録した各症状について、 問題分析の最初に進む。 記録したすべての症状について指示されたアクションを、問題が修正されるまで一度に 1 つずつ実行します。 記録したすべての症状について処理しても問題が修正されない場合は、次のレベルのサポートにお問い合わせください。