Linux の問題判別手順

この手順は、 Linux® 区画、または Linux を唯一のオペレーティング・システムとして持つサーバーを保守する場合に使用します。

本タスクについて

危険
システムまたはその周辺で作業をする場合は、以下の予防措置を確認してください。

電源ケーブルや電話線、通信ケーブルからの電圧および電流は危険です。 感電を避けるため、IBM から電源コードが供給されている場合は、その電源コードのみを使用して当装置を電源に接続します。 IBM から供給された電源コードは、他の製品には使用しないでください。 電源装置アセンブリーを開いたり、保守しないでください。 雷雨の間はケーブルの接続や切り離し、または本製品の設置、保守、再構成を行わないでください。

  • L003 ラベル・イメージ この製品は複数の電源コードを備えていることがあります。 危険な電圧をすべて除去するには、すべての電源コードを取り外してください。 AC 電源では、すべての電源コードをそれぞれの AC 給電部から切り離します。 DC 電力配分パネル (PDP) 付きのラックでは、PDP へのお客様の DC 電源を切断してください。
  • 製品に電源を接続する際には、すべての電源ケーブルが適切に接続されていることを確認します。 AC 電源付きのラックでは、すべての電源コードを正しく配線され接地されたコンセントに接続します。 電源コンセントから 供給される電圧と相回転がシステムの定格銘板に従っていることを確認します。 DC 電力配分パネル (PDP) 付きのラックでは、お客様の DC 電源を PDP へ接続します。 DC 電源および DC 電源帰線を接続する際に、必ず、適切な極性が使用されていることを確認してください。
  • ご使用の製品に接続するすべての装置を、正しく配線されたコンセントに接続してください。
  • シグナル・ケーブルの接続または切り離しは可能なかぎり片手で行ってください。
  • 火災、水害、または建物に構造的損傷の形跡が見られる場合は、どの装置の電源もオンにしないでください。
  • 考えられる危険な状態がすべて修正されるまで、マシンへの電力をオンに切り替えようとしないでください。
  • マシンの検査を実行する際は、電気に関する安全上の問題が存在することを前提としてください。 サブシステムの取り付け手順時に指定された導通、接地、および電源のチェックをすべて実行して、そのマシンが安全要件を満たしていることを確認してください。 考えられる危険な状態がすべて修正されるまで、マシンへの電力をオンに切り替えようとしないでください。 装置のカバーを開ける前に、取り付けおよび構成の手順で別途指示されている場合を除き、接続されている AC 電源コードを切り離し、ラック電力配分パネル (PDP) 内の該当する回路ブレーカーの電源をオフにして、すべての通信システム、ネットワーク、およびモデムを切り離します。
  • ご使用の製品または接続されたデバイスの取り付け、移動、またはカバーの取り外しを行う場合には、以下の手順に従ってケーブルの接続および取り外しを行ってください。

    電源を切るには、1) すべての電源をオフにします (別に指示される場合を除く)。 2) AC 電源では、コンセントから電源コードを取り外します。 3) DC 電力配分パネル (PDP) 付きのラックでは、PDP 内の回路ブレーカーの電源をオフにして、お客様の DC 電源から電力を除去します。 4) シグナル・ケーブルをコネクターから取り外します。 5) すべてのケーブルをデバイスから取り外します。

    接続するには、1) すべての電源をオフにします (別に指示される場合を除く)。 2) すべてのケーブルをデバイスに接続します。 3) シグナル・ケーブルをコネクターに接続します。 4) AC 電源では、電源コードをコンセントに接続します。 5) DC 電力配分パネル (PDP) 付きのラックでは、お客様の DC 電源からの電力を回復し、PDP 内の回路ブレーカーの電源をオンにします。 6) デバイスの電源をオンにします。

  • 鋭利な先端の部品やジョイントがシステムの中や周囲に存在している可能性があります。 機器を取り扱う際には、指を切ったり、こすったり、挟んだりしないように注意してください。 (D005)

以下の手順では、 Linux パーティション、または唯一のオペレーティング・システムとして Linux を持つサーバーを保守する場合に実行するステップを定義します。

この手順を続行する前に、 Linux ソリューションを拡張するために使用可能な追加のソフトウェアを確認することをお勧めします。 PowerLinux サーバーの サービス・ツールと生産性向上ツール を参照してください。

注: サーバーが 管理コンソールに接続されている場合、 管理コンソール に表示される可能性がある各種コードはすべて、サービス・フォーカル・ポイント (SFP) によって参照コードとしてリストされます。 次の表を使用すると、この手順を使用している際に表示される可能性があるエラー情報のタイプを識別するのに役立ちます。
参照コードの桁数 参照コード 名前またはコード・タイプ
ANY # (番号記号) を含む メニュー・ゴール
ANY - (ハイフン) を含む サービス要求番号 (SRN)
5 # または - のいずれも含まない SRN
8 # または - のいずれも含まない システム参照コード (SRC)

プロシージャー

  1. サーバーは、サービス・フォーカル・ポイント (SFP) を実行している 管理コンソール によって管理されていますか?
    いいえ
    ステップ 3に進みます。
    はい
    ステップ 2に進みます。
  2. サービス・フォーカル・ポイントを持つサーバー

    SFP のサービス・アクション・イベント・ログでエラーを調べます。 エラーが発生した時間に近いタイム・スタンプを持つエラーに焦点を当てます。 エラー・ログ・エントリーに示された手順に従って、問題を解決します。 問題が解決しない場合は、ステップ 3に進みます。

  3. オペレーター・パネル上およびサービス・プロセッサーのエラー・ログ (ASMI メニューを表示することでアクセス可能) 内の、すべての参照コード情報およびソフトウェア・メッセージを探して記録します。
  4. 正しく実行されている Linux パーティション (問題のあるパーティションが望ましい) を選択します。

    Linux がインストールされているパーティションで Linux を使用できますか?

    いいえ
    ステップ 10に進みます。
    はい
    ステップ 5に進みます。
  5. RTAS イベントを診断します。 手順については、 RTAS イベントの診断を参照してください。
  6. Linux システム・ログで検出されたすべての RTAS イベントを記録する

    Linux がインストールされている複数の論理区画を使用してシステムが構成されている場合は、 Linux がインストールされているすべての論理区画について、ステップ 5 およびステップ 6 を繰り返します。

  7. root ユーザーとしてシステムにログインし、次のコマンドを入力して、 Linux ブート (IPL) ログを調べます。

    cat /var/log/boot.msg |grep RTAS |more

    Linux ブート (IPL) エラー・メッセージは、 /var/logの下の boot.msg ファイルに記録されます。 Linux ブート・エラー・ログの例:
    RTAS daemon started
    RTAS: -------- event-scan begin --------
    RTAS: Location Code: U0.1-F3
    RTAS: WARNING: (FULLY RECOVERED) type: SENSOR
    RTAS: initiator: UNKNOWN target: UNKNOWN
    RTAS: Status: bypassed new
    RTAS: Date/Time: 20020830 14404000
    RTAS: Environment and Power Warning
    RTAS: EPOW Sensor Value: 0x00000001
    RTAS: EPOW caused by fan failure
    RTAS: -------- event-scan end ----------
  8. ステップ 7で Linux ブート (IPL) ログに見つかった RTAS イベントをすべて記録します。
    Linux ブート (IPL) ログ内の他のすべてのイベントを無視します。 Linux がインストールされている複数の論理区画を使用してシステムが構成されている場合は、 Linux がインストールされているすべての論理区画について、ステップ 7 およびステップ 8 を繰り返します。
  9. ステップ 5 で Linux システム・ログに見つかった拡張データ、またはステップ 7で Linux ブート (IPL) ログに見つかった拡張データを記録します。
    注: Linux 拡張データの行は、以下で始まります。<4>RTAS: Log Debug: 04次の 8 桁の 16 進文字にリストされている参照コードが入っています。 前の例では、4b27 26fb参照コードです。 参照コードは、ワード 11 としても知られています。 Linux 拡張データ内の参照コードの後の各 4 バイトは、別のワードです (例えば、次のようになります)。04a0 0011ワード 12、および702c 0014ワード 13 というように続きます)。

    Linux がインストールされている複数の論理区画でシステムが構成されている場合は、 Linux がインストールされているすべての論理区画について、ステップ 9 を繰り返します。

  10. ステップ 368、または 9で記録された参照コードまたはチェックポイントはありましたか?
    いいえ
    ステップ 11に進みます。
    はい
    記録された各参照コードを使用して、 Linux ファスト・パスの問題判別 に進みます。 各参照コードについて指示されたアクションを、問題が修正されるまで一度に 1 つずつ実行します。 記録されたすべての参照コードが処理され、問題が修正されていない場合は、ステップ 11に進みます。
  11. 使用可能な追加のエラー情報がなくなり、問題が修正されていない場合は、次の手順を完了します。
    1. システムをシャットダウンします。
    2. 管理コンソール が接続されていない場合は、ASMI にアクセスする手順について、 Advanced System Management Interface を使用したサーバーの管理 を参照してください。
      注: ASMI 機能には、 システム・ポート 1 に接続されたパーソナル・コンピューターを使用してアクセスすることもできます。

      システム装置上の システム・ポート 1 に接続できるパーソナル・コンピューターが必要です。 ( システム・ポート 1 に接続されているパーソナル・コンピューターでは、 Linux ログイン・プロンプトは表示されません。) その他の ASMI 機能が使用できない場合は、次の手順を使用してください。

      1. パーソナル・コンピューターとケーブルをシステム装置の システム・ポート 1 に接続します。
      2. オペレーター・パネルに 01 が表示されたら、パーソナル・コンピューター上の仮想端末でキーを 1 つ押します。 接続したパーソナル・コンピューターでサービス ASMI メニューが使用可能になります。
      3. パーソナル・コンピューター上でサービス・プロセッサー・メニューが使用できない場合は、次の手順を実行します。
        1. サービス・プロセッサーへのすべての接続を調査および修正します。
        2. サービス・プロセッサーを取り替えます。
          注: サービス・プロセッサーは、別個のカードまたはボードに含まれている場合があります。一部のシステムでは、サービス・プロセッサーはシステム・バックプレーンに組み込まれています。 システム・バックプレーンを取り替える前に、次のレベルのサポートに連絡して支援を依頼してください。
    3. サービス・プロセッサー・エラー・ログを調査します。
      サービス・プロセッサー・エラー・ログに書き込まれたすべての参照コードおよびメッセージを記録します。 ステップ 12に進みます。
  12. ステップ 11で記録された参照コードはありましたか?
    いいえ
    ステップ 20に進みます。
    はい
    記録した各参照コードまたは症状を使用して、 Linux ファスト・パス問題判別 に進みます。 指示されたアクションを、問題が修正されるまで一度に 1 つずつ実行します。 記録されたすべての参照コードが処理され、問題が修正されていない場合は、 20に進みます。
  13. システムをリブートし、すべての区画をログイン・プロンプトに表示させます。
    Linux がすべてのパーティションで使用できない場合は、ステップ 17に進みます。
  14. lscfg コマンドを使用して、すべての区画に割り当てられたすべてのリソースをリストします。
    各リソースのアダプターおよび区画を記録します。
  15. 欠落しているデバイスまたはアダプターがないかどうかを判別するには、区画割り当てのリストと検出されたリソースを、お客様の既知の構成と比較します。 欠落したデバイスがあれば、その位置を記録します。
    デバイスの説明あるいは位置の差異もすべて記録します。

    この見つかったリソースのリストは、以下のように、前のバージョンのデバイス・ツリーと比較することもできます。

    注: Linux コマンド・プロンプトで vpdupdateと入力し、Enter キーを押します。 デバイス・ツリーは /var/lib/lsvpd/ ディレクトリーにファイル名 device-tree-YYYY-MM-DD-HH:MM:SS で保管されます (ここで、YYYY は年、MM は月、DD は日、HH、MM、および SS はそれぞれ時、分、秒で、作成日時を表します)。
    • コマンド行で、次を入力します。
      cd /var/lib/lsvpd/
    • コマンド行で、次を入力します。
      lscfg -vpz /var/lib/lsvpd/<file_name>

      ここで、<file_name> は、データベース・アーカイブを含む .gz ファイル名です。

    diff コマンドによって、現在の lscfg コマンドによる出力と過去の lscfg コマンドによる出力を比較することができます。 現在のデバイス・ツリーと古いデバイス・ツリーのファイル名がそれぞれ current.outold.out の場合は、diff old.out current.out と入力します。 古い行には存在するものの、現在の行には存在しない行はすべてリストされ、その前に小なり記号 (<) が付きます。現在の行には存在するのの、古い行には存在しない行はすべてリストされ、その前に大なり記号 (>) が付きます。両方のファイルで同じ行はリストされません。例えば、同一のファイルは、diff コマンドからの出力を生成しません。 位置または記述が変更されると、< と > の両方が前に付いた行が出力されます。

    Linux がインストールされている複数の論理区画を使用してシステムが構成されている場合は、 Linux がインストールされているすべての論理区画について、 1415 を繰り返します。

  16. 15に記録された 1 つのデバイスの位置は 1 つだけですか?
    いいえ
    ステップ 16で「はい」と応答した場合は、システムを元の構成に戻します。 これで手順は終了です

    MAP 0410: 修復チェックアウトに進みます。

    ステップ 16で「はい」と応答しなかった場合は、ステップ 17に進みます。

    はい
    以下の手順を一度に 1 つずつ完了します。 各ステップの前にシステムの電源をオフにします。 各ステップの後、システムの電源をオンにし、ステップ 13に進みます。
    1. システムからデバイスへのすべての接続をチェックします。
    2. デバイス (例えば、テープあるいは DASD) を取り替えます
    3. 利用可能な場合、デバイス・バックプレーンを取り替えます。
    4. デバイス・ケーブルを取り替えます。
    5. アダプターを取り替えます。
      • アダプターが I/O ドロワーにある場合は、I/O バックプレーンを取り替えます。
      • デバイス・アダプターが CEC 内にある場合は、I/O ライザー・カード、あるいはアダプターが差し込まれている CEC のバックプレーンを取り替えます。
    6. サービス・サポートにお問い合わせください。 ステップ 13に進まないでください。
  17. ログイン・プロンプトに達する前にシステムが停止またはハングしたように見えますか? あるいは、ステップ 15でリソースに関する問題を記録しましたか?
    注: システム・コンソールまたは VTERM ウィンドウが常にブランクの場合は、NO を選択してください。 コンソールまたは VTERM が操作可能であり、正しく接続されていることが確実な場合は、このステップの質問に回答してください。
    いいえ
    ステップ 18に進みます。
    はい
    I/O デバイスに問題がある可能性があります。 PFW1542: 入出力問題判別手順 に進みます。 システムをブートするように指示されたら、全システム区画をブートします。
  18. eServer™ スタンドアロン診断をブートします。 オンライン診断およびスタンドアロン診断の実行 を参照してください。
    すべてのリソースで、問題判別モードで診断を実行します。 全システム区画を確実にブートします。 すべての既知のリソースで必ず診断の実行が終わっているようにします。 各リソースを個別に選択して、一度に 1 つのリソースずつ診断を実行する必要がある場合があります。
    スタンドアロン診断で問題が検出されましたか?
    いいえ
    ステップ 22に進みます。
    はい
    参照コード 」に進み、記録した参照コードごとにアクションを実行します。 ステップ 16でまだ処理されていない各参照コードについて、問題が修正されるまでこのアクションを繰り返します。 一度に 1 つずつ、指示された処理を実行します。 記録されたすべての参照コードが処理され、問題が修正されていない場合は、ステップ 22に進みます。
  19. システムの 1 つ以上のパーティションに Linux がインストールされていますか?
    いいえ
    「問題分析の開始」に戻ります。
    はい
    ステップ 3に進みます。
  20. ステップ 368910、または 11で記録されたロケーション・コードはありましたか?
    いいえ
    ステップ 13に進みます。
    はい
    ステップ 368910、または 11 でロケーション・コードが記録され、まだ交換されていないすべての部品を一度に 1 つずつ交換します。 部品を取り替える前にシステムの電源をオフにします。 部品の交換後にシステムの電源をオンにして、問題が修正されているかを確認します。 問題が修正された場合、またはロケーション・コード・リストのすべての部品が交換された場合は、ステップ 21 に進みます。
  21. ステップ 20で問題が修正されましたか?
    いいえ
    ステップ 13に進みます。
    はい
    システムを元の構成に戻します。 これで手順は終了です

    MAP 0410: 修復チェックアウトに進みます。

  22. ステップ 3でその他の症状が記録されましたか?
    いいえ
    サポートに連絡します。
    はい
    記録した各症状を使用して、 「問題分析の開始」 に進みます。 記録したすべての症状について指示されたアクションを、問題が修正されるまで一度に 1 つずつ実行します。 記録したすべての症状について処理しても問題が修正されない場合は、次のレベルのサポートにお問い合わせください。