Linux verfahren zur Problemisolierung

Verwenden Sie dieses Verfahren, wenn Sie eine Linux® -Partition oder einen Server mit Linux als einzigem Betriebssystem warten.

Informationen zu diesem Vorgang

GEFAHR
Beim Arbeiten am System oder um das System herum müssen die folgenden Vorsichtsmaßnahmen beachtet werden:

Elektrische Spannung und elektrischer Strom an Netz-, Telefon- oder Datenleitungen sind lebensgefährlich. Um das Risiko eines elektrischen Schlags zu vermeiden: Diese Einheit nur mit dem von IBM bereitgestellten Netzkabel an den Versorgungsstromkreis anschließen, sofern IBM ein Netzkabel bereitgestellt hat. Das von IBM bereitgestellte Netzkabel für kein anderes Produkt verwenden. Netzteile nicht öffnen oder warten. Bei Gewitter an diesem Gerät keine Kabel anschließen oder lösen. Ferner keine Installations-, Wartungs- oder Rekonfigurationsarbeiten durchführen.

  • L003 beschriftungsbild Dieses Produkt kann mit mehreren Netzkabeln ausgestattet sein. Alle Netzkabel abziehen, um gefährliche Spannungen zu verhindern. Bei Wechselstrom alle Netzkabel von der Netzsteckdose abziehen. Bei Racks mit einem Gleichstromverteiler die Gleichstromquelle des Kunden vom Stromverteiler trennen.
  • Beim Anschließen des Produkts an den Strom sicherstellen, dass alle Netzkabel ordnungsgemäß angeschlossen sind. Bei Racks mit Wechselstrom alle Netzkabel an eine vorschriftsmäßig angeschlossene Netzsteckdose mit ordnungsgemäß geerdetem Schutzkontakt anschließen. Sicherstellen, dass die Steckdose die richtige Spannung und Phasenfolge ausgibt, wie auf dem Systemtypenschild angegeben. Bei Racks mit einem Gleichstromverteiler die Gleichstromquelle des Kunden an den Stromverteiler anschließen. Sicherstellen, dass beim Anschließen der Gleichstrom- und Wechselstromverkabelung die richtige Polarität verwendet wird.
  • Alle Geräte, die an dieses Produkt angeschlossen werden, an vorschriftsmäßig angeschlossene Netzsteckdosen anschließen.
  • Die Signalkabel nach Möglichkeit nur mit einer Hand anschließen oder lösen.
  • Geräte niemals einschalten, wenn Hinweise auf Feuer, Wasser oder Gebäudeschäden vorliegen.
  • Die Maschine erst dann einschalten, wenn alle Sicherheitsrisiken behoben wurden.
  • Bei Durchführung einer Maschineninspektion: Immer annehmen, dass ein elektrisches Sicherheitsrisiko besteht. Alle in dieser Anweisung zur Installation des Subsystems angegebenen Durchgangs-, Erdungs- und Stromversorgungsprüfungen ausführen, um sicherzustellen, dass die Maschine die Sicherheitsbestimmungen erfüllt. Die Maschine erst dann einschalten, wenn alle Sicherheitsrisiken behoben wurden. Vor dem Öffnen des Gehäuses, sofern in den Installations- und Konfigurationsbeschreibungen keine anderslautenden Anweisungen enthalten sind: Die angeschlossenen Wechselstromkabel abziehen, die entsprechenden Sicherungsautomaten im Stromverteiler des Racks ausschalten und die Verbindung zu allen Telekommunikationssystemen, Netzen und Modems trennen.
  • Zum Installieren, Transportieren und Öffnen der Abdeckungen des Produkts oder der angeschlossenen Einheiten die Kabel gemäß den folgenden Prozeduren anschließen und abziehen.

    Kabel lösen: 1) Alle Einheiten ausschalten (außer wenn andere Anweisungen vorliegen). 2) Bei Wechselstrom die Netzkabel aus den Steckdosen ziehen. 3) Bei Racks mit einem Gleichstromverteiler die Sicherungsautomaten am Stromverteiler ausschalten und die Stromversorgung über die Gleichstromquelle des Kunden unterbrechen. 4) Die Signalkabel von den Buchsen abziehen. 5) Alle Kabel von den Einheiten abziehen.

    Anschließen der Kabel: 1) Alle Einheiten ausschalten (außer wenn andere Anweisungen vorliegen). 2) Alle Kabel an die Einheiten anschließen. 3) Die Signalkabel an die Buchsen anschließen. 4) Bei Wechselstrom die Netzkabel an die Steckdosen anschließen. 5) Bei Racks mit einem Gleichstromverteiler die Stromversorgung über die Gleichstromquelle des Kunden wiederherstellen und die Sicherungsautomaten am Stromverteiler einschalten. 6) Die Einheiten einschalten.

  • Scharfe Kanten, Ecken oder Scharniere im System oder um das System herum. Bei der Handhabung von Geräten vorsichtig vorgehen, um Schnitte, Kratzer und Quetschungen zu vermeiden. (D005)

Diese Verfahren definieren die Schritte, die bei der Wartung einer Linux -Partition oder eines Servers mit Linux als einzigem Betriebssystem durchzuführen sind.

Bevor Sie mit diesem Verfahren fortfahren, sollten Sie sich über die zusätzliche Software informieren, mit der Sie Ihre Linux Lösungen erweitern können. Siehe Dienst- und Produktivitätswerkzeuge für PowerLinux Server.

Hinweis: Wenn der Server an eine Verwaltungskonsole angeschlossen ist, sind die verschiedenen Codes, die auf der Verwaltungskonsole angezeigt werden können, alle als Referenzcodes von Service Focal Point (SFP) aufgeführt. Anhand der folgenden Tabelle können Sie erkennen, welche Art von Fehlerinformationen bei der Anwendung dieses Verfahrens angezeigt werden können.
Anzahl der Ziffern des Referenzcodes Referenzcode Name oder Codeart
Beliebig Enthält # (Zahlenzeichen) Ziel des Menüs
Beliebig Enthält - (Bindestrich) Serviceanforderungsnummer (SRN)
5 Enthält kein # oder - SRN
8 Enthält kein # oder - Systemreferenzcode (SRC)

Vorgehensweise

  1. Wird der Server von einer Verwaltungskonsole verwaltet, auf der Service Focal Point (SFP) läuft?
    Nein
    Gehen Sie zu Schritt 3.
    Ja
    Gehen Sie zu Schritt 2.
  2. Server mit Service-Schwerpunkt

    Schauen Sie im Ereignisprotokoll der Dienstaktion in SFP nach Fehlern. Konzentrieren Sie sich auf die Fehler mit einem Zeitstempel in der Nähe des Zeitpunkts, an dem der Fehler auftrat. Befolgen Sie die im Fehlerprotokolleintrag angegebenen Schritte, um das Problem zu beheben. Wenn das Problem nicht behoben ist, fahren Sie mit Schritt 3 fort.

  3. Suchen Sie nach allen Referenzcode-Informationen oder Software-Meldungen auf dem Bedienfeld und im Fehlerprotokoll des Service-Prozessors (das über die ASMI-Menüs zugänglich ist) und zeichnen Sie diese auf.
  4. Wählen Sie eine Linux Partition, die korrekt läuft (vorzugsweise die Partition mit dem Problem).

    Kann Linux auf jeder Partition verwendet werden, auf der Linux installiert ist?

    Nein
    Gehen Sie zu Schritt 10.
    Ja
    Gehen Sie zu Schritt 5.
  5. Diagnose der RTAS-Ereignisse. Anweisungen dazu finden Sie unter Diagnose von RTAS-Ereignissen.
  6. Aufzeichnung aller RTAS-Ereignisse im Systemprotokoll Linux

    Wenn das System mit mehr als einer logischen Partition konfiguriert ist, auf der Linux installiert ist, wiederholen Sie Schritt 5 und Schritt 6 für alle logischen Partitionen, auf denen Linux installiert ist.

  7. Untersuchen Sie das Linux Boot-Protokoll (IPL), indem Sie sich als Root-Benutzer am System anmelden und den folgenden Befehl eingeben:

    cat /var/log/boot.msg |grep RTAS |more

    Linux boot (IPL)-Fehlermeldungen werden in der Datei boot.msg datei unter /var/log protokolliert. Ein Beispiel für das Linux Boot-Fehlerprotokoll:
    RTAS daemon started
    RTAS: -------- event-scan begin --------
    RTAS: Location Code: U0.1-F3
    RTAS: WARNING: (FULLY RECOVERED) type: SENSOR
    RTAS: initiator: UNKNOWN target: UNKNOWN
    RTAS: Status: bypassed new
    RTAS: Date/Time: 20020830 14404000
    RTAS: Environment and Power Warning
    RTAS: EPOW Sensor Value: 0x00000001
    RTAS: EPOW caused by fan failure
    RTAS: -------- event-scan end ----------
  8. Zeichnen Sie alle RTAS-Ereignisse auf, die Sie im Linux boot (IPL)-Protokoll in Schritt 7 gefunden haben.
    Ignorieren Sie alle anderen Ereignisse im Protokoll Linux boot (IPL). Wenn das System mit mehr als einer logischen Partition konfiguriert ist, auf der Linux installiert ist, wiederholen Sie Schritt 7 und Schritt 8 für alle logischen Partitionen, auf denen Linux installiert ist.
  9. Zeichnen Sie alle erweiterten Daten auf, die Sie im Systemprotokoll Linux in Schritt 5 oder im Bootprotokoll Linux (IPL) in Schritt 7 gefunden haben.
    Hinweis: Die Zeilen in den erweiterten Daten von Linux, die mit<4>RTAS: Log Debug: 04den in den nächsten 8 hexadezimalen Zeichen aufgeführten Referenzcode enthalten. Im vorherigen Beispiel,4b27 26fbist ein Referenzcode. Der Referenzcode wird auch als Wort 11 bezeichnet. Alle 4 Bytes nach dem Referenzcode in den erweiterten Daten von Linux sind ein weiteres Wort (z. B.,04a0 0011ist Wort 12, und702c 0014ist Wort 13 und so weiter).

    Wenn das System mit mehr als einer logischen Partition konfiguriert ist, auf der Linux installiert ist, wiederholen Sie Schritt 9 für alle logischen Partitionen, auf denen Linux installiert ist.

  10. Wurden in den Schritten 3, 6, 8 oder 9 Referenzcodes oder Kontrollpunkte erfasst?
    Nein
    Gehen Sie zu Schritt 11.
    Ja
    Gehen Sie mit jedem erfassten Referenzcode zur Linux fast-path problem isolation. Führen Sie die angegebenen Maßnahmen nacheinander für jeden Referenzcode durch, bis das Problem behoben ist. Wenn alle aufgezeichneten Referenzcodes verarbeitet wurden und das Problem nicht behoben wurde, fahren Sie mit Schritt 11 fort.
  11. Wenn keine zusätzlichen Fehlerinformationen verfügbar sind und das Problem nicht behoben wurde, führen Sie die folgenden Schritte aus:
    1. Schalten Sie das System ab.
    2. Wenn keine Verwaltungskonsole angeschlossen ist, finden Sie unter Verwalten des Servers mithilfe der erweiterten Systemverwaltungsschnittstelle Anweisungen für den Zugriff auf ASMI.
      Hinweis: Die ASMI-Funktionen können auch über einen an den Systemanschluss 1 angeschlossenen Personalcomputer aufgerufen werden.

      Sie benötigen einen Personal Computer, der an den Systemanschluss 1 der Systemeinheit angeschlossen werden kann. (Die Login-Eingabeaufforderung Linux ist auf einem an Systemport 1 angeschlossenen PC nicht zu sehen) Wenn die ASMI-Funktionen nicht anderweitig verfügbar sind, gehen Sie wie folgt vor:

      1. Schließen Sie den Personalcomputer und das Kabel an den Systemanschluss 1 der Systemeinheit an.
      2. Drücken Sie bei Anzeige von 01 auf dem Bedienfeld eine Taste des virtuellen Terminals auf dem Personalcomputer. Die Menüs des ASMI-Dienstes sind auf dem angeschlossenen Personalcomputer verfügbar.
      3. Wenn die Menüs des Service-Prozessors auf dem PC nicht verfügbar sind, führen Sie die folgenden Schritte aus:
        1. Überprüfen und korrigieren Sie alle Verbindungen zum Serviceprozessor.
        2. Tauschen Sie den Serviceprozessor aus.
          Hinweis: Der Serviceprozessor kann sich auf einer separaten Karte oder Platine befinden; in einigen Systemen ist der Serviceprozessor in die Systemrückwand integriert. Wenden Sie sich an Ihre nächste Support-Stufe, bevor Sie eine System-Backplane austauschen.
    3. Prüfen Sie das Fehlerprotokoll des Service-Prozessors.
      Zeichnen Sie alle Referenzcodes und Meldungen auf, die in das Fehlerprotokoll des Service-Prozessors geschrieben werden. Gehen Sie zu Schritt 12.
  12. Wurden in Schritt 11 irgendwelche Referenzcodes erfasst?
    Nein
    Gehen Sie zu Schritt 20.
    Ja
    Gehen Sie mit jedem Referenzcode oder Symptom, das Sie aufgezeichnet haben, auf die Seite Linux fast-path problem isolation. Führen Sie die angegebenen Maßnahmen der Reihe nach durch, bis das Problem behoben ist. Wenn alle erfassten Referenzcodes verarbeitet wurden und das Problem nicht behoben wurde, gehen Sie zu 20.
  13. Starten Sie das System neu und bringen Sie alle Partitionen zur Anmeldeaufforderung.
    Wenn Linux nicht in allen Partitionen verwendet werden kann, fahren Sie mit Schritt 17 fort.
  14. Verwenden Sie den Befehl lscfg , um alle Ressourcen aufzulisten, die allen Partitionen zugeordnet sind.
    Notieren Sie den Adapter und die Partition für jede Ressource.
  15. Um festzustellen, ob Geräte oder Adapter fehlen, vergleichen Sie die Liste der Partitionszuweisungen und der gefundenen Ressourcen mit der bekannten Konfiguration des Kunden. Notieren Sie den Standort aller fehlenden Geräte.
    Halten Sie auch etwaige Unterschiede in den Beschreibungen oder den Standorten der Geräte fest.

    Sie können diese Liste der gefundenen Ressourcen auch wie folgt mit einer früheren Version des Gerätebaums vergleichen:

    Hinweis: Geben Sie an der Eingabeaufforderung Linux den Befehl vpdupdate ein, und drücken Sie die Eingabetaste. Der Gerätebaum wird im Verzeichnis /var/lib/lsvpd/ in einer Datei mit dem Dateinamen device-tree-YYYY-MM-DD-HH:MM:SS gespeichert, wobei YYYY für das Jahr, MM für den Monat, DD für den Tag und HH, MM und SS für die Stunde, Minute bzw. Sekunde des Erstellungsdatums stehen.
    • Geben Sie in der Befehlszeile Folgendes ein:
      cd /var/lib/lsvpd/
    • Geben Sie in der Befehlszeile Folgendes ein:
      lscfg -vpz /var/lib/lsvpd/<file_name>

      Dabei ist <Dateiname> der Name der.gz-Datei, die das Datenbankarchiv enthält.

    Der Befehl diff bietet eine Möglichkeit, die Ausgabe eines aktuellen lscfg-Befehls mit der Ausgabe eines älteren lscfg-Befehls zu vergleichen. Wenn die Dateinamen für den aktuellen und den alten Gerätebaum current.out und old.out lauten, geben Sie Folgendes ein: diff old.out current.out. Alle Zeilen, die in der alten, aber nicht in der aktuellen Version vorhanden sind, werden aufgelistet und mit einem Kleiner-als-Symbol (<) versehen. Alle Zeilen, die in der aktuellen, aber nicht in der alten Datei vorhanden sind, werden aufgelistet und mit einem Größer-als-Symbol (>) versehen. Zeilen, die in beiden Dateien identisch sind, werden nicht aufgelistet; so führt der Befehl diff bei identischen Dateien zu keiner Ausgabe. Ändert sich der Ort oder die Beschreibung, werden Zeilen mit vorangestelltem < und > ausgegeben.

    Wenn das System mit mehr als einer logischen Partition konfiguriert ist, auf der Linux installiert ist, wiederholen Sie 14 und 15 für alle logischen Partitionen, auf denen Linux installiert ist.

  16. Wurde der Standort eines und nur eines Geräts in 15 aufgezeichnet?
    Nein
    Wenn Sie Schritt 16 mit Ja beantwortet haben, stellen Sie das System auf seine ursprüngliche Konfiguration zurück. Damit ist das Verfahren beendet.

    Gehen Sie zu MAP 0410: Reparaturkasse.

    Wenn Sie Schritt 16 nicht mit Ja beantwortet haben, fahren Sie mit Schritt 17 fort.

    Ja
    Führen Sie die folgenden Schritte nacheinander aus. Schalten Sie das System vor jedem Schritt aus. Schalten Sie das System nach jedem Schritt ein und fahren Sie mit Schritt 13 fort.
    1. Überprüfen Sie alle Verbindungen zwischen dem System und dem Gerät.
    2. Ersetzen Sie das Gerät (z. B. Band oder DASD).
    3. Tauschen Sie ggf. die Backplane des Geräts aus.
    4. Tauschen Sie das Gerätekabel aus.
    5. Tauschen Sie den Adapter aus.
      • Wenn sich der Adapter in einer E/A-Schublade befindet, tauschen Sie die E/A-Backplane aus.
      • Wenn sich der Geräteadapter im CEC befindet, ersetzen Sie die E/A-Riser-Karte oder die CEC-Backplane, in die der Adapter eingesteckt ist.
    6. Serviceunterstützung anrufen. Gehen Sie nicht zu Schritt 13.
  17. Scheint das System anzuhalten oder sich aufzuhängen, bevor es die Anmeldeaufforderung erreicht, oder haben Sie in Schritt 15 Probleme mit den Ressourcen festgestellt?
    Hinweis: Wenn die Systemkonsole oder das VTERM-Fenster immer leer ist, wählen Sie NEIN. Wenn Sie sicher sind, dass die Konsole oder das VTERM betriebsbereit und korrekt angeschlossen ist, beantworten Sie die Frage zu diesem Schritt.
    Nein
    Gehen Sie zu Schritt 18.
    Ja
    Möglicherweise gibt es ein Problem mit einem E/A-Gerät. Gehen Sie zu PFW1542: E/A-Problem-Isolierungsverfahren. Wenn Sie zum Booten des Systems aufgefordert werden, booten Sie eine vollständige Systempartition.
  18. Booten Sie die eServer Standalone-Diagnose, siehe Durchführung der Online- und Standalone-Diagnose .
    Führen Sie die Diagnose im Problembestimmungsmodus für alle Ressourcen durch. Stellen Sie sicher, dass Sie eine vollständige Systempartition booten. Vergewissern Sie sich, dass die Diagnose auf allen bekannten Ressourcen durchgeführt wurde. Möglicherweise müssen Sie jede Ressource einzeln auswählen und die Diagnose für jede Ressource einzeln durchführen.
    Wurde bei der eigenständigen Diagnose ein Problem gefunden?
    Nein
    Gehen Sie zu Schritt 22.
    Ja
    Rufen Sie die Website Referenzcodes auf und führen Sie die Aktionen für jeden von Ihnen erfassten Referenzcode durch. Wiederholen Sie diesen Vorgang für jeden Referenzcode, der nicht bereits in Schritt 16 bearbeitet wurde, bis das Problem behoben ist. Führen Sie die angegebenen Aktionen der Reihe nach durch. Wenn alle aufgezeichneten Referenzcodes abgearbeitet wurden und das Problem nicht behoben werden konnte, gehen Sie zu Schritt 22.
  19. Ist das System mit Linux auf einer oder mehreren Partitionen installiert?
    Nein
    Zurück zum Anfang der Problemanalyse.
    Ja
    Gehen Sie zu Schritt 3.
  20. Wurden in den Schritten 3, 6, 8, 9, 10 oder 11 Ortscodes erfasst?
    Nein
    Gehen Sie zu Schritt 13.
    Ja
    Ersetzen Sie nacheinander alle Teile, deren Positionscode in den Schritten 3, 6, 8, 9, 10 oder 11 erfasst wurde und die noch nicht ersetzt wurden. Schalten Sie das System aus, bevor Sie ein Teil austauschen. Schalten Sie das System nach dem Austausch des Teils ein, um zu prüfen, ob das Problem behoben wurde. Fahren Sie mit Schritt 21 fort, wenn das Problem behoben ist oder alle Teile in der Liste der Positionscodes ersetzt wurden.
  21. Wurde das Problem in Schritt 20 behoben?
    Nein
    Gehen Sie zu Schritt 13.
    Ja
    Setzen Sie das System auf seine ursprüngliche Konfiguration zurück. Damit wird das Verfahren beendet.

    Gehen Sie zu MAP 0410: Reparaturkasse.

  22. Wurden in Schritt 3 andere Symptome erfasst?
    Nein
    Unterstützung anrufen.
    Ja
    Gehen Sie zu Beginn der Problemanalyse mit jedem Symptom, das Sie aufgezeichnet haben. Führen Sie die angegebenen Maßnahmen für alle erfassten Symptome nacheinander durch, bis das Problem behoben ist. Wenn alle aufgezeichneten Symptome bearbeitet wurden und das Problem nicht behoben werden konnte, wenden Sie sich an die nächste Support-Stufe.