ícone subscreverSubscrever esta informação
Informações do POWER6

Análise de problemas para comutadores 7874-024, 7874-040, 7874-120 e 7874-240

Pode usar a análise de problemas para reunir informações que o ajudam a determinar a origem do problema detectado no sistema.

Utilize a tabela seguinte para iniciar a análise de problemas e para iniciar a assistência.

Na tabela seguinte, localize a primeira indicação de falha que observou, em seguida, siga a acção especificada na coluna direita. Depois de concluir as acções especificadas nessa fila, o problema deverá estar solucionado. Caso contrário, avance para a indicação de falha seguinte.

Tabela 1. Análise e acção para falha de comutador
Indicação de falha Descrição e acção
1. Evento passível de assistência no Ponto Focal de Assistência (Service Focal Point) na Consola de Gestão de Hardware (HMC).

Descrição: Uma unidade de hardware do sistema, gaveta de E/S ou problema de alimentação da estrutura que requer peças ou procedimentos de assistência para corrigir a falha.

Acção: Siga os procedimentos habituais da assistência para a peça que registou a falha. Dependendo dos efeitos do evento passível de assistência, isto poderá também corrigir problemas no revestimento do comutador InfiniBand™.

2. Os diodos emissores de luz (LEDs) do comutador InfiniBand estão todos desligados

Descrição: Não passa electricidade no comutador, ou existe uma falha na alimentação ou na ventoinha.

Acção:
  1. Verifique os cabos de alimentação no comutador, e determine se existe electricidade. Se encontrar um problema, substitua o cabo de alimentação ou trabalhe em conjunto com o cliente para corrigir o problema de electricidade.
  2. Se não existir nenhum problema no fornecimento de electricidade, o problema é do comutador. Substitua os cabos de alimentação, um de cada vez, até corrigir o problema.

Consulte Descarregar os procedimentos de remoção e substituição do QLogic para os comutadores 7874-040, 7874-120 e 7874-240.

Consulte Transferir os procedimentos de remoção e substituição do QLogic para o comutador 7874-024.

3. O comutador InfiniBand tem um LED vermelho aceso. Alguns exemplos são os artigos seguintes:
  • LED de estado do chassis na estrutura gerida
  • LED de estado no módulo de leaf
  • LED vermelho no módulo de alimentação ou da ventoinha

Descrição: O LED vermelho indica uma falha de hardware.

Um LED de chassis vermelho indica uma das seguintes condições:
  • A temperatura ambiente do sistema excedeu os 60º C.
  • Não estão presentes gavetas de ventoinha funcionais.
  • Não estão presentes estruturas funcionais presentes.
  • Não estão presentes leaves funcionais presentes.
Acção:
  • Se o LED vermelho estiver numa estrutura gerida ou módulo de leaf:
    1. Recolocar esta estrutura gerida ou módulo de leaf.
    2. Se o LED continuar vermelha, inserir a estrutura gerida ou módulo de leaf numa outra ranhura.
    3. Se o LED continuar vermelho, substituir a estrutura gerida ou módulo de leaf.
  • Se o LED vermelho estiver num módulo de fonte de alimentação ou de ventoinha, substitua o módulo de alimentação ou da ventoinha.

Consulte Descarregar os procedimentos de remoção e substituição do QLogic para os comutadores 7874-040, 7874-120 e 7874-240.

Consulte Transferir os procedimentos de remoção e substituição do QLogic para o comutador 7874-024.

4. O comutador InfiniBand tem um LED de atenção âmbar aceso. Alguns exemplos são os artigos seguintes:
  • LED de atenção na estrutura gerida
  • LED de atenção no módulo de leaf

Descrição: Um LED de atenção âmbar indicar uma possível falha de hardware. É necessário recolher dados para análise.

Um LED âmbar no chassis indica uma das seguintes condições:
  • A temperatura ambiente do sistema excedeu os 52º C, mas é inferior a 60º C.
  • Existe um problema na ventoinha.
  • Um LED de OK da fonte de alimentação de CA está desligado.
  • Um LED de OK da fonte de alimentação de CC está desligado.
  • Qualquer LED de atenção no módulo de estrutura estiver ligado, ou qualquer estrutura não estiver a funcionar (ainda que seja incapaz de acender o LED).
  • Qualquer LED de atenção no módulo de leaf estiver ligado, ou qualquer leaf não estiver a funcionar (ainda que seja incapaz de acender o LED).

Acção: Recolha dados. Avance para Recolher dados para os erros do comutador InfiniBand para os comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.

5. A ligação da porta do comutador InfiniBand tem um LED azul que não está aceso.

Descrição: Um LED de ligação azul no comutador indica uma boa ligação física entre a porta do comutador e o dispositivo na outra extremidade do cabo. Se o LED não estiver aceso, é porque existe um problema na porta, no cabo ou no adaptador de canal do sistema central InfiniBand.

Acção: Quando o LED de ligação azul estiver aceso na porta do comutador, a ligação está fisicamente ligada; no entanto, a ligação poderá ter problemas intermitentes. O cliente pode supervisionar e verificar se existem erros intermitentes na ligação. Na maioria dos casos, os erros intermitentes resultam de um cabo ou ligação em más condições.
6. Um dos seguintes ficheiros de registo indica uma perda de comunicação do comutador InfiniBand com um servidor ou com uma partição lógica:
  • Ficheiro de registo do gestor de subrede do Servidor de Gestão de Matriz (ou de comutadores InfiniBand)
  • Ficheiro de registo do comutador (chassis de comutador)
  • Resultado da Verificação de Condição do Servidor de Gestão de Matriz Rápida
  • Relatório de matriz rápida do servidor de gestão de matriz (Iba_report)

Descrição: A perda das ligações dos comutadores InfiniBand podem resultar de falhas diferentes, incluindo o servidor, partição lógica, adaptador do canal do sistema central, cabo, falhas de comutadores InfiniBand, erros de configuração de particionamento ou problemas de configuração do sistema operativo.

Isolamento:
  1. Recolha dados. Avance para Recolher dados para os erros do comutador InfiniBand para os comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.
  2. Se forem registados vários erros de ligação, procure os padrões das falhas que possam ajudar a terminar a peça em falha como, por exemplo, as seguintes situações:
    1. Todas as ligações estão conectadas a um servidor único.
    2. Todas as ligações estão conectadas a uma partição lógica única.
    3. Todas as ligações estão conectadas a um adaptador de canal do sistema central único (ou seja, o adaptador do canal do sistema central de InfiniBand).
    4. Todas as ligações estão conectadas a um comutador InfiniBand único.
    5. Todas as ligações estão conectadas a um leaf de comutador InfiniBand única.
      Nota: Se a matriz do comutador InfiniBand registar mais do que uma falha independente, poderá tratá-las em separado.

6. Os registos indicam perda de comunicação do comutador InfiniBand com um servidor ou uma partição lógica (continuação)

Acção:
  1. Se todas as ligações conectadas a um servidor ou partição lógica única não estiverem a funcionar, conclua os passos seguintes:
    1. Verifique as condições óbvias de ligação em baixo ou em suspenso no servidor ou partição lógica. Caso as encontre, o servidor deverá recuperar o servidor ou a partição lógica, ou contactar o representante da assistência da IBM®, caso seja necessário. O representante da assistência da IBM irá então utilizar os procedimentos habituais do servidor para corrigir o problema.
    2. Peça ao cliente para verificar se existe um problema de configuração do adaptador do comutador InfiniBand. Pode ser um problema de partição do adaptador-canal-sistema central ou um erro na interface do comutador InfiniBand no sistema operativo. Se for encontrado, o cliente corrige o problema.
    3. Se as ligações forem provenientes de um adaptador único de canal do sistema central, ignore o passo 4.
  2. Se todas as ligações conectadas a um comutador InfiniBand único estiverem em baixo, conclua os passos seguintes:
    1. Verifique se existe um problema na alimentação do comutador, caso seja necessário.
    2. Se não encontrar nenhum problema de alimentação, recolha os dados conforme o indicado em Isolamento e envie-os para a IBM para análise.
  3. Se todas as ligações conectadas a um leaf de comutador InfiniBand estiverem em baixo, substitua o leaf do comutador.

    Consulte Descarregar os procedimentos de remoção e substituição do QLogic para os comutadores 7874-040, 7874-120 e 7874-240.

    Consulte Transferir os procedimentos de remoção e substituição do QLogic para o comutador 7874-024.

  4. Se todas as ligações que estiverem conectadas a um adaptador único de canal de sistema central, conclua os seguintes passos:
    1. Peça ao cliente para verificar se existe um problema de configuração do adaptador de canal do sistema central de InfiniBand. Este poderá ser um problema de partição do adaptador-canal-sistema central ou um erro na interface do comutador InfiniBand no sistema operativo. Se for encontrado, o cliente tem de corrigir o problema.
    2. Se não for encontrado qualquer outro problema, substitua o adaptador do canal do sistema central.
  5. Se não forem encontrados outros problemas no servidor ou na partição lógica, então o problema poderá ser isolado às ligações do comutador de InfiniBand. Avance para Isolar erros de ligação do comutador InfiniBand para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 para determinar qual é o problema.
7. Ficheiro de registo do gestor de subrede
  • Se estiver a utilizar um gestor de subrede baseado num sistema central, o respectivo ficheiro de registo encontra-se no servidor de gestão de matriz sob /var/log/messages.
  • Se estiver a utilizar um gestor de subrede incorporado, o respectivo ficheiro de registo encontra-se no comutador.

O gestor de subrede supervisiona a matriz e gere as operações de recuperação.

Os erros também devem ser registados no servidor de Cluster Systems Management (CSM) sob /var/log/csm/errorlog/CSM MS hostname.

Acção: Avance para Recolher dados do servidor de gestão de matriz para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.

8. Ficheiro de registo do comutador

Alguns exemplos são os artigos seguintes:
  • comutador (através de logShow)
  • Também erros no servidor de CSM no ficheiro /var/log/csm/errorlog/CSM MS hostname

O ficheiro de registo reflecte os problemas dentro do chassis do comutador.

9. Resultado da verificação de condição de matriz rápida

Alguns exemplos são os artigos seguintes:
  • Servidor de gestão de matriz em ficheiros:
    • /var/opt/iba/analysis/latest/chassis*.diff
    • /var/opt/iba/analysis/latest/chassis*.errors

A Verificação de Condição de Matriz Rápida é utilizada durante a instalação, reparação e supervisão da matriz para localizar erros e alterações de configuração que possam causar problemas na matriz.

Acção: Avance para Recolher dados para a Verificação de Condição de Matriz Rápida para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.

10. Relatório de Matriz Rápida

Alguns exemplos são os artigos seguintes:
  • Servidor de gestão de matriz no ficheiro /var/opt/iba/analysis/latest/*.stderr

Consultar o Relatório de Matriz Rápida

Acção:
  1. Recolher todos os dados do histórico da verificação de condição. Avançar para Recolher dados para a Verificação de Condição de Matriz Rápida para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e executar esse procedimento.
  2. No servidor de gestão de matriz, recolher todos os dados do ficheiro /var/log/messages.

11. Outros indicadores de erros ou métodos de registo

Este problema inclui outras formas de poder ter conhecimento de um erro como, por exemplo, uma queixa de um cliente. Reveja esta tabela para ver outras indicações de falha.

Para obter mais informações sobre a matriz do conjunto de unidades que incorpora os comutadores InfiniBand, consultar IBM System p HPC Clusters Fabric Guide no sítio da Web de conjuntos de unidades da IBM com o comutador InfiniBand.


Enviar informações | Classificar esta página

Última actualização: Sexta-feira, 30 de Outubro de 2009