| 1. Evento passível de assistência no Ponto Focal de Assistência (Service Focal Point) na Consola de Gestão de Hardware (HMC). |
Descrição: Uma unidade de hardware do sistema, gaveta de E/S ou problema de alimentação da estrutura que requer peças ou procedimentos de assistência para corrigir a falha.
Acção: Siga os procedimentos habituais da assistência para a peça que registou a falha. Dependendo dos efeitos do evento passível de assistência, isto poderá também corrigir problemas no revestimento do comutador InfiniBand™.
|
| 2. Os diodos emissores de luz (LEDs) do comutador InfiniBand estão todos desligados |
Descrição: Não passa electricidade no comutador, ou existe uma falha na alimentação ou na ventoinha.
Acção: - Verifique os cabos de alimentação no comutador, e determine se existe electricidade. Se encontrar um problema, substitua o cabo de alimentação ou trabalhe em conjunto com o cliente para corrigir o problema de electricidade.
- Se não existir nenhum problema no fornecimento de electricidade, o problema é do comutador.
Substitua os cabos de alimentação, um de cada vez, até corrigir o problema.
Consulte Descarregar os procedimentos de remoção e substituição do QLogic para os comutadores 7874-040, 7874-120 e 7874-240.
Consulte Transferir os procedimentos de remoção e substituição do QLogic para o comutador 7874-024.
|
3. O comutador InfiniBand tem um LED vermelho aceso. Alguns exemplos são os artigos seguintes:- LED de estado do chassis na estrutura gerida
- LED de estado no módulo de leaf
- LED vermelho no módulo de alimentação ou da ventoinha
|
Descrição: O LED vermelho indica uma falha de hardware.
Um LED de chassis vermelho indica uma das seguintes condições: - A temperatura ambiente do sistema excedeu os 60º C.
- Não estão presentes gavetas de ventoinha funcionais.
- Não estão presentes estruturas funcionais presentes.
- Não estão presentes leaves funcionais presentes.
Acção: - Se o LED vermelho estiver numa estrutura gerida ou módulo de leaf:
- Recolocar esta estrutura gerida ou módulo de leaf.
- Se o LED continuar vermelha, inserir a estrutura gerida ou módulo de leaf numa outra ranhura.
- Se o LED continuar vermelho, substituir a estrutura gerida ou módulo de leaf.
- Se o LED vermelho estiver num módulo de fonte de alimentação ou de ventoinha, substitua o módulo de alimentação ou da ventoinha.
Consulte Descarregar os procedimentos de remoção e substituição do QLogic para os comutadores 7874-040, 7874-120 e 7874-240.
Consulte Transferir os procedimentos de remoção e substituição do QLogic para o comutador 7874-024.
|
4. O comutador InfiniBand tem um LED de atenção âmbar aceso. Alguns exemplos são os artigos seguintes:- LED de atenção na estrutura gerida
- LED de atenção no módulo de leaf
|
Descrição: Um LED de atenção âmbar indicar uma possível falha de hardware. É necessário recolher dados para análise.
Um LED âmbar no chassis indica uma das seguintes condições: - A temperatura ambiente do sistema excedeu os 52º C, mas é inferior a 60º C.
- Existe um problema na ventoinha.
- Um LED de OK da fonte de alimentação de CA está desligado.
- Um LED de OK da fonte de alimentação de CC está desligado.
- Qualquer LED de atenção no módulo de estrutura estiver ligado, ou qualquer estrutura não estiver a funcionar (ainda que seja incapaz de acender o LED).
- Qualquer LED de atenção no módulo de leaf estiver ligado, ou qualquer leaf não estiver a funcionar (ainda que seja incapaz de acender o LED).
Acção: Recolha dados. Avance para Recolher dados para os erros do comutador InfiniBand para os comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.
|
| 5. A ligação da porta do comutador InfiniBand tem um LED azul que não está aceso. |
Descrição: Um LED de ligação azul no comutador indica uma boa ligação física entre a porta do comutador e o dispositivo na outra extremidade do cabo. Se o LED não estiver aceso, é porque existe um problema na porta, no cabo ou no adaptador de canal do sistema central InfiniBand.
Acção:
Quando o LED de ligação azul estiver aceso na porta do comutador, a ligação está fisicamente ligada; no entanto, a ligação poderá ter problemas intermitentes. O cliente pode supervisionar e verificar se existem erros intermitentes na ligação. Na maioria dos casos, os erros intermitentes resultam de um cabo ou ligação em más condições.
|
6. Um dos seguintes ficheiros de registo indica uma perda de comunicação do comutador InfiniBand com um servidor ou com uma partição lógica: - Ficheiro de registo do gestor de subrede do Servidor de Gestão de Matriz (ou de comutadores InfiniBand)
- Ficheiro de registo do comutador (chassis de comutador)
- Resultado da Verificação de Condição do Servidor de Gestão de Matriz Rápida
- Relatório de matriz rápida do servidor de gestão de matriz (Iba_report)
|
Descrição: A perda das ligações dos comutadores InfiniBand podem resultar de falhas diferentes, incluindo o servidor, partição lógica, adaptador do canal do sistema central, cabo, falhas de comutadores InfiniBand, erros de configuração de particionamento ou problemas de configuração do sistema operativo.
Isolamento: - Recolha dados. Avance para Recolher dados para os erros do comutador InfiniBand para os comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.
- Se forem registados vários erros de ligação, procure os padrões das falhas que possam ajudar a terminar a peça em falha como, por exemplo, as seguintes situações:
- Todas as ligações estão conectadas a um servidor único.
- Todas as ligações estão conectadas a uma partição lógica única.
- Todas as ligações estão conectadas a um adaptador de canal do sistema central único (ou seja, o adaptador do canal do sistema central de InfiniBand).
- Todas as ligações estão conectadas a um comutador InfiniBand único.
- Todas as ligações estão conectadas a um leaf de comutador InfiniBand única.
Nota: Se a matriz do comutador InfiniBand registar mais do que uma falha independente, poderá tratá-las em separado.
|
6. Os registos indicam perda de comunicação do comutador InfiniBand com um servidor ou uma partição lógica (continuação)
|
Acção: - Se todas as ligações conectadas a um servidor ou partição lógica única não estiverem a funcionar, conclua os passos seguintes:
- Verifique as condições óbvias de ligação em baixo ou em suspenso no servidor ou partição lógica. Caso as encontre, o servidor deverá recuperar o servidor ou a partição lógica, ou contactar o representante da assistência da IBM®, caso seja necessário. O representante da assistência da IBM irá então utilizar os procedimentos habituais do servidor para corrigir o problema.
- Peça ao cliente para verificar se existe um problema de configuração do adaptador do comutador InfiniBand. Pode ser um problema de partição do adaptador-canal-sistema central ou um erro na interface do comutador InfiniBand no sistema operativo. Se for encontrado, o cliente corrige o problema.
- Se as ligações forem provenientes de um adaptador único de canal do sistema central, ignore o passo 4.
- Se todas as ligações conectadas a um comutador InfiniBand único estiverem em baixo, conclua os passos seguintes:
- Verifique se existe um problema na alimentação do comutador, caso seja necessário.
- Se não encontrar nenhum problema de alimentação, recolha os dados conforme o indicado em Isolamento e envie-os para a IBM para análise.
- Se todas as ligações conectadas a um leaf de comutador InfiniBand estiverem em baixo, substitua o leaf do comutador.
Consulte Descarregar os procedimentos de remoção e substituição do QLogic para os comutadores 7874-040, 7874-120 e 7874-240.
Consulte Transferir os procedimentos de remoção e substituição do QLogic para o comutador 7874-024.
- Se todas as ligações que estiverem conectadas a um adaptador único de canal de sistema central, conclua os seguintes passos:
- Peça ao cliente para verificar se existe um problema de configuração do adaptador de canal do sistema central de InfiniBand. Este poderá ser um problema de partição do adaptador-canal-sistema central ou um erro na interface do comutador InfiniBand no sistema operativo. Se for encontrado, o cliente tem de corrigir o problema.
- Se não for encontrado qualquer outro problema, substitua o adaptador do canal do sistema central.
- Se não forem encontrados outros problemas no servidor ou na partição lógica, então o problema poderá ser isolado às ligações do comutador de InfiniBand.
Avance para Isolar erros de ligação do comutador InfiniBand para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 para determinar qual é o problema.
|
7. Ficheiro de registo do gestor de subrede - Se estiver a utilizar um gestor de subrede baseado num sistema central, o respectivo ficheiro de registo encontra-se no servidor de gestão de matriz sob /var/log/messages.
- Se estiver a utilizar um gestor de subrede incorporado, o respectivo ficheiro de registo encontra-se no comutador.
|
O gestor de subrede supervisiona a matriz e gere as operações de recuperação.
Os erros também devem ser registados no servidor de Cluster Systems Management (CSM) sob /var/log/csm/errorlog/CSM
MS hostname.
Acção: Avance para Recolher dados do servidor de gestão de matriz para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.
|
8. Ficheiro de registo do comutador
Alguns exemplos são os artigos seguintes: - comutador (através de logShow)
- Também erros no servidor de CSM no ficheiro /var/log/csm/errorlog/CSM
MS hostname
|
O ficheiro de registo reflecte os problemas dentro do chassis do comutador.
|
9. Resultado da verificação de condição de matriz rápida
Alguns exemplos são os artigos seguintes: - Servidor de gestão de matriz em ficheiros:
- /var/opt/iba/analysis/latest/chassis*.diff
- /var/opt/iba/analysis/latest/chassis*.errors
|
A Verificação de Condição de Matriz Rápida é utilizada durante a instalação, reparação e supervisão da matriz para localizar erros e alterações de configuração que possam causar problemas na matriz.
Acção: Avance para Recolher dados para a Verificação de Condição de Matriz Rápida para comutadores 7874-024, 7874-040, 7874-120 e 7874-240 e execute esse procedimento.
|
10. Relatório de Matriz Rápida
Alguns exemplos são os artigos seguintes: - Servidor de gestão de matriz no ficheiro /var/opt/iba/analysis/latest/*.stderr
|
Consultar o Relatório de Matriz Rápida
|
11. Outros indicadores de erros ou métodos de registo
|
Este problema inclui outras formas de poder ter conhecimento de um erro como, por exemplo, uma queixa de um cliente. Reveja esta tabela para ver outras indicações de falha.
|