Fallos de hardware y software

Puede utilizar la información de este tema para identificar y resolver problemas de hardware y software.

Tabla 1. Problemas de hardware y software
Asunto Detección Resolución
Un nodo NPS® experimenta un fallo de host. La detección es automática, aunque la funcionalidad HA. La resolución es automática: el host secundario toma el relevo e inicia el NPS.
Un nodo NPS experimenta un fallo de hardware o software, lo que provoca la imposibilidad temporal de procesar transacciones de consulta o actualización. La detección de fallos de nodo puede realizarse mediante una combinación de informes eventmgr, eventos de transición de estado, eventos de notificación de hardware y soluciones desarrolladas por el usuario. No se añaden capacidades adicionales de detección o recuperación automática. Puede utilizar uno de los métodos siguientes:
  • Resuelva el problema para que el nodo NPS vuelva a estar en línea.
  • Si el nodo NPS es un primario, modifique la configuración del conjunto de replicación (utilizando los comandos de gestión proporcionados) para degradar el primario antiguo y promover un nuevo primario.
El agente de captura o aplicación de replicación en un nodo primario de NPS falla, lo que provoca la imposibilidad de replicar transacciones. Los procesos pertinentes de captura y aplicación son gestionados por el startupsvr local. El startupsvr detecta el problema y reinicia los procesos replcapture y replapply.
Un nodo NPS no puede escribir o leer del gestor de colas de replicación, debido a un problema de conectividad o a un problema de hardware o software con el componente del servidor de registro local. El agente de captura/aplicación recibe un error de una llamada a la API cuando intenta leer o escribir una transacción u obtener la información de metadatos más reciente. Un evento ReplPTSError es reportado a través de eventmgr.

Todas las transacciones de actualización en un primario fallan hasta que se resuelva este problema. Tanto en el primario como en la réplica, la replicación queda bloqueada hasta que se resuelva el problema. Todas las operaciones de consulta siguen funcionando correctamente.

Puede utilizar uno de los métodos siguientes:
  • Resuelva el problema para que la replicación pueda reanudarse automáticamente.
  • En el caso de un primario, conmute manualmente a un nuevo primario en una subred que no tenga el problema de conectividad o de gestor de colas de replicación.
Se produce un fallo de comunicación entre los componentes del gestor de colas de replicación.

El sistema genera eventos ReplMissedMetadataHeartbeat cuando detecta un problema de comunicación entre los nodos de un conjunto de replicación. Es decir, no se recibe consecutivamente un número determinado de latidos de metadatos, o se recibe tarde un latido de metadatos. Para más información sobre el evento ReplMissedMetadataHeartbeat y cómo configurar las condiciones para generarlo, consulte la Tabla 1.

Puede mostrar información detallada sobre latidos perdidos utilizando el comando nzreplstate -heartbeat en cada uno de los nodos afectados; compruebe la salida del comando para determinar los latidos enviados y recibidos recientemente.

Puedes resolver el problema solucionando los problemas de red. Puede decidir suspender temporalmente la replicación en el nodo primario para evitar la acumulación de transacciones no procesadas. El software RQM (replication queue manager) intenta automática y repetidamente reconectar si una conexión se cae o no responde y continúa procesando normalmente una vez restablecida la conexión.
Los datos de un nodo están dañados o corruptos. NPS detecta y notifica este tipo de problemas. Una vez restablecido el servicio del nodo NPS, utilice los comandos nzreplanalyze, nzreplbackup y nzreplrestore para restaurar las bases de datos dañadas.
Los datos de un host del gestor de colas de replicación están irreparablemente dañados o corruptos. Una serie de condiciones podrían indicarlo, entre ellas las siguientes:
  • La máquina ya no arranca.
  • El sistema operativo informa de errores de lectura de la partición o unidad donde está instalado el RQM.
  • El demonio RQM no se ejecuta e informa de excepciones o mensajes de error, indicando problemas.
Debe reinicializar el host del gestor de colas de replicación o inicializar uno nuevo y resincronizar su contenido desde los otros hosts del gestor de colas de replicación. Para obtener más información, consulte Inicialización de un nodo de réplica. Si el nodo NPS correspondiente es el primario actual, debe degradarlo a réplica y utilizar los comandos nzreplanalyze, nzreplbackup y nzreplrestore para restaurar las bases de datos dañadas.
Una tabla se convierte en una tabla versionada cuando los usuarios añaden o eliminan columnas de la tabla. La actualización de filas en una tabla versionada puede provocar la suspensión de la réplica. La réplica se suspende con el siguiente error:Versioned tables do not support DELETE operations that join again to the versioned table. En el nodo réplica, realice los siguientes pasos:
  1. Emita el comando GROOM TABLE con la opción VERSIONS.
  2. Active la réplica y reinicie la replicación emitiendo el comando ALTER REPLICATION NODE repslet. <subordinatenodename> STATE ACTIVE.