Error de servidor CF
Utilice la información de este tema como ayuda para diagnosticar si un componente de recurso de almacenamiento en memoria caché de clúster (CF) ha fallado.
Síntomas
A Db2® instancia no se inicia al ejecutar el comando db2start .
Diagnóstico de una anomalía del servidor CF
- Consulte los SQLCODE en la salida del mandato db2start .
- Para determinar si un CF no se ha iniciado, ejecute db2instance -list. Esta información puede mostrar CF en un estado STOPPED o ERROR si el inicio ha fallado, en función de cuándo se produzca la anomalía.
- El ejemplo siguiente muestra una salida de ejemplo de db2instance
-list
ID TYPE STATE HOME_HOST CURRENT_HOST ... -- ---- ----- --------- ------------ 0 MEMBER STOPPED host01 host01 1 MEMBER STOPPED host02 host02 2 MEMBER STOPPED host03 host03 128 CF STOPPED host04 host04 129 CF STOPPED host05 host05 ALERT PARTITION_NUMBER LOGICAL_PORT NETNAME ... ----- ---------------- ------------ ------- NO 0 0 host01-ib0 NO 0 0 host02-ib0 NO 0 0 host03-ib0 NO - 0 host04-ib0 NO - 0 host05-ib0 HOSTNAME STATE INSTANCE_STOPPED ALERT -------- ----- ---------------- ----- host01 ACTIVE NO NO host02 ACTIVE NO NO host03 ACTIVE NO NO host04 ACTIVE NO NO host05 ACTIVE NO NO
- El ejemplo siguiente muestra una salida de ejemplo de db2instance
-list
- Si hay alertas presentes, ejecute db2cluster -cm -list -alerts para obtener más información. Las alertas proporcionarán más información sobre lo que puede ser necesario arreglar (por ejemplo, un adaptador de red o un host está fuera de línea), o apuntará a los archivos cfdiag*.log para obtener más información.
- Busque los errores relacionados en el archivo de anotaciones cronológicas db2diag de CFque pertenecen a la hora en que se ejecutó el mandato db2start :
2009-11-09-02.32.46.967563-300 I261372A332 LEVEL: Severe PID : 1282088 TID : 1 KTID : 4751433 PROC : db2start INSTANCE: db2inst1 NODE : 000 HOSTNAME: host04 EDUID : 1 FUNCTION: Db2, base sys utilities, sqleIssueStartStop, probe:3973 MESSAGE : Failed to start any CF. - Busque en las secciones del archivo de anotaciones cronológicas db2diag anterior al punto de rastreo anterior para obtener más información sobre por qué no se ha iniciado el CF . Por ejemplo, si los servicios de clúster no pueden iniciar un CF, el archivo de anotaciones cronológicas db2diag podría mostrar:
2009-11-09-02.12.40.882897-300 I256778A398 LEVEL: Error PID : 737522 TID : 1 KTID : 2371807if PROC : db2havend INSTANCE: db2inst1 NODE : 000 EDUID : 1 FUNCTION: Db2, high avail services, db2haOnlineResourceGroup, probe:5982 DATA #1 : <preformatted> Timeout waiting for resource group ca_db2inst1_0-rg to be online, last known OpState is 2 - Cada CF graba información en cfdiag*.log y vuelca más datos de diagnóstico cuando es necesario. Los archivos residen en el directorio establecido por el parámetro de configuración del gestor de bases de datos cf_diagpath o, si no está establecido, diagpatho $INSTHOME/sqllib_shared/db2dump/ $m de forma predeterminada.
- Archivos de registro de diagnóstico de CF (cfdiag-<timestamp>.<cf_id>*.log)
- Cada uno de estos archivos mantiene un registro de las actividades relacionadas con un CF. Los sucesos, errores, avisos o información de depuración adicional se registrarán allí. Este archivo de anotaciones cronológicas tiene una estructura similar a la del archivo de anotaciones cronológicas db2diag . Se crea un nuevo registro cada vez que se inicia un CF . El nivel de registro lo controla el parámetro de configuración del gestor de bases de datos cf_diaglevel .
- Tenga en cuenta que hay un nombre de registro de diagnóstico CF estático que siempre apunta al archivo de registro de diagnóstico más actual para cada CF y tiene el formato siguiente: cfdiag.<cf_id>.log
- CF archivos de diagnóstico de volcado de salida cfdump.YYYYMMDDhhmmssuuuuuu.<host>.<cf_id>.out
- Estos archivos contienen información relativa al inicio y detención de CF . Puede haber alguna salida adicional en estos archivos.
- Archivo de registro de diagnóstico de daemon LightWeight de gestión (mgmnt_lwd_log.<cf_pid>)
- Este archivo de registro muestra las entradas de registro que pertenecen al proceso de daemon LightWeight (LWD) para un CFdeterminado. Los errores en este archivo de registro indican que la LWD no se ha iniciado correctamente.
- Archivos de pila CF (CAPD.<cf_pid>.<tid>.thrstk)
- Son archivos de pila producidos por el CF cuando encuentra una señal. Estos archivos son importantes para diagnosticar un problema con el CF.
- CF archivos de rastreo (CAPD.tracelog.<cf_pid>)
- Se habilita un rastreo ligero predeterminado para el CF.
- Estos archivos de rastreo aparecen siempre que el CF termina o se detiene.
- Los archivos de rastreo pueden indicar un problema con el CF, pero estos archivos son útiles para diagnosticar errores sólo cuando se utilizan en combinación con otros datos de diagnóstico.
- Archivos de registro de diagnóstico de CF (cfdiag-<timestamp>.<cf_id>*.log)
- Si el proceso CF se inicia correctamente, se graba un mensaje de inicio e inicializado en los archivos de volcado CF .
- Por ejemplo, el contenido de cfdump.20091109015035000037.host04.128.out incluye un mensaje que muestra un inicio de proceso satisfactorio:
CA Server IPC component Initialised: LWD BG buffer count: 16 Session ID: 1d CA Server IPC component Acknowledged LWD Startup Message Waiting for LWD to Configure Server Processors: (4:4) PowerPC_POWER5 running at 1498 MHz Cluster Accelerator initialized Cluster Accelerator Object Information: OS: AIX 64-bit Compiler: xlC VRM (900) SVN Revision: 7584 Built on: Oct 12 2009 at 17:00:54 Executable generated with symbols Model Components Loaded: CACHE LIST LOCK Transport: uDAPL Number of HCAs: 1 Device[0]: hca0 CA Port[0]: 50638 Mgmnt Port Type: TCP/IP Mgmnt Port: 50642 IPC Key: 0xe50003d Total Workers: 4 Conn/Worker: 128 Notify conns: 256 Processor Speed: 1498.0000 MHz - Si el archivo cfdump.out.* no contiene la línea "recurso de almacenamiento en memoria caché de clúster inicializado" o "recurso de almacenamiento en memoria caché de clúster Información de objeto" y otras líneas que se muestran en el ejemplo siguiente, el proceso CF no se ha iniciado correctamente. En su lugar, es posible que se muestre un mensaje de error. Póngase en contacto con el soporte técnico de IBM para obtener más información.
- En este ejemplo, cfdiag-20091109015035000037.128.log contiene un inicio de proceso satisfactorio. Si el CF no se ha iniciado correctamente, este registro puede estar vacío o contener mensajes de error.
2009-11-09-01.50.37.0051837000-300 E123456789A779 LEVEL : Event PID : 688182 TID : 1 HOSTNAME : host04 FUNCTION : CA svr_init, mgmnt_castart MESSAGE : CA server log has been started. DATA #1 : Log Level: Error Debugging : active Cluster Accelerator Object Information AIX 64-bit Compiler: xlC VRM (900) SVN Revision: 7584 Built on Oct 12 2009 at 17:00:59 Executable generated with symbols. Executable generated with asserts. Model Components Loaded: CACHE, LIST, LOCK Transport: uDAPL Number of HCAs: 1 Device[0]: hca0 CA Port[0]: 50638 Total Workers: 4 Conn/Worker: 128 Notify conns: 256 Processor Speed: 1498.000000 Mhz. Allocatable Structure memory: 170 MB - Busque archivos principales o archivos de rastreo inverso de pila en el directorio CF_DIAGPATH .
- Es posible que también se consulte el registro de errores del sistema para el host afectado si la causa del error sigue siendo desconocida. Inicie sesión en el host CF que no se ha iniciado y consulte el registro de errores del sistema ejecutando el mandato errpt -a (en Linux®, busque en el archivo /var/log/messages ). Busque entradas de registro relacionadas en el momento de la anomalía. En el ejemplo que se muestra aquí, inicie sesión en host04 y host05, porque CF 128 y CF 129 residen en estos hosts.
- Si se ha mostrado una alerta desde db2cluster -list -alert, ejecute db2cluster -clear -alert después de resolver el problema y, a continuación, vuelva a emitir el mandato db2start .