Error de servidor CF

Utilice la información de este tema como ayuda para diagnosticar si un componente de recurso de almacenamiento en memoria caché de clúster (CF) ha fallado.

Síntomas

A Db2® instancia no se inicia al ejecutar el comando db2start .

Diagnóstico de una anomalía del servidor CF

Consulte los SQLCODE en la salida del mandato db2start .

Para determinar si un CF no se ha iniciado, ejecute db2instance -list. Esta información puede mostrar CF en un estado STOPPED o ERROR si el inicio ha fallado, en función de cuándo se produzca la anomalía.

El ejemplo siguiente muestra una salida de ejemplo de db2instance -list

ID        TYPE             STATE                HOME_HOST               CURRENT_HOST   ...
--        ----             -----                ---------               ------------
0       MEMBER           STOPPED                host01                  host01      
1       MEMBER           STOPPED                host02                  host02      
2       MEMBER           STOPPED                host03                  host03      
128     CF               STOPPED                host04                  host04      
129     CF               STOPPED                host05                  host05      


ALERT       PARTITION_NUMBER        LOGICAL_PORT    NETNAME   ...
-----       ----------------        ------------    -------   
   NO                      0                   0    host01-ib0
   NO                      0                   0    host02-ib0
   NO                      0                   0    host03-ib0
   NO                      -                   0    host04-ib0
   NO                      -                   0    host05-ib0


HOSTNAME                       STATE                INSTANCE_STOPPED        ALERT
--------                       -----                ----------------        -----
host01                        ACTIVE                              NO           NO
host02                        ACTIVE                              NO           NO
host03                        ACTIVE                              NO           NO
host04                        ACTIVE                              NO           NO
host05                        ACTIVE                              NO           NO

Si hay alertas presentes, ejecute db2cluster -cm -list -alerts para obtener más información. Las alertas proporcionarán más información sobre lo que puede ser necesario arreglar (por ejemplo, un adaptador de red o un host está fuera de línea), o apuntará a los archivos cfdiag*.log para obtener más información.

Busque los errores relacionados en el archivo de anotaciones cronológicas db2diag de CFque pertenecen a la hora en que se ejecutó el mandato db2start :

2009-11-09-02.32.46.967563-300 I261372A332          LEVEL: Severe
PID     : 1282088              TID  : 1             KTID : 4751433
PROC    : db2start
INSTANCE: db2inst1             NODE : 000
HOSTNAME: host04
EDUID   : 1
FUNCTION: Db2, base sys utilities, sqleIssueStartStop, probe:3973
MESSAGE : Failed to start any CF.

Busque en las secciones del archivo de anotaciones cronológicas db2diag anterior al punto de rastreo anterior para obtener más información sobre por qué no se ha iniciado el CF . Por ejemplo, si los servicios de clúster no pueden iniciar un CF, el archivo de anotaciones cronológicas db2diag podría mostrar:

2009-11-09-02.12.40.882897-300 I256778A398          LEVEL: Error
PID     : 737522               TID  : 1             KTID : 2371807if
PROC    : db2havend
INSTANCE: db2inst1             NODE : 000
EDUID   : 1
FUNCTION: Db2, high avail services, db2haOnlineResourceGroup, probe:5982
DATA #1 : <preformatted>
Timeout waiting for resource group ca_db2inst1_0-rg to be online, last known OpState is 2

Cada CF graba información en cfdiag*.log y vuelca más datos de diagnóstico cuando es necesario. Los archivos residen en el directorio establecido por el parámetro de configuración del gestor de bases de datos cf_diagpath o, si no está establecido, diagpatho $INSTHOME/sqllib_shared/db2dump/ $m de forma predeterminada.
- Archivos de registro de diagnóstico de CF (cfdiag-<timestamp>.<cf_id>*.log)
  - Cada uno de estos archivos mantiene un registro de las actividades relacionadas con un CF. Los sucesos, errores, avisos o información de depuración adicional se registrarán allí. Este archivo de anotaciones cronológicas tiene una estructura similar a la del archivo de anotaciones cronológicas db2diag . Se crea un nuevo registro cada vez que se inicia un CF . El nivel de registro lo controla el parámetro de configuración del gestor de bases de datos cf_diaglevel .
  - Tenga en cuenta que hay un nombre de registro de diagnóstico CF estático que siempre apunta al archivo de registro de diagnóstico más actual para cada CF y tiene el formato siguiente: cfdiag.<cf_id>.log
- CF archivos de diagnóstico de volcado de salida cfdump.YYYYMMDDhhmmssuuuuuu.<host>.<cf_id>.out
  - Estos archivos contienen información relativa al inicio y detención de CF . Puede haber alguna salida adicional en estos archivos.
- Archivo de registro de diagnóstico de daemon LightWeight de gestión (mgmnt_lwd_log.<cf_pid>)
  - Este archivo de registro muestra las entradas de registro que pertenecen al proceso de daemon LightWeight (LWD) para un CFdeterminado. Los errores en este archivo de registro indican que la LWD no se ha iniciado correctamente.
- Archivos de pila CF (CAPD.<cf_pid>.<tid>.thrstk)
  - Son archivos de pila producidos por el CF cuando encuentra una señal. Estos archivos son importantes para diagnosticar un problema con el CF.
- CF archivos de rastreo (CAPD.tracelog.<cf_pid>)
  - Se habilita un rastreo ligero predeterminado para el CF.
  - Estos archivos de rastreo aparecen siempre que el CF termina o se detiene.
  - Los archivos de rastreo pueden indicar un problema con el CF, pero estos archivos son útiles para diagnosticar errores sólo cuando se utilizan en combinación con otros datos de diagnóstico.
Si el proceso CF se inicia correctamente, se graba un mensaje de inicio e inicializado en los archivos de volcado CF .

Por ejemplo, el contenido de cfdump.20091109015035000037.host04.128.out incluye un mensaje que muestra un inicio de proceso satisfactorio:

CA Server IPC component Initialised: LWD BG buffer count: 16
              Session ID: 1d
CA Server IPC component Acknowledged LWD Startup Message
          Waiting for LWD to Configure Server
Processors: (4:4) PowerPC_POWER5 running at 1498 MHz

Cluster Accelerator initialized

Cluster Accelerator Object Information:
   OS: AIX 64-bit
   Compiler: xlC VRM (900)
   SVN Revision: 7584
   Built on: Oct 12 2009 at 17:00:54
   Executable generated with symbols
   Model Components Loaded: CACHE  LIST  LOCK
   Transport: uDAPL
   Number of HCAs: 1
   Device[0]: hca0
   CA Port[0]: 50638
   Mgmnt Port Type: TCP/IP
   Mgmnt Port: 50642
   IPC Key: 0xe50003d
   Total Workers: 4
   Conn/Worker: 128
   Notify conns: 256
   Processor Speed: 1498.0000 MHz

Si el archivo cfdump.out.* no contiene la línea "recurso de almacenamiento en memoria caché de clúster inicializado" o "recurso de almacenamiento en memoria caché de clúster Información de objeto" y otras líneas que se muestran en el ejemplo siguiente, el proceso CF no se ha iniciado correctamente. En su lugar, es posible que se muestre un mensaje de error. Póngase en contacto con el soporte técnico de IBM para obtener más información.

En este ejemplo, cfdiag-20091109015035000037.128.log contiene un inicio de proceso satisfactorio. Si el CF no se ha iniciado correctamente, este registro puede estar vacío o contener mensajes de error.

2009-11-09-01.50.37.0051837000-300 E123456789A779 LEVEL : Event
PID       : 688182 TID :          1
HOSTNAME  : host04
FUNCTION  : CA svr_init, mgmnt_castart
MESSAGE   : CA server log has been started.
DATA #1   :
Log Level: Error
Debugging : active
Cluster Accelerator Object Information
    AIX 64-bit
    Compiler: xlC VRM (900)
    SVN Revision: 7584
    Built on Oct 12 2009 at 17:00:59
    Executable generated with symbols.
    Executable generated with asserts.
    Model Components Loaded: CACHE, LIST, LOCK
    Transport: uDAPL
    Number of HCAs: 1
    Device[0]: hca0
    CA Port[0]: 50638
    Total Workers: 4
    Conn/Worker: 128
    Notify conns: 256
    Processor Speed: 1498.000000 Mhz.
    Allocatable Structure memory: 170 MB

Busque archivos principales o archivos de rastreo inverso de pila en el directorio CF_DIAGPATH .
Es posible que también se consulte el registro de errores del sistema para el host afectado si la causa del error sigue siendo desconocida. Inicie sesión en el host CF que no se ha iniciado y consulte el registro de errores del sistema ejecutando el mandato errpt -a (en Linux®, busque en el archivo /var/log/messages ). Busque entradas de registro relacionadas en el momento de la anomalía. En el ejemplo que se muestra aquí, inicie sesión en host04 y host05, porque CF 128 y CF 129 residen en estos hosts.
Si se ha mostrado una alerta desde db2cluster -list -alert, ejecute db2cluster -clear -alert después de resolver el problema y, a continuación, vuelva a emitir el mandato db2start .