Error de servidor CF

Utilice la información de este tema como ayuda para diagnosticar si un componente de recurso de almacenamiento en memoria caché de clúster (CF) ha fallado.

Síntomas

A Db2® instancia no se inicia al ejecutar el comando db2start .

Diagnóstico de una anomalía del servidor CF

  • Consulte los SQLCODE en la salida del mandato db2start .
  • Para determinar si un CF no se ha iniciado, ejecute db2instance -list. Esta información puede mostrar CF en un estado STOPPED o ERROR si el inicio ha fallado, en función de cuándo se produzca la anomalía.
    • El ejemplo siguiente muestra una salida de ejemplo de db2instance -list
      ID        TYPE             STATE                HOME_HOST               CURRENT_HOST   ...
      --        ----             -----                ---------               ------------
      0       MEMBER           STOPPED                host01                  host01      
      1       MEMBER           STOPPED                host02                  host02      
      2       MEMBER           STOPPED                host03                  host03      
      128     CF               STOPPED                host04                  host04      
      129     CF               STOPPED                host05                  host05      
      
      
      ALERT       PARTITION_NUMBER        LOGICAL_PORT    NETNAME   ...
      -----       ----------------        ------------    -------   
         NO                      0                   0    host01-ib0
         NO                      0                   0    host02-ib0
         NO                      0                   0    host03-ib0
         NO                      -                   0    host04-ib0
         NO                      -                   0    host05-ib0
      
      
      HOSTNAME                       STATE                INSTANCE_STOPPED        ALERT
      --------                       -----                ----------------        -----
      host01                        ACTIVE                              NO           NO
      host02                        ACTIVE                              NO           NO
      host03                        ACTIVE                              NO           NO
      host04                        ACTIVE                              NO           NO
      host05                        ACTIVE                              NO           NO
  • Si hay alertas presentes, ejecute db2cluster -cm -list -alerts para obtener más información. Las alertas proporcionarán más información sobre lo que puede ser necesario arreglar (por ejemplo, un adaptador de red o un host está fuera de línea), o apuntará a los archivos cfdiag*.log para obtener más información.
  • Busque los errores relacionados en el archivo de anotaciones cronológicas db2diag de CFque pertenecen a la hora en que se ejecutó el mandato db2start :
    2009-11-09-02.32.46.967563-300 I261372A332          LEVEL: Severe
    PID     : 1282088              TID  : 1             KTID : 4751433
    PROC    : db2start
    INSTANCE: db2inst1             NODE : 000
    HOSTNAME: host04
    EDUID   : 1
    FUNCTION: Db2, base sys utilities, sqleIssueStartStop, probe:3973
    MESSAGE : Failed to start any CF.
  • Busque en las secciones del archivo de anotaciones cronológicas db2diag anterior al punto de rastreo anterior para obtener más información sobre por qué no se ha iniciado el CF . Por ejemplo, si los servicios de clúster no pueden iniciar un CF, el archivo de anotaciones cronológicas db2diag podría mostrar:
    2009-11-09-02.12.40.882897-300 I256778A398          LEVEL: Error
    PID     : 737522               TID  : 1             KTID : 2371807if
    PROC    : db2havend
    INSTANCE: db2inst1             NODE : 000
    EDUID   : 1
    FUNCTION: Db2, high avail services, db2haOnlineResourceGroup, probe:5982
    DATA #1 : <preformatted>
    Timeout waiting for resource group ca_db2inst1_0-rg to be online, last known OpState is 2
  • Cada CF graba información en cfdiag*.log y vuelca más datos de diagnóstico cuando es necesario. Los archivos residen en el directorio establecido por el parámetro de configuración del gestor de bases de datos cf_diagpath o, si no está establecido, diagpatho $INSTHOME/sqllib_shared/db2dump/ $m de forma predeterminada.
    • Archivos de registro de diagnóstico de CF (cfdiag-<timestamp>.<cf_id>*.log)
      • Cada uno de estos archivos mantiene un registro de las actividades relacionadas con un CF. Los sucesos, errores, avisos o información de depuración adicional se registrarán allí. Este archivo de anotaciones cronológicas tiene una estructura similar a la del archivo de anotaciones cronológicas db2diag . Se crea un nuevo registro cada vez que se inicia un CF . El nivel de registro lo controla el parámetro de configuración del gestor de bases de datos cf_diaglevel .
      • Tenga en cuenta que hay un nombre de registro de diagnóstico CF estático que siempre apunta al archivo de registro de diagnóstico más actual para cada CF y tiene el formato siguiente: cfdiag.<cf_id>.log
    • CF archivos de diagnóstico de volcado de salida cfdump.YYYYMMDDhhmmssuuuuuu.<host>.<cf_id>.out
      • Estos archivos contienen información relativa al inicio y detención de CF . Puede haber alguna salida adicional en estos archivos.
    • Archivo de registro de diagnóstico de daemon LightWeight de gestión (mgmnt_lwd_log.<cf_pid>)
      • Este archivo de registro muestra las entradas de registro que pertenecen al proceso de daemon LightWeight (LWD) para un CFdeterminado. Los errores en este archivo de registro indican que la LWD no se ha iniciado correctamente.
    • Archivos de pila CF (CAPD.<cf_pid>.<tid>.thrstk)
      • Son archivos de pila producidos por el CF cuando encuentra una señal. Estos archivos son importantes para diagnosticar un problema con el CF.
    • CF archivos de rastreo (CAPD.tracelog.<cf_pid>)
      • Se habilita un rastreo ligero predeterminado para el CF.
      • Estos archivos de rastreo aparecen siempre que el CF termina o se detiene.
      • Los archivos de rastreo pueden indicar un problema con el CF, pero estos archivos son útiles para diagnosticar errores sólo cuando se utilizan en combinación con otros datos de diagnóstico.
  • Si el proceso CF se inicia correctamente, se graba un mensaje de inicio e inicializado en los archivos de volcado CF .
  • Por ejemplo, el contenido de cfdump.20091109015035000037.host04.128.out incluye un mensaje que muestra un inicio de proceso satisfactorio:
    CA Server IPC component Initialised: LWD BG buffer count: 16
                  Session ID: 1d
    CA Server IPC component Acknowledged LWD Startup Message
              Waiting for LWD to Configure Server
    Processors: (4:4) PowerPC_POWER5 running at 1498 MHz
    
    Cluster Accelerator initialized
    
    Cluster Accelerator Object Information:
       OS: AIX 64-bit
       Compiler: xlC VRM (900)
       SVN Revision: 7584
       Built on: Oct 12 2009 at 17:00:54
       Executable generated with symbols
       Model Components Loaded: CACHE  LIST  LOCK
       Transport: uDAPL
       Number of HCAs: 1
       Device[0]: hca0
       CA Port[0]: 50638
       Mgmnt Port Type: TCP/IP
       Mgmnt Port: 50642
       IPC Key: 0xe50003d
       Total Workers: 4
       Conn/Worker: 128
       Notify conns: 256
       Processor Speed: 1498.0000 MHz
  • Si el archivo cfdump.out.* no contiene la línea "recurso de almacenamiento en memoria caché de clúster inicializado" o "recurso de almacenamiento en memoria caché de clúster Información de objeto" y otras líneas que se muestran en el ejemplo siguiente, el proceso CF no se ha iniciado correctamente. En su lugar, es posible que se muestre un mensaje de error. Póngase en contacto con el soporte técnico de IBM para obtener más información.
  • En este ejemplo, cfdiag-20091109015035000037.128.log contiene un inicio de proceso satisfactorio. Si el CF no se ha iniciado correctamente, este registro puede estar vacío o contener mensajes de error.
    2009-11-09-01.50.37.0051837000-300 E123456789A779 LEVEL : Event
    PID       : 688182 TID :          1
    HOSTNAME  : host04
    FUNCTION  : CA svr_init, mgmnt_castart
    MESSAGE   : CA server log has been started.
    DATA #1   :
    Log Level: Error
    Debugging : active
    Cluster Accelerator Object Information
        AIX 64-bit
        Compiler: xlC VRM (900)
        SVN Revision: 7584
        Built on Oct 12 2009 at 17:00:59
        Executable generated with symbols.
        Executable generated with asserts.
        Model Components Loaded: CACHE, LIST, LOCK
        Transport: uDAPL
        Number of HCAs: 1
        Device[0]: hca0
        CA Port[0]: 50638
        Total Workers: 4
        Conn/Worker: 128
        Notify conns: 256
        Processor Speed: 1498.000000 Mhz.
        Allocatable Structure memory: 170 MB
  • Busque archivos principales o archivos de rastreo inverso de pila en el directorio CF_DIAGPATH .
  • Es posible que también se consulte el registro de errores del sistema para el host afectado si la causa del error sigue siendo desconocida. Inicie sesión en el host CF que no se ha iniciado y consulte el registro de errores del sistema ejecutando el mandato errpt -a (en Linux®, busque en el archivo /var/log/messages ). Busque entradas de registro relacionadas en el momento de la anomalía. En el ejemplo que se muestra aquí, inicie sesión en host04 y host05, porque CF 128 y CF 129 residen en estos hosts.
  • Si se ha mostrado una alerta desde db2cluster -list -alert, ejecute db2cluster -clear -alert después de resolver el problema y, a continuación, vuelva a emitir el mandato db2start .