OSD inactivos

Comprenda y resuelva los problemas de los OSD que están inactivos.

Si los OSD se consideran inactivos, el mandato ceph health detail devuelve un error similar al ejemplo siguiente:
HEALTH_WARN 1/3 en osds están abajo

Qué significa

Uno de los procesos de ceph-osd no está disponible debido a una posible anomalía de servicio o a problemas con la comunicación con otros OSD. Como consecuencia, los daemons de ceph-osd supervivientes han notificado esta anomalía a los supervisores.

Si el daemon ceph-osd no está en ejecución, la unidad OSD subyacente o el sistema de archivos están dañados, o algún otro error, como por ejemplo un conjunto de claves que falta, impide que se inicie el daemon.

Normalmente, los problemas de red provocan la situación cuando el daemon ceph-osd se está ejecutando pero sigue marcado como down.

Para obtener más información, consulte Grupos de colocación obsoletos. Para habilitar los archivos de registro, consulte Ceph daemon logs.

Resolución de este problema

  1. Determine qué OSD está inactivo, utilizando el mandato ceph health detail .
    [ceph: root@host01 /]# Detalles del estado de Ceph
    HEALTH_WARN 1/3 en osds están abajo
    osd.0 está caído desde la época 23, última dirección 192.168.106.220:6800/11080
  2. Reinicie el daemon ceph-osd .
    systemctl restart ceph-osd@OSD_NUMBER
    Sustituya OSD_NUMBER por el ID del OSD que está en un estado down .
    [root@host01 ~]# systemctl restart ceph-osd@OSD_NUMBER
    Por ejemplo:
    [ root@host01 ~]# systemctl restart ceph-osd@0

El daemon ceph-osd no se puede iniciar

  1. Si tiene un nodo que contiene varios OSD (generalmente, más de doce), verifique que el número máximo predeterminado de hebras (recuento de PID) es suficiente. Para más información, consulte Aumentar el recuento de PID.

  2. Verifique que los datos de OSD y las particiones de diario se han montado correctamente. Puede utilizar el mandato ceph-volume lvm list para listar todos los dispositivos y volúmenes que están asociados con el clúster de almacenamiento Ceph y, a continuación, inspeccionar manualmente si están montados correctamente. Consulte la página de manual de mount(8) para obtener más detalles.

  3. Si ha obtenido elERROR: missing keyring, cannot use cephx for authenticationmensaje de error, el OSD es un conjunto de claves que falta.

  4. Si ha obtenido elERROR: unable to open OSD superblock on /var/lib/ceph/osd/ceph-1mensaje de error, el daemon ceph-osd no puede leer el sistema de archivos subyacente.
    • Compruebe el archivo de registro correspondiente para determinar la causa de la anomalía. De forma predeterminada, Ceph almacena los archivos de registro en el directorio /var/log/ceph/ .
    • UnaEIOmensaje de error indica una anomalía del disco subyacente. Para solucionar este problema, sustituya el disco OSD subyacente. Para más información, Sustitución de una unidad OSD.
    • Si el registro incluye cualquier otroFAILED asserterrores, como el siguiente, abra una incidencia de soporte. Para más información, póngase en contacto con el servicio de asistencia IBM.
      Consulte lo siguienteFAILED assertejemplo de mensaje:
      FAILED assert (0 == "tiempo de espera de suicidio de hit")
  5. Compruebe eldmesgsalida para los errores con el sistema de archivos o disco subyacente:
    • La cabecera HTTPerror -5mensaje de error similar al del ejemplo siguiente, indica la corrupción del sistema de archivos XFS subyacente.
      xfs_log_force: error -5 devuelto

      Para resolver este problema, desmonte el volumen y, a continuación, vuelva a realizar la recuperación utilizando el conjunto de herramientas de mandatos de xfs_repair . Para obtener más información y ayuda sobre cómo utilizar el mandato xfs_repair , póngase en contacto con el soporte de IBM , haciendo referencia a este error y a la documentación.

    • Si el mandatodmesgla salida incluye cualquierSCSI errormensajes de error, consulte la solución del Buscador de soluciones de códigos de error SCSI para determinar la mejor forma de solucionar el problema.
    • Si sigue sin poder arreglar el sistema de archivos subyacente, sustituya la unidad OSD. Para obtener más información, consulte Sustitución de una unidad OSD.
  6. Si el OSD ha fallado con un error de segmentación, como el del ejemplo siguiente, recopile la información necesaria y abra una incidencia de soporte. Para más información, póngase en contacto con el servicio de asistencia IBM.
    Señal capturada (error de segmentación)

El ceph-osd se está ejecutando pero sigue marcado como down

Compruebe el archivo de registro correspondiente para determinar la causa de la anomalía. De forma predeterminada, Ceph almacena los archivos de registro en el directorio /var/log/ceph/ .
  • Si el registro incluye algún mensaje de error similar al del ejemplo siguiente, consulte OSD que flaquean.
    me ha marcado erróneamente
        heartbeat_check: no hay respuesta de osd.2 desde atrás
  • Si hay algún otro tipo de error, abra una incidencia de soporte. Para más información, póngase en contacto con el servicio de asistencia IBM.