Записи протокола ошибок отключения CPU

С отключением CPU связаны три сообщения протокола ошибок.

Ниже приведены примеры.

краткие записи errpt - обзор
Ниже приведен пример записей, выводимых командой errpt без параметров:
# errpt
ИДЕНТИФИКАТОР      ВРЕМЯ              T      C      ИМЯ РЕСУРСА          ОПИСАНИЕ
804E987A           1008161399         I      O      proc4                CPU ОТКЛЮЧЕН
8470267F           1008161299         T      S      proc4
ОТКЛЮЧЕНИЕ CPU ПРЕРВАНО
1B963892           1008160299         P      H      proc4                ВОЗМОЖЕН СБОЙ CPU
#
  • Если в системе применяется функция отключения процессора, то за сообщением ВОЗМОЖЕН СБОЙ CPU всегда следует сообщение CPU ОТКЛЮЧЕН или ОТКЛЮЧЕНИЕ CPU ПРЕРВАНО.
  • Если функция отключения процессора не применяется, то в протокол заносится только сообщение ВОЗМОЖЕН СБОЙ CPU. Если функция отключения процессора будет включена после занесения в протокол одного или нескольких сообщений ВОЗМОЖЕН СБОЙ CPU, то будет начата процедура отключения; в результате в протокол для каждого неисправного процессора будет занесено сообщение об успешном или прерванном отключении.
полные записи errpt - подробное описание
Ниже приведен пример вывода команды errpt -a:
  • CPU_FAIL_PREDICTED

    Описание ошибки: Возможен сбой процессора

    Данная ошибка означает, что аппаратное обеспечение обнаружило высокую вероятность сбоя процессора в ближайшее время. Это сообщение заносится в протокол всегда, независимо от того, применяется функция отключения процессора или нет.

    ПОДРОБНАЯ ИНФОРМАЦИЯ: Номер и расположение физического процессора

    Пример: запись протокола ошибок - полный формат
    	МЕТКА:CPU_FAIL_PREDICTED
    	ИДЕНТИФИКАТОР:  1655419A
    
    	Дата/Время: Чтв, 30 Сент, 13:42:11
    	Порядковый номер:  53
    	ИД системы:  00002F0E4C00
    	ИД узла:  auntbea
    	Класс:  H
    	Тип:  PEND
    	Имя ресурса:  proc25
    	Класс ресурса:  процессор
    	Тип ресурса:  proc_rspc
    	Расположение:  00-25
    
    	Описание
    	ВОЗМОЖЕН СБОЙ CPU
    
    	Возможные причины
    	СБОЙ CPU
    
    	Причины сбоя
    	СБОЙ CPU
    
    		Рекомендуемые действия
    		ВКЛЮЧИТЕ РЕЖИМ ЗАЩИТЫ CPU
    		ВЫПОЛНИТЕ ПРОЦЕДУРЫ ДИАГНОСТИКИ
    
    	Подробные сведения
    	PROBLEM DATA
    	0144	1000	0000	003A	8E00	9100	1842	1100	1999	0930	4019
    	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000	0000	0000	0000	4942	4D00	5531
    	2E31	2D50	312D	4332	0000
    	0002	0000	0000	0000	0000	0000	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000	0000	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000
    	...	...	...	...	...
    
  • CPU_DEALLOC_SUCCESS

    Описание ошибки: При получении сообщения о прогнозируемом сбое процессор был успешно отключен. Это сообщение заносится в протокол в том случае, если в системе применяется функция отключения CPU, и процессор был успешно отключен.

    ПОДРОБНАЯ ИНФОРМАЦИЯ: Логический номер CPU отключенного процессора.

    Пример: запись протокола ошибок - полный формат:
    	МЕТКА:   CPU_DEALLOC_SUCCESS
    	ИДЕНТИФИКАТОР:  804E987A
    
    	Дата/Время: Чтв, 30 Сент, 13:44:13
    	Порядковый номер:  63
    	ИД системы:  00002F0E4C00
    	ИД узла:  auntbea
    	Класс:  O
    	Тип:             INFO
    	Имя ресурса:  proc24
    
    	Описание
    	CPU ОСВОБОЖДЕН
    
    
    		Рекомендуемые действия
    		ПРОИЗОШЕЛ СБОЙ CPU - ВЫПОЛНИТЕ ОБСЛУЖИВАНИЕ СИСТЕМЫ
    
    	Подробные сведения
    	ЛОГИЧЕСКИЙ НОМЕР ОТКЛЮЧЕННОГО CPU
    
    		0
    В этом примере указано, что процессор proc24 был успешно отключен, и в момент отключения был связан с CPU 0.
  • CPU_DEALLOC_FAIL

    Описание ошибки: Отключение процессора, связанное с сообщением о прогнозируемом сбое, не было выполнено. Это сообщение заносится в протокол в том случае, если в системе применяется функция отключения процессора, и CPU не был отключен.

    ПОДРОБНАЯ ИНФОРМАЦИЯ: Код причины, логический номер CPU, дополнительная информация, зависящая от типа сбоя.

    Код причины представляет собой шестнадцатеричное значение. Возможны следующие значения:
    Флаг Описание
    2 Некоторые процессы или нити связаны с последним CPU. В этом случае в разделе с подробной информацией указываются PID таких процессов.
    3 При получении уведомления зарегистрированный драйвер или расширение ядра отправило сообщение об ошибке. В этом случае в разделе с подробной информацией указывается имя драйвера или расширения ядра (в текстовом формате).
    4 После отключения процессора в системе осталось менее двух доступных CPU. Данная операционная система не отключает более N-2 процессоров в N-процессорных системах; это позволяет обеспечить правильную работу приложений и расширений ядра, которые используют общее число процессоров для определения типа системы, в которой они работают (однопроцессорная или многопроцессорная система SMP).
    200 (0xC8) Процессор запрещено отключать (атрибуту ODM cpuguard присвоено значение disable). Эта ошибка может возникнуть только в том случае, если команда ha_star была запущена вручную.

    Примеры: записи протокола ошибок - полный формат

    Пример 1:
    	МЕТКА: CPU_DEALLOC_ABORTED 
    	ИДЕНТИФИКАТОР:  8470267F
    	Дата/Время: Чтв, 30 Сент, 13:41:10
    	Порядковый номер:  50
    	ИД системы:  00002F0E4C00
    	ИД узла:  auntbea
    	Класс:  S
    	Тип:  TEMP
    	Имя ресурса:  proc26
    
    Описание
    ОТКЛЮЧЕНИЕ CPU ПРЕРВАНО
    
    Возможные причины
    ПРИКЛАДНАЯ ПРОГРАММА
    
    Причины сбоя
    ПРИКЛАДНАЯ ПРОГРАММА
    
    	Рекомендуемые действия
    	ПРОИЗОШЕЛ СБОЙ CPU - ВЫПОЛНИТЕ ОБСЛУЖИВАНИЕ СИСТЕМЫ
    	ОЗНАКОМЬТЕСЬ С ПОЛЬЗОВАТЕЛЬСКОЙ ДОКУМЕНТАЦИЕЙ ПО CPU
    
    Подробные сведения
    ПРИЧИНА ОТМЕНЫ ОТКЛЮЧЕНИЯ
    0000 0003
    ДАННЫЕ О ПРЕРВАННОМ ОТКЛЮЧЕНИИ
    6676 6861 6568 3200
    В этом примере указано, что процессор proc26 не был отключен. Код причины 3 означает, что расширение ядра вернуло сообщение об ошибке процедуре уведомления ядра. В поле ДАННЫЕ О ПРЕРВАННОМ ОТКЛЮЧЕНИИ указано значение fvhaeh2, представляющее собой имя зарегистрированного расширения ядра.
    Пример 2:
    	МЕТКА: CPU_DEALLOC_ABORTED 
    	ИДЕНТИФИКАТОР:  8470267F
    	Дата/Время: Чтв, 30 Сент, 14:00:22
    	Порядковый номер:  71
    	ИД системы:  00002F0E4C00
    	ИД узла:  auntbea
    	Класс:  S
    	Тип:  TEMP
    	Имя ресурса:  proc19
    
    Описание
    ОТКЛЮЧЕНИЕ CPU ПРЕРВАНО
    
    Возможные причины
    ПРИКЛАДНАЯ ПРОГРАММА
    
    Причины сбоя
    ПРИКЛАДНАЯ ПРОГРАММА
    
    	Рекомендуемые действия
    	ПРОИЗОШЕЛ СБОЙ CPU - НЕОБХОДИМО ВЫПОЛНИТЬ ОБСЛУЖИВАНИЕ СИСТЕМЫ
    	ОЗНАКОМЬТЕСЬ С ПОЛЬЗОВАТЕЛЬСКОЙ ДОКУМЕНТАЦИЕЙ ПО CPU
    
    Подробные сведения
    ПРИЧИНА ОТМЕНЫ ОТКЛЮЧЕНИЯ
    0000 0002
    ДАННЫЕ О ПРЕРВАННОМ ОТКЛЮЧЕНИИ
    0000 0000 0000 4F4A
    В этом примере указано, что процессор proc19 не был отключен. Код причины 2 означает, что с последним логическим CPU были связаны нити, которые не были отключены от этого CPU при получении сигнала SIGCPUFAIL. В поле ДАННЫЕ О ПРЕРВАННОМ ОТКЛЮЧЕНИИ указано, что эти нити принадлежат процессу 0x4F4A.

    Опции команды ps (-o THREAD, -o BND) позволяют просмотреть список нитей процесса, связанных с CPU с указанным номером.

    Пример 3:
    	МЕТКА: CPU_DEALLOC_ABORTED 
    	ИДЕНТИФИКАТОР:  8470267F
    
    	Дата/Время: Чтв, 30 Сент, 14:37:34
    	Порядковый номер:  106
    	ИД системы:  00002F0E4C00
    	ИД узла:  auntbea
    	Класс:  S
    	Тип:  TEMP
    	Имя ресурса:  proc2
    
    Описание
    ОТКЛЮЧЕНИЕ CPU ПРЕРВАНО
    
    Возможные причины
    ПРИКЛАДНАЯ ПРОГРАММА
    
    Причины сбоя
    ПРИКЛАДНАЯ ПРОГРАММА
    
    	Рекомендуемые действия
    	ПРОИЗОШЕЛ СБОЙ CPU - ВЫПОЛНИТЕ ОБСЛУЖИВАНИЕ СИСТЕМЫ
    	ОЗНАКОМЬТЕСЬ С ПОЛЬЗОВАТЕЛЬСКОЙ ДОКУМЕНТАЦИЕЙ ПО CPU
    
    Подробные сведения
    ПРИЧИНА ОТМЕНЫ ОТКЛЮЧЕНИЯ
    0000 0004
    ДАННЫЕ О ПРЕРВАННОМ ОТКЛЮЧЕНИИ
    0000 0000 0000 0000
    В этом примере указано, что процессор proc2 не был отключен, поскольку в момент сбоя в системе оставалось менее двух активных процессоров (код причины 4).