Deallocazione voci di log degli errori

Tre diversi messaggi di log degli errori sono associati alla deallocazione della CPU.

Di seguito sono riportati esempi.

formato breve errpt - riepilogo
Di seguito viene riportato un esempio di voci visualizzate dal comando errpt (senza opzioni):
# errpt
IDENTIFIER      TIMESTAMP       T    C    RESOURCE_NAME    DESCRIPTION
804E987A        1008161399      I    O    proc4            CPU DEALLOCATED
8470267F        1008161299      T    S    proc4            CPU DEALLOCATION ABORTED
1B963892        1008160299      P    H    proc4            CPU FAILURE PREDICTED
#
  • Se è abilitata la deallocazione del processore, un messaggio CPU FAILURE PREDICTED è sempre seguito da un messaggio CPU DEALLOCATED o CPU DEALLOCATION ABORTED .
  • Se la deallocazione del processore non è abilitata, viene registrato solo il messaggio CPU FAILURE PREDICTED . L'abilitazione dell'annullamento dell'allocazione del processore in qualsiasi momento dopo che uno o più messaggi CPU FAILURE PREDICTED sono stati registrati avvia il processo di annullamento dell'assegnazione e risulta in una voce del log degli errori di esito positivo o negativo, come descritto in precedenza, per ciascun processore che ha riportato un errore.
formato long errpt - descrizione dettagliata
Il seguente è il formato di output ottenuto con errpt -a:
  • CPU_FAIL_PREDICTED

    Descrizione errore: Fallimento del processore predittivo

    Questo errore indica che l'hardware ha rilevato che un processore ha un'elevata probabilità di fallire in un prossimo futuro. Viene sempre registrato se la deallocazione del processore è abilitata o meno.

    DETAIL DATA: Numero di processore fisico, ubicazione

    Esempio entry log entry - long form
    	LABEL:			CPU_FAIL_PREDICTED
    	IDENTIFIER:		1655419A
    
    	Date/Time:		Thu Sep 30 13:42:11
    	Sequence Number:	53
    	Machine Id:		00002F0E4C00
    	Node Id:		auntbea
    	Class:			H
    	Type:			PEND
    	Resource Name:		proc25
    	Resource Class:		processor
    	Resource Type:		proc_rspc
    	Location:		00-25
    
    	Description
    	CPU FAILURE PREDICTED
    
    	Probable Causes
    	CPU FAILURE
    
    	Failure Causes
    	CPU FAILURE
    
    		Recommended Actions
    		ENSURE CPU GARD MODE IS ENABLED
    		RUN SYSTEM DIAGNOSTICS.
    
    	Detail Data
    	PROBLEM DATA
    	0144	1000	0000	003A	8E00	9100	1842	1100	1999	0930	4019
    	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000	0000	0000	0000	4942	4D00	5531
    	2E31	2D50	312D	4332	0000
    	0002	0000	0000	0000	0000	0000	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000	0000	0000	0000	0000	0000	0000
    	0000	0000	0000	0000	0000
    	...	...	...	...	...
    
  • CPU_DEALLOC_SUCCESS

    Descrizione errore: Un processore è stato disallocato correttamente dopo il rilevamento di un guasto del processore predittivo. Questo messaggio viene registrato quando la deallocazione del processore è abilitata e quando la CPU è stata deallocata correttamente.

    DETAIL DATA: Numero CPU logica del processore deallocato.

    Esempio: registrazione errore entry - long form:
    	LABEL:			CPU_DEALLOC_SUCCESS
    	IDENTIFIER:		804E987A
    
    	Date/Time:		Thu Sep 30 13:44:13
    	Sequence Number:	63
    	Machine Id:		00002F0E4C00
    	Node Id:		auntbea
    	Class:			O
    	Type:			INFO
    	Resource Name:		proc24
    
    	Description
    	CPU DEALLOCATED
    
    
    		Recommended Actions
    		MAINTENANCE IS REQUIRED BECAUSE OF CPU FAILURE
    
    	Detail Data
    	LOGICAL DEALLOCATED CPU NUMBER
    
    		0
    In questo esempio, proc24 è stato correttamente deallocato ed era CPU logica 0 quando si è verificato il guasto.
  • CPU_DEALLOC_FAIL

    Descrizione errore: Una deallocazione del processore, a causa di un errore del processore predittivo, non ha avuto successo. Questo messaggio viene registrato quando la deallocazione della CPU è abilitata e quando la CPU non è stata deallocata correttamente.

    DETAIL DATA: Codice di errore, numero CPU logico, ulteriori informazioni in base al tipo di malfunzionamento

    Il codice della ragione è un valore esadecimale numerico. I codici causa possibili sono:
    Elemento Descrizione
    2 Uno o più processi / thread rimangono legati all'ultima CPU logica. In questo caso, i dati dettagliati conferiscono ai PID dei processi di offendere.
    3 Un driver registrato o un'estensione del kernel hanno restituito un errore quando notificato. In questo caso, il campo dati dettagliato contiene il nome del driver offendente o dell'estensione del kernel (codificato ASCII).
    4 La deallocazione di un processore fa sì che la macchina abbia meno di due CPU disponibili. Questo sistema operativo non annulla l'assegnazione di più di N-2 processori su una macchina N-way per evitare di confondere le applicazioni o le estensioni kernel utilizzando il numero totale di processori disponibili per determinare se sono in esecuzione su un sistema UP (Uni Processor) in cui è sicuro ignorare l'utilizzo di blocchi multiprocessore o SMP (Symmetric Multi Processor).
    200 (0xC8) La deassegnazione del processore è disabilitata (l'attributo ODM cpuguard ha il valore disable). Di solito, questo errore non viene visualizzato se non si avvia ha_star manualmente.

    Esempi: voci di log degli errori - formato lungo

    Esempio 1:
    	LABEL:			CPU_DEALLOC_ABORTED
    	IDENTIFIER:		8470267F
    	Date/Time:		Thu Sep 30 13:41:10
    	Sequence Number:	50
    	Machine Id:		00002F0E4C00
    	Node Id:		auntbea
    	Class:			S
    	Type:			TEMP
    	Resource Name:		proc26
    
    Description
    CPU DEALLOCATION ABORTED
    
    Probable Causes
    SOFTWARE PROGRAM
    
    Failure Causes
    SOFTWARE PROGRAM
    
    	Recommended Actions
    	MAINTENANCE IS REQUIRED BECAUSE OF CPU FAILURE
    	SEE USER DOCUMENTATION FOR CPU GARD
    
    Detail Data
    DEALLOCATION ABORTED CAUSE
    0000 0003
    DEALLOCATION ABORTED DATA
    6676 6861 6568 3200
    In questo esempio, la deallocazione per proc26 non è riuscita. Il codice di errore 3 indica che un'estensione del kernel ha restituito un errore alla routine di notifica del kernel. Le DEALLOCATION ABORTED DATA precedenti fvhaeh2, che è il nome dell'estensione utilizzata durante la registrazione con il Kernel.
    Esempio 2:
    	LABEL:			CPU_DEALLOC_ABORTED
    	IDENTIFIER:		8470267F
    	Date/Time:		Thu Sep 30 14:00:22
    	Sequence Number:	71
    	Machine Id:		00002F0E4C00
    	Node Id:		auntbea
    	Class:			S
    	Type:			TEMP
    	Resource Name:		proc19
    
    Description
    CPU DEALLOCATION ABORTED
    
    Probable Causes
    SOFTWARE PROGRAM
    
    Failure Causes
    SOFTWARE PROGRAM
    
    	Recommended Actions
    	MAINTENANCE IS REQUIRED BECAUSE OF CPU FAILURE;
    	SEE USER DOCUMENTATION FOR CPU GARD
    
    Detail Data
    DEALLOCATION ABORTED CAUSE
    0000 0002
    DEALLOCATION ABORTED DATA
    0000 0000 0000 4F4A
    In questo esempio, la deallocazione per proc19 non è riuscita. Il codice motivo 2 indica che i thread sono stati collegati all'ultimo processore logico e non è stato annullato il bind dopo la ricezione delSIGCPUFAILsegnale. DEALLOCATION ABORTED DATA mostra che questi thread appartenevano al processo 0x4F4A.

    Le opzioni del comando ps (-o THREAD, -o BND) consentono di elencare tutti i thread o processi insieme al numero di CPU a cui sono collegati, quando applicabile.

    Esempio 3:
    	LABEL:			CPU_DEALLOC_ABORTED
    	IDENTIFIER:		8470267F
    
    	Date/Time:		Thu Sep 30 14:37:34
    	Sequence Number:	106
    	Machine Id:		00002F0E4C00
    	Node Id:		auntbea
    	Class:			S
    	Type:			TEMP
    	Resource Name:		proc2
    
    Description
    CPU DEALLOCATION ABORTED
    
    Probable Causes
    SOFTWARE PROGRAM
    
    Failure Causes
    SOFTWARE PROGRAM
    
    	Recommended Actions
    	MAINTENANCE IS REQUIRED BECAUSE OF CPU FAILURE
    	SEE USER DOCUMENTATION FOR CPU GARD
    
    Detail Data
    DEALLOCATION ABORTED CAUSE
    0000 0004
    DEALLOCATION ABORTED DATA
    0000 0000 0000 0000
    In questo esempio, la deallocazione di proc2 ha avuto esito negativo perché al momento dell'errore erano presenti due o meno processori attivi (codice di errore 4).