Il campo dell'AI sta facendo passi da gigante in termini di progressi tecnologici. Ad esempio, AlphaFold 3 di DeepMind è in grado di prevedere la struttura e l'interazione molecolare con straordinaria precisione, mentre GPT-4o di OpenAI è in grado di ragionare in tempo reale.

Nonostante questi progressi, l'AI non è ancora umana. L'AI non si preoccupa intrinsecamente degli aspetti relativi alla ragione, alla lealtà o alla sicurezza, bensì ha un solo obiettivo: completare il compito per cui è stato programmata.

Pertanto, spetta agli sviluppatori integrare valori e obiettivi umani nell'AI. In caso contrario, si verifica un disallineamento e i sistemi di AI possono produrre output dannosi che portano a pregiudizi, discriminazioni e disinformazione.

Gli attuali sforzi in materia di allineamento puntano a mantenere i sistemi di AI debole in linea con i valori e gli obiettivi umani. Tuttavia, i sistemi AGI e ASI potrebbero essere esponenzialmente più rischiosi, più difficili da comprendere e più difficili da controllare. Le attuali tecniche di allineamento dell'AI, che si basano sull'intelligenza umana, sono probabilmente inadeguate per allineare i sistemi di AI che sono più intelligenti degli umani.

Ad esempio, l'apprendimento per rinforzo con feedback umano (RLHF) è una tecnica di machine learning in cui viene addestrato un "reward model" con feedback umano diretto. OpenAI ha utilizzato l'RLHF come metodo principale per allineare i propri modelli GPT-3 e GPT-4, tutti considerati modelli di AI debole, che sono alla base di ChatGPT. Saranno necessarie tecniche di allineamento molto più avanzate per contribuire a garantire che i sistemi di AI superintelligenti abbiano livelli simili in termini di robustezza, interpretabilità, capacità di essere controllati ed etica.