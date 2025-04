Attraverso l'apprendimento per rinforzo gli sviluppatori possono insegnare ai modelli AI "come comportarsi" con esempi di "buon comportamento".

L'allineamento dell'AI avviene durante la messa a punto del modello e in genere prevede due fasi. Il primo passo potrebbe essere una fase di ottimizzazione delle istruzioni, che migliora le prestazioni del modello in attività specifiche e nel seguire le istruzioni in generale. Nella seconda fase potrebbe essere utilizzato l'apprendimento per rinforzo da feedback umano (RLHF) . L'RLHF è una tecnica di machine learning in cui viene addestrato un "modello di ricompensa" con feedback umano diretto, quindi utilizzato per ottimizzare le prestazioni di un agente di intelligenza artificiale attraverso l'apprendimento per rinforzo. Mira a migliorare l'integrazione in un modello di qualità astratte come la collaborazione e l'onestà.

OpenAI ha utilizzato RLHF come metodo principale per allineare le sue serie di modelli GPT-3 e GPT-4. Tuttavia, l'organizzazione statunitense di ricerca sull'AI non si aspetta che l'RLHF sia un metodo sufficiente per allineare i futuri modelli di intelligenza artificiale generale (AGI) probabilmente a causa delle significative limitazioni della tecnica.9 Ad esempio, la sua dipendenza da annotazioni umane di alta qualità rende difficile applicare e scalare l'RHLF per attività uniche o complesse. È difficile trovare "dimostrazioni di risposta coerenti e preferenze di risposta all'interno della distribuzione".10