Cos'è l'allineamento LLM?

Cos'è l'allineamento LLM

L'allineamento LLM è la disciplina che si occupa di garantire che gli output di un modello linguistico di grandi dimensioni (LLM) siano allineati ai valori umani in modo vantaggioso per utenti, sviluppatori e la società nel suo complesso. Per raggiungere questo obiettivo, si possono utilizzare diverse tecniche di pre-allenamento e messa a punto.

Poiché i “valori umani” sono un concetto astratto e nebuloso, articolare e definire gli obiettivi di allineamento in modo sistematico è uno degli aspetti più complessi del processo di allineamento. In linea generale, la maggior parte degli sforzi persegue una qualche versione dei criteri “HHH” delineati da Anthropic nel 2021: utilità (helpfulness), onestà (honesty) e innocuità (harmlessness).1

Data la centralità degli LLM nell'agentic AI e nell'intelligenza artificiale moderna in generale, allineare correttamente gli LLM è diventato un elemento cruciale per la sicurezza dell'AI. Nel breve termine, l'allineamento LLM aiuta i sistemi di AI basati su LLM a comportarsi in modo prevedibile, affidabile e responsabile. Nel lungo termine, l'allineamento LLM (e l'allineamento dell'AI in generale) è essenziale per evitare o almeno ridurre al minimo i pericoli esistenziali associati all'ipotetico sviluppo dell'intelligenza artificiale generale (AGI) e della superintelligenza artificiale (ASI).

Perché gli LLM necessitano di allineamento?

Gli LLM possono essere molto utili, ma il loro utilizzo comporta rischi etici e sociali. Questi rischi non sono causati da una cattiva progettazione o da errori degli sviluppatori, bensì sono una conseguenza fondamentale sia della natura umana che di come addestriamo gli LLM.

Gli LLM acquisiscono la loro conoscenza di base e le loro abilità linguistiche attraverso un pre-addestramento auto-supervisionato su un'enorme quantità di campioni di testo non etichettati. Dopo avere "appreso" i modelli riscontrati nei miliardi e miliardi di frasi nei suoi dati di addestramento, un LLM può generare testi grammaticalmente coerenti che seguono quegli schemi.

Così facendo però, questi output del modello potrebbero anche riprodurre qualsiasi contenuto dannoso presente in quel set di dati di addestramento. Se i dati di addestramento contengono pregiudizi, inesattezze, contenuti tossici o opinioni discriminatorie, anche il testo generato dagli LLM li conterrà. Se i dati di addestramento raccolti tramite lo scraping indiscriminato su internet contengono informazioni private o sensibili, gli LLM potrebbero far trapelare tali informazioni. In generale, la natura probabilistica di come gli LLM generano i loro output può portare ad allucinazioni dannose dell'AI.

Ulteriori rischi sono posti dal potenziale abuso degli LLM. Se i dati di addestramento includono informazioni sulla produzione di armi o sostanze chimiche pericolose, gli LLM potrebbero aiutare un individuo a danneggiare altri. Senza protezioni, un LLM può essere usato per generare misinformazione pericolosa (ma convincente). Negli scenari ipotetici più estremi, un modello di AI non allineato potrebbe teoricamente provocare una guerra nucleare. 

I problemi di allineamento possono sorgere in modi inaspettati. Un famoso esperimento mentale sull'AI è la teoria delle graffette del filosofo Nick Bostrom. Bostrom ha descritto una superintelligenza artificiale incaricata di produrre graffette, determinando che il modo migliore per raggiungere il suo obiettivo è iniziare a "trasformare prima tutta la terra e poi aumentare porzioni di spazio in strutture di produzione di graffette".2

L'allineamento degli LLM, come disciplina, è nato come tentativo di mitigare questi rischi in modo sufficiente da rendere gli LLM pratici per l'uso nel mondo reale e sufficientemente sicuri per l'avanzamento continuo. Più gli LLM sono integrati nella nostra vita quotidiana, più è essenziale comprendere e tenere conto dei potenziali disallineamenti con gli interessi umani. 

Tipi di allineamento dell'AI

I metodi di allineamento possono essere raggruppati in categorie, differenziate principalmente in base a dove vengono implementati nel processo di addestramento .

  • I metodi di allineamento esterno mirano a mettere a punto un modello che è già stato pre-addestrato (e, in molti casi, ha già subito una certa messa a punto).

  • I metodi di allineamento interno mirano a incorporare i valori umani e altri principi di sicurezza direttamente nel pre-addestramento iniziale del modello.

  • L'interpretabilità meccanicistica è la pratica di ricercare come gli LLM trasformano gli input in output, sia analizzando le operazioni interne della rete neurale di un LLM, sia esaminando gli output dei modelli alla ricerca di pattern che producono risposte disallineate.

Allineamento esterno

La maggior parte dell'allineamento degli LLM si basa attualmente sull'allineamento esterno: tecniche di messa a punto per correggere, scoraggiare o censurare comportamenti disallineati che il modello base ha appreso dai suoi dati di pre-addestramento.  

L'allineamento esterno viene tipicamente eseguito come una delle fasi finali della messa a punto, dopo una regolazione di base supervisionata e la messa a punto delle istruzioni. Questo è necessario per garantire che, nonostante eventuali problemi di allineamento, il modello sia abbastanza performante da giustificare il suo utilizzo, oltre a evitare di annullare i progressi fatti nell'allineamento continuando l'addestramento successivamente.

I prompt di sistema possono guidare un comportamento allineato, ma non sono una parte "permanente" del modello e spesso possono essere aggirati. L'apprendimento supervisionato convenzionale, che addestra il modello a imitare esempi ideali, non è molto esaustivo o flessibile. Molti metodi di allineamento esterno più importanti sono quindi basati sull'apprendimento per rinforzo, che funziona bene per obiettivi aperti e per l'apprendimento tramite tentativi ed errori.

Rispetto ai comportamenti LLM appresi tramite pre-addestramento, i comportamenti appresi esclusivamente tramite allineamento esterno possono risultare superficiali e fragili. L'allineamento esterno è, in definitiva, solo uno strato sottile di censura sopra le tendenze di base del modello. Come descrive un articolo della fine del 2025, "i metodi di allineamento post-hoc non equivalgono a disimparare".3 La ricerca ha dimostrato che l'allineamento esterno può essere superato con una piccola quantità di messa a punto avversaria.4 Anche la messa a punto di un modello precedentemente allineato su set di dati completamente innocui come il Grade School Math 8K (GSM8K) può degradare significativamente l'allineamento LLM.5

Allineamento interno

A differenza dell'allineamento esterno, che mira a correggere un modello di base non allineato, l'allineamento interno si avvicina al pre-addestramento in modo da ottenere un modello di base allineato. Almeno teoricamente, l'allineamento interno è fondamentalmente più robusto dell'allineamento esterno: invece di scoraggiare il modello dai comportamenti disallineati che ha appreso, evita che il modello li apprenda. Sebbene l'allineamento interno non sia necessariamente mutuamente esclusivo con l'allineamento esterno, in apparenza rende meno necessario l'allineamento esterno esaustivo.

In pratica, l'allineamento interno è più difficile. Questo implica ispezionare letteralmente miliardi di singoli campioni di testo, stabilire criteri per definire e identificare i contenuti non allineati e creare schemi per rivederli o eliminarli dal set di dati. Anche ignorando l'onere logistico, la riduzione della quantità di dati di addestramento disponibili per l'apprendimento di un LLM aumenta la sfida di massimizzare le prestazioni. Ciò detto, è Innegabilmente possibile farlo: i modelli IBM Granite, ad esempio, vengono addestrati esclusivamente su dati sicuri per l'azienda.

La ricerca sull'allineamento interno per gli LLM è in fase nascente rispetto a quella sull'allineamento esterno.  Esplorare i compromessi ottimali tra l'allineamento del comportamento degli LLM e il miglioramento delle performance grezze degli LLM è una preoccupazione centrale delle indagini in corso.

Interpretabilità meccanicistica

L'interpretabilità meccanicistica non mira a raggiungere direttamente l'allineamento LLM, quanto piuttosto a identificare le opportunità per migliorare l'allineamento e le vulnerabilità di cui i metodi di allineamento devono tenere conto.

Ad esempio, un articolo del 2024 ha esplorato il funzionamento interno delle reti neurali di un LLM allineato ogni volta che si rifiuta di rispondere a un prompt ritenuto dannoso e pericoloso. In 13 diversi LLM, i ricercatori hanno scoperto che il rifiuto è dovuto a un pattern di attivazione molto specifico, semplice e coerente. Hanno poi dimostrato che era relativamente facile contrastare quel pattern di attivazione e impedire al modello di rifiutare input tossici, rivelando una grave vulnerabilità nei metodi di allineamento esterno.6 Questa tecnica di jailbreaking è ora comunemente chiamata "abliteration".

Alcuni approcci aspirano a integrare l'interpretabilità direttamente nell'architettura di un modello. Ad esempio, un'architettura LLM sperimentale di Guide Labs ha aggiunto un "modulo concettuale" all'architettura del modello. Durante il pre-addestramento, ogni token elaborato dall'LLM veniva obbligatoriamente fatto passare attraverso quel modulo concettuale, addestrato a etichettare gli embedding del token in base a specifici “concetti” appresi dal modello. Questi concetti sono suddivisi in tre categorie: known (idee direttamente presenti nei dati di addestramento), discovered (idee che il modello ha appreso implicitamente da solo) e residual (tutto il resto). Questo consente ai ricercatori non solo di identificare quali concetti (e, di conseguenza, quali dati di addestramento) abbiano influenzato un determinato output, ma anche di guidare gli output del modello, inducendolo a ignorare o a dare priorità a specifici concetti.

L’interpretabilità meccanicistica può anche includere un’analisi sistematica degli output del modello, invece di concentrarsi esclusivamente sulla sua logica matematica interna. Questo è particolarmente rilevante per la nostra comprensione dei modelli di ragionamento, che in teoria producono un “processo di pensiero” verbalizzato prima di generare una risposta finale al prompt iniziale. In uno studio importante, i ricercatori di Anthropic hanno scoperto che i modelli di ragionamento non sono sempre "onesti" quando verbalizzano la loro catena di pensiero, il che può avere implicazioni significative per la valutazione dell'allineamento.

AI Academy

Unire sicurezza e governance per il futuro dell'AI

Incentrando la conversazione sulla tendenza più recente di oggi, l'agentic AI, questo episodio di AI Academy esplora il braccio di ferro dei leader del rischio e dell'assurance tra governance e sicurezza. È critico stabilire un equilibrio e dare priorità a un rapporto di collaborazione tra entrambi per ottenere dati e AI migliori e più affidabili che la tua organizzazione sia in grado di scalare.

Tecniche di allineamento esterno

L'allineamento esterno si concentra principalmente (ma non esclusivamente) sulla messa a punto di LLM addestrati per un migliore allineamento.

Prompt di sistema

I prompt di sistema sono un elemento comune dei sistemi AI basati su LLM. Un prompt di sistema contiene istruzioni che vengono essenzialmente aggiunte come ulteriore contesto a ogni prompt che il modello riceve. Includere istruzioni basate sull'allineamento in un prompt di sistema può quindi guidare il comportamento degli LLM su base prompt-by-prompt. Nel 2025, circolarono voci secondo cui il prompt di sistema per l'AI Claude di Anthropic era lungo oltre 16.000 parole.7

I prompt di sistema sono un modo leggero e diretto per migliorare l'allineamento, ma presentano limitazioni significative rispetto agli approcci di messa a punto.

  • Il prompt di sistema di qualsiasi modello open-source (o modello closed-source gestito tramite un'API invece che in un servizio chatbot ) può essere configurato manualmente dall'utente come ritiene opportuno. È banale scrivere semplicemente un prompt di sistema senza benefici di allineamento.

  • Non c'è alcuna garanzia che un modello segua sempre (o perfettamente) le istruzioni fornite nel prompt di sistema, anche se il modello ha subito una vasta messa a punto delle istruzioni. Più aumenta la lunghezza del contesto di uno scambio, maggiore è il rischio che un prompt di sistema abbia un'influenza sempre minore sui risultati del modello.

Messa a punto supervisionata (SFT)

La messa a punto supervisionata (SFT) mette a punto un LLM utilizzando un set di dati costituito da coppie di dati(input, output) etichettate, in cui ogniinput è un prompt di esempio e il corrispondenteoutput dimostra una risposta correttamente allineata e di alta qualità. Ottimizzando i parametri del modello per minimizzare una funzione di perdita che misura come gli output del modello si discostano dagli esemplari del set di dati, il modello diventa più propenso a generare output ben allineati. La procedura SFT può anche comportare l'utilizzo della distillazione della conoscenza per trasferire i comportamenti di un modello "insegnante" allineato a quello di un modello "studente" da allineare.

L'allineamento convenzionale basato su SFT è molto fragile. La gamma di possibilità per un prompt che potrebbe generare una risposta non allineata supera di gran lunga l'insieme di scenari che possono essere coperti praticamente in un set di dati assemblato manualmente, anche con l'aiuto di dati sintetici. Ciò rende l'allineamento standard basato su SFT particolarmente suscettibile al jailbreak o addirittura all'elusione accidentale.

Apprendimento per rinforzo

Molti metodi di allineamento esterno si basano sull'apprendimento per rinforzo (RL) e, più specificamente, sull'apprendimento per rinforzo dal feedback umano (RLHF) o algoritmi correlati che lo approssimano utilizzando invece gli LLM per il feedback.

Apprendimento per rinforzo da feedback umano (RLHF)

L'apprendimento per rinforzo convenzionale si basa su regole esplicite che determinano quando l'output di un modello sarà premiato (o penalizzato) o su una funzione di ricompensa che definisce matematicamente tali regole. Tuttavia, data la natura soggettiva e astratta dei valori umani, né le regole né i meccanismi di ricompensa possono definire in modo esaustivo cosa significhi essere "allineati".

L'apprendimento per rinforzo dal feedback umano (RLHF) è un metodo di allineamento originariamente sviluppato da OpenAI, considerato una delle principali scoperte che hanno portato al modello GPT-3.5 utilizzato per lanciare ChatGPT. In questo approccio, valutatori umani assegnano punteggi alle risposte del modello, dopodiché viene addestrato un modello di ricompensa su queste valutazioni, al fine di prevedere come un essere umano valuterebbe una determinata risposta. Il modello di ricompensa viene poi utilizzato per valutare gli output del modello linguistico da allineare e i parametri del modello vengono aggiornati di conseguenza utilizzando l'ottimizzazione prossimale delle politiche (PPO).

Sebbene sia stato uno dei primi metodi di allineamento LLM di successo, RLHF presenta diversi svantaggi. I dati sulle preferenze umane sono costosi e le preferenze umane possono essere soggettive e volubili. Può anche portare ad accondiscendenza e alla tendenza generale di ottimizzare, più per rafforzare le credenze degli utenti che per fornire risposte oggettivamente veritiere. Inoltre, sia l'addestramento del modello di ricompensa che l'algoritmo PPO utilizzato per aggiornare il modello linguistico sono complessi e costosi dal punto di vista computazionale.

Apprendimento per rinforzo dal feedback dell'AI

L'apprendimento per rinforzo dal feedback AI (RLAIF) si basa in gran parte sugli stessi principi dell'RLHF. L'approccio RLAIF più semplice consiste nel creare prima un modello allineato tramite RLHF, quindi utilizzare quel modello allineato per fornire il segnale di ricompensa utilizzato per mettere a punto il modello da allineare. Sebbene ciò non mitighi necessariamente i problemi concettuali dell'RLHF, riduce significativamente il tempo e i costi dell'addestramento all'allineamento.

Un approccio più sofisticato, introdotto da Anthropic, è l'AI costituzionale. Richiede agli sviluppatori del modello di redigere un documento di testo (una "Costituzione") che rappresenti tutti i principi generali che il modello linguistico dovrà seguire. Il modello non allineato genera una risposta a un prompt e viene quindi spinto a criticare e rivedere il proprio output in termini di quanto bene segue i principi delineati in tale Costituzione. Il modello linguistico LLM viene quindi invitato a scegliere quale risposta (originale o revisionata) segue meglio quella Costituzione. I dati di preferenza vengono quindi utilizzati per mettere a punto il modello tramite ottimizzazione RL o ottimizzazione diretta delle preferenze (DPO).

Ottimizzazione diretta delle preferenze (DPO)

L'ottimizzazione diretta delle preferenze (DPO) è un metodo di fine-tuning che approssima l'obiettivo base dell'RLHF (o RLAIF), ma senza la necessità di addestrare un modello di ricompensa separato, né di utilizzare l'apprendimento per rinforzo. Raggiunge risultati competitivi con quelli di RLHF e PPO, pur essendo significativamente più semplice ed economico da implementare.8

Per creare un set di dati per la messa a punto degli LLM tramite DPO, agli annotatori umani (o a un LLM) vengono mostrati un prompt di input e due risposte differenti per quel prompt. Successivamente, viene chiesto di indicare quale dei due output preferiscono. Questa classificazione produce un set di dati di triplette etichettate, in cui ogni tripletta contiene (input prompt, preferred output, rejected output) . In un contesto convenzionale, il modello da allineare viene utilizzato per generare i due output da classificare, ma è possibile (seppur meno ottimale) usare semplicemente un set di dati preesistente di dati di preferenza.

Durante l'addestramento, al modello viene fornito ogni input prompt e genera un output. La funzione di perdita DPO confronta quindi questo output sia con il preferred output che con il rejected output per quel prompt. L'aggiornamento dei parametri del modello per minimizzare la perdita DPO ottiene tre risultati:

  • Aumentare la probabilità che il modello linguistico LLM generi output simili a quelli del preferred output .

  • Riduce la probabilità che il modello linguistico generi output simili al rejected output .

  • Applica un aggiornamento più grande quando l'output stesso dell'LLM è più vicino al rejected output che al preferred output ; in altre parole, cerca di non intervenire troppo sul modello in situazioni in cui già offre buone prestazioni.

Tecniche di allineamento interno

Le tecniche di allineamento interno si concentrano sull'allineamento del pre-addestramento iniziale di un LLM, rendendo più allineato il suo massiccio corpus di dati di pre-addestramento.

Un documento del 2025, “Safety Pretraining: Toward the Next Generation of Safe AI”, perseguiva un approccio esaustivo all'allineamento interno. Hanno osservato come ogni tattica contribuisse alla sicurezza complessiva del modello, misurata dall'impatto sul tasso di successo degli attacchi (ASR) dei tentativi di jailbreak, dopo che il modello è stato successivamente messo a punto sul set di dati GSM8K. Come discusso in precedenza, la messa a punto post-allineamento (anche su un set di dati "benigno" come GSM8K) è nota per degradare significativamente l'allineamento.5

Filtraggio dei dati di addestramento

Il metodo di allineamento interno più intuitivo consiste nel filtrare i dati di pre-addestramento per rimuovere qualsiasi contenuto tossico, dannoso o inaccurato. I ricercatori hanno annotato manualmente un sottoinsieme di un grande set di dati open source, etichettando ogni campione con un punteggio di sicurezza da 0 (nessun rischio) a 5 (rischio massimo) e una breve giustificazione per quel punteggio. Hanno poi addestrato un classificatore su quel set di dati annotato, che hanno usato per automatizzare il filtraggio dei loro dati grezzi di pre-addestramento. 

Sorprendentemente, hanno scoperto che questo filtraggio in realtà danneggia le prestazioni di sicurezza. Quando addestrato esclusivamente su esempi di addestramento con punteggio di 0, l'ASR è passato dal 38,8% (per dati non elaborati) al 43,8%. Non avendo mai visto schemi di testo pericolosi, il modello non ha mai imparato a rispondervi correttamente.

Modifica dei dati di addestramento

Come hanno osservato i ricercatori, "rimuovere completamente i contenuti non sicuri rischia di ignorare informazioni preziose". Per evitare ciò, hanno utilizzato una strategia di ricontestualizzazione sintetica: invece di rimuovere i dati non sicuri, hanno chiesto a un LLM separato di riformulare e ristrutturare quei dati, aggiungendo contesto etico e storico.

Hanno testato questo approccio pre-addestrando il modello su campioni di dati con punteggi di sicurezza da 0 a 3, in cui i campioni con punteggi da 1 a 3 sono stati riformulati. Questo ha portato a un calo dell'ASR, da 38,8% (per i dati non elaborati) al 33,6%. Far sì che il modello affrontasse responsabilmente argomenti sensibili era più efficace che semplicemente evitarli del tutto.

Dati di rifiuto

Per alcuni input intrinsecamente tossici o dannosi (come quelli che riguardano hacking, danno, disinformazione, violazioni della privacy o contenuti sessuali inappropriati), l'unica risposta costruttiva è rifiutarsi di interagire con l'argomento. I ricercatori hanno quindi curato un set di dati di rifiuti costruttivi a richieste dannose, per replicare il modo in cui insegniamo ai bambini a riconoscere, disinnescare e allontanarsi da situazioni potenzialmente ostili.

Aggiungendo i dati di rifiuto relativi ai dati non elaborati con punteggi di sicurezza di 4–5 ai dati riformulati con punteggi di sicurezza da 1 a 3 e ai dati non elaborati con punteggi di sicurezza pari a 0, l'ASR è sceso dal 33,6% al 25,1% (un miglioramento di 8,5 punti).

Dati sull'addestramento morale

Insegnare semplicemente al modello quando disconnettersi non significa insegnargli perché disconnettersi. Per insegnare al modello a ragionare sul rifiuto invece di limitarsi a seguire le regole, i ricercatori hanno creato un set di dati sintetico di esempi di "educazione morale", che comprende dialoghi educativi sui rischi e sull'etica degli argomenti dannosi identificati nei dati non elaborati.

L'aggiunta di quei dati sull'addestramento del modello al pre-addestramento del modello ha fatto scendere ulteriormente l'ASR, dal 25,1% al 20,0%.

Tecniche del tempo di inferenza

I ricercatori hanno anche addestrato il modello a etichettare input potenzialmente dannosi, preparandolo ad affrontare tali scambi con cautela. Ciò ha poi consentito al modello di utilizzare tecniche speciali durante l'inferenza.

Hanno iniettato un token speciale, <potentially unsafe content> , in posizioni casuali all'interno di esempi disallineati nel set di dati di addestramento. Questo insegna al modello a riconoscere gli input che possono portare a output disallineati. Incontrare un tale input fa sì che il modello impieghi un algoritmo di ricerca a fascio quando genera il suo output: il modello genera l'inizio di più output, quindi seleziona l'output che ritiene meno probabile che porti infine a un <potentially unsafe content> tag.

Combinando questo algoritmo di inferenza-tempo con altri metodi di allineamento interno, l'ASR è sceso dal 20,0% al 8,3%. Hanno anche studiato l'effetto dell'uso esclusivo del loro algoritmo Safe Beam Search (escludendo le altre tecniche di pre-addestramento della sicurezza) e hanno scoperto che, sebbene il tasso di rifiuto rimanesse stabile, l'utilità delle risposte del modello diminuiva significativamente.

Effetto sulle prestazioni del modello

In definitiva, questi guadagni nell'allineamento sono utili solo se il modello rimane efficace nei suoi compiti ordinari. I ricercatori hanno valutato ogni versione del modello su una serie di benchmark standard e non hanno riscontrato differenze significative nelle prestazioni rispetto al modello addestrato normalmente su dati non elaborati.

Domande frequenti sull'allineamento LLM

Come si misura l'allineamento degli LLM?

Data la natura astratta e soggettiva dei valori umani, nessun singolo benchmark può misurare perfettamente o universalmente l'allineamento LLM, ma diversi benchmark mirano a misurare aspetti specifici dell'allineamento. Ad esempio, TruthfulQA misura l'onestà e la resistenza alle allucinazioni, HarmBench misura la robustezza agli attacchi avversari, mentre ChatbotArena riflette le preferenze umane soggettive.

Cos'è la "tassa di allineamento"?

Il termine "tassa di allineamento" (alignment tax) viene utilizzato per riferirsi ai compromessi pratici del processo di allineamento. A volte capita che migliorare l'allineamento di un modello possa diminuire le sue prestazioni in compiti di ragionamento importanti, oppure che la tendenza a rifiutare certi argomenti comprometta la sua capacità di affrontare domande complesse e sfumate.

Un modello allineato può essere ingannato?

Sì: è possibile utilizzare una varietà di tecniche, da attacchi altamente tecnici basati su stringhe a sofisticati stratagemmi retorici, per "sbloccare" un modello allineato. Tuttavia, una parte importante dell'allineamento LLM è anticipare questi attacchi. Il red teaming (assumere hacker per tentare deliberatamente di fare jailbreak a un LLM) è essenziale per affrontare vulnerabilità impreviste.

L'allineamento può fermare un'apocalisse dell'AI

Nessuno può saperlo con certezza, dal momento che dobbiamo ancora sviluppare un'intelligenza generale artificiale (AGI) o una superintelligenza artificiale (ASI). Tuttavia, prepararsi all'arrivo dell'AI superintelligente è uno degli obiettivi chiave della ricerca sull'allineamento.

Esistono LLM non allineati?

Di norma, i modelli base, a differenza delle versioni "Instruct" o "Chat", non sono stati sottoposti ad alcun allineamento esterno post-addestramento (sebbene possa esserci un allineamento interno incorporato nel loro pre-addestramento). Ma in generale, qualsiasi LLM destinato ad uso commerciale sarà sottoposto ad allineamento.

Autore

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Soluzioni correlate
IBM® watsonx.governance

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione sul cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni di governance dell'AI

Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.

Scopri le soluzioni di governance dell'AI
Servizi di consulenza sulla governance dell'AI

Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.

Scopri i servizi di governance dell'AI
Fasi successive

Dirigi, gestisci e monitora la tua AI attraverso un portfolio unificato, accelerando risultati responsabili, trasparenti e spiegabili.

  1. Esplora watsonx.governance
  2. Prenota una demo live
Note a piè di pagina

1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9 dicembre 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15 settembre 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, luglio 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), accessed via arXiv, 10 giugno 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27 aprile 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15 luglio 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10 ottobre 2024