Che cos'è l'apprendimento contestuale?

Autore

Jobit Varughese

Technical Content Writer

IBM

Cos'è l'apprendimento contestuale?

L'implementazione di modelli di intelligenza artificiale (AI) per attività complesse come riepilogare report, rispondere a query o tradurre documenti spesso comporta sfide significative. Questi modelli richiedono in genere una riqualificazione approfondita con set di dati di grandi dimensioni annotati e costosi processi di messa a punto. Ogni nuova attività aggiunge complessità, rallenta l'innovazione, aumenta le spese e limita la scalabilità dell'AI in diversi casi d'uso.

Ora, immagina un approccio diverso. Cosa succederebbe se un modello AI potesse adattarsi istantaneamente a nuove attività, senza bisogno di riqualificazione o dati aggiuntivi? Questa è la promessa dell'apprendimento contestuale (ICL), che consente ai modelli AI di imparare le attività in modo dinamico semplicemente fornendo esempi in un prompt. Elimina i colli di bottiglia dell'apprendimento automatico (ML) tradizionale e offre soluzioni più veloci, adattabili ed economiche.

Il meccanismo dell'apprendimento contestuale

Diagramma dell'architettura di addestramento LLM tradizionale, con unità di input ed elaborazione dei dati.
Un diagramma di flusso che illustra l'architettura dell'apprendimento contestuale.

L'apprendimento contestuale (ICL) è una funzionalità di AI avanzata introdotta nel fondamentale documento di ricerca "Language Models are Few-Shot Learners", che ha presentato GPT-3.1 A differenza dell'apprendimento supervisionato, in cui un modello viene sottoposto a una fase di addestramento con retropropagazione per alterarne i parametri, l'ICL si basa interamente su modelli linguistici preaddestrati e ne mantiene invariati i parametri.

Il modello di AI utilizza il prompt come guida temporanea per dedurre l'attività e generare l'output previsto. L'ICL funziona riconoscendo le relazioni tra gli esempi nel prompt, note anche come coppie input/output, e applicando la stessa mappatura ai nuovi input. Questo processo imita il ragionamento umano, in cui i nuovi problemi vengono risolti sulla base di analogie tratte da esperienze precedenti. Utilizza i modelli e le conoscenze apprese durante il preaddestramento e si adatta dinamicamente a nuove attività, il che lo rende altamente flessibile ed efficiente.

Fondamentalmente, l'apprendimento contestuale funziona condizionando un modello linguistico di grandi dimensioni (LLM) su un prompt che include una serie di esempi (coppie input/output o esempi contestuali) tipicamente scritti in linguaggio naturale come parte della sequenza di input. Questi esempi, spesso tratti da un set di dati, non vengono utilizzati per riqualificare il modello, bensì vengono inseriti direttamente nella finestra contestuale. Questa finestra mostra la quantità di testo che un LLM può elaborare contemporaneamente, fungendo da memoria temporanea per generare risposte coerenti, ed è la parte del modello che elabora l'input sequenziale.

Formalmente, il prompt è composto da k esempi sotto forma di coppie input/output:

C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}

Dato un nuovo input x e uno spazio di output candidato Y={y1,...,ym}, il modello calcola la probabilità di ogni possibile output condizionato dal prompt:

P(yj ∣ x,C)

La previsione è determinata scegliendo l'opzione con la probabilità più alta:

 y^=argmaxyjYP(yjx,C)

Il modello non aggiorna i suoi pesi durante questo processo. Invece, sfruttando la sua architettura trasformativa di deep learning, apprende il pattern in modo dinamico utilizzando solo gli esempi nel prompt.

Per vedere questo metodo nella pratica, consideriamo un'attività di classificazione del sentiment. Il prompt potrebbe apparire così:

Recensione: Il film è stato fantastico → Sentiment: Positivo

Recensione: Odiavo la trama → Sentiment: negativo

Recensione: La musica era piacevole → Sentiment:

Il modello completa l'ultima riga prevedendo "Positivo", proseguendo con la struttura osservata nelle precedenti mappature delle etichette di input. Questo esempio mostra l'apprendimento few-shot, in cui il modello deduce l'attività e genera risposte appropriate sulla base di alcuni esempi.

Il ruolo del prompt engineering nell'apprendimento contestuale

Poiché il successo del modello AI dipende da ciò che viene mostrato nel prompt, il prompt engineering svolge un ruolo fondamentale nell'ICL. Con prompt engineering si fa riferimento alla creazione di prompt di alta qualità, informativi e ben strutturati, che guidano il modello in modo efficace. I prompt utilizzano spesso modelli in linguaggio naturale, scelti con cura per corrispondere a ciò che il modello ha visto durante l'esposizione dei dati di preaddestramento. Variazioni nella formulazione verbale, nel formato delle etichette, nell'ordine degli esempi e persino nella punteggiatura possono influire sulle prestazioni del modello, specialmente nei modelli più piccoli o nei casi limite.

È importante sottolineare che la prompt engineering non è un meccanismo separato, bensì un insieme di tecniche che operano nell'ambito del concetto più ampio di apprendimento contestuale. Ad esempio:

  • Prompt chain-of-thought: ogni esempio include passaggi di ragionamento intermedi per guidare la logica del modello

Queste strategie di prompting sono spesso combinate con progetti in pochi passaggi e vengono valutate su benchmark che testano la generalizzazione. Anche le coppie di input/output con etichette casuali possono migliorare le prestazioni, evidenziando che il formato e la distribuzione del prompt sono importanti quanto le etichette stesse.

Via via che passiamo dai prompt ICL controllati a sistemi complessi e reali, la sfida si sposta dalla creazione di input statici alla pratica dell'ingegneria contestuale. È una nuova disciplina emergente basata sulla progettazione sistematica di tutti gli input di cui un LLM necessita per funzionare in modo affidabile negli scenari del mondo reale.  

Il context engineering è la pratica di progettare sistemi dinamici che assemblano e forniscono le informazioni, gli strumenti e le istruzioni giuste a un LLM nel formato corretto per consentirgli di portare a termine un'attività in modo affidabile. A differenza del prompt engineering, il context engineering si concentra sulla costruzione di input completi e pertinenti alle attività da più fonti, come input dell'utente, interazioni precedenti, output e dati esterni in fase di esecuzione. Garantisce che gli LLM non solo ricevano i dati necessari, ma anche in una struttura che possano interpretare efficacemente. Questo approccio è fondamentale nei sistemi complessi e basati su agenti, in cui i guasti spesso derivano da contesto mancante o mal formattato piuttosto che da limitazioni del modello. Integrando strumenti, meccanismi di recupero e memoria nel processo di costruzione del prompt, il context engineering colma il divario tra il potenziale di un modello e le sue prestazioni nel mondo reale.

Comprendere l'apprendimento contestuale attraverso l'inferenza e l'ottimizzazione

Mentre le prime spiegazioni vedevano l'ICL come una ripetizione di pattern a livello superficiale o una previsione del token successivo, alcune ricerche più recenti suggeriscono processi più profondi. Una spiegazione convincente inquadra l'ICL come una forma di inferenza bayesiana, un metodo per stimare le probabilità aggiornando le teorie con le prove.2 In questa prospettiva, il modello esamina esempi one-shot o few-shot e deduce un concetto latente (un compito o una struttura non visibili, come "questa è una classificazione del sentiment") dal prompt. Man mano che vengono aggiunti altri esempi contestuali, il modello diventa più sicuro dell'attività che sta svolgendo, migliorando le sue previsioni senza modificare i parametri.

Un'altra spiegazione collega l'ICL alla discesa del gradiente, il metodo di ottimizzazione principale alla base della maggior parte dei sistemi di machine learning per ridurre al minimo gli errori. Studi recenti hanno dimostrato che i modelli di trasformatori possono simulare internamente il processo di apprendimento, in particolare per attività semplici come la regressione lineare. Anche se non si verificano aggiornamenti effettivi dei parametri, il modello si comporta come se si stesse adattando al prompt utilizzando un ciclo di ragionamento interno. Questo processo avviene interamente all'interno della finestra di contesto del modello.

Questi risultati suggeriscono che l'ICL prevede un comportamento interno simile all'apprendimento durante l'inferenza, anche in configurazioni zero-shot o few-shot. Invece di essere predittori statici, gli LLM si adattano alla struttura delle attività in tempo reale, utilizzando prompt in linguaggio naturale. Questo mix di inferenza e apprendimento implicito rende l'ICL un modo efficace per affrontare nuove attività senza ulteriore addestramento.

Sfide, limiti e potenzialità dell'apprendimento contestuale

Sfide e limiti dell'apprendimento contestuale

1. Portata del modello e sensibilità dei parametri 
L'efficacia dell'ICL è fortemente influenzata dalla portata e dal design degli LLM. I modelli più grandi dimostrano capacità emergenti più forti nell'apprendimento contestuale. Invece, i modelli più piccoli spesso faticano a eguagliare le funzionalità dell'apprendimento contestuale, in quanto non dispongono della capacità dei parametri per modellare in modo efficace attività complesse.

2. Qualità e distorsione dei dati di preaddestramento 
L'efficacia dell'apprendimento contestuale dipende dalla varietà e dalla qualità dei dati di pre-addestramento. I modelli addestrati su set di dati ristretti o distorti possono replicare tali limitazioni durante l'inferenza, portando a problemi di generalizzazione e a una scarsa equità. 

3. Trasferimento e generalizzazione del dominio 
Sebbene gli LLM mostrino una notevole adattabilità, le loro prestazioni possono degradare nelle attività altamente specifiche del dominio. Per settori specializzati come la legge o la medicina, potrebbero essere ancora necessarie dimostrazioni specifiche o anche una messa a punto tradizionale.

4. Etica e correttezza 
L'ICL può involontariamente trasferire e rafforzare i bias sociali presenti nei dati di addestramento. Poiché i prompt possono influenzare il comportamento del modello, garantire output etici ed equi in interazioni dinamiche e in tempo reale rimane una sfida importante.

5. Problemi di privacy e sicurezza 
I sistemi basati su ICL che operano in applicazioni del mondo reale possono inavvertitamente memorizzare o riprodurre informazioni sensibili se tali dati erano presenti nel corpus di pre-addestramento. Questa possibilità solleva problemi critici di privacy, soprattutto in ambito sanitario, legale e degli assistenti personalizzati.

6. Sensibilità e stabilità dei prompt 
ICL è sensibile alla progettazione dei prompt. Piccole modifiche nel numero, nell'ordine o nella formattazione degli esempi contestuali possono portare a grandi variazioni nell'output, rendendo difficile garantire prestazioni costanti. 

Direzioni della ricerca e strategie di ottimizzazione

1. Modelli di addestramento

Per rendere gli LLM intrinsecamente migliori nell'apprendimento contestuale, i ricercatori stanno esplorando possibili miglioramenti durante o subito dopo l'addestramento.3 Una delle principali direzioni è il pre-addestramento con dati strutturati, in cui le coppie di input/output o i cluster di attività sono organizzati in modo esplicito. Questo approccio aiuta i modelli a diventare più sensibili ai pattern di attività e alle relazioni, piuttosto che basarsi solo su ampie distribuzioni linguistiche.

Un altro approccio efficace è la meta-distillazione, in cui il modello viene esposto a forme di conoscenza distillate e astratte, ovvero coppie di esempi brevi e altamente informativi che trasmettono l'essenza di un compito (ad esempio, "Trama forte → positivo", "Recitazione debole → negativo"). Questo metodo consente ai modelli di generalizzarsi rapidamente durante l'inferenza, con un sovraccarico minimo di dimostrazione.

L'addestramento iniziale mette a punto il modello tra il pre-addestramento e l'inferenza effettiva utilizzando esempi allineati all'attività in prompt. Ad esempio, visualizzare alcuni esempi di "Titolo → Categoria" prima del test aumenta la capacità di generalizzare a contenuti correlati senza dover ripetere l'addestramento.

L'ottimizzazione delle istruzioni è un'altra strategia critica, in cui i modelli vengono addestrati utilizzando migliaia di attività scritte come istruzioni in linguaggio naturale (ad esempio, "Classifica l'umore della frase"). Questa strategia migliora la generalizzazione few-shot e zero-shot, allineando più strettamente il comportamento del modello con la guida umana.

2. Progettazione dei prompt

Il design del prompt durante l'inferenza gioca un ruolo fondamentale nell'utilizzo dell'ICL. Una delle tecniche più efficaci è la selezione dimostrativa, ovvero scegliere gli esempi giusti utilizzando metriche di somiglianza, punteggi di incertezza o retriever addestrati. 

La riformattazione dimostrativa modifica la struttura degli esempi. Invece di semplici (coppie input/output), alcuni metodi utilizzano catene di ragionamento (ad esempio, "Premessa → Ragionamento → Conclusione") per migliorare l'allineamento con le rappresentazioni interne del modello.

Un altro fattore sottile ma importante è l'ordinamento delle dimostrazioni. Organizzare gli esempi da semplici a complessi, ad esempio iniziare con un'istruzione di stampa di programmazione di base prima di passare ai loop, aiuta il modello a creare gradualmente il contesto, migliorando la comprensione e la qualità dell'output.

Infine, la formattazione delle istruzioni e il suggerimento della chain-of-thought migliorano le attività pesanti di ragionamento, guidando esplicitamente il modello attraverso i passaggi intermedi. Questo approccio è particolarmente utile in domini come l'aritmetica o il ragionamento logico, in cui una suddivisione come "Fase 1: Sottrai 3 da 8 → Fase 2: La risposta è 5" migliora la precisione rispetto ai formati diretti domanda-risposta.

Applicazioni dell'apprendimento contestuale

Rilevamento delle anomalie: utilizzando l'apprendimento contestuale, agli LLM possono essere forniti alcuni esempi etichettati di attività di rete normali e anomale. Il modello può quindi classificare con precisione le nuove istanze di traffico come normali o sospette, consentendo un monitoraggio flessibile ed efficiente senza una riqualificazione approfondita. Questo approccio può essere applicato ampiamente a varie attività di cybersecurity e gestione della rete.

Ad esempio, un documento di ricerca ha presentato un esempio di applicazione dell'apprendimento contestuale con gli LLM, in particolare GPT-4, per il rilevamento automatico delle intrusioni di rete in ambienti wireless.4 Invece dei metodi tradizionali che richiedono dati etichettati estesi e costose ottimizzazioni, sono stati progettati tre approcci di apprendimento contestuali: illustrativo, euristico e interattivo. Questi metodi guidano GPT-4 a identificare i tipi di attacco, fornendo alcuni esempi etichettati all'interno dei prompt e incorporando domande specifiche del dominio per migliorare la precisione. Testati su un set di dati reale con 9 tipi di DDoS (Distributed Denial-of-Service), i risultati hanno mostrato miglioramenti delle prestazioni. Questi miglioramenti hanno mostrato un grado di precisione e il punteggio F1 è aumentato di circa il 90%; GPT-4 che ha raggiunto oltre il 95% con soli 10 esempi. Questo esempio dimostra come l'apprendimento contestuale consenta agli LLM di adattarsi rapidamente e di funzionare efficacemente in scenari di cybersecurity del mondo reale con dati di addestramento minimi.

Elaborazione del linguaggio naturale (NLP) specifica del dominio: l'ICL consente agli LLM di svolgere bene attività specializzate utilizzando esempi pertinenti all'interno del prompt. Questo approccio risolve il problema delle attività di elaborazione del linguaggio naturale (NLP) specifiche del dominio in cui i dati etichettati potrebbero essere scarsi o in cui la messa a punto non è pratica. Questo percorso consente al modello di adattarsi e generare risultati accurati basati esclusivamente su spunti contestuali forniti durante l'inferenza.

Uno studio dimostra che gli LLM possono analizzare efficacemente i rapporti sulla sicurezza aerea tramite ICL, affrontando sfide come la scarsità semantica e la necessità di una messa a punto computazionalmente costosa.5 Lo studio ha utilizzato BM25 (un algoritmo di recupero delle informazioni utilizzato per classificare i documenti in base alla loro rilevanza rispetto a una query di ricerca) per selezionare gli esempi di prompt più pertinenti. Il modello ha migliorato notevolmente la precisione della classificazione, raggiungendo una precisione fino all'80,24% e un punteggio F1 all'84,15% con otto esempi. Fornendo esempi pertinenti e di alta qualità all'interno del prompt, il modello può generalizzare la sua comprensione per classificare accuratamente i report invisibili. L'aumento del numero di esempi ben scelti migliora in genere le prestazioni, poiché il modello acquisisce più contesto e cattura meglio i modelli sottostanti nei dati. Questo approccio dimostra che l'ICL, con la selezione strategica degli esempi, consente agli LLM di comprendere e classificare efficacemente i dati specializzati dell'aviazione, fornendo una soluzione pratica per le attività NLP specifiche del dominio.

Analisi del sentiment: l'ICL consente agli LLM di analizzare il sentiment fornendo una manciata di esempi di testo etichettati (ad esempio, "Ottimo servizio → positivo", "Prodotto terribile → negativo"). Quando viene fornita una nuova frase non etichettata, il modello può dedurre il sentiment con precisione elevata. Questo approccio semplifica le attività di analisi dell'esperienza dei clienti, di opinion mining e di monitoraggio del marchio.

L'apprendimento contestuale rappresenta un cambiamento fondamentale nel modo in cui interagiamo con i modelli linguistici di grandi dimensioni e ne estraiamo l'intelligence. Questo consente ai modelli di adattarsi dinamicamente alle nuove attività utilizzando le descrizioni delle attività e alcuni esempi. ICL offre flessibilità, efficienza e accessibilità ai sistemi di AI. Colma il divario tra i modelli statici e pre-addestrati e le esigenze dinamiche del mondo reale, consentendo a un singolo modello di eseguire un'ampia gamma di attività semplicemente osservando alcuni esempi. Via via che la ricerca avanza attraverso algoritmi di apprendimento, strategie di pre-addestramento, progettazione dei prompt e ottimizzazione delle dimostrazioni, l'apprendimento contestuale è pronto a diventare la pietra angolare dell'AI generica, aprendo la strada a sistemi più adattivi, interpretabili e scalabili in tutti i settori.

Soluzioni correlate
IBM® watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi AI
Prossimi passi

Attraverso l'AI, IBM Concert scopre insight di importanza chiave sulle operazioni e fornisce raccomandazioni specifiche per migliorare le applicazioni. Scopri come Concert può migliorare il tuo business.

Esplora Concert Esplora le soluzioni di automazione dei processi aziendali
Note a piè di pagina

1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.

2. Xie, S. M., & Min, S. (2022). How does in-context learning work? A framework for understanding the differences from traditional supervised learning. A framework for understanding the differences from traditional supervised learning.

3. Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R., ... & Sui, Z. (2022). A survey on in-context learning. arXiv preprint arXiv:2301.00234.

4. Zhang, H., Sediq, A. B., Afana, A., & Erol-Kantarci, M. (2024). Large language models in wireless application design: In-context learning-enhanced automatic network intrusion detection. arXiv preprint arXiv:2405.11002.

5. Yang, Y., Shi, D., Zurada, J., & Guan, J. (settembre 2024). Application of Large Language Model and In-Context Learning for Aviation Safety Prediction. In 2024 17th International Conference on Advanced Computer Theory and Engineering (ICACTE) (pagg. 361-365). IEEE.