My IBM

Accedi

Che cosa sono i modelli linguistici di grandi dimensioni (LLM)?

2 novembre 2023

Cosa sono gli LLM?

I modelli linguistici di grandi dimensioni (LLM) sono una categoria di modelli di fondazione addestrati su immense quantità di dati che li rendono in grado di comprendere e generare linguaggio naturale e altri tipi di contenuti per eseguire un'ampia gamma di attività.

I LLM sono diventati familiari grazie al ruolo che hanno svolto nel portare l'AI generativa alla ribalta dell'interesse pubblico e sono la soluzione sulla quale le organizzazioni si stanno concentrando per adottare l'AI in numerose funzioni e casi d'uso aziendali.

Al di fuori del contesto aziendale, gli LLM potrebbero sembrare nati dal nulla insieme ai nuovi sviluppi dell'AI generativa. Tuttavia, molte aziende, tra cui IBM, hanno impiegato anni a implementare LLM a diversi livelli per migliorare le loro funzionalità di Natural Language Understanding (NLU) e di elaborazione del linguaggio naturale (NLP). Ciò è avvenuto insieme ai progressi del machine learning, dei modelli di machine learning, degli algoritmi, delle reti neurali e dei modelli di trasformazione che forniscono l'architettura per questi sistemi di AI.

Gli LLM sono una classe di foundation model, che vengono addestrati su enormi quantità di dati per fornire le funzionalità di base necessarie per gestire più casi d'uso e applicazioni, nonché per risolvere una serie diversa di attività. Ciò è in netto contrasto con l'idea di costruire e addestrare modelli specifici per il dominio per ciascuno di questi casi d'uso individualmente, approccio che risulta proibitivo considerando molti criteri (soprattutto costi e infrastruttura), soffoca le sinergie e può persino portare a una riduzione delle prestazioni.

Gli LLM rappresentano una svolta significativa nella PNL e nell'AI e sono facilmente accessibili al pubblico tramite interfacce come Chat GPT-3 e GPT-4 di Open AI, che possono contare sul supporto di Microsoft. Tra gli esempi si annoverano i modelli Llama di Meta, le rappresentazioni dell'encoder bidirezionale di Google da trasformatori (BERT/RoBERTa) e i modelli PaLM. IBM ha anche recentemente lanciato la serie di modelli Granite su watsonx.ai, divenuta la spina dorsale dell'AI generativa per altri prodotti IBM come watsonx Assistant e watsonx Orchestrate.

In poche parole, gli LLM sono progettati per comprendere e generare testo, oltre ad altre forme di contenuto, come un essere umano, sulla base della grande quantità di dati utilizzati per addestrarli. Hanno la capacità di dedurre dal contesto, generare risposte coerenti e contestualmente pertinenti, tradurre in lingue diverse dall'inglese, riassumere il testo, rispondere a domande (conversazione generale e domande frequenti) e persino assistere nella scrittura creativa o nelle attività di generazione di codice.

Sono in grado di farlo grazie a miliardi di parametri che consentono loro di acquisire schemi complessi nel linguaggio e di eseguire un'ampia gamma di attività connesse al linguaggio. Le LLM stanno rivoluzionando le applicazioni in diversi campi, dai chatbot e dagli assistenti virtuali alla generazione di contenuti, all'assistenza alla ricerca e alla traduzione linguistica.

Mentre continuano ad evolversi e migliorare, gli LLM sono pronti a rimodellare il modo in cui interagiamo con la tecnologia e accediamo alle informazioni e questo li rende una parte fondamentale del moderno landscape digitale.

Le ultime notizie e insight sull'AI  

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Iscriviti oggi

Come funzionano i modelli linguistici di grandi dimensioni

Gli LLM operano sfruttando tecniche di deep learning e grandi quantità di dati testuali. Questi modelli sono in genere basati su un'architettura del trasformatore, come il trasformatore generativo pre-addestrato, che eccelle nella gestione di dati sequenziali come input di testo. Gli LLM sono costituiti da più livelli di reti neurali, ciascuno con parametri che possono essere messi a punto durante l'addestramento, ulteriormente migliorati da numerosi livelli noti come meccanismo di attenzione, che si collegano a parti specifiche dei set di dati.

Durante il processo di formazione, questi modelli imparano a prevedere il termine successivo in una frase in base al contesto determinato dai termini precedenti. Il modello lo fa attribuendo un punteggio di probabilità alla ricorrenza delle parole che sono state tokenizzate, suddivise in sequenze più piccole di caratteri. Questi token vengono poi trasformati in incorporamenti, ovvero rappresentazioni numeriche di questo contesto.

Per garantire l'accuratezza, questo processo prevede l'addestramento del LLM su un corpus enorme di testi (miliardi di pagine), consentendogli di apprendere la grammatica, la semantica e le relazioni concettuali tramite apprendimento zero-shot e auto-supervisionato. Dopo essere stati addestrati su questi dati di formazione, gli LLM possono generare testo prevedendo autonomamente il termine successivo in base all'input ricevuto e attingendo ai modelli e alle conoscenze acquisite. Il risultato è una generazione di linguaggio coerente e contestualmente pertinente che può essere sfruttata per un'ampia gamma di attività di NLU e di generazione di contenuti.

Le prestazioni del modello possono anche essere aumentate tramite il prompt engineering, il prompt-tuning, il fine tuning e altre tattiche come l'apprendimento per rinforzo con feedback umano (RLHF) per rimuovere pregiudizi, discorsi che incitano all'odio e risposte fattivamente errate note come "allucinazioni", spesso sottoprodotti indesiderati di formazione su così tanti dati non strutturati. Questo è uno degli aspetti più importanti per garantire che i LLM di livello aziendale siano pronti per l'uso e non espongano le organizzazioni a responsabilità indesiderate o causino danni alla loro reputazione.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Vai all'episodio

Casi d'uso dei LLM

Gli LLM stanno ridefinendo sempre più processi aziendali e hanno dimostrato la loro versatilità in una miriade di casi d'uso e attività in diversi settori. Aumentano la conversational AI nei chatbot e negli assistenti virtuali (come IBM watsonx Assistant e Google BARD) per migliorare le interazioni alla base dell'eccellenza nell'assistenza clienti, fornendo risposte sensibili al contesto che imitano le interazioni con gli agenti umani.

Gli LLM eccellono anche nella generazione di contenuti, automatizzando la creazione di articoli per blog, materiale di marketing o di vendita e altre attività di scrittura. Nella ricerca e nel mondo accademico, aiutano a riassumere ed estrarre informazioni da vasti set di dati, accelerando la scoperta della conoscenza. Gli LLM svolgono anche un ruolo fondamentale nella traduzione linguistica, abbattendo le barriere linguistiche grazie a traduzioni accurate e pertinenti al contesto. Possono anche essere usati per scrivere codice o "tradurre" tra linguaggi di programmazione.

Inoltre, contribuiscono all'accessibilità assistendo le persone con disabilità, prevedendo applicazioni text to Speech e generando contenuti in formati accessibili. Dall'assistenza sanitaria alla finanza, gli LLM stanno trasformando i settori semplificando i processi, migliorando l'esperienza del cliente e consentendo un processo decisionale più efficiente e basato sui dati.

Il fatto più interessante è che tutte queste funzionalità sono di facile accesso, in alcuni casi letteralmente tramite un'integrazione di API.

Ecco un elenco di alcune delle aree più importanti in cui i LLM sono utili per le organizzazioni:

Generazione di testo: capacità di generazione del linguaggio, come scrivere e-mail, post sul blog o altri contenuti di forma medio-lunga in risposta a richieste che possono essere affinate e perfezionate. Un esempio eccellente è la retrieval-augmented generation (RAG).

Riepilogo dei contenuti: riepiloga articoli lunghi, notizie, rapporti di ricerca, documentazione aziendale e persino la storia dei clienti in testi approfonditi adattati in lunghezza al formato di output.

Assistenti AI: chatbot che rispondono alle domande dei clienti, eseguono attività di backend e forniscono informazioni dettagliate in linguaggio naturale nell'ambito di una soluzione di assistenza clienti integrata e self-service.

Generazione di codice: aiuta gli sviluppatori nella creazione di applicazioni, nella ricerca di errori nel codice e nella scoperta di problemi di sicurezza in più linguaggi di programmazione, anche nella "traduzione" tra di loro.

Analisi del sentiment: analizza il testo per determinare il tono del cliente al fine di comprendere il feedback dei clienti su larga scala e assistere nella gestione della reputazione del marchio.

Traduzione linguistica: fornisce una copertura più ampia alle organizzazioni in diverse lingue e aree geografiche con traduzioni fluide e funzionalità multilingue.

Gli LLM avranno un impatto su tutti i settori, dalla finanza alle assicurazioni, dalle risorse umane alla sanità e oltre, automatizzando il self-service dei clienti, accelerando i tempi di risposta per un numero crescente di attività e offrendo una maggiore precisione, un instradamento migliorato e una raccolta intelligente del contesto.

LLM e governance

Alle organizzazioni serve una solida base nelle pratiche di governance per sfruttare il potenziale dei modelli di AI e rivoluzionare il modo in cui fanno business. Ciò significa concedere l'accesso a strumenti e tecnologie di AI affidabili, trasparenti, responsabili e sicuri. La governance e la tracciabilità dell'AI sono anche aspetti fondamentali delle soluzioni che IBM offre ai suoi clienti, affinché le attività che coinvolgono l'AI siano gestite e monitorate per consentire di tracciare origini, dati e modelli in un modo sempre verificabile e giustificabile.

Come scegliere il giusto foundation model

Impara a scegliere l’approccio giusto nella preparazione dei set di dati e nell’impiego dei foundation model.

Soluzioni correlate

Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Risorse

Scopri IBM Granite

Scopri IBM® Granite, la nostra famiglia di modelli AI aperti, performanti e affidabili, personalizzati per le aziende e ottimizzati per scalare le applicazioni AI. Esplora le opzioni relative a lingua, codice, serie temporali e guardrail.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d’uso.

Scopri la potenza degli LLM

Consulta gli articoli, i blog e i tutorial di IBM Developer per approfondire la tua conoscenza degli LLM.

La guida del CEO all'ottimizzazione dei modelli

Scopri come incoraggiare i team a migliorare sempre di più le prestazioni dei modelli e a superare la concorrenza utilizzando le tecniche e le infrastrutture AI più recenti.

Un approccio differenziato ai foundation model di AI

Esplora il valore dei foundation model di livello aziendale che forniscono fiducia, prestazioni e benefici convenienti per tutti i settori.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare l’AI generativa, il machine learning e i foundation model nelle operazioni di business per migliorare le prestazioni.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative AI per scoprire cosa funziona, cosa non funziona e come puoi rimanere sempre aggiornato.

Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai

Esplora le soluzioni AI