Cosa sono i modelli linguistici di grandi dimensioni open source?

I modelli linguistici di grandi dimensioni (LLM) sono foundation model che utilizzano AI, deep learning ed enormi set di dati, tra cui siti web, articoli e libri, per generare testo, tradurre tra lingue e scrivere molti tipi di contenuti. Esistono due tipi di questi modelli di AI generativa: i modelli proprietari per grandi linguaggi e quelli open source per linguaggi di grandi dimensioni.

In questo video, Martin Keen spiega brevemente i modelli linguistici di grandi dimensioni, come si relazionano ai foundation model, come funzionano e come possono essere utilizzati per risolvere vari problemi aziendali.

Gli LLM proprietari sono di proprietà di un'azienda e possono essere utilizzati solo dai clienti che acquistano una licenza. La licenza può limitare il modo in cui l'LLM può essere utilizzato. Gli LLM open source, invece, sono gratuiti e disponibili per chiunque possa accedervi, utilizzarli per qualsiasi scopo, modificarli e distribuirli.

Il termine "open source" si riferisce al codice LLM e all'architettura sottostante accessibili al pubblico, il che significa che sviluppatori e ricercatori sono liberi di usare, migliorare o modificare in altro modo il modello.

Quali sono i benefici degli LLM open source?

Un tempo sembrava che l'ideale fosse avere un LLM il più grande possibile, ma ora le aziende si stanno rendendo conto che possono essere esageratamente costosi in termini di ricerca e innovazione. In risposta, un ecosistema di modello open source ha iniziato a mostrarsi promettente e a mettere in discussione il modello di business LLM.

Trasparenza e flessibilità

Le aziende che non dispongono di talenti interni per il machine learning possono utilizzare LLM open source che offrono trasparenza e flessibilità, all'interno della propria infrastruttura, sia nel cloud che on-premise. Ciò dà loro il pieno controllo dei propri dati e significa che le informazioni sensibili rimangono all'interno della loro rete. Tutto ciò riduce il rischio di fuga di dati o di accesso non autorizzati.

Un LLM open source offre trasparenza su come funziona, sulla sua architettura, sui dati e le metodologie di formazione e su come si usa. Essere in grado di ispezionare il codice e avere visibilità sugli algoritmi consente di aumentare la fiducia di un'azienda, agevola gli audit e aiuta a garantire la conformità etica e legale. Inoltre, l'ottimizzazione efficiente di un LLM open source può ridurre la latenza e aumentare le prestazioni.

Riduzione dei costi

In genere sono molto meno costosi nel lungo termine rispetto agli LLM proprietari perché non prevedono costi di licenza. Tuttavia, il costo di gestione di un LLM include i costi dell'infrastruttura on-premise o cloud e in genere comportano un costo iniziale di implementazione significativo.

Caratteristiche aggiunte e contributi della community

Gli LLM pre-addestrati e open source consentono una messa a punto precisa. Le aziende possono aggiungere all'LLM caratteristiche utili per il loro uso specifico, e gli LLM possono anche essere addestrati su set di dati specifici. Apportare queste modifiche o specifiche su un LLM proprietario comporta la collaborazione con un fornitore e costa tempo e denaro.

Mentre gli LLM proprietari implicano che un'azienda deve fare affidamento su un unico fornitore, uno open source consente all'azienda di utilizzare al meglio i contributi della comunità, diversi fornitori di servizi e possibilmente team interni per gestire aggiornamenti, sviluppo, manutenzione e supporto. L'open source consente alle aziende di sperimentare e utilizzare i contributi di persone con prospettive diverse, portando a soluzioni che consentano alle aziende di rimanere all'avanguardia della tecnologia. Inoltre, offre alle aziende che utilizzano LLM open source un maggiore controllo sulla propria tecnologia e sulle decisioni relative al modo in cui la utilizzano.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Quali tipi di progetti possono abilitare i modelli LLM open source?

Le organizzazioni possono utilizzare modelli LLM open source per creare praticamente qualsiasi progetto utile ai propri dipendenti o (quando la licenza open source lo consente) che può essere offerto come prodotto commerciale, tra cui:

Generazione di testo

I modelli LLM open source consentono di creare un'app con capacità di generazione linguistica, come scrivere e-mail, post sul blog o storie creative. Un LLM come Falcon-40B, offerto con una licenza Apache 2.0, può rispondere a un prompt con suggerimenti di testo di alta qualità che può poi perfezionare e perfezionare.

Generazione di codice

Gli LLM open source formati sul codice e sui linguaggi di programmazione esistenti possono aiutare gli sviluppatori a creare applicazioni e trovare errori e guasti legati alla sicurezza.

Tutoraggio virtuale

Gli LLM open source ti consentono di creare applicazioni che offrono esperienze di apprendimento personalizzate, che possono essere personalizzate e adattate a particolari stili di apprendimento.

Riassunto dei contenuti

Uno strumento LLM open source che riassume articoli lunghi, notizie, report di ricerca e altro può facilitare l'estrazione dei dati chiave.

Chatbot basati sull'AI

Sono in grado di comprendere e rispondere alle domande, offrire suggerimenti e avviare conversazioni in linguaggio naturale.

Traduzione della lingua

Gli LLM open source che si addestrano su set di dati multilingue possono fornire traduzioni accurate e fluenti in molte lingue.

Analisi del sentiment

Gli LLM possono analizzare il testo per determinare il tono emotivo o sentimentale, utile nella gestione della reputazione del marchio e nell'analisi del feedback dei clienti.

Filtraggio e moderazione dei contenuti

Gli LLM possono essere utili per identificare e filtrare contenuti online inappropriati o dannosi, il che è di grande aiuto per mantenere un ambiente online più sicuro.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Vai all'episodio

Quali tipi di organizzazioni utilizzano gli LLM open source?

Un'ampia gamma di tipi di organizzazione utilizza LLM open source. Ad esempio, IBM e NASA hanno sviluppato un LLM open source formato sui dati geospaziali per aiutare gli scienziati e le loro organizzazioni a combattere il cambiamento climatico.

Editori e giornalisti utilizzano internamente gli LLM open source per analizzare, identificare e riassumere le informazioni senza condividere dati proprietari al di fuori della redazione.

Alcune organizzazioni di sanitarie utilizzano gli LLM open source per i software sanitari, inclusi strumenti di diagnosi, ottimizzazioni del trattamento e strumenti per la gestione delle informazioni sui pazienti, la salute pubblica e altro ancora.

L'LLM open source FinGPT è stato sviluppato appositamente per il settore finanziario.

Alcuni dei migliori LLM open source curati

L'Open LLM Leaderboard mira a tracciare, classificare e valutare LLM e chatbot open source su diversi benchmark.

Un LLM open source ben performante con una licenza che consente accordi per uso commerciale è LLama 2 di Meta AI, che comprende modelli di testo generativo preaddestrati e ottimizzati con 7-70 miliardi di parametri ed è disponibile nello studio Watsonx.ai. È disponibile anche tramite l'ecosistema Hugging Face e la libreria dei trasformatori.
Vicuna e Alpaca sono stati creati sulla base del modello LLaMa e, come Bard di Google e ChatGPT di OpenAI, sono ottimizzati per seguire le istruzioni. Vicuna, che supera Alpaca, eguaglia le prestazioni del GPT-4.
Bloom (link esterno a ibm.com) di BigScience è un modello linguistico multilingue creato da più di 1.000 ricercatori di AI. È il primo LLM di questo tipo a essere erogato in totale trasparenza.
L'LLM Falcon (link esterno a ibm.com) del Technology Innovation Institute (TII) può essere utilizzato con chatbot per generare testo creativo, risolvere problemi complessi e ridurre e automatizzare le attività ripetitive. Sia Falcon 6B che il 40B sono disponibili come modelli grezzi per la messa a punto o come modelli già ottimizzati che possono essere utilizzati così come sono. Falcon utilizza solo il 75% circa del budget per l'elaborazione di formazione del GPT-3 e lo supera in modo significativo.
MPT-7B e MPT-30B (link esterno a ibm.com) sono LLM open source concessi in licenza per uso commerciale da MosaicML (recentemente acquisito da Databricks). MPT-7B corrisponde alle prestazioni di LlaMA. MPT-30B supera GPT-3. Entrambi sono addestrati su token 1T.
FLAN-T5, lanciato da Google AI, è in grado di gestire più di 1.800 attività diverse.
StarCoder (link esterno a ibm.com) di Hugging Face è un assistente di codifica LLM open source formato sul codice permissivo di GitHub.
RedPajama-INCITE (link esterno a ibm.com), concesso in licenza con Apache-2, è un modello linguistico pre-addestrato con 6,9 miliardi di parametri sviluppato da Together e da leader di varie istituzioni, tra cui l'Università di Montreal e lo Stanford Center for Research on Foundation Models.
Cerebras-GPT (link esterno a ibm.com) di Cerebras è una famiglia di sette modelli GPT che vanno da 111 milioni a 13 miliardi di parametri.
StableLM è un LLM open source di Stability AI, che ha creato il generatore di immagini AI Stable Diffusion. È stato addestrato su un set di dati contenente 1,5 trilioni di token chiamato "The Pile" ed è ottimizzato con una combinazione di set di dati open source di Alpaca, GPT4all (che offre una gamma di modelli basati su GPT-J, MPT e LLama), Dolly, ShareGPT e HH.

Rischi associati ai modelli linguistici di grandi dimensioni

Sebbene gli output del LLM sembrino fluenti e autorevoli, ci possono essere dei rischi che includono l'offerta di informazioni basate su "allucinazioni" e problemi di bias, consenso o sicurezza. La formazione su questi rischi è una risposta a questi problemi di dati e AI.

Allucinazioni, o falsità, possono risultare dall'addestramento del LLM su dati incompleti, contraddittori o imprecisi o dalla previsione della successiva parola accurata in base al contesto senza comprenderne il significato.
Il bias si verifica quando la fonte dei dati non è diversificata o rappresentativa.
Il consenso si riferisce al fatto che i dati di formazione siano stati raccolti con responsabilità, il che significa che segue processi di governance dell'AI che li rendono conformi alle leggi e ai regolamenti e offre alle persone modi per incorporare il feedback.
I problemi di sicurezza possono includere la fuga di informazioni personali, i criminali informatici che utilizzano l'LLM per attività dannose come phishing e spamming e gli hacker che modificano la programmazione originale.

Modelli linguistici di grandi dimensioni open source e IBM

I modelli di AI, e in particolare gli LLM, saranno una delle tecnologie più trasformative del prossimo decennio. Poiché le nuove normative impongono linee guida sull'uso dell'AI, è fondamentale non solo gestire e governare i modelli AI ma anche governare i dati inseriti nell'AI.

Per aiutare le organizzazioni a soddisfare queste esigenze e moltiplicare l'impatto dell'AI, IBM offre watsonx, la nostra piattaforma di AI e dati pronta per le aziende. Insieme, watsonx offre alle organizzazioni la possibilità di:

Addestrare, ottimizzare e implementare l'AI in tutta l'azienda con watsonx.ai
Scalare i workload AI per tutti i tuoi dati, ovunque, con watsonx.data
Consentire workflow di AI responsabili, trasparenti e spiegabili con watsonx.governance

La funzionalità di ricerca conversazionale di IBM® watsonx Assistant si basa sulle sue integrazioni predefinite, su framework di integrazione low-code (link esterno a ibm.com), ed esperienza di creazione no-code. Sia gli sviluppatori che gli utenti business possono automatizzare la risposta alle domande con la ricerca conversazionale, liberandosi per creare flussi transazionali di maggior valore ed esperienze digitali integrate con i loro assistenti virtuali.

Oltre alla ricerca conversazionale, watsonx Assistant continua a collaborare con IBM Research e watsonx per sviluppare LLM watsonx personalizzati specializzati in classificazione, ragionamento, estrazione di informazioni, riepilogo e altri casi d'uso conversazionali. Watsonx Assistant ha già fatto importanti progressi nella sua capacità di comprendere i clienti con meno sforzo utilizzando i modelli linguistici di grandi dimensioni.

Autore

IBM Data and AI Team

Come scegliere il giusto foundation model

Impara a scegliere l'approccio giusto nella preparazione dei set di dati e nell'impiego dei foundation model.

Modelli linguistici di grandi dimensioni open source: vantaggi, rischi e tipologie