Un modello pre-addestrato è un modello di machine learning che è stato precedentemente addestrato su un ampio set di dati per un compito specifico (di solito di carattere generale) e che può essere riutilizzato o messo a punto per un compito diverso ma correlato. I modelli pre-addestrati fanno risparmiare ai team di sviluppo tempo, dati e risorse computazionali rispetto all'addestramento di un modello da zero.
Poiché richiedono ampie risorse, infrastrutture e competenze, i modelli pre-addestrati sono in genere creati da una combinazione di grandi aziende tecnologiche, istituzioni accademiche, organizzazioni non profit e comunità open source. In settori come il deep learning, dove i modelli richiedono milioni di parametri, i modelli pre-addestrati offrono un punto di partenza che consente ai professionisti di evitare di "reinventare la ruota" ogni volta che creano un'applicazione di machine learning.
L'addestramento del modello "insegna" a un modello di machine learning a ottimizzare le prestazioni su un set di dati di addestramento di attività di esempio, pertinenti agli eventuali casi d'uso. Questi dati di addestramento devono assomigliare ai problemi del mondo reale di cui si occuperà il modello, affinché il modello possa apprendere i pattern e le relazioni dei dati per fare previsioni accurate su nuovi dati.
Questo processo di apprendimento implica la regolazione dei parametri di un modello, ovvero pesi e bias nelle funzioni matematiche che costituiscono gli algoritmi di machine learning sottostanti. Tali aggiustamenti hanno lo scopo di produrre output più accurati.
Matematicamente parlando, l'obiettivo di questo processo è ridurre al minimo una funzione di perdita che quantifica l'errore degli output del modello. Quando l'output scende al di sotto di una certa soglia, il modello è considerato "addestrato". Nell'apprendimento per rinforzo, l'obiettivo è invertito, ovvero i parametri del modello sono ottimizzati per aumentare al massimo una funzione di ricompensa anziché ridurre al minimo una funzione di perdita.
L'addestramento del modello comporta un ciclo di raccolta ed elaborazione preliminare dei dati, alimentando con questi dati di addestramento il modello, misurando le perdite, ottimizzando i parametri e testando le prestazioni sui dati di convalida. Questo workflow viene ripetuto fino al raggiungimento di risultati soddisfacenti. L'addestramento potrebbe anche comportare la regolazione degli iperparametri, ovvero scelte strutturali che influenzano il processo di apprendimento ma non sono di per sé "apprendibili", in un processo chiamato ottimizzazione degli iperparametri.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Il beneficio principale di un modello pre-addestrato è che, anziché partire da zero, gli sviluppatori possono utilizzare modelli che hanno già appreso caratteristiche generali, come la struttura del linguaggio o le forme visive e metterle a punto su set di dati più piccoli e specifici del dominio. Il fine-tuning, o messa a punto, è uno dei diversi tipi di apprendimento per trasferimento, un termine generico per le tecniche che adattano i modelli pre-addestrati a nuovi usi.
L'utilizzo di un modello pre-addestrato accelera lo sviluppo e consente alle entità più piccole, come le startup, che potrebbero non avere accesso a computing, dati o infrastrutture sufficienti, di sperimentare modelli all'avanguardia. È come acquistare un abito prodotto in serie e poi farlo adattare da un sarto affinché sia perfetto per la propria figura.
L'uso di modelli pre-addestrati significa che i professionisti hanno accesso ad architetture che sono già state convalidate, valutate rispetto ai benchmark e testate in scenari reali. Ciò riduce i rischi e contribuisce a garantire l'affidabilità. I modelli pre-addestrati più diffusi sono dotati di un'ampia documentazione, tutorial e codice che possono essere utilizzati per adattare i modelli ai singoli progetti.
I modelli linguistici in grandi dimensioni (LLM) pre-addestrati sono utilizzati da innumerevoli organizzazioni per promuovere i casi d'uso dell' elaborazione del linguaggio naturale (NLP), come la risposta alle domande, l'analisi del sentiment, la segmentazione semantica, l' AI generativa e molto altro. Questo lungo elenco di LLM include molte delle opzioni più popolari. Altri modelli AI sono specializzati nella computer vision, come i modelli di rilevamento di oggetti e classificazione delle immagini.
Una delle prime e più influenti risorse per i modelli basati su immagini è ImageNet, un enorme dataset che è diventato il benchmark di settore per la computer vision. Architetture come ResNet e Inception, addestrate su ImageNet, sono fondamentali nei workflow della computer vision. Questi modelli sono eccellenti nell'estrazione delle caratteristiche, poiché identificano bordi, texture e forme utili per classificare nuove immagini.
Esistono numerosi hub e librerie di modelli in cui le organizzazioni ospitano modelli pre-addestrati. Ecco alcuni dei più importanti:
PyTorch Hub è un repository di modelli pre-addestrati progettato per facilitare la riproducibilità della ricerca e semplificare l'uso di modelli pre-addestrati all'interno dell'ecosistema PyTorch di Python.
TensorFlow Hub è un repository di modelli addestrati, pronti per la messa a punto e implementabili ovunque. I modelli BERT e Faster R-CNN (reti neurali convoluzionali) possono essere riutilizzati con poche righe di codice.
Hugging Face Models si concentra su PNL e modelli di visione, fornendo l'accesso a modelli all'avanguardia come BERT, GPT e molti altri, insieme a strumenti e tutorial per l'inferenza e l'addestramento. La famiglia di modelli pre-addestrati IBM Granite è disponibile su Hugging Face. Questi modelli sono aperti, performanti e affidabili, oltre che ottimizzati per i casi d'uso aziendali. Granite include, tra le altre applicazioni, modelli per il linguaggio, la visione, la voce e le serie temporali.
Kaggle è una piattaforma per la data science e il machine learning che offre uno spazio per competizioni e set di dati, così come una community per la collaborazione e l'apprendimento.
GitHub è una piattaforma proprietaria per sviluppatori che consente loro di creare, memorizzare, gestire e condividere il proprio codice. Molti ricercatori e aziende rilasciano modelli pre-addestrati in repository con codice, pesi e documentazione.
Il catalogo NVIDIA NGC offre modelli pre-addestrati ottimizzati per l'accelerazione delle GPU, tra cui computer vision, imaging medico e AI.
OpenAI Models fornisce modelli di trasformatori generativi pre-addestrati, noti anche come GPT, come il chatbot ChatGPT, Codex e DALL-E, tramite API. L'accesso è basato su cloud anziché su download diretto, tramite piattaforme come l'API OpenAI o Azure OpenAI.
KeraShub è una libreria di modelli pre-addestrati che vuole essere semplice, flessibile e veloce e fornisce implementazioni Keras 3 di architetture molto diffuse.
Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.