Che cos'è il machine learning?

Autore

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cos'è il machine learning?

Il machine learning è il sottoinsieme dell'intelligenza artificiale (AI) basato su algoritmi in grado di "apprendere" i modelli dei dati di addestramento e, successivamente, fare inferenze accurate sui nuovi dati. Questa capacità di riconoscimento dei modelli consente ai modelli di machine learning di prendere decisioni o fare previsioni senza istruzioni esplicite e codificate.

Il machine learning è arrivato a dominare il campo dell'AI: fornisce la spina dorsale della maggior parte dei sistemi AI moderni, dai modelli di previsione ai veicoli autonomi ai modelli linguistici di grandi dimensioni (LLM) e altri strumenti di AI generativa.

Il principio centrale del machine learning (ML) è che, se si ottimizzano le prestazioni di un modello su un set di dati di attività che assomigliano adeguatamente ai problemi del mondo reale per cui sarà utilizzato – attraverso un processo chiamato addestramento del modello – il modello sarà in grado di fare previsioni accurate sui nuovi dati che incontrerà nel suo caso d'uso finale.

L'addestramento stesso è semplicemente un mezzo per raggiungere un fine: la generalizzazione, la traduzione di prestazioni forti sui dati di addestramento in risultati utili in scenari del mondo reale, è l'obiettivo fondamentale del machine learning. In sostanza, un modello addestrato applica gli schemi appresi dai dati di addestramento per dedurre l'output corretto per un'attività del mondo reale: l'implementazione di un modello AI è quindi chiamata inferenza AI.

Il deep learning, il sottoinsieme del machine learning supportato da reti neurali artificiali di grandi dimensioni (o "profonde"), è emerso negli ultimi decenni quale architettura di modello AI all'avanguardia in quasi tutti i domini in cui viene utilizzata l'AI. A differenza degli algoritmi esplicitamente definiti del machine learning tradizionale, il deep learning si basa su "reti" distribuite di operazioni matematiche che offrono una capacità senza precedenti di apprendere le sfumature intricate di dati molto complessi. Poiché il deep learning richiede grandi quantità di dati e risorse computazionali, il suo avvento ha coinciso con l'aumento dell'importanza dei "big data" e delle unità di elaborazione grafica (GPU).   

La disciplina della machine learning è strettamente intrecciata con quella della data science. In un certo senso, il machine learning può essere inteso come una raccolta di algoritmi e tecniche per automatizzare l'analisi dei dati e (cosa ancora più importante) applicare gli insegnamenti tratti da tale analisi all'esecuzione autonoma di attività pertinenti.

L'origine del termine (anche se non il concetto centrale in sé) è spesso attribuita all'articolo di Arthur L. Samuel del 1959 su IBM Journal, "Some Studies in Machine Learning Using the Game of Checkers". Nell'introduzione del documento, Samuel articola chiaramente il risultato ideale del machine learning: "un computer può essere programmato in modo che impari a giocare a dama meglio di quanto possa fare la persona che ha scritto il programma".1

Machine learning vs. intelligenza artificiale

Sebbene "machine learning" e "intelligenza artificiale" siano spesso usati in modo intercambiabile, non sono del tutto sinonimi. In breve: tutto il machine learning è AI, ma non tutta l'AI è machine learning.

Nell'immaginario popolare, l'AI è solitamente associata alla fantascienza – in genere attraverso la rappresentazione di quella che è più propriamente chiamata intelligenza artificiale generale (AGI), come HAL 9000 in 2001: Odissea nello spazio o Ava in Ex Machina – o, più recentemente,all'AI generativa. Ma "intelligenza artificiale" è un termine generico per qualsiasi programma in grado di utilizzare le informazioni per prendere decisioni o previsioni senza il coinvolgimento attivo dell'uomo.

I sistemi di AI più elementari sono una serie di istruzioni if-then-else, con regole e logica programmate esplicitamente da un data scientist.  Al livello più semplice, anche un termostato rudimentale è un sistema di AI basato su regole. Se programmato con regole semplici come 

IF room_temperature < 67, THEN turn_on_heater

IF room_temperature > 72, THEN turn_on_air_conditioner

il termostato è in grado di prendere decisioni in modo autonomo senza ulteriori interventi umani. A un livello più complesso, un albero decisionale ampio e intricato, basato su regole e programmato da esperti medici, potrebbe analizzare sintomi, circostanze e comorbidità per facilitare la diagnosi o la prognosi.2

A differenza dei sistemi esperti, la logica con cui opera un modello di machine learning non è programmata esplicitamente, ma viene appresa attraverso l'esperienza. Consideriamo un programma che filtra lo spam via e-mail: l'AI basata su regole richiede che un data scientist elabori manualmente criteri accurati e universali per lo spam; il machine learning richiede solo la selezione di un algoritmo appropriato e di un set di dati adeguato di e-mail campione. Durante l'addestramento, al modello vengono mostrati esempi di e-mail e previsioni che sono spam; l'errore delle sue previsioni viene calcolato e il suo algoritmo viene regolato per ridurre l'errore; questo processo viene ripetuto finché il modello non è accurato. Il modello di ML appena addestrato ha appreso implicitamente come identificare lo spam.

Man mano che i compiti che un sistema AI è tenuto a svolgere diventano via via più complessi, i modelli basati su regole diventano sempre più fragili: spesso è impossibile definire in modo esplicito ogni schema e ogni variabile che un modello deve considerare. I sistemi di apprendimento automatico sono emersi come la modalità dominante di intelligenza artificiale, poiché gli schemi di apprendimento impliciti inferiti dai dati medesimi sono intrinsecamente più flessibili, scalabili e accessibili.

Come funziona il machine learning

Il machine learning funziona attraverso la logica matematica. Le caratteristiche rilevanti di ogni punto dati devono quindi essere espresse numericamente, in modo che i dati stessi possano essere inseriti in un algoritmo matematico che "apprenda" come mappare un dato input all'output desiderato.

I punti dati nel machine learning sono solitamente rappresentati in forma di vettore, in cui ogni elemento (o dimensione) del vettore di embedding di un punto dati corrisponde al suo valore numerico per una specifica caratteristica. Per le modalità di dati che sono intrinsecamente numeriche, come i dati finanziari o le coordinate geospaziali, questo è relativamente semplice. Ma molte modalità di dati, come testo, immagini, dati grafici sui social media o comportamenti degli utenti delle app, non sono intrinsecamente numeriche e quindi richiedono una progettazione delle caratteristiche meno immediatamente intuitiva da esprimere in modo compatibile con l'ML.

Il processo (spesso manuale) di scelta delle caratteristiche dei dati da utilizzare negli algoritmi di machine learning si chiama selezione delle caratteristiche. Le tecniche di estrazione delle caratteristiche affinano i dati solo in base alle loro dimensioni più pertinenti e significative. Entrambi sono sottoinsiemi del feature engineering, la più ampia disciplina della pre-elaborazione dei dati non elaborati per l'uso nel machine learning. Una importante distinzione del deep learning è che in genere opera su dati non elaborati e automatizza gran parte del processo di feature engineering, o almeno il processo di estrazione delle caratteristiche. Ciò rende il deep learning più scalabile, anche se meno interpretabile, rispetto al machine learning tradizionale.

Parametri e ottimizzazione del modello di machine learning

Per un esempio pratico, consideriamo un semplice algoritmo di regressione lineare per prevedere i prezzi di vendita delle case in base a una combinazione ponderata di tre variabili: metratura, età della casa e numero di camere da letto. Ogni casa è rappresentata come un vettore che incorpora tre dimensioni: [square footage, bedrooms, age] . Una casa di 30 anni con 4 camere da letto e 1900 piedi quadrati potrebbe essere rappresentata come  [1900, 4, 30]   (anche se per scopi matematici quei numeri potrebbero prima essere ridimensionati, o normalizzati, in un intervallo più uniforme).

L'algoritmo è una semplice funzione matematica: 

 Prezzo = (A * superficie in metri quadrati) + (B * numero di stanze) – (C * età) + prezzo base

Qui  A ,  B  e  C  sono i parametri del modello: regolandoli si regolerà il peso del modello per ogni variabile. L'obiettivo del machine learning è trovare i valori ottimali per tali parametri del modello: in altre parole, i valori dei parametri che fanno sì che la funzione complessiva produca i risultati più accurati. Sebbene la maggior parte delle istanze reali di machine learning coinvolga algoritmi più complessi con un numero maggiore di variabili di input, il principio rimane lo stesso: ottimizzare i parametri regolabili dell'algoritmo per ottenere una maggiore precisione.

Tipi di machine learning

Tutti i metodi di machine learning possono essere classificati come uno dei tre paradigmi di apprendimento distinti: apprendimento supervisionato, apprendimento non supervisionato o apprendimento per rinforzo, in base alla natura dei loro obiettivi di addestramento e (spesso ma non sempre) al tipo di dati di addestramento che comportano.

  • L'apprendimento supervisionato addestra un modello per prevedere l'output "corretto" per un determinato input. Si applica alle attività che richiedono un certo grado di precisione rispetto a qualche "ground truth" esterno, come la classificazione o la regressione.
  • L'apprendimento non supervisionato addestra un modello per discernere schemi intrinseci, dipendenze e correlazioni nei dati. A differenza dell'apprendimento supervisionato, le attività di apprendimento non supervisionato non implicano alcuna verità di base esterna con cui confrontare i suoi output.
  • L'apprendimento per rinforzo (RL) addestra un modello per valutare il suo ambiente e intraprendere un'azione che otterrà la massima ricompensa. Gli scenari RL non implicano l'esistenza di una sola verità fondamentale, bensì implicano l'esistenza di azioni "buone" e "cattive" (o neutre).

Il processo di addestramento end-to-end per un determinato modello può, e spesso lo fa, comportare approcci ibridi che utilizzano più di uno di questi paradigmi di apprendimento. Ad esempio, l'apprendimento non supervisionato viene spesso utilizzato per pre-elaborare i dati da utilizzare nell'apprendimento supervisionato o per rinforzo. I modelli linguistici di grandi dimensioni (LLM) vengono in genere sottoposti a un addestramento iniziale (pre-addestramento) e a una messa a punto attraverso varianti dell'apprendimento supervisionato, seguite da una maggiore messa a punto attraverso tecniche di RL come l'apprendimento per rinforzo dal feedback umano (RLHF)

In una pratica simile ma distinta, vari metodi di apprendimento di insieme aggregano gli output di più algoritmi.

Apprendimento supervisionato

Gli algoritmi di apprendimento supervisionato addestrano i modelli per attività che richiedono precisione, come la classificazione o la regressione. L'apprendimento automatico supervisionato alimenta sia modelli di deep learning all'avanguardia che un'ampia gamma di modelli di ML tradizionali ancora ampiamente utilizzati in tutti i settori.

  • I modelli di regressione prevedono valori continui, come prezzo, durata, temperatura o dimensione. Esempi di algoritmi di regressione tradizionali includono la regressione lineare, la regressione polinomiale e i modelli dello spazio di stato.
  • I modelli di classificazione prevedono valori discreti, ad esempio le categorie (o la classe) a cui appartiene un punto dati, una decisione binaria o un'azione specifica da intraprendere. Esempi di algoritmi di classificazione tradizionali includono le macchine a vettori di supporto (SVM), Naive Bayes e la regressione logistica.
  • Molti algoritmi di ML supervisionati possono essere utilizzati per entrambe le attività. Ad esempio, l'output di quello che è nominalmente un algoritmo di regressione può essere successivamente utilizzato per informare una previsione di classificazione.

Per essere misurati e ottimizzati per la precisione, gli output di un modello devono essere confrontati con un ground truth: l'output ideale o "corretto" per un input. Nell'apprendimento supervisionato convenzionale, il ground truth è fornito da coppie di dati etichettati. Un modello di rilevamento dello spam via e-mail viene addestrato su un set di dati di e-mail etichettate ciascuna come SPAM Oppure NOT SPAM . Un modello di segmentazione delle immagini viene addestrato su immagini in cui ogni singolo pixel è stato annotato in base alla sua classificazione. L'obiettivo dell'apprendimento supervisionato è quello di regolare i parametri del modello fino a quando i suoi output non corrispondono costantemente al ground truth fornito da tali etichette.

Essenziale per l'apprendimento supervisionato è l'uso di una funzione di perdita che misura la divergenza ("perdita") tra l'output del modello e il ground truth su una serie di input di addestramento. L'obiettivo dell'apprendimento supervisionato è definito matematicamente come la riduzione al minimo dell'output di una funzione di perdita. Una volta calcolata la perdita, vengono utilizzati vari algoritmi di ottimizzazione, la maggior parte dei quali prevede il calcolo dei derivati della funzione di perdita, per identificare gli aggiustamenti dei parametri che ridurranno la perdita.

Poiché questo processo richiede tradizionalmente un operatore umano che fornisca la verità di base sotto forma di annotazioni sui dati, si chiama apprendimento "supervisionato". In quanto tale, l'uso di dati etichettati è stato storicamente considerato la caratteristica definitiva dell'apprendimento supervisionato. Tuttavia, al livello più fondamentale, il segno distintivo dell'apprendimento supervisionato è l'esistenza di una verità fondamentale e dell'obiettivo di addestramento di ridurre al minimo l'output della funzione di perdita che misura la divergenza.

Per accogliere una nozione più versatile di apprendimento supervisionato, la moderna terminologia di machine learning (ML) utilizza i termini "supervisione" o "segnali di supervisione" per riferirsi a qualsiasi fonte di verità fondamentale.

Apprendimento auto-supervisionato

Etichettare i dati può diventare estremamente costoso e richiedere molto tempo per attività complesse e set di dati di grandi dimensioni. L'apprendimento auto-supervisionato implica l'addestramento su compiti in cui un segnale di supervisione viene ottenuto direttamente da dati non etichettati, quindi "auto-supervisionati".

Ad esempio, gli autoencoder vengono addestrati a comprimere (o codificare) i dati di input, quindi a ricostruire (o decodificare) l'input originale utilizzando quella rappresentazione compressa. Il loro obiettivo di addestramento è ridurre al minimo gli errori di ricostruzione, utilizzando l'input originale stesso come verità fondamentale. L'apprendimento auto-supervisionato è anche il metodo di addestramento principale per gli LLM: ai modelli vengono forniti campioni di testo con determinate parole nascoste o mascherate e vengono incaricati di prevedere le parole mancanti.

L'apprendimento auto-supervisionato è spesso associato all'apprendimento per trasferimento, in quanto può fornire foundation model con funzionalità che verranno poi messe a punto per compiti più specifici.

Apprendimento semi-supervisionato

Mentre l'apprendimento auto-supervisionato è essenzialmente un apprendimento supervisionato su dati non etichettati, i metodi di apprendimento semi-supervisionato utilizzano sia dati etichettati che dati non etichettati. In generale, l'apprendimento semi-supervisionato comprende tecniche che utilizzano le informazioni provenienti dai dati etichettati disponibili per formulare ipotesi sui punti dati non etichettati, in modo che questi ultimi possano essere incorporati nei workflow di apprendimento supervisionato.

Apprendimento non supervisionato

Gli algoritmi di machine learning non supervisionati individuano modelli intrinseci nei dati non etichettati, come somiglianze, correlazioni o potenziali raggruppamenti. Sono più utili in scenari in cui tali modelli non sono necessariamente evidenti agli osservatori umani. Poiché l'apprendimento non supervisionato non presuppone la preesistenza di un output "corretto" noto, non richiede segnali di supervisione o funzioni di perdita convenzionali, quindi "senza supervisione".

La maggior parte dei metodi di apprendimento non supervisionato svolge una delle seguenti funzioni:

  • Gli algoritmi di clustering suddividono i punti dati non etichettati in "cluster" o raggruppamenti, in base alla loro prossimità o somiglianza gli uni con gli altri. In genere vengono utilizzati per attività come la segmentazione del mercato o il rilevamento delle frodi. I principali algoritmi di cluster includono il cluster K-means, i modelli a miscela gaussiana (GMM) e i metodi basati sulla densità come DBSCAN.
  • Gli algoritmi di associazione individuano le correlazioni, ad esempio tra una particolare azione e determinate condizioni. Ad esempio, le aziende di e-commerce come Amazon utilizzano modelli di associazione senza supervisione per alimentare i motori di raccomandazione.
  • Gli algoritmi di riduzione della dimensionalità riducono la complessità dei punti dati rappresentandoli con un numero inferiore di caratteristiche, ovvero in meno dimensioni, pur preservandone le caratteristiche significative. Vengono spesso utilizzati per la pre-elaborazione dei dati, nonché per attività come la compressione o la visualizzazione dei dati. I principali algoritmi di riduzione della dimensionalità includono autoencoder, analisi dei componenti principali (PCA), analisi discriminante lineare (LDA)T-distributed Stochastic Neighbor Embedding (t-SNE).

Come suggerisce il nome, gli algoritmi di apprendimento non supervisionati possono essere intesi in qualche modo come "capaci di ottimizzarsi". Ad esempio, questa animazione mostra come un algoritmo di clustering k-means ottimizzi iterativamente il centroide di ciascun cluster. La sfida dell'addestramento di modelli non supervisionati si concentra quindi sull'efficace pre-elaborazione dei dati e sulla corretta messa a punto degli iperparametri che influenzano il processo di apprendimento, ma che non sono di per sé apprendibili, come il tasso di apprendimento o il numero di cluster.

Apprendimento per rinforzo (RL)

Mentre l'apprendimento supervisionato addestra i modelli ottimizzandoli in modo che corrispondano a esemplari ideali e gli algoritmi di apprendimento non supervisionato si adattano a un set di dati, i modelli di apprendimento per rinforzo vengono addestrati in modo olistico attraverso tentativi ed errori. Sono utilizzati principalmente nella robotica, nei videogiochi, nei modelli di ragionamento e in altri casi d'uso in cui lo spazio delle possibili soluzioni e approcci è particolarmente ampio, aperto o difficile da definire. Nella letteratura RL, un sistema di AI viene spesso definito "agente".

Al posto delle coppie indipendenti di dati input-output utilizzate nell'apprendimento supervisionato, l'apprendimento per rinforzo (RL) utilizza tuple di dati stato-azione-ricompensa interdipendenti. Invece di ridurre al minimo l'errore, l'obiettivo dell'apprendimento per rinforzo è quello di ottimizzare i parametri per massimizzare la ricompensa.

Un framework matematico per l'apprendimento per rinforzo si basa principalmente su questi componenti:

  • Lo spazio di stato contiene tutte le informazioni disponibili rilevanti per le decisioni che il modello potrebbe prendere. Cambia solitamente con ogni azione eseguita dal modello.
  • Lo spazio di azione contiene tutte le decisioni che il modello è autorizzato a prendere in un determinato momento. In un gioco da tavolo, ad esempio, lo spazio d'azione comprende tutte le mosse legali disponibili in un dato momento. Nella generazione del testo, lo spazio di azione include l'intero "vocabolario" di token disponibili per un LLM.
  • Il segnale di ricompensa è il feedback, positivo o negativo, generalmente espresso come valore scalare, fornito all'agente come risultato di ogni azione. Il valore del segnale di ricompensa potrebbe essere determinato da regole esplicite, da una funzione di ricompensa o da un modello di ricompensa addestrato separatamente.
  • Una politica è il "processo mentale" che guida il comportamento di un agente RL. Matematicamente parlando, una politica (π) è una funzione che assume uno stato ( s ) come input e restituisce un'azione (a ):   π(s)→a .

Nei metodi RL basati su politiche, come l'ottimizzazione delle politiche prossimali (PPO), il modello apprende direttamente una politica. Nei metodi basati sul valore come il Q-learning, l'agente apprende una funzione di valore che calcola un punteggio in base alla "qualità" di ogni stato, quindi sceglie le azioni che portano a stati di valore più elevato. Consideriamo un labirinto: un agente basato su una politica potrebbe imparare "a questo angolo, gira a sinistra", mentre un agente basato su un valore impara un punteggio per ogni posizione e si sposta semplicemente in una posizione adiacente con un punteggio migliore. Gli approcci ibridi, come i metodi actor-critic, apprendono una funzione di valore che viene poi utilizzata per ottimizzare una politica.  

Nell'apprendimento profondo per rinforzo, la politica è rappresentata come una rete neurale.

Deep learning

Il deep learning impiega reti neurali artificiali con molti strati (per questo è "profondo"), piuttosto che gli algoritmi progettati esplicitamente del machine learning tradizionale. Sebbene le reti neurali siano state introdotte all'inizio della storia del machine learning, è stato solo tra la fine degli anni 2000 e l'inizio del 2010, grazie in parte ai progressi delle GPU, che sono diventate dominanti nella maggior parte dei sottocampi dell'AI.

Liberamente ispirate al cervello umano, le reti neurali comprendono strati interconnessi di "neuroni" (o nodi), ognuno dei quali svolge una propria operazione matematica (chiamata "funzione di attivazione"). L'output della funzione di attivazione di ogni nodo funge da input per ciascuno dei nodi del livello successivo e così via fino al livello finale, dove viene calcolato l'output finale della rete. Fondamentalmente, le funzioni di attivazione eseguite in ciascun nodo non sono lineari e consentono alle reti neurali di modellare schemi e dipendenze complessi.

A ogni connessione tra due neuroni viene assegnato un peso unico: un moltiplicatore che aumenta o diminuisce il contributo di un neurone a un neurone nello strato successivo. Questi pesi, insieme ai termini di bias univoci aggiunti alla funzione di attivazione di ciascun neurone, sono i parametri da ottimizzare attraverso il machine learning.

L'algoritmo di retropropagazione consente di calcolare il contributo di ogni singolo nodo all'output complessivo della funzione di perdita, consentendo di ottimizzare individualmente anche milioni o miliardi di pesi del modello tramite algoritmi di discesa del gradiente. A causa del volume e della granularità degli aggiornamenti necessari per ottenere risultati ottimali, il deep learning richiede quantità molto elevate di dati e risorse computazionali rispetto al machine learning tradizionale.

Questa struttura distribuita conferisce ai modelli di deep learning la loro incredibile potenza e versatilità. Immagina i dati di addestramento come punti dati sparsi su un grafico bidimensionale. Essenzialmente, il machine learning tradizionale mira a trovare una singola curva che attraversi ognuno di questi punti dati; il deep learning mette insieme un numero arbitrario di linee più piccole e regolabili individualmente per formare la forma desiderata. Le reti neurali sono approssimatori universali: è stato teoricamente dimostrato che per qualsiasi funzione esiste una disposizione di reti neurali in grado di riprodurla.3, 4

Detto questo, solo perché qualcosa è teoricamente possibile, non significa che sia realizzabile in modo pratico attraverso i metodi di addestramento esistenti. Per molti anni, prestazioni adeguate su determinate attività sono rimaste irraggiungibili anche per i modelli di deep learning, tuttavia nel tempo le modifiche all'architettura di rete neurale standard hanno sbloccato nuove funzionalità per i modelli ML.

Reti neurali convoluzionali (CNN)

Le reti neurali convoluzionali (CNN) aggiungono livelli convoluzionali alle reti neurali. In matematica, una convoluzione è un'operazione in cui una funzione modifica (o convolve) la forma di un'altra. Nelle CNN, i livelli convoluzionali vengono utilizzati per estrarre caratteristiche importanti dai dati applicando "filtri" ponderati. Le CNN sono principalmente associate a modelli di computer vision e dati di immagini, ma hanno una serie di altri importanti casi d'uso.

A visual representation of matrix filtering applied to a numeric grid. The input image displays a 3x3 grid with numbers, while the filter and output array showcase the transformation process. Key numeric values include '9', '4', '16', and '0'. The image highlights computational concepts in data processing.

Reti neurali ricorrenti (RNN)

Le reti neurali ricorrenti (RNN) sono progettate per funzionare su dati sequenziali. Mentre le reti neurali mappano un singolo input su un singolo output, le RNN mappano una sequenza di input su un output operando in un loop ricorrente in cui l'output per un determinato passaggio della sequenza di input funge da input per il calcolo per il passaggio successivo. In effetti questo crea una "memoria" interna, chiamata stato nascosto, che consente alle RNN di comprendere il contesto e l'ordine.

Transformer

I modelli trasformatori, introdotti per la prima volta nel 2017, sono in gran parte responsabili dell'avvento degli LLM e di altri pilastri dell'AI generativa. Questi modelli ottengono risultati all'avanguardia nella maggior parte dei sottodomini del machine learning. Come gli RNN, i trasformatori sono apparentemente progettati per i dati sequenziali, ma soluzioni alternative intelligenti hanno consentito ai trasformatori di elaborare la maggior parte delle modalità di dati. La forza unica dei modelli di trasformatori deriva dal loro innovativo meccanismo di attenzione, che consente ai modelli di concentrarsi selettivamente sulle parti dei dati di input più rilevanti in un momento specifico di una sequenza.

Modelli Mamba

I modelli Mamba sono un'architettura di reti neurali relativamente nuova, introdotta per la prima volta nel 2023, basata su una variante unica dei modelli spaziali di stato (SSM). Come i trasformatori, i modelli Mamba forniscono un mezzo innovativo per dare priorità selettiva alle informazioni più rilevanti in un dato momento. Mamba è recentemente emerso come rivale dell'architettura trasformativa, in particolare per gli LLM.

Casi d'uso del machine learning

La maggior parte delle applicazioni di machine learning rientra in una o più delle seguenti categorie, definite principalmente dai casi d'uso e dalle modalità di dati su cui operano.

Computer vision

La computer vision è il sottodominio dell'AI che si occupa di dati di immagini, dati video e altre modalità di dati che richiedono un modello o una macchina per "vedere", dalla diagnostica sanitaria al riconoscimento facciale, fino alle auto a guida autonoma. Tra i campi secondari più importanti della computer vision rientrano la classificazione delle immagini, il rilevamento degli oggetti, la segmentazione delle immagini e il riconoscimento ottico dei caratteri (OCR).

Elaborazione del linguaggio naturale (NLP)

Il campo dell'elaborazione del linguaggio naturale (NLP) comprende una vasta gamma di attività riguardanti il testo, il parlato e altri tipi di dati linguistici. I principali sottodomini dell'NLP includono chatbot, riconoscimento vocaletraduzione linguisticaanalisi del sentimentgenerazione di testoriepilogo e agenti AI. Nella moderna NLP, i modelli linguistici di grandi dimensioni continuano a far progredire lo stato dell'arte a un ritmo senza precedenti.

Analisi delle serie storiche

I modelli di serie temporali vengono applicati al rilevamento delle anomalie, all'analisi di mercato e alle attività di riconoscimento o previsione dei modelli correlate. Utilizzano il machine learning sui dati storici per una varietà di casi d'uso di previsione.

Generazione di immagini

I modelli di diffusione, gli autoencoder variazionali (VAE) e le reti generative avversarie (GAN) possono essere utilizzati per generare immagini originali che applicano modelli di pixel appresi dai dati di addestramento.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Operazioni di machine learning (MLOps)

Le operazioni di machine learning (MLOps) sono un insieme di pratiche per l'implementazione di un approccio in stile linea di assemblaggio per la creazione, l'implementazione e la manutenzione di modelli di machine learning.

Un'attenta cura e pre-elaborazione dei dati di addestramento, nonché la selezione del modello giusto, sono passaggi cruciali nella pipeline MLOps. Una validazione post-addestramento attenta, dalla progettazione di set di dati di benchmarking alla definizione delle priorità di specifiche metriche di prestazione, è necessaria per garantire che un modello si generalizzi bene (e non si limiti all'overfitting dei dati di addestramento).

Dopo l'implementazione, i modelli devono essere monitorati per individuare la deriva dei modelli, i problemi di efficienza dell'inferenza e altri sviluppi negativi. Una pratica ben definita di governance dei modelli è essenziale per un'efficacia continua, soprattutto nei settori regolamentati o in rapida evoluzione.

Librerie di machine learning

Esistono numerosi strumenti, librerie e framework open source per la creazione, la formazione e il test di progetti di machine learning. Sebbene tali librerie offrano una serie di moduli e astrazioni preconfigurati per semplificare il processo di creazione di modelli e workflow basati su ML, i professionisti dovranno familiarizzare con i linguaggi di programmazione più usati, in particolare Python, per sfruttarli appieno.

Tra le librerie open source più importanti, in particolare per la creazione di modelli di deep learning, figurano PyTorchTensorFlow, Keras e la libreria Hugging Face Transformers.

I principali toolkit e le più importanti librerie di machine learning open source basati sul machine learning tradizionale includono tra gli altri Pandas, Scikit-Learn, XGBoost, Matplotlib, SciPy e NumPy.

La stessa IBM mantiene e aggiorna una importante libreria di tutorial sia per principianti che per professionisti avanzati del machine learning (ML).

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

Tutti i link sono esterni a ibm.com

1.  "Some Studies in Machine Learning Using the Game of Checkers," IBM Journal (accessed through MIT), 3 luglio 1959
2. "Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19," Interactive Journal of Medical Research, Vol 12, 30 gennaio 2023
3. "Kolmogorov's Mapping Neural Network Existence Theorem," Proceedings of the IEEE First International Conference on Neural Networks (accessed through University of Waterloo)1987
4. "Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function," Center for Research on Information Systems (New York University), marzo 1992