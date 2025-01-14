Un bambino piccolo sa che non deve impilare i blocchi più grandi su quelli più piccoli. Un robot? Non molto. Almeno fino ad ora.
I modelli AI tradizionali eccellono nell'elaborazione di testi e dati digitali, ma fanno fatica con la fisica di base che i bambini comprendono naturalmente. NVIDIA punta a cambiare questa situazione con NVIDIA Cosmos, una nuova piattaforma annunciata al CES 2025 che insegna alle macchine come funziona il mondo fisico.
La tecnologia si concentra sui "modelli del mondo", sistemi AI che formano rappresentazioni interne di struttura, dinamiche e relazioni causali. Questi modelli potrebbero trasformare il modo in cui i robot e i veicoli autonomi si muovono negli ambienti reali e aiutare in ambiti come la previsione meteorologica e la medicina.
"I modelli del mondo cambiano radicalmente il modo in cui i sistemi percepiscono e interagiscono con i loro ambienti", afferma Juan Bernabé-Moreno, direttore di IBM Research in Europa per Irlanda e Regno Unito. "Anziché limitarsi a mappare gli input in output, questi modelli formano rappresentazioni interne che catturano la struttura, la dinamica e le relazioni causali. Ciò consente di gestire i dati non strutturati in modo più fluido, adattandosi a condizioni non viste e facendo inferenze basate su un minor numero di esempi diretti o istruzioni."
La piattaforma Cosmos include foundation model che possono generare simulazioni basate sulla fisica per addestrare i sistemi AI, insieme a strumenti avanzati che NVIDIA afferma possono elaborare e etichettare 20 milioni di ore di video in sole due settimane utilizzando la sua piattaforma Blackwell, un'attività che richiederebbe oltre tre anni con l'elaborazione tradizionale con CPU.
Mentre altri modelli AI generano testo o immagini, Cosmos si concentra sulle interazioni basate sulla fisica in ambienti industriali e di guida. Gli sviluppatori possono personalizzare il sistema con i loro dati, come filmati di robot di magazzino o test drive autonomi. La piattaforma ha già attratto partner come Uber, che la vede come una potenziale via rapida verso i veicoli autonomi.
NVIDIA sta rilasciando i modelli sotto licenza aperta tramite piattaforme come Hugging Face. Il CEO Jensen Huang lo definisce un potenziale "momento ChatGPT" per la robotica, suggerendo che i foundation model potrebbero democratizzare l'AI, proprio come i modelli linguistici di grandi dimensioni (LLM) hanno trasformato la generazione di testo.
Armand Ruiz, un VP di prodotto di IBM Software focalizzato sulle piattaforme AI, ha commentato il progetto Cosmos in un post su LinkedIn, definendo il sistema di addestramento dei robot un "capolavoro tecnico". Il sistema open source, addestrato con 20 milioni di ore di filmati reali, rappresenta il tentativo di Nvidia di creare foundation model per gli spostamenti e l'interazione robotica.
"La cosa migliore è che il progetto è open source!" ha scritto Ruiz, sottolineando che Cosmos può simulare scenari come la caduta di scatole nei magazzini e consente alle aziende di personalizzare l'addestramento con i propri dati. Il sistema funziona con la piattaforma di simulazione Isaac di NVIDIA, anche se le sue prestazioni nel mondo reale devono ancora essere testate.
I ricercatori IBM hanno utilizzato questo concetto nella previsione meteorologica attraverso il loro foundation model Prithvi-Climate-and-Weather. "Ha appreso la dinamica fisica dei processi globali del sistema atmosferico", afferma Moreno. "Potrebbe essere utilizzato per generare simulazioni conformi alle leggi fisiche e attività di previsione multigranulare, nonché per il ridimensionamento a più risoluzioni."
Tre aziende si sono lanciate nel sandbox: Uber, il produttore di robot Figure AI e lo sviluppatore di veicoli autonomi Waabi hanno firmato per implementare la tecnologia. La piattaforma è dotata di una licenza di modello aperto per la personalizzazione.
Il capo scienziato dell'AI di Meta, Yann LeCun, ha spiegato che un modello del mondo è un sistema che osserva il proprio ambiente e prevede cosa potrebbe accadere dopo, considerando le sue conoscenze attuali e fattori sconosciuti che potrebbero influenzare gli esiti futuri. Osserva che i modelli linguistici di AI attuali utilizzano una versione più semplice di questo approccio: guardano solo alle informazioni passate per fare previsioni, senza considerare azioni possibili diverse o variabili sconosciute.
La capacità del modello del mondo di simulare scenari prima dell'implementazione reale può far risparmiare alle imprese sia denaro che incidenti nella robotica.
"I modelli del mondo permettono alle macchine di pianificare movimenti e interazioni in spazi simulati, spesso chiamati 'gemelli digitali', prima di tentarli nel mondo fisico", afferma Moreno. "Questo riduce drasticamente i costosi tentativi ed errori, mitiga i rischi per la sicurezza e accelera l'apprendimento per attività come l'assemblaggio industriale, la logistica dei magazzini o la robotica orientata ai servizi."
Moreno sottolinea che questi stessi principi di simulazione hanno attirato l'attenzione anche dei ricercatori medici, che hanno individuato opportunità nello sviluppo di farmaci e nel trattamento delle malattie.
"In ambito sanitario, i modelli del mondo unificano i dati provenienti da più domini (genomico, proteomico, trascrittomico e chimico) per catturare le complessità dei sistemi biologici su larga scala", afferma Moreno. "Questa visione olistica consente a ricercatori e medici di scoprire modelli nascosti in grandi set di dati biomedici, consentendo attività come la previsione delle perturbazioni geniche, la classificazione dello stato di malattia e la modellazione della risposta alla terapia."
Tuttavia, il raggiungimento di queste ambiziose applicazioni sanitarie richiede risorse di calcolo straordinarie. L'addestramento di questi modelli richiede una potenza di elaborazione e risorse enormi, anche con hardware specializzato. Il primo lotto di modelli Cosmos arriva quest'anno nel catalogo API di NVIDIA, insieme a strumenti per l'elaborazione dei dati video.
L'investimento negli strumenti di calcolo potrebbe aprire nuove porte in tutti i settori. Attraverso i modelli di AI del mondo, le organizzazioni possono creare gemelli virtuali delle loro operazioni per testare in sicurezza i cambiamenti significativi prima dell'implementazione. Queste sofisticate simulazioni possono consentire alle aziende di sperimentare diverse configurazioni, sia che stiano pianificando un nuovo layout di magazzino, sia che stiano aggiungendo dei robot al loro workflow, senza interrompere la loro attività reale.
"Gli approcci tradizionali di gen AI funzionano tipicamente su dati testuali o puramente digitali, senza la capacità di ragionare su oggetti e forze fisiche", afferma Moreno. "Codificando le leggi che governano le interazioni nel mondo reale, i modelli del mondo possono simulare e prevedere risultati oltre il testo o le immagini."
Scopri come i CEO possono trovare il giusto equilibrio tra il valore che l'AI generativa può creare, gli investimenti che richiede e i rischi che introduce.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.