L'idea non è nata all'improvviso. È emersa lentamente, attraverso discussioni notturne su Slack e conversazioni nei corridoi, una silenziosa riconsiderazione del modo in cui ragionano le macchine. Da qualche parte tra il caos del prompting e le aspirazioni dell'automazione, ha preso forma un nuovo concetto. Potrebbe ridefinire non solo l'intelligenza artificiale, ma anche il software stesso.
La premessa è audace: e se smettessimo di trattare i grandi modelli linguistici come misteriosi chatbot e iniziassimo a considerarli come infrastrutture programmabili? IBM si riferisce a questa disciplina emergente come computing generativo, un termine e un framework sviluppati dai suoi ricercatori per definire un nuovo approccio al lavoro con i modelli AI. Si tratta di riprogettare come i modelli AI vengono integrati nei sistemi, non come Oracle ma come componenti controllati e modulari. Se avrà successo, potrebbe segnare una svolta per lo sviluppo dell'AI, la progettazione del software e la tecnologia aziendale.
David Cox, direttore di IBM Research, ha detto a IBM Think in un'intervista di aver coniato il termine calcolo generativo per descrivere il cambiamento che vede avvenire nello sviluppo dell'AI. Non è né un marchio né un prodotto. È un cambiamento, un movimento verso il trattamento dei grandi modelli linguistici non come partner di chat intelligenti, ma come elementi programmabili. Dimentica i trucchi di magia. Questa è ingegneria del software.
"Non è che gli LLM stiano sostituendo la programmazione", ha affermato. "Il fatto è che stanno diventando un nuovo tipo di programmazione primitiva."
Oggi, interagire con un modello linguistico di grandi dimensioni è spesso come evocare un oracolo capriccioso. Modifica leggermente una frase in un prompt e l'output cambia rotta. Scrivi un prompt lungo quanto un saggio e spera, prega, convinci. È un'opera d'arte, come lo è l'astrologia, sfuggente, interpretativa e talvolta profonda. Ma per banche, ospedali e governi il misticismo non è scalabile.
"Scrivi qualcosa e ottieni una risposta diversa a seconda di come la formuli", ha affermato Ruchir Puri, Chief Scientist di IBM Research, in un'intervista con IBM Think. "È come ai primi tempi della ricerca. Siamo ancora nell'epoca in cui una virgola può cambiare l'output. Non puoi gestire un'impresa in questo modo."
Puri descrive un mondo in cui le imprese lottano non solo con allucinazioni , ma anche con la mancanza di affidabilità nel modo in cui i modelli gestiscono gli edge. "Si parla molto di allucinazioni", ha detto, "ma il problema più profondo è che non è garantito che i modelli seguano le istruzioni. Se cambi una parola in un prompt, non sai cosa otterrai." Questo, sosteneva, è l'antitesi dell'ingegneria.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Per essere chiari, nessuno sta ignorando il potere dei modelli moderni. Ciò che non funziona, ha detto Cox, è il modo in cui li usiamo. "Il prompt engineering non è ingegneria. È un giochetto. Abbiamo bisogno di un sistema in cui non dobbiamo più sperare che il modello faccia ciò che intendiamo, ma possiamo programmarlo per farlo."
La premessa alla base del calcolo generativo è semplice: considerare il modello come una funzione. Invece di seppellire le istruzioni in saggi verbosi, gli sviluppatori utilizzano un tempo di esecuzione - un livello di orchestrazione che divide i prompt in parti atomiche, li instrada, controlla le condizioni e riscrive gli errori. La logica non è solo implicita, è imposta. Il controllo diventa esplicito. La struttura ritorna.
"Pensate a internet", ha detto Cox. "Non si inviano dati non elaborati su un cavo sperando che vengano visualizzati. Ci sono i protocolli, le riprova e il routing. "È questo che stiamo aggiungendo all'AI." In pratica, ciò significa costruire sistemi stratificati che suddividono compiti complessi in istruzioni più piccole e gestibili, ciascuna delle quali viene Verify prima di procedere. "Si potrebbero avere venti piccoli prompt mirati per il modello invece di uno solo, lungo e complesso", ha detto Puri. "Ma ora è possibile registrarli tutti. Puoi riprovare. È possibile creare delle soluzioni di riserva. Ecco di cosa hanno bisogno le aziende."
Questa struttura apre anche le porte a test e validazione, due principi a lungo assenti dal gen AI. "È possibile scrivere asserzioni sul comportamento LLM nello stesso modo in cui si fa con il codice", ha affermato Cox. "E se non si ottiene il comportamento desiderato, è possibile chiedere al modello di riprovare o di passare a una subroutine diversa."
Questa idea diventa particolarmente efficace se applicata alla sicurezza. Puri dice di sentire spesso i CTO che apprezzano il potenziale degli agenti AI, ma si oppongono alla loro imprevedibilità. "Hanno paura di lasciarli fare qualsiasi cosa da soli. E se avessero delle allucinazioni? Cosa succede se inviano il messaggio sbagliato o approvano la transazione sbagliata?
Per rispondere a questa domanda, il calcolo generativo introduce strumenti come il rilevamento delle allucinazioni, la convalida del contesto e l'elaborazione basata sulla conformità. "Con il nostro tempo di esecuzione", ha affermato Cox, "è possibile interporre un modello di guardiano, che controlla l'output del modello principale. Se qualcosa sembra sospetto, può segnalarlo o richiedere un altro tentativo."
Questo tipo di stratificazione consente un livello di riproducibilità e sicurezza che la Prompt Engineering di oggi non è in grado di fornire. Gli sviluppatori possono mescolare codice tradizionale con risposte LLM, incorporando output in sistemi più grandi senza cedere il controllo.
"Non è un chatbot", ha detto Cox. "Fa parte del tuo stack software. Lo testi come testi qualsiasi altro modulo."
Questo momento, ha detto Cox, si paragona a epoche precedenti dell'informatica. Negli anni '80, l'introduzione di pattern di progettazione software, come il Model-View-Controller (MVC), permise agli sviluppatori di separare la logica dall'interfaccia, creando una base modulare e riutilizzabile per la creazione di applicazioni. Secondo lui, il calcolo generativo rappresenta un punto di svolta simile.
"Troveremo degli schemi", ha affermato. "Proprio come MVC è diventato onnipresente nello sviluppo dell'interfaccia utente, vedremo framework per orchestrare gli LLM. Questo è l'inizio di un nuovo livello nello stack software."
Questa visione della struttura è alla base di gran parte del movimento dell'informatica generativa. Invece di cercare di capire ogni neurone di un modello linguistico di grandi dimensioni, gli sviluppatori costruiscono dei guardrail che si allineano ai vincoli aziendali. "Creiamo responsabilità", ha affermato Puri.
La trasparenza, ha detto Cox, non deve necessariamente significare semplicità. "Il motore della tua auto è complicato", ha detto. "Ma è costruito all'interno di un involucro di sicurezza. Quando qualcosa si rompe, ci sono delle procedure. È quello che vogliamo per AI. Non un mistero. Ingegneria."
In termini tecnici, ciò significa esporre i passaggi intermedi del processo decisionale di un modello. Il runtime utilizzato nel calcolo generativo può generare log, allegare metadati ed eseguire la convalida a ogni passaggio.
"È una spiegazione come caratteristica", ha detto Cox. "Non come un ripensamento."
Già i modelli Granite di IBM sono stati adattati per supportare questo tipo di orchestrazione modulare. Sono ottimizzati per un'inferenza rapida ed efficiente in termini di memoria, permettendo molte piccole query al posto di un unico enorme prompt. Questo li rende adatti a un approccio basato sul runtime.
"Si possono considerare come elementi costitutivi", ha detto Puri. "Invece di cercare di fare tutto in una volta, li chiamiamo più volte per svolgere sotto-attività specifiche. È più veloce, più economico e più affidabile."
I benefici non sono solo tecnici ma anche organizzativi. In un progetto pilota, un client enterprise ha utilizzato il calcolo generativo per costruire una pipeline di classificazione dei documenti. In luogo di fare affidamento su un unico prompt per riassumere un brief legale, hanno diviso il compito in nove fasi: classificazione, segmentazione, estrazione, validazione, valutazione, riassunto, formattazione, recensioni e approvazione.
"Ogni fase veniva isolata e monitorata", ha detto Cox. "Se qualcosa non funzionava, si poteva fare una riprova o correggerla. Non potresti farlo con un solo prompt."
Puri ritiene che questo tipo di struttura diventerà la norma. "Smetteremo di pensare agli LLM come a una magia end-to-end e inizieremo a trattarli come infrastrutture", ha affermato. “Non si tratta di sostituire gli sviluppatori. Si tratta di fornire loro nuovi strumenti."
Uno di questi strumenti, ha osservato Cox, è l'LLM intrinsic, un nuovo concetto in cui funzioni speciali del modello sono esposte direttamente al tempo di esecuzione, permettendo un'integrazione più profonda e un adattamento in tempo reale. "È possibile collegare un adattatore che modifica il comportamento del modello", ha affermato. "Ciò consente di cambiare tono, ridurre i rischi e persino rilevare allucinazioni rapidamente."
Questi progressi potrebbero cambiare il modo in cui viene scritto il software. Cox immagina IDEs che includono template di orchestrazione in tempo di esecuzione per LLM, test unitari che convalidano prompt e sistemi di controllo versione che tracciano il comportamento dei modelli.
"Gli ingegneri del software dovranno acquisire nuove competenze", ha affermato. “Ma i principi fondamentali sono ancora lì: input, output, correttezza, observability. Non stiamo abbandonando l'ingegneria del software. La stiamo aggiornando."
I ricercatori prevedono che il calcolo generativo si estenderà oltre i suoi attuali casi d'uso. Con la maturazione del settore, emergeranno nuovi strati di astrazione, nuovi standard e nuovi ruoli lavorativi.
Fa una pausa. "Abbiamo impiegato un decennio per imparare come far sembrare intelligenti questi sistemi", ha affermato. "Ora dobbiamo insegnare loro come comportarsi."
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.