Come costruire una strategia di dati per supportare le tue applicazioni di AI generativa

Un'enorme parete curva di schermi in una stanza buia

L'AI generativa, nota anche come gen AI, è un tipo di intelligenza artificiale (AI) in grado di creare testo, immagini, video, audio e persino codice software in risposta a una richiesta dell'utente. In questi giorni, le organizzazioni si mettono in fila per sviluppare nuove app di AI generativa, ma spesso trascurano i passaggi necessari per elaborare una Strategia efficace che le supporti.

I modelli di AI generativa, programmi informatici addestrati a decidere in modo simile al cervello umano, richiedono enormi volumi di dati per essere addestrati. E anche se le organizzazioni possono avere un'idea brillante per un'applicazione, se i dati sottostanti non vengono gestiti correttamente, l'applicazione fallisce.

Dal costo di raccolta e elaborazione dei dati, all'infrastruttura sottostante necessaria per memorizzarli in sicurezza, fino alle esigenze in evoluzione della governance dei dati, è importante che le organizzazioni adottino un approccio strategico affinché le applicazioni abbiano successo.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

ChatGPT e la spinta verso nuove applicazioni aziendali di AI generativa

Nel 2022, il lancio di ChatGPT ha inaugurato una nuova era di innovazione nell'AI generativa, spingendo le Organizzazioni a cercare modi per utilizzare la Tecnologia per applicazioni aziendali. ChatGPT era un chatbot AI, addestrato su grandi modelli linguistici (LLM), che interagiva con gli utenti in modo conversazionale. Dal suo lancio, le organizzazioni hanno cercato di applicare la tecnologia sottostante a vari problemi aziendali, tra cui automazione, aumento della produttività e insight sui clienti.

Sono emersi anche vari rischi e sfide. Nel campo medico, ad esempio, pur avendo aiutato ad automatizzare alcune diagnosi, ha sollevato anche preoccupazioni sulla privacy e sulla sicurezza.1 Inoltre, una condizione nota come allucinazioni dell'AI rimane persistente e fa sì che alcuni modelli di AI generativa "inventino" i fatti quando non riescono a trovare la risposta a una domanda.

Ma mentre questi (e altri) problemi persistono, organizzazioni di tutte le dimensioni e di vari settori hanno Continua a investire pesantemente in questo settore, cercando nuovi modi per utilizzare la sua Power. Secondo Menlo Ventures, dal 2022 al 2023, gli investimenti delle imprese nell'AI generativa sono aumentati di sei volte, passando da 2,3 USD a. 13,8 miliardi.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Le applicazioni di AI generativa portano nuove sfide all'infrastruttura di AI

L'infrastruttura AI è un termine che descrive le soluzioni hardware e software necessarie per costruire applicazioni di AI. Nell'era dell'AI generativa, l'infrastruttura AI deve evolversi per soddisfare le maggiori esigenze di risorse di calcolo, capacità di data storage, larghezza di banda e altro ancora associato alla tecnologia. Ma le organizzazioni hanno così tanta fretta di implementare nuove applicazioni di AI generativa che a volte trascurano le esigenze di AI e infrastruttura dati.

Man mano che le organizzazioni cercano di utilizzare l'AI generativa e tutto il suo potenziale a fini aziendali, devono ripensare aspetti chiave dei loro approcci all'infrastruttura e alla strategia dati.

Convertire dati non strutturati in dati strutturati

Per creare un'applicazione aziendale di successo di AI generativa, le organizzazioni in genere necessitano di una combinazione di dati strutturati e dati non strutturati. I dati strutturati, noti anche come dati quantitativi, sono dati precedentemente formattati in modo che possano essere facilmente processati dagli algoritmi di machine learning (ML) che alimentano le applicazioni di AI generativa.

Utilizzando modelli avanzati di ML, gli algoritmi simulano il modo in cui gli esseri umani apprendono da grandi quantità di dati (set di dati) finché non riescono a comprendere le domande sui dati e a rispondere creando nuovi contenuti.

Sebbene alcuni dati raccolti dalle aziende siano già strutturati (ad esempio, informazioni finanziarie e sui clienti come nomi, date e importi delle transazioni), una grande quantità di essi non è strutturata. I dati non strutturati, noti anche come dati qualitativi, sono dati che non hanno un formato predefinito. I dati non strutturati sono di ampia portata e possono includere file video, audio e di testo provenienti da e-mail, pagine web, account di social media e sensori Internet of Things (IoT).

Con l'espansione dell'economia digitale, la quantità di dati non strutturati raccolti dalle imprese sta crescendo a un ritmo esponenziale. Secondo Forbes, tra l'80% e il 90% dei dati raccolti dalle aziende sono non strutturati. I dati non strutturati non sono adatti a scopi di ML e devono essere trasformati prima di poter essere utilizzati per addestrare un modello di AI.

La conversione di dati non strutturati in dati che possono essere elaborati da un computer e utilizzati per scopi commerciali comporta l'estrazione di informazioni rilevanti e la loro organizzazione in un formato predefinito. Il volume e la complessità dei dati creano delle sfide, e il difficile ambiente di gestione dei dati e il rispetto delle leggi sulla governance dei dati possono rivelarsi costosi.

Orientarsi nel complesso mondo della governance dei dati

La governance dei dati è la pratica che aiuta a garantire la qualità, la sicurezza e la disponibilità dei dati appartenenti a un'organizzazione attraverso un insieme di politiche e procedure. L'ascesa dell'AI generativa e dei big data ha portato la governance dei dati e tutte le sue esigenze al centro dell'impresa moderna.

L'AI generativa, con la sua capacità di creare nuovi contenuti basati sui dati su cui è stata addestrata, crea nuove esigenze nella raccolta, storage e trattamento sicura e legale dei dati.

Qualità

Poiché i modelli di AI generativa sono addestrati su enormi set di dati, i dati all'interno di questi insiemi devono essere della massima qualità e la loro integrità deve essere indiscutibile. La governance dei dati svolge un ruolo importante nell'aiutare a garantire che i set di dati su cui si addestrano i modelli di AI generativa siano accurati e completi, un elemento chiave per generare risposte su cui si possa fare affidamento.

Conformità

A seconda del settore e del luogo, le applicazioni aziendali di AI generativa devono affrontare un ambiente di conformità rigoroso per quanto riguarda l'utilizzo dei dati. Le regole del GDPR (Regolamento Generale sulla Protezione dei Dati), ad esempio, regolano come i dati appartenenti ai residenti dell'UE possano essere utilizzati dalle organizzazioni. Le violazioni comportano pesanti multe e sanzioni quando le informazioni dei clienti vengono compromesse in qualsiasi modo.

Nel 2021, Google e altre aziende sono state multate per oltre un miliardo di dollari per aver violato le norme sulla protezione dei dati stabilite dal GDPR.

Trasparenza

Perché un'applicazione di AI generativa sia efficace, l'origine dei suoi dati e il modo in cui questi sono stati trasformati per l'uso aziendale devono essere chiaramente stabiliti e visibili. La governance dei dati aiuta a garantire che la documentazione esista e che sia trasparente per gli utenti in ogni fase del ciclo di vita dei dati, dalla raccolta, passando per l'archiviazione, l'elaborazione e l'output, affinché gli utenti comprendano come è stata generata una risposta.

Best practice per costruire una strategia di dati che supporti le applicazioni di AI generativa

Il successo delle applicazioni di AI generativa dipende dalla presenza di una strategia e di un'infrastruttura di dati adeguata per supportarla. Ecco alcune best practice per garantire il successo.

Iniziare con una domanda aziendale specifica a cui la tua organizzazione deve rispondere

A causa della natura dei dati non strutturati (da dove provengono, come vengono raccolti e memorizzati) le organizzazioni tendono a raccoglierne molti.

Ma questo non significa che tutto sarà utile a un'applicazione di AI generativa. "Inizia con una domanda", consiglia Margaret Graves, Senior Fellow presso The IBM Center for the Business of Government. "Non deve essere una sola domanda, possono essercene più di una, ma cerca di concentrarti sui modi specifici in cui l'applicazione che vuoi creare promuoverà e supporterà la tua missione."

Dal debutto di ChatGPT nel 2022, le imprese hanno avuto fretta di applicare l'AI generativa a una serie di problemi aziendali, tra cui l'aumento della produttività, l'identificazione di insight e la rapidità della trasformazione digitale. Sebbene queste siano certamente aree che la tecnologia può affrontare, sono anche ampie e potrebbero portare un'organizzazione a creare un app priva di specificità.

Più il problema aziendale è specifico, più è facile identificare i set di dati rilevanti che avrai bisogno di addestrare il tuo modello di AI generativa e il tipo di infrastruttura di AI di cui avrai bisogno per supportare il processo.

Creare una strategia che aiuti a garantire che la tua applicazione abbia i dati di cui ha bisogno

Una volta che un'organizzazione ha deciso su quali domande aziendali concentrarsi un'applicazione di AI generativa, può iniziare a esaminare i set di dati rilevanti per l'addestramento dei suoi modelli AI. Graves paragona questa parte del processo all'osservazione di uno spettro. "Da un lato", afferma, "ci sono dati interni altamente riservati e proprietari sui quali è necessario addestrare il modello. Dall'altro, hai dati più generali che non sono proprietari ma aiuteranno la tua applicazione a funzionare meglio."

Il mondo delle RFP (Richiesta di Proposte) è un buon esempio, poiché rappresenta uno dei casi d'uso aziendali più interessanti dell'AI generativa emersi negli ultimi anni. Un'azienda B2B che desidera costruire un'applicazione di AI generativa per automatizzare aspetti del proprio processo RFP dovrebbe addestrare sui dati interni, altrimenti non sarebbe in grado di presentare le funzionalità uniche di un'azienda. Ma lo stesso modello di AI generativa deve anche essere addestrato su dati più generali, come costruire una frase e strutturare grammaticalmente le sue risposte, altrimenti le risposte non avrebbero senso.

"Entrambi questi aspetti devono essere riuniti nella strategia dei dati: sia i set di dati generali e ampi, sia i set di dati interni più proprietari", afferma Graves. "Altrimenti, stai solo creando uno strumento, ci stai buttando dentro un sacco di dati e aspetti di vedere cosa succede, il che è uno spreco di tempo e denaro."

Utilizzare i dati specifici del dominio quando applicabile

L'utilizzo di dati specifici del dominio, dati pertinenti a un settore o campo specifico, può aiutare le aziende a creare modelli AI più focalizzati sulle loro particolari esigenze aziendali. "Attualmente c'è un'enfasi sui dati specifici per dominio quando si tratta di addestrare modelli AI, ad esempio nei settori finanziario o delle risorse umane", afferma Jason Prow, Senior Partner di IBM Consulting. "Con tutti i dati disponibili, organizzare il proprio modello attorno a un dominio specifico sta diventando fondamentale."

Utilizzare i dati di dominio nella creazione di modelli AI aiuta a personalizzare i modelli in modi che li rendono più applicabili a una specifica esigenza aziendale. I modelli specifici per dominio sono più accurati e rilevanti per le esigenze degli utenti e possono portare a migliori prestazioni complessive delle applicazioni associate di AI generativa.

I dati specifici per dominio possono essere tecnici e complessi, quindi le organizzazioni che vogliono utilizzare devono considerare di aggiungere successivamente una "semantica", uno strato di astrazione nei loro modelli AI per aiutarli a tradurli. "In particolare, il settore farmaceutico fa molto lavoro di descrizioni semantiche", afferma Anthony Vachino, Associate Partner di IBM Consulting. "Aziende diverse conducono sperimentazioni diverse, e lo strato semantico le descrive in modi che possono aiutare a rendere la ricerca applicabile ad altre aziende, in modo che non debbano replicarla.

Posizionare la tua infrastruttura dati in modo strategico

Che si tratti di prepararsi a cambiamenti geopolitici che possono interrompere le supply chain o a disastri naturali che minacciano le infrastrutture critiche, i moderni responsabili dei dati stanno iniziando a considerare più che semplici talenti e costi quando scelgono dove archiviare e accedere ai dati. Secondo l'IBM Institute of Business Value, il 60% dei leader governativi ritiene che la frequenza degli shock nella supply chain e nelle infrastrutture aumenterà in futuro, mentre il 70% crede che aumenteranno in intensità.

Regioni diverse hanno vantaggi diversi, e bisogna considerare aspetti come i talenti, l'ecosistema e l'infrastruttura dei dati, la governance e i fattori geopolitici. I dirigenti stanno notando: l'anno scorso, secondo lo stesso report di IBV, quasi il 70% dei dirigenti intervistati ha dichiarato di aspettarsi che l'AI cambi dove trova risorse chiave, mentre quest'anno questa percentuale è salita al 96%.

Dan Chenok, Executive Director di IBM Center for the Business of Government, è interessato al potenziale dell'utilizzo dei dati distribuiti nell'addestramento dei modelli di AI generativa perché permette di memorizzare e accedere ai dati in più di una posizione. "I dati distribuiti consentono di addestrare il modello su dati che si trovano in più posizioni", afferma, "mentre la sicurezza e le normative vengono mantenute tramite il controllo degli accessi".

Supportare le applicazioni di AI generativa richiede un approccio aperto e ibrido

Le soluzioni moderne e ibride aiutano le organizzazioni a costruire modelli AI più adatti a risolvere problemi aziendali specifici, risparmiando denaro, tempo e altre risorse critiche. "Quando si integrano più piattaforme, si possono fornire servizi migliori, soprattutto se si tratta di un'azienda che lavora in più sedi", aggiunge Chenok. "E le soluzioni migliori ti aiutano a conciliare tutto in modo che la tua applicazione funzioni." 

I data lakehouse aperti e ibridi offrono agli utenti la possibilità di condividere dati sia tra infrastrutture cloud che on-premise, ovunque risiedano i dati,così da poter essere raggiunti da applicazioni di AI generativa. I data lakehouse sono piattaforme che uniscono aspetti di data warehouse e data lake in un'unica soluzione di gestione dei dati.

I data lake sono soluzioni di data storage a basso costo progettate per gestire enormi quantità di dati strutturati e non strutturati, mentre i data warehouse sono sistemi che raccolgono dati da più fonti in un'unica posizione per poterli analizzare. Sebbene non siano scalabili come lake o warehouse, i data lakehouse tendono a essere più leggeri, con prestazioni migliori e capaci di supportare una gamma più ampia di workload.

Per le aziende alla ricerca di una soluzione più completa, piattaforme come Databricks, Snowflake e Amazon RedShift stanno diventando sempre più popolari a causa della complessità della preparazione dei dati per l'AI generativa e dello sviluppo e implementare delle applicazioni. Soluzioni complete aiutano nella gestione dei dati, nell'addestramento dei modelli e nella distribuzione/implementazione delle soluzioni, permettendo alle organizzazioni di lanciare un'applicazione di AI generativa con scalabilità e governance integrate per vari casi d'uso.

IBM watsonx.data è uno storage dei dati adatto allo scopo costruito su un data lakehouse che aumenta la scalabilità dei workload di AI generativa. L'approccio aperto, ibrido e costruito per uno scopo migliora l'integrazione con diversi tipi di database, permettendo alle aziende di utilizzare dati distribuiti in diversi ecosistemi e ambienti, senza rimanere bloccate in una sola regione o insieme di regole.

 

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Servizi AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live