Rivalutare la gestione dei dati nell'era dell'AI generativa

Quattro colleghi seduti e in piedi attorno a una scrivania in un ufficio con finestre alte

Autore

Geoff Baird

Associate Partner

Data & Technology Transformation

L'AI generativa ha alterato i settori tecnologici introducendo nuovi rischi per i dati, come la fuga di dati sensibili attraverso modelli linguistici di grandi dimensioni (LLM), e provocando un aumento dei requisiti da parte dei governi. Per orientarsi nel modo giusto in questo ambiente, è importante che le organizzazioni esaminino i principi fondamentali della gestione dei dati e che si assicurino di utilizzare un approccio valido per aumentare i modelli linguistici di grandi dimensioni con dati aziendali/non pubblici.

Un buon punto di partenza è aggiornare il modo in cui le organizzazioni gestiscono i dati, in particolare per quanto riguarda il loro utilizzo nelle soluzioni di AI generativa. Ad esempio:

  • Convalida e creazione di funzionalità di protezione dei dati: le piattaforme di dati devono essere preparate per livelli più elevati di protezione e monitoraggio. Ciò richiede funzionalità tradizionali come crittografia, anonimizzazione e tokenizzazione, ma anche la creazione di funzionalità per classificare automaticamente i dati (sensibilità, allineamento della tassonomia) utilizzando l'apprendimento automatico. Gli strumenti di data discovery e catalogazione possono aiutare, ma devono essere aumentati per rendere la classificazione specifica per la comprensione dei propri dati da parte dell'organizzazione. Ciò consente alle organizzazioni di applicare efficacemente nuove politiche e colmare il divario tra la comprensione concettuale dei dati e la realtà di come sono state implementate le soluzioni di dati.
  • Migliorare i controlli, la verificabilità e la supervisione: l'accesso ai dati, l'utilizzo e il coinvolgimento di terze parti con i dati aziendali richiedono nuovi progetti con soluzioni esistenti. Per esempio, catturano una parte dei requisiti necessari per garantire l'uso autorizzato dei dati. Ma le aziende hanno bisogno di audit trail completi e sistemi di monitoraggio per monitorare come vengono utilizzati i dati, quando vengono modificati e se vengono condivisi tramite interazioni con terze parti per soluzioni gen AI e non gen AI. Non è più sufficiente controllare i dati limitandone l'accesso, e dobbiamo anche tenere traccia dei casi d'uso per i quali i dati sono accessibili e applicati all'interno di soluzioni analitiche e operative. Gli avvisi automatici e la segnalazione di accessi e utilizzi impropri (misurati mediante analisi delle query, esfiltrazione dei dati e movimento della rete) devono essere sviluppati dai team di governance dei dati e infrastruttura e rivisti regolarmente per garantire la conformità in modo proattivo.
  • Preparazione dei dati per la gen AI: si sta verificando un allontanamento dai modelli e dalle competenze tradizionali di data management che richiede una nuova disciplina per garantire la qualità, l'accuratezza e la pertinenza dei dati per la formazione e l'aumento dei modelli linguistici per l'uso dell'AI. Con la diffusione dei database vettoriali nel campo del gen AI, la governance dei dati deve essere migliorata per tenere conto delle piattaforme di gestione dei dati non tradizionali per garantire che le stesse pratiche siano applicate ai nuovi componenti architettonici. Il data lineage diventa ancora più importante poiché gli enti regolatori impongono la necessità di fornire "spiegabilità" nei modelli.

I dati aziendali sono spesso complessi, diversificati e sparsi in vari repository, il che rende difficile l'integrazione nelle soluzioni di gen AI. Questa complessità è aggravata dalla necessità di garantire la conformità normativa, mitigare i rischi e colmare le lacune nelle competenze nell'integrazione dei dati e nei modelli di retrieval-augmented generation (RAG). Inoltre, i dati sono spesso un aspetto secondario nella progettazione e implementazione di soluzioni di gen AI, con conseguenti inefficienze e incongruenze.

Sbloccare il pieno potenziale dei dati aziendali per l'AI generativa

In IBM, abbiamo sviluppato un approccio per risolvere queste sfide relative ai dati: IBM® Gen AI Data Ingestion Factory, un servizio gestito progettato per affrontare il "problema dei dati" dell'AI e sbloccare il pieno potenziale dei dati aziendali per la gen AI. La nostra architettura predefinita e i nostri blueprint di codice, che possono essere implementati come servizio gestito, semplificano e accelerano il processo di integrazione dei dati aziendali nelle soluzioni di gen AI. Affrontiamo questo problema pensando alla gestione dei dati, preparando i dati per la governance, il rischio e la conformità sin dall'inizio. 

Le nostre principali funzionalità includono:

  • Inserimento dei dati scalabile: servizi riutilizzabili per scalare l'ingestione dei dati e la RAG tra casi d'uso e soluzioni di AI di ultima generazione, con modelli di suddivisione ed embedding ottimizzati.
  • Normative e conformità: i dati sono preparati per un utilizzo con la gen AI che soddisfi le normative attuali e future, aiutando le aziende a soddisfare i requisiti di conformità con i regolamenti di mercato incentrati sulla gen AI.
  • Gestione della privacy dei dati: il testo in formato lungo può essere reso anonimo non appena viene scoperto, riducendo i rischi e garantendo la privacy dei dati.

Il servizio è indipendente, consente la distribuzione ovunque e offre la personalizzazione degli ambienti e dei casi d'uso dei clienti. Utilizzando IBM Gen AI Data Ingestion Factory, le aziende possono ottenere diversi risultati chiave, tra cui:

  • Riduzione del tempo dedicato all'integrazione dei dati: un servizio gestito che riduce il tempo e gli sforzi necessari per risolvere il "problema dei dati" dell'AI Ad esempio, utilizzando un processo ripetibile per "chunking" e "embedding" dei dati in modo che non siano necessari sforzi di sviluppo per ogni nuovo caso d'uso di gen AI.
  • Utilizzo conforme dei dati: contribuire a rispettare le normative sull'utilizzo dei dati incentrate sulle applicazioni di gen AI implementate dall'azienda. Ad esempio, garantire che i dati provenienti da modelli RAG siano approvati per l'uso aziendale in soluzioni di gen AI.
  • Mitigazione del rischio: riduzione del rischio associato ai dati utilizzati nelle soluzioni di intelligenza artificiale di generazione. Ad esempio, fornire risultati trasparenti sulla provenienza dei dati per produrre un output da un modello riduce il rischio e il tempo impiegato per dimostrare alle autorità di regolamentazione come sono state reperite le informazioni.
  • Risultati coerenti e riproducibili: fornire risultati coerenti e riproducibili con LLM e soluzioni di gen AI. Ad esempio, acquisire il lignaggio e confrontare gli output (ovvero i dati generati) nel tempo per generare report sulla coerenza attraverso metriche standard come ROUGE e BLEU.

Navigare tra le complessità del rischio dei dati richiede competenze trasversali. Il nostro team di ex regolatori, leader dei settori e esperti di tecnologia di IBM Consulting è in una posizione unica per affrontare questo problema con i nostri servizi e soluzioni di consulenza. 

 
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data