L'AI generativa ha alterato i settori tecnologici introducendo nuovi rischi per i dati, come la fuga di dati sensibili attraverso modelli linguistici di grandi dimensioni (LLM), e provocando un aumento dei requisiti da parte dei governi. Per orientarsi nel modo giusto in questo ambiente, è importante che le organizzazioni esaminino i principi fondamentali della gestione dei dati e che si assicurino di utilizzare un approccio valido per aumentare i modelli linguistici di grandi dimensioni con dati aziendali/non pubblici.

Un buon punto di partenza è aggiornare il modo in cui le organizzazioni gestiscono i dati, in particolare per quanto riguarda il loro utilizzo nelle soluzioni di AI generativa. Ad esempio:

Convalida e creazione di funzionalità di protezione dei dati: le piattaforme di dati devono essere preparate per livelli più elevati di protezione e monitoraggio. Ciò richiede funzionalità tradizionali come crittografia, anonimizzazione e tokenizzazione, ma anche la creazione di funzionalità per classificare automaticamente i dati (sensibilità, allineamento della tassonomia) utilizzando l'apprendimento automatico. Gli strumenti di data discovery e catalogazione possono aiutare, ma devono essere aumentati per rendere la classificazione specifica per la comprensione dei propri dati da parte dell'organizzazione. Ciò consente alle organizzazioni di applicare efficacemente nuove politiche e colmare il divario tra la comprensione concettuale dei dati e la realtà di come sono state implementate le soluzioni di dati.

Migliorare i controlli, la verificabilità e la supervisione: l'accesso ai dati, l'utilizzo e il coinvolgimento di terze parti con i dati aziendali richiedono nuovi progetti con soluzioni esistenti. Per esempio, catturano una parte dei requisiti necessari per garantire l'uso autorizzato dei dati. Ma le aziende hanno bisogno di audit trail completi e sistemi di monitoraggio per monitorare come vengono utilizzati i dati, quando vengono modificati e se vengono condivisi tramite interazioni con terze parti per soluzioni gen AI e non gen AI. Non è più sufficiente controllare i dati limitandone l'accesso, e dobbiamo anche tenere traccia dei casi d'uso per i quali i dati sono accessibili e applicati all'interno di soluzioni analitiche e operative. Gli avvisi automatici e la segnalazione di accessi e utilizzi impropri (misurati mediante analisi delle query, esfiltrazione dei dati e movimento della rete) devono essere sviluppati dai team di governance dei dati e infrastruttura e rivisti regolarmente per garantire la conformità in modo proattivo.

Preparazione dei dati per la gen AI: si sta verificando un allontanamento dai modelli e dalle competenze tradizionali di data management che richiede una nuova disciplina per garantire la qualità, l'accuratezza e la pertinenza dei dati per la formazione e l'aumento dei modelli linguistici per l'uso dell'AI. Con la diffusione dei database vettoriali nel campo del gen AI, la governance dei dati deve essere migliorata per tenere conto delle piattaforme di gestione dei dati non tradizionali per garantire che le stesse pratiche siano applicate ai nuovi componenti architettonici. Il data lineage diventa ancora più importante poiché gli enti regolatori impongono la necessità di fornire "spiegabilità" nei modelli.

I dati aziendali sono spesso complessi, diversificati e sparsi in vari repository, il che rende difficile l'integrazione nelle soluzioni di gen AI. Questa complessità è aggravata dalla necessità di garantire la conformità normativa, mitigare i rischi e colmare le lacune nelle competenze nell'integrazione dei dati e nei modelli di retrieval-augmented generation (RAG). Inoltre, i dati sono spesso un aspetto secondario nella progettazione e implementazione di soluzioni di gen AI, con conseguenti inefficienze e incongruenze.