L'importanza della governance dei dati per l'AI aziendale

Autore

Corey Keyser

Senior Product Manager - Data privacy and regulatory compliance

IBM

Il recente successo dei modelli linguistici di grandi dimensioni basati sull'intelligenza artificiale ha spinto il mercato a pensare in modo più ambizioso a come l'AI potrebbe trasformare molti processi aziendali. Tuttavia, consumatori e regolatori sono sempre più preoccupati per la sicurezza sia dei loro dati che dei modelli AI stessi. L'adozione sicura e diffusa dell'AI richiederà di abbracciare la governance dell'AI in tutto il ciclo di vita dei dati, al fine di fornire fiducia ai consumatori, alle imprese e alle autorità di regolamentazione. Ma come si presenta questa situazione?

Per la maggior parte, i modelli di intelligenza artificiale sono abbastanza semplici: assorbono i dati e poi apprendono i modelli da questi dati per generare un output. I modelli linguistici di grandi dimensioni (LLM) complessi, come ChatGPT e Google Bard, non fanno eccezione. Per questo motivo, quando cerchiamo di gestire e governare la distribuzione dei modelli AI, dobbiamo prima concentrarci sulla gestione dei dati su cui questi modelli vengono addestrati. Questa governance dei dati ci impone di comprendere l'origine, la sensibilità e il ciclo di vita di tutti i dati che utilizziamo. È la base di qualsiasi pratica di governance dell'AI ed è fondamentale per mitigare numerosi rischi aziendali.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Rischi dell'addestramento degli LLM su dati sensibili

I modelli linguistici di grandi dimensioni possono essere addestrati su dati proprietari per soddisfare specifici casi d'uso aziendali. Ad esempio, un'azienda potrebbe prendere ChatGPT e creare un modello privato addestrato sui dati di vendita CRM dell'azienda. Questo modello potrebbe essere distribuito come chatbot Slack per aiutare i team di vendita a trovare risposte a domande come "Quante opportunità ha vinto il prodotto X nell’ultimo anno?" oppure "Aggiornami sull'opportunità del prodotto Z con l'azienda Y".

Si potrebbe facilmente immaginare che questi LLM siano adattati a qualsiasi caso d'uso nei settori del servizio clienti, delle risorse umane o del marketing. Potremmo persino vederli aumentare la consulenza legale e medica, trasformando gli LLM in uno strumento diagnostico di prima linea utilizzato dagli operatori sanitari. Il problema è che questi casi d'uso richiedono l'addestramento degli LLM su dati proprietari sensibili. Questo è intrinsecamente rischioso. Alcuni di questi rischi includono:

1. Rischio di privacy e re-identificazione

I modelli AI imparano dai dati di addestramento, ma cosa succede se quei dati sono privati o sensibili? Una notevole quantità di dati può essere utilizzata direttamente o indirettamente per identificare individui specifici. Quindi, se stiamo addestrando un LLM su dati proprietari riguardanti i clienti di un'azienda, possiamo trovarci in situazioni in cui il consumo di quel modello potrebbe essere usato per far trapelare informazioni sensibili.

2. Dati di apprendimento integrati nel modello

Molti modelli AI hanno una fase di addestramento e poi una fase di implementazione, durante la quale l'addestramento viene messo in pausa. Gli LLM sono un po' diversi. Prendono il contesto della tua conversazione con loro, imparano da questo e poi rispondono di conseguenza.

Questo rende il compito di governare i dati di input del modello infinitamente più complesso, poiché non dobbiamo preoccuparci solo dei dati di addestramento iniziali. Ci preoccupiamo anche ogni volta che viene interrogato il modello. E se fornissimo al modello informazioni sensibili durante la conversazione? Possiamo identificare la sensibilità e impedire al modello di usarla in altri contesti?

3. Sicurezza e rischio di accesso

In certa misura, la sensibilità dei dati di addestramento determina la sensibilità del modello. Sebbene ci siano meccanismi ben consolidati per controllare l'accesso ai dati, monitorare chi accede a quali dati e poi mascherare dinamicamente i dati in base alla situazione, la sicurezza della distribuzione dell'AI è ancora un processo in fase di sviluppo. Sebbene in questo ambito emergano soluzioni, non possiamo ancora controllare completamente la sensibilità dell'output in base al ruolo della persona che utilizza il modello (ad esempio, il modello che identifica che un particolare output potrebbe essere sensibile e poi lo modifica in modo affidabile in base a chi interroga l'LLM). Per questo motivo, questi modelli possono facilmente causare fughe di qualsiasi tipo di informazione sensibile coinvolta nel loro addestramento .

4. Rischio di proprietà intellettuale

Cosa succede quando addestriamo un modello su ogni canzone di Drake e poi il modello inizia a generare copie di Drake? Il modello viola il copyright di Drake? Si può dimostrare se il modello sta in qualche modo copiando il lavoro di qualcuno?

Questo problema è ancora in fase di risoluzione da parte dei regolatori, ma potrebbe facilmente diventare un problema serio per qualsiasi forma di AI generativa che impari dalla proprietà intellettuale artistica. Ci aspettiamo che questo rischio porti a grosse cause legali in futuro, e ciò dovrà essere mitigato monitorando adeguatamente l'IP di qualsiasi dato utilizzato durante la formazione.

5. Consenso e rischio DSAR

Una delle idee chiave alla base della moderna regolamentazione sulla privacy dei dati è il consenso. I clienti devono acconsentire all'utilizzo dei loro dati e devono poter richiedere la loro cancellazione. Ciò rappresenta un problema unico per l'utilizzo dell'AI.

Se addestri un modello AI su dati sensibili dei clienti, quel modello diventa una possibile fonte di esposizione di quei dati. Se un cliente dovesse revocare l'utilizzo aziendale dei suoi dati (un requisito del GDPR) e se l'azienda avesse già addestrato un modello su quei dati, dovrebbe essenzialmente essere smantellato e riaddestrato senza accesso ai dati revocati.

Rendere gli LLM utili come software aziendale richiede la gestione dei dati di formazione in modo che le aziende possano fidarsi della sicurezza dei dati e avere una pista di controllo per il consumo dei dati da parte del LLM.

AI Academy

Fiducia, trasparenza e governance in tema di AI

La fiducia nell'AI è senza dubbio il tema più importante per quanto concerne l'AI. Comprensibilmente, si tratta anche di un tema di estrema complessità. Analizzeremo pertanto aspetti quali le allucinazioni, i bias e i rischi, condividendo spunti e suggerimenti per un'adozione dell'AI che sia etica, responsabile ed equa.

Vai all'episodio

Governance dei dati per gli LLM

La migliore analisi dell'architettura LLM che ho visto proviene da questo articolo di a16z. È davvero ben fatta ma, in quanto persona che passa tutto il suo tempo a lavorare sulla governance dei dati e sulla privacy, quella sezione in alto a sinistra di "dati contestuali → pipeline di dati" manca di qualcosa: la governance dei dati.

Se aggiungi soluzioni di governance dei dati IBM, l'angolo in alto a sinistra sarà un po' più simile a questo:

La governance dei dati alimentata da IBM® Knowledge Catalog offre diverse funzionalità per facilitare la scoperta avanzata dei dati, la qualità dei dati automatizzata e la protezione dei dati. Potrai:

Scoprire automaticamente i dati e aggiungere il contesto aziendale per una comprensione coerente
Creare un inventario dei dati verificabile catalogando i dati per consentire la scoperta dei dati in self-service
Identificare e proteggere in modo proattivo i dati sensibili per soddisfare i requisiti normativi e di privacy dei dati

L'ultimo passo è quello che più spesso viene trascurato: l'implementazione della tecnica di miglioramento della privacy. Come possiamo rimuovere le informazioni sensibili prima di darle all'AI? È possibile suddividere questa operazione in tre fasi:

Identificare i componenti sensibili dei dati che devono essere rimossi (suggerimento: questo viene stabilito durante la data discovery ed è legato al "contesto" dei dati)
Rimuovere i dati sensibili in modo da permettere comunque di usarli (ad esempio, mantenendo integrità referenziale, distribuzioni statistiche approssimativamente equivalenti, ecc.)
Conservare un registro di quanto accaduto nei punti 1) e 2) in modo che queste informazioni seguano i dati man mano che vengono elaborati dai modelli. Tale monitoraggio è utile ai fini della verificabilità.

Costruisci una base governata per l'AI generativa con IBM® watsonx e data fabric

Con IBM watsonx, IBM ha compiuto rapidi progressi per mettere il potere dell'AI generativa nelle mani degli "AI builders". IBM watsonx.ai è uno studio pronto per le aziende che riunisce machine learning (ML) e le nuove funzionalità di AI generativa alimentate da foundation model. Watsonx include anche watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open lakehouse. È supportato da query, governance e formati di dati aperti per accedere e condividere i dati nell'hybrid cloud.

Una solida base di dati è fondamentale per il successo delle implementazioni di AI. Con IBM® Data Fabric, i clienti possono costruire la giusta infrastruttura di dati per l'AI utilizzando le funzionalità di integrazione dei dati e di governance dei dati per acquisire, preparare e organizzare i dati prima che possano essere facilmente accessibili ai builder AI tramite watsonx.ai e watsonx.data.

IBM offre una soluzione di data fabric composable come parte di un portfolio aperto ed estensibile di prodotti AI che possono essere implementati su cloud di terze parti. Questa soluzione include funzionalità di governance, integrazione, osservabilità dei dati, data lineage, qualità dei dati, risoluzione delle entità e gestione della privacy dei dati

Inizia con la governance dei dati per l'AI aziendale

I modelli AI, e in particolare gli LLM, saranno una delle tecnologie più trasformative del prossimo decennio. Poiché le nuove normative sull'AI impongono linee guida sul suo uso, è fondamentale non solo gestire e governare i modelli AI, ma anche governare i dati inseriti al suo interno.

Il divario di supervisione dell'AI

Il report Cost of a Data Breach 2025 rivela come l'adozione immediata dell'AI stia superando in velocità la sicurezza e la governance.

Perché la governance dei dati è essenziale per l'AI aziendale