Il recente successo dei modelli linguistici di grandi dimensioni basati sull'intelligenza artificiale ha spinto il mercato a pensare in modo più ambizioso a come l'AI potrebbe trasformare molti processi aziendali. Tuttavia, consumatori e regolatori sono sempre più preoccupati per la sicurezza sia dei loro dati che dei modelli AI stessi. L'adozione sicura e diffusa dell'AI richiederà di abbracciare la governance dell'AI in tutto il ciclo di vita dei dati, al fine di fornire fiducia ai consumatori, alle imprese e alle autorità di regolamentazione. Ma come si presenta questa situazione?
Per la maggior parte, i modelli di intelligenza artificiale sono abbastanza semplici: assorbono i dati e poi apprendono i modelli da questi dati per generare un output. I modelli linguistici di grandi dimensioni (LLM) complessi, come ChatGPT e Google Bard, non fanno eccezione. Per questo motivo, quando cerchiamo di gestire e governare la distribuzione dei modelli AI, dobbiamo prima concentrarci sulla gestione dei dati su cui questi modelli vengono addestrati. Questa governance dei dati ci impone di comprendere l'origine, la sensibilità e il ciclo di vita di tutti i dati che utilizziamo. È la base di qualsiasi pratica di governance dell'AI ed è fondamentale per mitigare numerosi rischi aziendali.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
I modelli linguistici di grandi dimensioni possono essere addestrati su dati proprietari per soddisfare specifici casi d'uso aziendali. Ad esempio, un'azienda potrebbe prendere ChatGPT e creare un modello privato addestrato sui dati di vendita CRM dell'azienda. Questo modello potrebbe essere distribuito come chatbot Slack per aiutare i team di vendita a trovare risposte a domande come "Quante opportunità ha vinto il prodotto X nell’ultimo anno?" oppure "Aggiornami sull'opportunità del prodotto Z con l'azienda Y".
Si potrebbe facilmente immaginare che questi LLM siano adattati a qualsiasi caso d'uso nei settori del servizio clienti, delle risorse umane o del marketing. Potremmo persino vederli aumentare la consulenza legale e medica, trasformando gli LLM in uno strumento diagnostico di prima linea utilizzato dagli operatori sanitari. Il problema è che questi casi d'uso richiedono l'addestramento degli LLM su dati proprietari sensibili. Questo è intrinsecamente rischioso. Alcuni di questi rischi includono:
I modelli AI imparano dai dati di addestramento, ma cosa succede se quei dati sono privati o sensibili? Una notevole quantità di dati può essere utilizzata direttamente o indirettamente per identificare individui specifici. Quindi, se stiamo addestrando un LLM su dati proprietari riguardanti i clienti di un'azienda, possiamo trovarci in situazioni in cui il consumo di quel modello potrebbe essere usato per far trapelare informazioni sensibili.
Molti modelli AI hanno una fase di addestramento e poi una fase di implementazione, durante la quale l'addestramento viene messo in pausa. Gli LLM sono un po' diversi. Prendono il contesto della tua conversazione con loro, imparano da questo e poi rispondono di conseguenza.
Questo rende il compito di governare i dati di input del modello infinitamente più complesso, poiché non dobbiamo preoccuparci solo dei dati di addestramento iniziali. Ci preoccupiamo anche ogni volta che viene interrogato il modello. E se fornissimo al modello informazioni sensibili durante la conversazione? Possiamo identificare la sensibilità e impedire al modello di usarla in altri contesti?
In certa misura, la sensibilità dei dati di addestramento determina la sensibilità del modello. Sebbene ci siano meccanismi ben consolidati per controllare l'accesso ai dati, monitorare chi accede a quali dati e poi mascherare dinamicamente i dati in base alla situazione, la sicurezza della distribuzione dell'AI è ancora un processo in fase di sviluppo. Sebbene in questo ambito emergano soluzioni, non possiamo ancora controllare completamente la sensibilità dell'output in base al ruolo della persona che utilizza il modello (ad esempio, il modello che identifica che un particolare output potrebbe essere sensibile e poi lo modifica in modo affidabile in base a chi interroga l'LLM). Per questo motivo, questi modelli possono facilmente causare fughe di qualsiasi tipo di informazione sensibile coinvolta nel loro addestramento .
Cosa succede quando addestriamo un modello su ogni canzone di Drake e poi il modello inizia a generare copie di Drake? Il modello viola il copyright di Drake? Si può dimostrare se il modello sta in qualche modo copiando il lavoro di qualcuno?
Questo problema è ancora in fase di risoluzione da parte dei regolatori, ma potrebbe facilmente diventare un problema serio per qualsiasi forma di AI generativa che impari dalla proprietà intellettuale artistica. Ci aspettiamo che questo rischio porti a grosse cause legali in futuro, e ciò dovrà essere mitigato monitorando adeguatamente l'IP di qualsiasi dato utilizzato durante la formazione.
Una delle idee chiave alla base della moderna regolamentazione sulla privacy dei dati è il consenso. I clienti devono acconsentire all'utilizzo dei loro dati e devono poter richiedere la loro cancellazione. Ciò rappresenta un problema unico per l'utilizzo dell'AI.
Se addestri un modello AI su dati sensibili dei clienti, quel modello diventa una possibile fonte di esposizione di quei dati. Se un cliente dovesse revocare l'utilizzo aziendale dei suoi dati (un requisito del GDPR) e se l'azienda avesse già addestrato un modello su quei dati, dovrebbe essenzialmente essere smantellato e riaddestrato senza accesso ai dati revocati.
Rendere gli LLM utili come software aziendale richiede la gestione dei dati di formazione in modo che le aziende possano fidarsi della sicurezza dei dati e avere una pista di controllo per il consumo dei dati da parte del LLM.
La migliore analisi dell'architettura LLM che ho visto proviene da questo articolo di a16z. È davvero ben fatta ma, in quanto persona che passa tutto il suo tempo a lavorare sulla governance dei dati e sulla privacy, quella sezione in alto a sinistra di "dati contestuali → pipeline di dati" manca di qualcosa: la governance dei dati.
Se aggiungi soluzioni di governance dei dati IBM, l'angolo in alto a sinistra sarà un po' più simile a questo:
La governance dei dati alimentata da IBM® Knowledge Catalog offre diverse funzionalità per facilitare la scoperta avanzata dei dati, la qualità dei dati automatizzata e la protezione dei dati. Potrai:
L'ultimo passo è quello che più spesso viene trascurato: l'implementazione della tecnica di miglioramento della privacy. Come possiamo rimuovere le informazioni sensibili prima di darle all'AI? È possibile suddividere questa operazione in tre fasi:
Con IBM watsonx, IBM ha compiuto rapidi progressi per mettere il potere dell'AI generativa nelle mani degli "AI builders". IBM watsonx.ai è uno studio pronto per le aziende che riunisce machine learning (ML) e le nuove funzionalità di AI generativa alimentate da foundation model. Watsonx include anche watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open lakehouse. È supportato da query, governance e formati di dati aperti per accedere e condividere i dati nell'hybrid cloud.
Una solida base di dati è fondamentale per il successo delle implementazioni di AI. Con IBM® Data Fabric, i clienti possono costruire la giusta infrastruttura di dati per l'AI utilizzando le funzionalità di integrazione dei dati e di governance dei dati per acquisire, preparare e organizzare i dati prima che possano essere facilmente accessibili ai builder AI tramite watsonx.ai e watsonx.data.
IBM offre una soluzione di data fabric composable come parte di un portfolio aperto ed estensibile di prodotti AI che possono essere implementati su cloud di terze parti. Questa soluzione include funzionalità di governance, integrazione, osservabilità dei dati, data lineage, qualità dei dati, risoluzione delle entità e gestione della privacy dei dati
I modelli AI, e in particolare gli LLM, saranno una delle tecnologie più trasformative del prossimo decennio. Poiché le nuove normative sull'AI impongono linee guida sul suo uso, è fondamentale non solo gestire e governare i modelli AI, ma anche governare i dati inseriti al suo interno.
Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.
Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.
Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.