I sistemi di AI generativa presentano una serie di sfide di sicurezza uniche. Oltre alla tipica sfida di garantire l'accesso ai modelli di AI generativa, le organizzazioni devono bilanciare il potere creativo dei modelli linguistici di grandi dimensioni (LLM) e di altre tecnologie generative con il rischio che i modelli generino output errati o indesiderati, divulghino informazioni sensibili o private o eseguano azioni indesiderate o errate/non consentite/illegali.
L'Open Web Application Security Project, OWASP, ha pubblicato la versione 1 dei principali 10 rischi e vulnerabilità per LLM e applicazioni di AI generativa. Il diagramma qui sotto illustra queste vulnerabilità nel contesto di un'architettura di agentic AI.
La figura sottostante completa l'architettura per mostrare la posizione dei componenti di sicurezza per proteggere o mitigare le vulnerabilità nella top 10 di OWASP.
Viene aggiunto un componente di gestione delle identità e degli accessi (IAM) per fornire identità e ruoli utente solidi; mitigare il rischio di furto dei modelli controllando l'accesso alle funzionalità e alle API dell'applicazione che potrebbero portare al furto o alla divulgazione del modello.
L'identificazione e il controllo degli accessi dell'agente (Agent Access Control), che funzionano in modo simile all'utente privilegiato, vengono aggiunti per abbinare i diritti di accesso dell'agente alle identità e ai ruoli dell'utente; proteggendo da azioni eccessive dell'agente e da azioni anomale dell'agente dovute ad allucinazioni o a prompt mal formulati o ambigui.
I componenti di monitoraggio dell'AI generativa (GenAI Monitoring) vengono aggiunti in tutta l'architettura per proteggere contro l'iniezione dei prompt, la gestione non sicura dell'output, la divulgazione dei dati sensibili e l'eccessiva dipendenza. Una combinazione di monitoraggio gen AI e monitoraggio tradizionale della perdita di dati viene implementata per proteggere da attacchi basati su prompt/risposte, ad esempio un prompt inserito nei risultati di una query SQL, così come la divulgazione di informazioni sensibili che possono comparire nei risultati di chiamate API, query di database e simili.
Gli attacchi di avvelenamento dei dati di addestramento sono mitigati dall'aggiunta di strumenti di gestione della configurazione e monitoraggio, oltre a un processo strutturato di controllo delle versioni e rilascio dell'addestramento del modello, messa a punto e dati di configurazione.
Infine, viene aggiunto un componente integrato di monitoraggio del comportamento e correlazione degli eventi per identificare potenziali vulnerabilità e attacchi dai registri dei singoli componenti. Viene aggiunto un componente di notifica e avviso per avvisare gli operatori di sistema di potenziali problemi, e un componente di orchestrazione delle risposte per automatizzare e/o coordinare le risposte manuali e di sistema ai problemi identificati.