Difendersi da questi attacchi è una sfida continua. Lee delinea due approcci principali: migliorare la formazione dell'AI e creare firewall AI.
"Vogliamo intraprendere un addestramento migliore in modo che il modello capisca che qualcuno sta cercando di attaccarlo", spiega Lee. "Esamineremo anche tutte le query in arrivo al modello linguistico e rileveremo le prompt injection."
Man mano che l'AI generativa diventa più integrata nella nostra vita quotidiana, comprendere queste vulnerabilità non è un problema solo per gli esperti. È sempre più fondamentale che chiunque interagisca con i sistemi di AI sia consapevole dei propri potenziali punti deboli.
Lee fa un parallelo con i primi giorni degli attacchi SQL injection ai database. "Il settore ha impiegato 5-10 anni per far capire a tutti che quando si scrive una SQL query, è necessario parametrizzare tutti gli input per essere immuni agli attacchi di injection", afferma. "Per quanto riguarda l'AI, stiamo iniziando a utilizzare modelli linguistici ovunque. Le persone devono capire che non si possono dare istruzioni semplici a un'AI, perché questo renderà il software vulnerabile."
La scoperta di metodi di jailbreak come Skeleton Key potrebbe minare la fiducia del pubblico nell'AI, rallentando potenzialmente l'adozione di tecnologie di AI vantaggiose. Secondo Narayana Pappu, CEO di Zendata, la trasparenza e la verifica indipendente sono essenziali per ricreare la fiducia.
"Gli sviluppatori di AI e le organizzazioni possono trovare un equilibrio tra la creazione di modelli linguistici potenti e versatili e la garanzia di solide garanzie contro gli usi impropri", ha detto. "Possono farlo tramite la trasparenza interna del sistema, la comprensione dei rischi dell'AI o della supply chain e l'integrazione di strumenti di valutazione in ogni fase del processo di sviluppo".