Che cos'è la sicurezza degli agenti AI?

Autori

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

La sicurezza dell'agente AI è la pratica di protezione sia dai rischi derivanti dall'uso dell'agente AI che dalle minacce all'applicazione dell'agente. Si tratta di proteggere gli agenti stessi e i sistemi con cui interagiscono, contribuendo a garantire che funzionino come previsto senza essere utilizzati per scopi dannosi.

Gli agenti sono sistemi AI progettati per funzionare autonomamente pianificando, prendendo decisioni e chiamando strumenti esterni. È critico proteggersi sia dagli attacchi informatici esterni che dalle azioni non intenzionali intraprese dagli agenti. Poiché l'agentic AI è un campo in rapido sviluppo, il landscape delle minacce si sta evolvendo in tempo reale insieme alla tecnologia. 

Una caratteristica distintiva degli agenti AI è la loro capacità di eseguire le chiamate agli strumenti, in cui si connettono a un'API, a un database, a un sito Web o a un altro strumento e lo utilizzano quando necessario. La chiamata agli strumenti è in genere orchestrata tramite framework di agenti AI e API. 

In teoria, gli agenti utilizzano degli strumenti per aumentare le proprie funzionalità nella pianificazione e nel completamento di attività complesse. Ad esempio, un agente del servizio clienti potrebbe interagire con un cliente, quindi connettersi a un database interno per accedere alla cronologia degli acquisti di quel cliente. 

I sistemi multiagente fanno un ulteriore passo avanti, combinando più agenti per delegare attività complesse in parti più piccole. Un agente di pianificazione centrale gestisce il workflow agentico mentre gli agenti worker completano le parti dell'attività assegnate. 

Il processo decisionale dell'AI e la chiamata degli strumenti si combinano per presentare una superficie di attacco su due fronti. Gli hacker possono manipolare il comportamento dell'agente e indurlo a fare un uso improprio degli strumenti o attaccare lo strumento stesso attraverso vettori più tradizionali come l'iniezione SQL. La sicurezza degli agenti AI mira a salvaguardare i sistemi di agentic AI da entrambi i tipi di minacce. 

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Il landscape delle minacce all'agentic AI

I sistemi di agentic AI offrono una gamma più ampia di vulnerabilità rispetto ai modelli di AI autonomi, come i modelli linguistici di grandi dimensioni (LLM) o le applicazioni software tradizionali. Anche senza la presenza di un aggressore, gli agenti stessi possono presentare rischi per la sicurezza se non gestiti e mantenuti correttamente con guardrail, autorizzazioni e controlli di accesso chiari. 

Il landscape delle minacce degli agenti AI comprende: 

  • Superficie di attacco ampliata

  • Azioni autonome in velocità 

  • Inferenza imprevedibile 

  • Mancanza di trasparenza

    Agenti AI

    5 tipi di agenti AI: funzioni autonome e applicazioni nel mondo reale

    Scopri come l'AI basata sugli obiettivi e sulle utilità si adatta ai workflow e agli ambienti complessi.

    Superficie di attacco ampliata

    Gli agenti sono spesso incorporati in sistemi più grandi che includono API, database, sistemi basati su cloud e persino altri agenti (sistemi multiagente). Ogni elemento del sistema agentico presenta la propria suite di vulnerabilità. Gli aggressori hanno a disposizione una serie di strumenti da utilizzare per colpire potenziali punti deboli del workflow.

    Azioni autonome in velocità

    L'automazione agentica implica che gli agenti agiscono senza ricevere istruzioni esplicite da un utente umano. Gli agenti possono agire rapidamente, magari mantenendo i contatti con altri agenti che stanno facendo la stessa cosa contemporaneamente. Ognuna di queste azioni e output dell'agente presenta un'opportunità di attacco e un vettore di amplificazione nel caso in cui un aggressore riesca a compromettere un agente o un intero sistema agentico.

    Inferenza imprevedibile

    L'inferenza è il processo mediante il quale gli LLM e altri modelli di AI generativa, inclusi gli agenti, prendono decisioni. In breve, usano modelli statistici per "dedurre" l'output più probabile per qualsiasi input. Poiché l'inferenza è probabilistica, gli output del modello non possono essere completamente previsti, introducendo incertezza nel comportamento dell'agente. 

    Pertanto, i fornitori di cybersecurity non possono prevedere perfettamente ciò che farà un agente. Questa imprevedibilità complica la natura della mitigazione delle minacce degli agenti rispetto alle tecniche tradizionali di cybersecurity.

    Mancanza di trasparenza

    Molti modelli AI, come i modelli GPT di OpenAI e Claude di Anthropic, non sono open source. Non è possibile "guardare dentro" il modello e capire come prende le sue decisioni. E anche i modelli open source non offrono la piena trasparenza, data la natura intrinsecamente complessa e opaca del modo in cui arrivano agli output. 

    Il personale di cybersecurity che lavora con sistemi agentici potrebbe avere più difficoltà a condurre l'analisi della causa principale e a formulare piani di risposta agli incidenti.

    Vulnerabilità dell'agentic AI

    La natura multiforme del landscape delle minacce agentiche introduce una serie di vulnerabilità che gli aggressori possono utilizzare. 

    Le vulnerabilità della sicurezza degli agenti AI includono: 

    • Iniezione di prompt 

    • Manipolazione di strumenti e API 

    • Data poisoning 

    • Memory poisoning 

    • Compromissione dei privilegi 

    • Autenticazione e spoofing del controllo degli accessi 

    • Attacchi di esecuzione di codice remoto (RCE) 

    • Errori a cascata e sovraccarico di risorse

      Iniezione di prompt

      L'iniezione di prompt è una delle vulnerabilità più gravi di qualsiasi modello linguistico di grandi dimensioni (LLM), non solo degli agenti AI. Detto questo, con gli agenti il rischio è amplificato perché possono intraprendere azioni autonome. In un attacco di iniezione di prompt, l'aggressore invia input contraddittori al LLM che lo istruiscono a comportarsi in modi non intenzionali. L'agente può essere istruito a ignorare le linee guida di sicurezza ed etica, inviare e-mail di phishing, divulgare dati o abusare di strumenti. 

      Un attacco di iniezione di prompt indiretto nasconde il prompt dannoso nell'origine dati dell'agente anziché inviarlo direttamente al modello. Quando l'agente richiama l'origine dati, ad esempio un sito Web esterno, il prompt dannoso viene inviato al modello. Gli agenti multimodali in grado di mettere in campo più tipi di dati sono particolarmente vulnerabili a questo tipo di attacco: ogni forma di dati che l'agente può elaborare è un potenziale vettore di attacco.

      Manipolazione dell'obiettivo rispetto all'hijacking dell'agente

      La manipolazione degli obiettivi e il dirottamento degli agenti sono spesso i risultati desiderati degli attacchi di iniezione di prompt. Con la manipolazione degli obiettivi, gli aggressori modificano il modo in cui un agente affronta le attività e prende decisioni modificando i suoi obiettivi o il suo processo di pensiero. L'hijacking di un agente è un attacco in cui un utente malintenzionato costringe un agente a eseguire azioni non intenzionali, come l'accesso a dati sensibili

      Manipolazione di strumenti e API

      L'agentic AI è nota per la sua capacità di utilizzare strumenti e connettersi alle API. Ma questa stessa capacità è anche una vulnerabilità. Spesso, attraverso l'iniezione di prompt, gli aggressori inducono un agente a utilizzare in modo improprio gli strumenti a cui è collegato. 

      L'uso improprio degli strumenti può provocare fughe di dati in cui l'agente esfiltra i dati sensibili degli utenti verso l'aggressore o attacchi DDoS (Distributed Denial-of-Service) in cui l'agente utilizza come arma le sue connessioni esterne. In un attacco di questo tipo, l'agente coordina un'ondata di richieste di connessione alla rete di destinazione, sovraccaricandola e costringendola all'arresto.

      Data poisoning

      Il data poisoning è l'introduzione di dati dannosi nel set di dati di addestramento di un agente o in origini dati esterne. I dati determinano il modo in cui un agente apprende, ragiona e si comporta. La corruzione dei dati di addestramento o degli input può causare comportamenti non intenzionali, come la fuga di dati. 

      Ad esempio, un agente di codifica potrebbe ricorrere a una libreria di codici esterna come riferimento. Lo slopsquatting, termine composto da "AI slop" e "typo squatting", si verifica quando qualcuno registra deliberatamente un nome di libreria di codice simile a quello di una libreria legittima. L'intento è che il modello estragga accidentalmente un sottoinsieme di codice dalla libreria falsa e lo aggiunga al codice generato. 

      Insieme all'uso improprio degli strumenti, il data poisoning è una componente dello sfruttamento della supply chain: il punto in cui un aggressore si infiltra e corrompe il sistema che circonda un agente AI.

      Memory poisoning

      Il memory poisoning è il danneggiamento della memoria persistente di un agente: i dati che conserva che lo tengono informato su ciò che ha fatto di recente. Gli attacchi di memory poisoning hanno lo scopo di modellare il comportamento futuro dell'agente alterando la sua comprensione delle azioni precedenti.

      Compromissione dei privilegi

      Un agente situato al centro di un workflow automatizzato dispone di autorizzazioni di sistema che gli consentono di accedere ai dati e agli strumenti necessari per le attività assegnate. Se gli agenti non vengono monitorati, potrebbero conservare o ottenere autorizzazioni eccessive oltre a quelle richieste. 

      Se questi privilegi non vengono rimossi quando l'agente non ne ha più bisogno, non aggiungono più valore, ma sono comunque un potenziale vettore di attacco. Gli aggressori possono utilizzare le autorizzazioni di un agente per inviare messaggi, eseguire transazioni, concedersi più autorizzazioni, modificare i sistemi, leggere dati sensibili e altro ancora.

      Spoofing dell'autenticazione e del controllo degli accessi

      Se gli aggressori riescono a rubare le credenziali degli agenti, possono fingersi agenti per compromettere i sistemi a cui l'agente ha accesso. La falsificazione dell'identità dell'agente offre agli aggressori le stesse autorizzazioni di cui l'agente stesso dispone: tutto ciò che può fare, anche l'utente non autorizzato ora può farlo. 

      I protocolli di autenticazione deboli si combinano con il machine learning per produrre un rapido movimento laterale: quando gli aggressori si spostano più in profondità in una rete dopo una violazione iniziale. Il movimento laterale apre la porta all'esfiltrazione dei dati, agli attacchi di phishing, alla distribuzione di malware e ad altro ancora. Gli aggressori possono inoltre modificare il modo in cui si comporta l'agente per alterare le azioni future.

      Attacchi di esecuzione di codice in modalità remota (RCE)

      L'esecuzione di codice remoto (RCE) è un tipo di attacco informatico in cui un utente malintenzionato inietta codice dannoso in un sistema da una posizione diversa. Con gli agenti, gli aggressori possono far eseguire all'agente codice dannoso che consente all'aggressore di accedere all'ambiente di esecuzione del codice. Un esempio comune nel mondo reale riguarda un aggressore che estrae le credenziali utente dal sistema host di un agente compromesso.

      Guasti a cascata e sovraccarico di risorse

      I guasti a cascata e il sovraccarico delle risorse comportano entrambi l'overload del sistema agentico. In un sistema multiagente, si verificano guasti a cascata quando l'output di un agente compromesso influisce negativamente sull'agente successivo della rete finché l'intero sistema non diventa inattivo. 

      Il sovraccarico di risorse è simile a un attacco DDoS contro un agente: gli aggressori sovraccaricano l'agente con richieste che superano il suo throughput, potenzialmente interrompendo il tempo di esecuzione del tutto. Dal punto di vista dell'utente finale, l'applicazione basata su un agente sembra non funzionare.

      Misure di sicurezza dell'agente AI

      Nonostante l'ampio e variegato landscape delle minacce, i sistemi di agentic AI possono essere protetti con contromisure efficaci e guardrail AI. Adottare un livello di sicurezza proattivo e seguire le best practice per la gestione delle vulnerabilità può aiutare i professionisti del machine learning e della cybersecurity a proteggere gli agenti AI e a restare un passo avanti rispetto ai criminali informatici più intraprendenti. 

      Le best practice di sicurezza per gli agenti AI includono: 

      • Architettura zero-trust 

      • Il principio del privilegio minimo 

      • Autenticazione sensibile al contesto

      • Crittografia dei dati 

      • Microsegmentazione 

      • Rafforzamento dei prompt 

      • Convalida dei prompt 

        Architettura zero-trust

        L'architettura zero-trust (ZTA) è un approccio alla cybersecurity che presuppone che nessun dispositivo su una rete sia affidabile per impostazione predefinita. Al contrario, ogni singola richiesta di accesso alla rete deve essere autenticata e autorizzata prima di poter procedere. Il monitoraggio continuo e l'autenticazione a più fattori (MFA) aiutano a prevenire le minacce. 

        Immagina la rete come un sito web e una richiesta di accesso come un utente di quel sito. Con la ZTA, nella schermata di accesso non è possibile selezionare una casella e fare in modo che il sito "si ricordi di me la prossima volta". L'utente deve inserire la password e soddisfare altri requisiti MFA ogni volta che desidera accedere. 

        Scegliendo di "non fidarsi mai, verificare sempre", ZTA riduce la capacità di un aggressore di muoversi lateralmente, riducendo la superficie di attacco e guadagnando più tempo per la risposta della sicurezza.

        Il principio del privilegio minimo

        Il principio del privilegio minimo afferma che ogni dispositivo o agente in una rete dovrebbe avere le autorizzazioni più basse possibili necessarie per le proprie responsabilità. Equivale a mettere tutti e tutto su una base rigorosa di "necessità di sapere". Il controllo degli accessi basato sui ruoli (RBAC) e il controllo degli accessi basato sugli attributi (ABAC) sono due metodi per mantenere i livelli di privilegio e aumentare la sicurezza dei dati.

        Autenticazione sensibile al contesto

        L'autenticazione sensibile al contesto consente agli agenti di recuperare i dati solo se l'utente è autorizzato ad accedervi. Le autorizzazioni di accesso possono essere regolate dinamicamente in base al ruolo dell'agente, alle autorizzazioni o anche all'ora del giorno. 

        Crittografia dei dati

        Oltre a ridurre l'accesso ai minimi termini con il principio del privilegio minimo, i dati possono essere ulteriormente protetti dagli agenti compromessi tramite crittografia. I dati in transito e inattivi devono essere crittografati con crittografia AES-256 o simile. Anche i dati contenenti informazioni sensibili, come le informazioni di identificazione personale (PII), dovrebbero essere resi anonimi per proteggere ulteriormente dipendenti e clienti.

        Microsegmentazione

        La microsegmentazione è la pratica di progettazione che consiste nel suddividere reti e ambienti in singoli segmenti. Quando gli agenti possono eseguire codice, devono farlo in ambienti sandbox per impedire il movimento laterale. I rigorosi controlli del tempo di esecuzione rafforzano ulteriormente l'ambiente per contenere l'agente all'interno della sandbox.

        Rafforzamento dei prompt

        Il rafforzamento del prompt è la pratica di sicurezza dell'AI che prevede di fornire agli LLM istruzioni rigorose e limitate che lasciano poco spazio a interpretazioni errate. Limitando un agente a una corsia stretta, i progettisti dei sistemi di machine learning possono contribuire a limitare la capacità di un aggressore di indurre l'agente a compiere comportamenti non intenzionali. 

        Le tecniche di rafforzamento del prompt includono il divieto all'agente di divulgare le sue istruzioni e il rifiuto automatico di tutte le richieste che non rientrano nel suo ambito limitato.

        Convalida dei prompt

        La convalida rapida verifica i prompt rispetto alle regole predefinite prima ancora che vengano trasmesse all'agente. Nota anche come sanificazione del prompt o convalida degli input, questa pratica aiuta a isolare gli agenti dagli attacchi di iniezione del prompt. Allo stesso modo, gli output devono essere convalidati prima dell'uso nel caso in cui l'agente sia compromesso.

        Addestramento contraddittorio

        L'adversarial training insegna ai modelli a riconoscere i potenziali attacchi inserendo input ingannevoli nei dati di addestramento. L'addestramento contraddittorio è in continuo sviluppo e deve ancora diventare un insieme standard di protocolli di addestramento.

        Soluzioni correlate
        Agenti AI per il Business

        Crea, implementa e gestisci assistenti e agenti AI potenti che automatizzano workflow e processi con l'AI generativa.

          Scopri watsonx Orchestrate
          Soluzioni per agenti AI IBM

          Costruisci il futuro della tua azienda con soluzioni AI di cui puoi fidarti.

          Esplora le soluzioni basate su agenti AI
          Servizi AI di IBM Consulting

          I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

          Esplora i servizi di intelligenza artificiale
          Prossimi passi

          Sia che tu scelga di personalizzare app e competenze precostituite o di creare e implementare servizi di agenti personalizzati utilizzando uno studio di AI, la piattaforma IBM watsonx è la soluzione che fa per te.

          Scopri watsonx Orchestrate Esplora watsonx.ai