Che cos'è l'apprendimento degli agenti AI?

Autori

Cole Stryker

Staff Editor, AI Models

IBM Think

In che modo gli agenti AI apprendono e si adattano nel tempo?

L'apprendimento degli agenti AI si riferisce al processo mediante il quale un agente di intelligenza artificiale (AI) migliora le sue prestazioni nel tempo interagendo con il suo ambiente, elaborando i dati e ottimizzando il processo decisionale. Questo processo di apprendimento consente agli agenti autonomi di adattarsi, migliorare l'efficienza e gestire compiti complessi in ambienti dinamici. L'apprendimento è una componente fondamentale di molti sistemi di agentic AI.

Non tutti i tipi di agenti AI possono imparare. Alcuni sono agenti con riflessi semplici che assorbono passivamente i dati e, privi di funzionalità di apprendimento, eseguono azioni programmate reattive in risposta.

Ci sono agenti con riflessi basati su modelli che possono ragionare sul loro ambiente e agenti proattivi basati su obiettivi che possono perseguire obiettivi specifici, ma non imparano. Neanche gli agenti basati sull'utilità, che utilizzano una funzione di utilità per valutare e selezionare le azioni che massimizzano il beneficio complessivo, possono farlo.

Un agente di apprendimento migliora le sue prestazioni nel tempo adattandosi a nuove esperienze e dati. Altri agenti AI lavorano con regole o modelli predefiniti, mentre gli agenti di apprendimento aggiornano continuamente il loro comportamento in base al feedback dall'ambiente.

Questo consente loro di migliorare il processo decisionale e di ottenere risultati migliori in situazioni dinamiche e incerte. Gli agenti di apprendimento rappresentano il pieno potenziale degli strumenti AI per gestire carichi di lavoro di risoluzione di problemi in più fasi con un intervento umano minimo.

Gli agenti di apprendimento sono in genere costituiti da 4 componenti principali:

  1. Elemento di prestazioni: prende decisioni informate sulla base di una base di conoscenza.

  2. Elemento di apprendimento: regola e migliora le conoscenze dell'agente in base al feedback e all'esperienza.

  3. Critico: valuta le azioni dell'agente e fornisce un feedback, spesso sotto forma di ricompensa o penalità.

  4. Generatore di problemi: suggerisce azioni esplorative per aiutare l'agente a scoprire nuove strategie e migliorare il suo apprendimento.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Tipi di apprendimento degli agenti AI

Il machine learning (ML) costituisce la spina dorsale dei vari tipi di apprendimento degli agenti AI. Consente agli agenti di identificare modelli, fare previsioni e migliorare le prestazioni in base ai dati.

Le tre principali tecniche di machine learning utilizzate negli agenti AI sono l'apprendimento supervisionato, l'apprendimento non supervisionato e l'apprendimento per rinforzo. Più specificamente, si tratta di tecniche di deep learning che utilizzano reti neurali complesse con molti livelli per elaborare grandi quantità di dati e apprendere modelli intricati.

Apprendimento supervisionato

L'apprendimento supervisionato prevede l'addestramento di algoritmi di machine learning su set di dati etichettati, in cui ogni input corrisponde a un output noto. L'agente utilizza queste informazioni per creare modelli predittivi.

Ad esempio, i chatbot AI possono essere addestrati sulle conversazioni del servizio clienti e sulle relative risoluzioni per fornire risposte previste. Questo approccio è ampiamente applicato nel riconoscimento delle immagini, nell'elaborazione della sintesi vocale e nella diagnostica medica.

L'apprendimento per trasferimento consente agli agenti AI di utilizzare le conoscenze acquisite da un'attività e applicarle a un'altra. Ad esempio, un modello linguistico di grandi dimensioni (LLM) addestrato su un set di dati generale può essere ottimizzato per un dominio specifico, come l'elaborazione di testi legali o medici.

Apprendimento non supervisionato

Al contrario, l'apprendimento non supervisionato consente agli agenti AI di eseguire l'analisi dei dati su dati non etichettati per trovare modelli e strutture senza la supervisione umana.

Questo metodo è utile in attività come il clustering del comportamento dei clienti per migliorare le strategie di marketing, il rilevamento di anomalie nella cybersecurity e i sistemi di raccomandazione come quelli utilizzati dai servizi di streaming.

L'apprendimento auto-supervisionato utilizza l'apprendimento non supervisionato per attività che richiedono solitamente un apprendimento supervisionato. Anziché affidarsi a set di dati etichettati per i segnali di supervisione, i modelli AI auto-supervisionati generano etichette implicite dai dati non strutturati.

L'apprendimento auto-supervisionato è utile in campi come la computer vision e l'elaborazione del linguaggio naturale (NLP), che richiedono grandi quantità di dati di addestramento etichettati.

Apprendimento per rinforzo

L'apprendimento per rinforzo è un processo di machine learning che si concentra sui workflow decisionali negli agenti autonomi. Affronta i processi decisionali sequenziali in ambienti incerti.

A differenza dell'apprendimento supervisionato, l'apprendimento per rinforzo non utilizza esempi etichettati di comportamento corretto o scorretto. Tuttavia, l'apprendimento per rinforzo differisce anche dall'apprendimento non supervisionato in quanto l'apprendimento per rinforzo impara attraverso tentativi ed errori e funzioni di ricompensa, anziché estrarre informazioni da schemi nascosti.

L'apprendimento per rinforzo si distingue anche dall'apprendimento auto-supervisionato perché non produce pseudo etichette o misure rispetto a una verità fondamentale: non è un metodo di classificazione ma un apprendimento dall'azione.

Gli agenti AI che utilizzano l'apprendimento per rinforzo operano attraverso un processo di prova ed errore, in cui intraprendono azioni all'interno di un ambiente, osservano i risultati e adattano le loro strategie di conseguenza. Il processo di apprendimento prevede la definizione di una politica che associ gli stati alle azioni, ottimizzando i premi cumulativi a lungo termine anziché i guadagni immediati.

Nel tempo, l'agente affina le sue capacità decisionali attraverso interazioni ripetute, migliorando gradualmente la sua capacità di svolgere compiti complessi in modo efficace. Questo approccio è utile in ambienti dinamici in cui le regole predefinite potrebbero non essere sufficienti per prestazioni ottimali.

I veicoli autonomi utilizzano l'apprendimento per rinforzo per imparare comportamenti di guida ottimali. Attraverso tentativi ed errori, l'AI migliora la sua capacità di navigare le strade, evitare gli ostacoli e prendere decisioni di guida in tempo reale. I chatbot basati sull'AI migliorano le loro capacità di conversazione imparando dalle interazioni degli utenti e ottimizzando le risposte per migliorare il coinvolgimento.

Apprendimento continuo

L'apprendimento continuo negli agenti AI si riferisce alla capacità di un sistema di intelligenza artificiale di apprendere e adattarsi nel tempo, incorporando nuovi dati ed esperienze senza dimenticare le conoscenze precedenti.

A differenza del machine learning, che in genere prevede la formazione su un dataset, l'apprendimento continuo consente all'AI di aggiornare continuamente i suoi modelli man mano che incontra nuove informazioni o cambiamenti nel suo ambiente. Ciò consente all'agente di migliorare le proprie prestazioni in tempo reale, adattandosi a nuovi modelli, situazioni in evoluzione e condizioni dinamiche.

L'apprendimento continuo è importante nelle applicazioni del mondo reale in cui i dati cambiano costantemente e l'AI deve rimanere aggiornata con nuovi input per rimanere efficace. Aiuta a prevenire la "dimenticanza catastrofica", in cui il modello dimentica le vecchie conoscenze durante l'apprendimento di nuove informazioni e aiuta a garantire che il sistema sia in grado di gestire una serie di attività e sfide in continua evoluzione.

Apprendimento e collaborazione multiagente

Uno dei benefici degli agenti AI è che possono lavorare insieme. Nelle architetture multiagente, gli agenti AI imparano attraverso la collaborazione e la concorrenza. Nell'apprendimento cooperativo, gli agenti condividono le conoscenze per raggiungere un obiettivo comune, come si vede nella robotica a sciame.

Tuttavia, l'apprendimento competitivo si verifica quando gli agenti perfezionano le proprie strategie competendo in contesti con avversari, come l'AI nel trading finanziario.

Immagina una rete di agenti AI che lavorano per migliorare l'assistenza ai pazienti, semplificare i workflow, promuovere il rispetto di considerazioni etiche e ottimizzare l'allocazione delle risorse in una rete ospedaliera.

In questi framework multiagente, a volte un agente di apprendimento più avanzato dotato di AI generativa (gen AI) supervisiona agenti con riflessi semplici o basati su obiettivi. In questo caso d'uso, ogni agente potrebbe rappresentare un ruolo o un compito diverso all'interno del sistema sanitario e collaborerebbe e condividerebbe informazioni per migliorare gli esiti dei pazienti e l'efficienza operativa.

Agenti AI

5 tipi di agenti AI: funzioni autonome e applicazioni nel mondo reale

Scopri come l'AI basata sugli obiettivi e sulle utilità si adatta ai workflow e agli ambienti complessi.

Meccanismi di feedback

Grazie ai meccanismi di feedback, un sistema AI riceve informazioni sui risultati delle proprie azioni o previsioni, consentendogli di valutare l'accuratezza o l'efficacia del proprio comportamento.

Questo feedback, che può essere positivo (rafforzando il comportamento corretto) o negativo (penalizzando i comportamenti scorretti), è essenziale per guidare le decisioni del sistema e migliorarne le prestazioni. Il feedback è un componente critico che consente l'apprendimento nell'AI, ma non è l'intero processo di apprendimento.

Il feedback in tempo reale è fondamentale per gli agenti AI che operano in ambienti dinamici. I sistemi autonomi, come le auto a guida autonoma e la Robotic Process Automation (RPA), raccolgono continuamente i dati dei sensori e regolano il loro comportamento in base a un feedback immediato. Ciò consente loro di adattarsi alle mutevoli condizioni e di migliorare il loro processo decisionale in tempo reale.

Feedback sull'apprendimento non supervisionato

Nell'apprendimento non supervisionato, il feedback non viene fornito esplicitamente sotto forma di dati etichettati o supervisione diretta. L'agente AI ricerca invece modelli, strutture o relazioni all'interno dei dati stessi.

Ad esempio, nelle attività di clustering o riduzione della dimensionalità, il feedback avviene implicitamente quando l'agente rettifica il suo modello per rappresentare al meglio la struttura sottostante dei dati.

Il modello affina la sua comprensione dei dati attraverso metriche come la minimizzazione degli errori, ad esempio, la riduzione dell'errore di ricostruzione negli autoencoder o l'ottimizzazione di un criterio specifico, come la massimizzazione della somiglianza dei dati nel clustering.

In un sistema di gestione della supply chain che deve prevedere la domanda di prodotti e ottimizzare i livelli di inventario in più magazzini e negozi, un agente AI potrebbe utilizzare tecniche di apprendimento non supervisionato, come il clustering o il rilevamento delle anomalie, per analizzare grandi volumi di dati storici di vendita, senza la necessità di etichette esplicite o categorie.

Feedback sull'apprendimento supervisionato

Nell'apprendimento supervisionato, il feedback è esplicito e si presenta sotto forma di dati etichettati. L'agente AI viene addestrato utilizzando coppie di input/output (ad esempio, un'immagine con un'etichetta corrispondente). Dopo che l'agente ha eseguito le previsioni, viene fornito un feedback confrontando l'output con l'etichetta corretta (verità fondamentale).

La differenza tra l'output previsto e quello vero (errore) viene calcolata, spesso utilizzando una funzione di perdita. Questo feedback viene quindi utilizzato per regolare i parametri del modello in modo che il modello possa migliorare le sue previsioni nel tempo.

Gli agenti AI possono utilizzare l'apprendimento supervisionato per prevedere a quali prodotti o servizi è probabile che un cliente sia interessato, in base al comportamento passato, alla cronologia degli acquisti o alle preferenze dell'utente.

Ad esempio, una soluzione AI per una piattaforma di e-commerce può utilizzare dati storici come acquisti e valutazioni passati come esempi etichettati per addestrare un modello che preveda i prodotti che un cliente potrebbe voler acquistare successivamente, migliorando l'esperienza dei clienti.

L'apprendimento supervisionato è considerato apprendimento human-in-the-loop (HITL) perché gli agenti AI integrano il feedback per perfezionare i loro modelli, migliorare il processo decisionale e adattarsi a nuove situazioni.

Questo metodo combina l'apprendimento automatico con l'esperienza umana, consentendo all'intelligenza artificiale di gestire attività complesse in modo più efficace riducendo al minimo errori e pregiudizi. L'HITL può anche essere integrato come meccanismo di feedback in altri tipi di apprendimento, ma è parte integrante solo del processo di apprendimento autogestito.

Feedback sull'apprendimento per rinforzo

Nell'apprendimento per rinforzo (RL), il feedback viene fornito sotto forma di ricompensa o penalità. Un agente RL interagisce con un ambiente, eseguendo azioni che portano a risultati diversi. Dopo ogni azione, l'agente riceve un feedback sotto forma di ricompensa o penalità scalare che indica quanto sia stato positivo o negativo il risultato rispetto all'obiettivo.

L'agente utilizza questo feedback per modificare la sua politica o processo decisionale, con l'obiettivo di massimizzare i premi cumulativi nel tempo. Questo ciclo di feedback consente all'agente di apprendere azioni o strategie ottimali attraverso tentativi ed errori, perfezionando il suo comportamento mentre esplora l'ambiente.

Feedback sull'apprendimento auto-supervisionato

Nell'apprendimento auto-supervisionato, l'agente genera le proprie etichette dai dati, creando una forma di feedback dalla struttura all'interno dei dati stessi. Il modello utilizza parti dei dati per prevedere altre parti, come prevedere le parole mancanti in una frase o prevedere i fotogrammi futuri in un video.

Il feedback deriva dal confronto delle previsioni del modello con i dati effettivi mancanti o futuri. L'agente apprende riducendo al minimo l'errore di previsione, perfezionando le sue rappresentazioni interne in base a questo feedback generato autonomamente.

Soluzioni correlate
Agenti AI per il Business

Crea, implementa e gestisci assistenti e agenti AI potenti che automatizzano workflow e processi con l'AI generativa.

    Scopri watsonx Orchestrate
    Soluzioni per agenti AI IBM

    Costruisci il futuro della tua azienda con soluzioni AI di cui puoi fidarti.

    Esplora le soluzioni basate su agenti AI
    Servizi AI di IBM Consulting

    I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

    Esplora i servizi di intelligenza artificiale
    Prossimi passi

    Sia che tu scelga di personalizzare app e competenze precostituite o di creare e implementare servizi di agenti personalizzati utilizzando uno studio di AI, la piattaforma IBM watsonx è la soluzione che fa per te.

    Scopri watsonx Orchestrate Esplora watsonx.ai