Che cos'è la percezione degli agenti AI?

Autori

Cole Stryker

Staff Editor, AI Models

IBM Think

Che cos'è la percezione degli agenti AI?

La percezione degli agenti AI si riferisce alla capacità di un agente di intelligenza artificiale (AI) di raccogliere, interpretare ed elaborare i dati dal suo ambiente per prendere decisioni informate. Ciò comporta l'utilizzo di sensori, input di dati o fonti esterne per comprendere lo stato attuale del sistema in cui opera.

Il processo di percezione consente a un agente basato su AI di reagire ai cambiamenti del mondo reale, adattarsi ad ambienti dinamici e gestire compiti complessi in modo efficace.

In primo luogo, gli agenti percepiscono il loro ambiente, quindi elaborano i dati raccolti per intraprendere un'azione. Un agente AI senza percezione sarebbe un sistema basato su regole o un programma guidato dalla logica che opera esclusivamente su input predefiniti e stati interni, piuttosto che interagire dinamicamente con l'ambiente.

In altre parole, non sarebbe un agente. La percezione è un aspetto fondamentale di ciò che rende gli agenti AI davvero intelligenti e utili nelle applicazioni reali.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Tipi di percezione degli agenti AI

A seconda dello scopo e dei sensori disponibili, i sistemi AI possono percepire il mondo attraverso la visione, il suono, il testo, i fattori ambientali e l'analisi predittiva.

Questi diversi tipi di percezione consentono agli agenti AI di interagire con il mondo che li circonda, ottimizzando i workflow, migliorando l'automazione e altro ancora.

Percezione visiva

La percezione visiva consente agli agenti di interpretare e rispondere al mondo attraverso immagini, video e altri dati visivi. Questa capacità imita la vista umana, consentendo all'AI di riconoscere oggetti e comprendere gli ambienti.

I progressi nella computer vision e nel deep learning hanno migliorato la percezione visiva dell'AI, portando a scoperte in numerosi campi, come i veicoli autonomi, l'assistenza sanitaria e la robotica.

Man mano che i modelli AI diventeranno più sofisticati, gli agenti AI mostreranno sempre più una comprensione visiva simile a quella umana, che consentirà loro di funzionare in modo autonomo e sicuro in scenari reali complessi.

Percezione uditiva

La percezione uditiva consente agli agenti di elaborare e comprendere i suoni. Questa capacità permette all'AI di interpretare il parlato, riconoscere i rumori ambientali e interagire con gli utenti tramite comunicazioni vocali.

I progressi nell'elaborazione del linguaggio naturale (NLP) e nel deep learning hanno notevolmente migliorato la percezione uditiva dell'AI, portando a numerose applicazioni dell'AI negli assistenti virtuali, negli strumenti di accessibilità e nei sistemi di sorveglianza.

Una delle tecnologie principali alla base della percezione uditiva dell'AI è il riconoscimento vocale automatico (ASR). I sistemi ASR convertono la lingua parlata in testo, consentendo agli assistenti vocali come Siri, Alexa e Google Assistant di comprendere e rispondere ai comandi degli utenti.

Questi sistemi impiegano reti neurali e vasti set di dati per migliorare la precisione, anche in ambienti rumorosi o con accenti diversi.

Oltre alla voce, l'AI può analizzare altri suoni, ad esempio diagnosticando patologie attraverso l'analisi dei suoni respiratori o rilevare anomalie nelle apparecchiature di un impianto.

Percezione testuale

La percezione testuale consente agli agenti di elaborare, interpretare e generare testo. Gli agenti utilizzano la PNL per estrarre significato dal testo e facilitare la comunicazione in varie applicazioni, come chatbot, motori di ricerca e strumenti di riepilogo automatici. I progressi nei modelli linguistici di grandi dimensioni (LLM) basati su trasformatori, come GPT-4, hanno migliorato la capacità dell'AI di comprendere e ragionare con il testo.

Una delle componenti chiave della percezione testuale è la comprensione semantica, che consente all'AI di andare oltre il riconoscimento delle parole e di coglierne il significato all'interno di un contesto specifico. Questo è essenziale per casi d'uso come la traduzione automatica, l'analisi del sentiment e l'analisi di documenti legali o medici.

Inoltre, la named entity recognition (NER) consente all'AI di identificare persone, luoghi e organizzazioni specifiche, migliorando la sua capacità di estrarre insight preziosi da set di dati di grandi dimensioni, una funzionalità preziosa in casi d'uso come il marketing e le esperienze dei clienti.

Percezione ambientale

La percezione ambientale negli agenti AI è distinta dalla percezione uditiva e visiva perché comporta una comprensione più ampia e multimodale dell'ambiente circostante, integrando dati da vari sensori oltre la semplice vista e il suono.

I progressi nella computer vision, nella fusione di sensori e nel machine learning hanno notevolmente migliorato la capacità dell'AI di percepire e interagire con il mondo fisico.

A differenza della sola vista o dell'udito, la percezione ambientale fonde più input sensoriali (visione, suono, LiDAR, tatto) per creare una comprensione olistica di un ambiente. Consente agli agenti AI di mappare e navigare nell'ambiente circostante utilizzando la fisica del mondo reale, mentre la percezione visiva e uditiva si concentra maggiormente sul riconoscimento passivo.

Mentre la vista e l'udito imitano le capacità degli agenti umani, la percezione ambientale si estende oltre incorporando radar, sensori di temperatura e rilevamento della pressione, consentendo all'AI di percepire cose che gli umani non possono percepire.

Percezione predittiva

La percezione predittiva consente agli agenti di anticipare eventi futuri sulla base dei dati osservati. A differenza della percezione tradizionale, che si concentra sull'interpretazione dell'ambiente presente, la percezione predittiva consente all'AI di prevedere i cambiamenti, dedurre l'intento e regolare in modo proattivo il comportamento.

Le funzionalità predittive nell'AI spesso rientrano più nell'analisi, nella previsione o nell'inferenza piuttosto che nella percezione comunemente intesa. Tuttavia, la percezione predittiva può essere considerata una categoria distinta in cui l'AI non solo percepisce l'ambiente, ma anticipa anche come cambierà, integrando la percezione con il ragionamento orientato al futuro.

Al centro della percezione predittiva ci sono i modelli di machine learning (ML), il deep learning, la modellazione probabilistica e l'apprendimento per rinforzo. I sistemi AI analizzano i dati storici e in tempo reale per riconoscere schemi e fare previsioni.

Mentre l'analytics predittiva si basa su dati storici e modelli statistici, la percezione predittiva implica il rilevamento in tempo reale combinato con il forecasting, il che la rende più dinamica e reattiva all'ambiente circostante. Sebbene sia un concetto ibrido, la percezione predittiva colma il divario tra rilevamento e previsione, consentendo agli agenti AI non solo di comprendere il presente ma di prepararsi per il futuro in tempo reale.

Agenti AI

5 tipi di agenti AI: funzioni autonome e applicazioni nel mondo reale

Scopri come l'AI basata sugli obiettivi e sulle utilità si adatta ai workflow e agli ambienti complessi.

Come funziona la percezione degli agenti

Gli agenti AI operano in un ecosistema di altri strumenti, app e framework. Si connettono tramite application programming interface (API) , che permettono loro di integrarsi con basi di conoscenza e sistemi esterni. In scenari come lo sviluppo di software, gli agenti AI aiutano a ottimizzare il codice, migliorare la latenza e automatizzare attività specifiche.

Nell'AI generativa (gen AI), questi agenti possono creare output come testo, immagini o musica in base agli input che percepiscono, utilizzando modelli di deep learning addestrati su grandi quantità di dati.

Tuttavia, prima che tutto ciò possa accadere, gli agenti devono percepire. Anche se i processi differiscono a seconda del design e del tipo di agente, i passaggi fondamentali utilizzati nella percezione degli agenti sono i seguenti:

1. Raccolta di input sensoriali

Gli agenti AI raccolgono dati non elaborati da varie fonti, come fotocamere (per la visione), microfoni (per il suono), LiDAR e radar (per la consapevolezza) e sensori di pressione o temperatura (per il rilevamento ambientale). Queste informazioni sensoriali costituiscono la base per la percezione.

2. Trattamento dei dati ed estrazione delle caratteristiche

Una volta raccolti, i dati vengono sottoposti a pre-elaborazione per rimuovere il rumore ed evidenziare le caratteristiche importanti. Ad esempio, nella computer vision, le reti neurali convoluzionali (CNN) analizzano le immagini per rilevare oggetti, volti o movimenti. Nel riconoscimento vocale, i modelli di deep learning trasformano le onde audio in testo.

3. Riconoscimento e interpretazione di schemi

Utilizzando algoritmi di machine learning, l'AI rileva modelli, relazioni e segnali contestuali. I modelli di PNL, come i trasformatori, aiutano l'AI a comprendere e generare il linguaggio umano, mentre l'apprendimento per rinforzo consente ai robot di percepire e adattarsi dinamicamente all'ambiente circostante.

4. Processo decisionale e risposta

La percezione conduce all'azione. Gli agenti AI utilizzano modelli di inferenza per decidere come reagire in base ai dati percepiti. Un'auto a guida autonoma, ad esempio, identifica i pedoni e i segnali stradali, quindi apporta modifiche alla guida in tempo reale.

Come percepiscono i diversi tipi di agenti

Il modo in cui gli agenti funzionano e percepiscono può variare notevolmente a seconda del tipo di agente, del suo scopo e delle tecnologie utilizzate: ad esempio, gli agenti con riflessi semplici reagiscono agli stimoli immediati mentre gli agenti di apprendimento complessi adattano e migliorano la loro percezione nel tempo.

Agenti con riflessi semplici

Gli agenti con riflessi reattivi percepiscono l'ambiente attraverso sensori e rispondono direttamente, spesso tramite attuatori, in base a regole predefinite, senza conservare alcuna memoria degli eventi passati. La loro percezione è spesso limitata agli input sensoriali attuali.

Agenti con riflessi basati su modelli

Gli agenti con riflessi dotati di modelli rappresentano un'evoluzione rispetto a quelli semplici perché mantengono una rappresentazione interna del mondo. Oltre a percepire l'ambiente attraverso i sensori, usano questa rappresentazione per tenere traccia dei cambiamenti dell'ambiente nel tempo.

Agenti basati su obiettivi

Gli agenti orientati agli obiettivi percepiscono l'ambiente in un modo che consente loro di perseguire obiettivi specifici. Utilizzano sensori per raccogliere informazioni e valutare in che modo la situazione attuale si allinea con i loro obiettivi.

Agenti basati sull'utilità

Gli agenti basati sull'utilità non solo perseguono degli obiettivi, ma valutano anche le diverse azioni possibili in base a una funzione di utilità, che misura quanto bene ogni azione raggiunge gli obiettivi. Questi agenti utilizzano la percezione per valutare l'ambiente e quindi scegliere azioni che massimizzano la loro soddisfazione o prestazione complessiva.

Agenti di apprendimento

Gli agenti di apprendimento percepiscono l'ambiente e prendono decisioni in base agli input dei sensori e alle esperienze passate. Sono dotati di un componente, come un algoritmo di apprendimento, che consente loro di migliorare le loro prestazioni nel tempo imparando dalle loro interazioni. Questi agenti adattano la loro percezione e i processi decisionali in base al feedback.

Sistemi multiagente

I sistemi multiagente (MAS) affrontano la percezione consentendo a più agenti autonomi di condividere informazioni, collaborare e interpretare collettivamente il loro ambiente.

Anziché fare affidamento sugli input sensoriali di un singolo agente, i sistemi multiagente utilizzano un approccio alla percezione distribuito, in alcuni casi gerarchico, in cui ogni agente può percepire diversi aspetti dell'ambiente e contribuire con informazioni a una comprensione condivisa.

Questa percezione collettiva accresce la capacità complessiva del sistema di gestire ambienti complessi e dinamici.

Inoltre, le tecniche di fusione dei sensori sono comunemente utilizzate nei sistemi multiagente per combinare i dati sensoriali di vari agenti e creare una percezione più accurata e olistica dell'ambiente.

Questo approccio può anche includere tecniche come il ragionamento distribuito, in cui gli agenti condividono le loro osservazioni, aggiornano i loro modelli interni in base ai dati condivisi e lavorano insieme per prendere decisioni collettive, come nelle missioni di ricerca e soccorso o nei sistemi di monitoraggio distribuiti.

Anche le architetture multiagente utilizzano l'apprendimento collaborativo. Man mano che gli agenti interagiscono e si scambiano informazioni nel tempo, possono imparare dalle reciproche esperienze, migliorando la percezione collettiva e il processo decisionale del sistema. Questa percezione distribuita consente ai sistemi multiagente di essere più adattive, scalabili e in grado di risolvere problemi complessi con un minimo intervento umano.

Soluzioni correlate
Agenti AI per il Business

Crea, implementa e gestisci assistenti e agenti AI potenti che automatizzano workflow e processi con l'AI generativa.

    Scopri watsonx Orchestrate
    Soluzioni per agenti AI IBM

    Costruisci il futuro della tua azienda con soluzioni AI di cui puoi fidarti.

    Esplora le soluzioni basate su agenti AI
    Servizi AI di IBM Consulting

    I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

    Esplora i servizi di intelligenza artificiale
    Prossimi passi

    Sia che tu scelga di personalizzare app e competenze precostituite o di creare e implementare servizi di agenti personalizzati utilizzando uno studio di AI, la piattaforma IBM watsonx è la soluzione che fa per te.

    Scopri watsonx Orchestrate Esplora watsonx.ai