Le ultime tendenze in materia di AI, proposte da esperti
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
La percezione degli agenti AI si riferisce alla capacità di un agente di intelligenza artificiale (AI) di raccogliere, interpretare ed elaborare i dati dal suo ambiente per prendere decisioni informate. Ciò comporta l'utilizzo di sensori, input di dati o fonti esterne per comprendere lo stato attuale del sistema in cui opera.
Il processo di percezione consente a un agente basato su AI di reagire ai cambiamenti del mondo reale, adattarsi ad ambienti dinamici e gestire compiti complessi in modo efficace.
In primo luogo, gli agenti percepiscono il loro ambiente, quindi elaborano i dati raccolti per intraprendere un'azione. Un agente AI senza percezione sarebbe un sistema basato su regole o un programma guidato dalla logica che opera esclusivamente su input predefiniti e stati interni, piuttosto che interagire dinamicamente con l'ambiente.
In altre parole, non sarebbe un agente. La percezione è un aspetto fondamentale di ciò che rende gli agenti AI davvero intelligenti e utili nelle applicazioni reali.
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
A seconda dello scopo e dei sensori disponibili, i sistemi AI possono percepire il mondo attraverso la visione, il suono, il testo, i fattori ambientali e l'analisi predittiva.
Questi diversi tipi di percezione consentono agli agenti AI di interagire con il mondo che li circonda, ottimizzando i workflow, migliorando l'automazione e altro ancora.
La percezione visiva consente agli agenti di interpretare e rispondere al mondo attraverso immagini, video e altri dati visivi. Questa capacità imita la vista umana, consentendo all'AI di riconoscere oggetti e comprendere gli ambienti.
I progressi nella computer vision e nel deep learning hanno migliorato la percezione visiva dell'AI, portando a scoperte in numerosi campi, come i veicoli autonomi, l'assistenza sanitaria e la robotica.
Man mano che i modelli AI diventeranno più sofisticati, gli agenti AI mostreranno sempre più una comprensione visiva simile a quella umana, che consentirà loro di funzionare in modo autonomo e sicuro in scenari reali complessi.
La percezione uditiva consente agli agenti di elaborare e comprendere i suoni. Questa capacità permette all'AI di interpretare il parlato, riconoscere i rumori ambientali e interagire con gli utenti tramite comunicazioni vocali.
I progressi nell'elaborazione del linguaggio naturale (NLP) e nel deep learning hanno notevolmente migliorato la percezione uditiva dell'AI, portando a numerose applicazioni dell'AI negli assistenti virtuali, negli strumenti di accessibilità e nei sistemi di sorveglianza.
Una delle tecnologie principali alla base della percezione uditiva dell'AI è il riconoscimento vocale automatico (ASR). I sistemi ASR convertono la lingua parlata in testo, consentendo agli assistenti vocali come Siri, Alexa e Google Assistant di comprendere e rispondere ai comandi degli utenti.
Questi sistemi impiegano reti neurali e vasti set di dati per migliorare la precisione, anche in ambienti rumorosi o con accenti diversi.
Oltre alla voce, l'AI può analizzare altri suoni, ad esempio diagnosticando patologie attraverso l'analisi dei suoni respiratori o rilevare anomalie nelle apparecchiature di un impianto.
La percezione testuale consente agli agenti di elaborare, interpretare e generare testo. Gli agenti utilizzano la PNL per estrarre significato dal testo e facilitare la comunicazione in varie applicazioni, come chatbot, motori di ricerca e strumenti di riepilogo automatici. I progressi nei modelli linguistici di grandi dimensioni (LLM) basati su trasformatori, come GPT-4, hanno migliorato la capacità dell'AI di comprendere e ragionare con il testo.
Una delle componenti chiave della percezione testuale è la comprensione semantica, che consente all'AI di andare oltre il riconoscimento delle parole e di coglierne il significato all'interno di un contesto specifico. Questo è essenziale per casi d'uso come la traduzione automatica, l'analisi del sentiment e l'analisi di documenti legali o medici.
Inoltre, la named entity recognition (NER) consente all'AI di identificare persone, luoghi e organizzazioni specifiche, migliorando la sua capacità di estrarre insight preziosi da set di dati di grandi dimensioni, una funzionalità preziosa in casi d'uso come il marketing e le esperienze dei clienti.
La percezione ambientale negli agenti AI è distinta dalla percezione uditiva e visiva perché comporta una comprensione più ampia e multimodale dell'ambiente circostante, integrando dati da vari sensori oltre la semplice vista e il suono.
I progressi nella computer vision, nella fusione di sensori e nel machine learning hanno notevolmente migliorato la capacità dell'AI di percepire e interagire con il mondo fisico.
A differenza della sola vista o dell'udito, la percezione ambientale fonde più input sensoriali (visione, suono, LiDAR, tatto) per creare una comprensione olistica di un ambiente. Consente agli agenti AI di mappare e navigare nell'ambiente circostante utilizzando la fisica del mondo reale, mentre la percezione visiva e uditiva si concentra maggiormente sul riconoscimento passivo.
Mentre la vista e l'udito imitano le capacità degli agenti umani, la percezione ambientale si estende oltre incorporando radar, sensori di temperatura e rilevamento della pressione, consentendo all'AI di percepire cose che gli umani non possono percepire.
La percezione predittiva consente agli agenti di anticipare eventi futuri sulla base dei dati osservati. A differenza della percezione tradizionale, che si concentra sull'interpretazione dell'ambiente presente, la percezione predittiva consente all'AI di prevedere i cambiamenti, dedurre l'intento e regolare in modo proattivo il comportamento.
Le funzionalità predittive nell'AI spesso rientrano più nell'analisi, nella previsione o nell'inferenza piuttosto che nella percezione comunemente intesa. Tuttavia, la percezione predittiva può essere considerata una categoria distinta in cui l'AI non solo percepisce l'ambiente, ma anticipa anche come cambierà, integrando la percezione con il ragionamento orientato al futuro.
Al centro della percezione predittiva ci sono i modelli di machine learning (ML), il deep learning, la modellazione probabilistica e l'apprendimento per rinforzo. I sistemi AI analizzano i dati storici e in tempo reale per riconoscere schemi e fare previsioni.
Mentre l'analytics predittiva si basa su dati storici e modelli statistici, la percezione predittiva implica il rilevamento in tempo reale combinato con il forecasting, il che la rende più dinamica e reattiva all'ambiente circostante. Sebbene sia un concetto ibrido, la percezione predittiva colma il divario tra rilevamento e previsione, consentendo agli agenti AI non solo di comprendere il presente ma di prepararsi per il futuro in tempo reale.
Gli agenti AI operano in un ecosistema di altri strumenti, app e framework. Si connettono tramite application programming interface (API) , che permettono loro di integrarsi con basi di conoscenza e sistemi esterni. In scenari come lo sviluppo di software, gli agenti AI aiutano a ottimizzare il codice, migliorare la latenza e automatizzare attività specifiche.
Nell'AI generativa (gen AI), questi agenti possono creare output come testo, immagini o musica in base agli input che percepiscono, utilizzando modelli di deep learning addestrati su grandi quantità di dati.
Tuttavia, prima che tutto ciò possa accadere, gli agenti devono percepire. Anche se i processi differiscono a seconda del design e del tipo di agente, i passaggi fondamentali utilizzati nella percezione degli agenti sono i seguenti:
Gli agenti AI raccolgono dati non elaborati da varie fonti, come fotocamere (per la visione), microfoni (per il suono), LiDAR e radar (per la consapevolezza) e sensori di pressione o temperatura (per il rilevamento ambientale). Queste informazioni sensoriali costituiscono la base per la percezione.
Una volta raccolti, i dati vengono sottoposti a pre-elaborazione per rimuovere il rumore ed evidenziare le caratteristiche importanti. Ad esempio, nella computer vision, le reti neurali convoluzionali (CNN) analizzano le immagini per rilevare oggetti, volti o movimenti. Nel riconoscimento vocale, i modelli di deep learning trasformano le onde audio in testo.
Utilizzando algoritmi di machine learning, l'AI rileva modelli, relazioni e segnali contestuali. I modelli di PNL, come i trasformatori, aiutano l'AI a comprendere e generare il linguaggio umano, mentre l'apprendimento per rinforzo consente ai robot di percepire e adattarsi dinamicamente all'ambiente circostante.
La percezione conduce all'azione. Gli agenti AI utilizzano modelli di inferenza per decidere come reagire in base ai dati percepiti. Un'auto a guida autonoma, ad esempio, identifica i pedoni e i segnali stradali, quindi apporta modifiche alla guida in tempo reale.
Il modo in cui gli agenti funzionano e percepiscono può variare notevolmente a seconda del tipo di agente, del suo scopo e delle tecnologie utilizzate: ad esempio, gli agenti con riflessi semplici reagiscono agli stimoli immediati mentre gli agenti di apprendimento complessi adattano e migliorano la loro percezione nel tempo.
Gli agenti con riflessi reattivi percepiscono l'ambiente attraverso sensori e rispondono direttamente, spesso tramite attuatori, in base a regole predefinite, senza conservare alcuna memoria degli eventi passati. La loro percezione è spesso limitata agli input sensoriali attuali.
Gli agenti con riflessi dotati di modelli rappresentano un'evoluzione rispetto a quelli semplici perché mantengono una rappresentazione interna del mondo. Oltre a percepire l'ambiente attraverso i sensori, usano questa rappresentazione per tenere traccia dei cambiamenti dell'ambiente nel tempo.
Gli agenti orientati agli obiettivi percepiscono l'ambiente in un modo che consente loro di perseguire obiettivi specifici. Utilizzano sensori per raccogliere informazioni e valutare in che modo la situazione attuale si allinea con i loro obiettivi.
Gli agenti basati sull'utilità non solo perseguono degli obiettivi, ma valutano anche le diverse azioni possibili in base a una funzione di utilità, che misura quanto bene ogni azione raggiunge gli obiettivi. Questi agenti utilizzano la percezione per valutare l'ambiente e quindi scegliere azioni che massimizzano la loro soddisfazione o prestazione complessiva.
Gli agenti di apprendimento percepiscono l'ambiente e prendono decisioni in base agli input dei sensori e alle esperienze passate. Sono dotati di un componente, come un algoritmo di apprendimento, che consente loro di migliorare le loro prestazioni nel tempo imparando dalle loro interazioni. Questi agenti adattano la loro percezione e i processi decisionali in base al feedback.
I sistemi multiagente (MAS) affrontano la percezione consentendo a più agenti autonomi di condividere informazioni, collaborare e interpretare collettivamente il loro ambiente.
Anziché fare affidamento sugli input sensoriali di un singolo agente, i sistemi multiagente utilizzano un approccio alla percezione distribuito, in alcuni casi gerarchico, in cui ogni agente può percepire diversi aspetti dell'ambiente e contribuire con informazioni a una comprensione condivisa.
Questa percezione collettiva accresce la capacità complessiva del sistema di gestire ambienti complessi e dinamici.
Inoltre, le tecniche di fusione dei sensori sono comunemente utilizzate nei sistemi multiagente per combinare i dati sensoriali di vari agenti e creare una percezione più accurata e olistica dell'ambiente.
Questo approccio può anche includere tecniche come il ragionamento distribuito, in cui gli agenti condividono le loro osservazioni, aggiornano i loro modelli interni in base ai dati condivisi e lavorano insieme per prendere decisioni collettive, come nelle missioni di ricerca e soccorso o nei sistemi di monitoraggio distribuiti.
Anche le architetture multiagente utilizzano l'apprendimento collaborativo. Man mano che gli agenti interagiscono e si scambiano informazioni nel tempo, possono imparare dalle reciproche esperienze, migliorando la percezione collettiva e il processo decisionale del sistema. Questa percezione distribuita consente ai sistemi multiagente di essere più adattive, scalabili e in grado di risolvere problemi complessi con un minimo intervento umano.
Crea, implementa e gestisci assistenti e agenti AI potenti che automatizzano workflow e processi con l'AI generativa.
Costruisci il futuro della tua azienda con soluzioni AI di cui puoi fidarti.
I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.