Che cos'è il tool calling?

Autori

Cole Stryker

Staff Editor, AI Models

IBM Think

Che cos'è il tool calling?

Il tool calling è la capacità dei modelli di intelligenza artificiale (AI) di interagire con strumenti, application programming interface (API) o sistemi esterni per migliorare le loro funzioni.

Anziché affidarsi esclusivamente a conoscenze pre-addestrate, un sistema AI con funzionalità di tool calling può interrogare database, recuperare informazioni in tempo reale, eseguire funzioni o eseguire operazioni complesse oltre le sue capacità native.

Il tool calling, a volte denominato chiamata di funzione, è un fattore chiave dell'agentic AI. Consente ai sistemi autonomi di completare compiti complessi accedendo dinamicamente e agendo su risorse esterne.

Anziché limitarsi a rispondere alle domande, i modelli linguistici di grandi dimensioni (LLM) con tool calling possono automatizzare i workflow, interagire con i database, eseguire la risoluzione dei problemi in più fasi, prendere decisioni in tempo reale e altro ancora.

Questa evoluzione sta trasformando gli LLM da assistenti passivi in agenti digitali proattivi in grado di svolgere compiti complessi.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Perché il tool calling è importante?

I modelli linguistici di grandi dimensioni (LLM) sono tradizionalmente limitati dai dati su cui vengono addestrati, un processo che può richiedere molto tempo e risorse di calcolo.

Anche se i principali LLM sono addestrati su ampi set di dati, la necessità di dati in tempo reale, di calcoli esterni e di una maggiore interattività ha portato all'integrazione delle funzionalità di tool calling.

I primi LLM, incluso il GPT-2 di OpenAI, erano statici.

Generavano risposte in base ai dati di addestramento senza la possibilità di recuperare nuove informazioni. Sebbene straordinari, mancavano di consapevolezza del mondo reale e avevano difficoltà con query dinamiche che richiedono dati in tempo reale, come eventi attuali, prezzi delle azioni o azioni specifiche degli utenti.

Per superare questo limite, gli sviluppatori hanno iniziato ad integrare plug-in, API e database esterni, consentendo ai modelli di richiedere ed elaborare informazioni in tempo reale, anziché fare affidamento esclusivamente sui dati di addestramento statici.

Gli sviluppatori hanno addestrato gli LLM a riconoscere quando una query richiedeva assistenza esterna. Inoltre, i sistemi esterni hanno spesso un particolare schema di input. Le richieste di tool calling modellano le risposte che corrispondono allo schema specifico utilizzato dai sistemi esterni.

Agenti AI

5 tipi di agenti AI: funzioni autonome e applicazioni nel mondo reale

Scopri come l'AI basata sugli obiettivi e sulle utilità si adatta ai workflow e agli ambienti complessi.

Come funziona il tool calling?

La chiamata degli strumenti coinvolge diversi componenti chiave che collaborano per facilitare l'interazione dell'AI con strumenti esterni. I moderni LLM, tra cui Claude di Anthropic, Llama 3 di Meta, Mistral e IBM® Granite, possiedono tutti funzionalità di chiamata agli strumenti, ma li gestiscono in modo leggermente diverso.

Il primo componente è il modello AI stesso, che riconosce quando non dispone di conoscenze sufficienti o necessita di una funzione esterna per completare una richiesta.

Successivamente, il meccanismo di selezione degli strumenti identifica le dipendenze appropriate per gestire il compito specifico, che si tratti di un motore di ricerca, di un database o di una risorsa di calcolo.

Quando viene selezionato uno strumento, entra in gioco l'interfaccia API, che consente all'AI di inviare query strutturate e ricevere risposte in un formato leggibile da una macchina.

Infine, il sistema di elaborazione delle risposte aiuta a garantire che i dati recuperati siano formattati correttamente e presentati all'utente in modo significativo.

Passaggio 1: riconoscimento della necessità di uno strumento

Supponiamo che un utente chieda a un LLM: "Che tempo fa a San Francisco in questo momento?" L'AI utilizza il Natural Language Understanding per riconoscere che sono necessari dati meteorologici in tempo reale, che non possono essere derivati dalla sua base di conoscenza statica.

Viene assegnato automaticamente un ID univoco alla richiesta di un modello di utilizzare uno strumento, che funge da numero di tracciamento per collegare la richiesta al suo risultato.

Passaggio 2: selezione dello strumento

L'AI identifica lo strumento più adatto per il compito da svolgere, in questo caso consultando un database meteorologico aggiornato. Questo passaggio contribuisce a garantire che le informazioni recuperate siano accurate e pertinenti.

Ogni strumento contiene metadati e informazioni strutturate, come un nome univoco dello strumento (o nome della funzione), che aiuta il modello e il sistema a identificarlo correttamente. Altri metadati includono descrizione, parametri dello strumento e i tipi di input e output richiesti.

Il modello esegue una scelta dello strumento dopo aver stabilito che i dati devono essere ottenuti da una serie di strumenti disponibili.

I modelli sono formati di prompt strutturati che indicano al modello quale strumento utilizzare e quali argomenti (o "arg") fornire, consentendo interazioni più controllate e strutturate con le API.

Nel contesto del tool calling, gli arg si riferiscono agli input strutturati che vengono passati a uno strumento o a una funzione quando viene avviata da un modello generativo. Questi argomenti definiscono i parametri che lo strumento richiede per essere eseguito correttamente.

Combinare il tool calling con la retrieval-augmented generation (RAG) migliora le funzionalità dell'AI, consentendo ai sistemi di recuperare sia i dati strutturati che i dati non strutturati prima di generare output strutturati.

Questo approccio migliora la rilevanza contestuale recuperando i dati più pertinenti prima di generare una risposta, portando a output più informati e accurati.

Inoltre, riduce al minimo il sovraccarico delle API consolidando più recuperi in un unico passaggio, riducendo latenza e costi. La RAG è più flessibile rispetto al tool calling tradizionale, poiché consente ai modelli di attingere da fonti diverse, il che la rende altamente adattabile a vari ambiti.

A differenza della struttura rigida dell'uso tradizionale degli strumenti, la RAG consente un'integrazione più fluida delle informazioni recuperate con il ragionamento e la generazione, producendo risposte più dinamiche e approfondite.

Passaggio 3: creazione e invio di una query

L'AI formula quindi una richiesta strutturata che lo strumento o l'API possono comprendere.

Ogni strumento è associato a funzioni specifiche che ne definiscono il funzionamento. Queste funzioni si basano su una documentazione API, che fornisce le istruzioni su come interagire con l'API dello strumento, inclusi gli URL degli endpoint, i metodi di richiesta e i formati di risposta.

Per accedere a un'API esterna, molti servizi richiedono una chiave API, un identificatore univoco che concede l'autorizzazione a effettuare richieste. Quando lo strumento viene selezionato e i parametri vengono impostati, viene effettuata una chiamata API per recuperare i dati richiesti. Questa richiesta viene in genere inviata tramite HTTP a un server esterno.

Passaggio 4: ricezione ed elaborazione della risposta

Lo strumento esterno restituisce i dati. L'AI deve quindi analizzare i risultati dello strumento. Per una richiesta meteo, l'API potrebbe rispondere con un oggetto schema JSON contenente temperatura, umidità e velocità del vento. L'AI filtra e struttura questi dati per riassumere una risposta significativa per l'utente.

Passaggio 5: presentazione delle informazioni o azione

L'AI fornisce le informazioni elaborate in modo intuitivo. Se la richiesta prevede un'automazione, come l'impostazione di un promemoria, l'AI confermerà che l'azione è stata pianificata.

Passaggio 6: affinamento della ricerca

Se l'utente richiede maggiori dettagli o modifiche, l'AI può ripetere il processo con una query modificata, contribuendo a garantire che continui a perfezionare la risposta in base alle esigenze degli utenti.

LangChain è comunemente utilizzato nel tool calling fornendo un framework open source per integrare strumenti esterni, API e funzioni con i LLM. Aiuta a gestire l'esecuzione degli strumenti, la gestione degli input o degli output e il processo decisionale sensibile al contesto.

Ad esempio, LangChain gestisce gli argomenti delle funzioni con un parser per le richieste dell'utente, estraendo i parametri rilevanti e formattandoli correttamente per lo strumento. A differenza del semplice tool calling, LangChain può memorizzare e richiamare gli output degli strumenti precedenti, consentendo migliori interazioni in più turni.

LangChain consente la combinazione di più strumenti in una sequenza, consentendo workflow più complessi. Ad esempio, può prima recuperare i dati dall'API meteo e poi utilizzare uno strumento separato per consigliare l'abbigliamento adatto in base alle previsioni.

Tipi di tool calling

Il tool calling consente agli LLM di svolgere ogni tipo di attività. Esistono infiniti casi d'uso per le applicazioni AI che utilizzano il tool calling, ma ecco 5 categorie comuni con alcuni esempi concreti.

Recupero e ricerca di informazioni

L'AI recupera dati in tempo reale dal web, da fonti di notizie, da database accademici o dai mercati finanziari. Ad esempio, un modello di chat con AI può utilizzare un'API di ricerca per fornire gli ultimi prezzi delle azioni o articoli di ricerca sull'AI e restituire le informazioni tramite un chatbot.

Esecuzione del codice

Ciò consente all'AI di eseguire calcoli complessi o eseguire script utilizzando motori matematici come gli ambienti di esecuzione Wolfram Alpha o Python. Questo è utile per risolvere equazioni, effettuare simulazioni o eseguire piccoli frammenti di codice.

Automazione del processo

L'AI automatizza workflow come la pianificazione di riunioni, l'invio di e-mail o la gestione di liste di cose da fare attraverso integrazioni con piattaforme come Google Calendar e Zapier. Gli agenti AI possono interagire con CRM, strumenti finanziari e di analisi come Salesforce e QuickBooks, consentendo alle aziende di automatizzare processi come il recupero dei dati dei clienti o la rendicontazione finanziaria.

Dispositivi intelligenti e monitoraggio IoT

I sistemi di agentic AI possono monitorare e controllare i sistemi di automazione, i dispositivi IoT industriali e la robotica. Possiamo facilmente immaginare che un giorno interi workflow saranno gestiti completamente da agenti autonomi.

Soluzioni correlate
Agenti AI per il Business

Crea, implementa e gestisci assistenti e agenti AI potenti che automatizzano workflow e processi con l'AI generativa.

    Scopri watsonx Orchestrate
    Soluzioni per agenti AI IBM

    Costruisci il futuro della tua azienda con soluzioni AI di cui puoi fidarti.

    Esplora le soluzioni basate su agenti AI
    Servizi AI di IBM Consulting

    I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

    Esplora i servizi di intelligenza artificiale
    Prossimi passi

    Sia che tu scelga di personalizzare app e competenze precostituite o di creare e implementare servizi di agenti personalizzati utilizzando uno studio di AI, la piattaforma IBM watsonx è la soluzione che fa per te.

    Scopri watsonx Orchestrate Esplora watsonx.ai