API LLM: suggerimenti per colmare il divario

Vista aerea di un ponte pedonale sull'acqua

Autori

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Quando visiti un paese di cui non conosci la lingua, puoi affidarti a un amico per tradurre le conversazioni o a un'app di traduzione per chiedere indicazioni stradali. In questo modo, non avrai bisogno di imparare quella lingua, soprattutto per i viaggi brevi.

Nel campo dei modelli linguistici di grandi dimensioni (LLM), le application programming interfaces (API) fungono da traduttori, consentendo uno scambio ottimale tra LLM e applicazioni di intelligenza artificiale (AI). Queste interfacce facilitano l'integrazione delle funzionalità di elaborazione del linguaggio naturale (PNL) e comprensione del linguaggio naturale nei sistemi software.

Grazie alle API LLM, le aziende possono utilizzare i modelli AI nei propri workflow. I rivenditori online, ad esempio, possono collegare il customer service chatbot a un modello linguistico per risposte più personalizzate che generino interazioni naturali e coinvolgenti. Allo stesso modo, le aziende possono collegare il loro assistente di codifica AI a un LLM per un'analisi e una generazione di codice più robuste.

Come funzionano le API LLM

Le API LLM si basano in genere su un'architettura di richiesta-risposta che segue una serie di passaggi:

  1. Un'applicazione invia una richiesta, in genere sotto forma di richiesta HTTP (Hypertext Transfer Protocol), all'API. Prima della trasmissione, l'app converte la richiesta nel formato di dati previsto dall'API (in genere in JavaScript Object Notation o JSON), che contiene informazioni come la variante del modello, l'effettivo prompt e altri parametri.

  2. Dopo che l'API ha ricevuto la richiesta, la inoltra all'LLM per l'elaborazione.

  3. Il modello di machine learning si avvale delle sue competenze NLP, sia che si tratti di generazione di contenuti, risposta alle domande, analisi del sentiment, generazione di testi o riassunto di testi, per produrre una risposta che trasmette all'API.

  4. L'API recapita questa risposta all'applicazione.

Per accedere a un'API LLM, gli utenti dovranno registrarsi con il provider scelto e generare le chiavi API per l'autenticazione.

Token e prezzi

Il prezzo è una aspetto importante delle API LLM. I fornitori offrono diverse fasce di prezzo in base ai modelli.

Per capire come funzionano i prezzi delle API LLM, bisogna prima comprendere il concetto di token. Per i modelli linguistici, i token sono rappresentazioni di parole leggibili dalle macchine. Un token può essere una lettera, un segno di punteggiatura, parte di una parola o l'intera parola.

I token sono le unità di testo più piccole che un modello può accettare ed elaborare come input e generare come output. Fanno da base alla determinazione dei prezzi. La maggior parte dei fornitori utilizza un modello di prezzo con pagamento a consumo, addebitando l'accesso all'API LLM per mille o un milione di token, con prezzi separati per i token di input e output.

Questo prezzo basato su token riflette i costi computazionali e di elaborazione associati all'esecuzione degli LLM. Garantisce inoltre trasparenza e flessibilità, adattandosi ai diversi modelli di utilizzo delle aziende.

Benefici e sfide delle API LLM

La combinazione di dati o servizi aziendali con il livello di AI offerto dalle API LLM rende più potenti le applicazioni del mondo reale. Ecco alcuni benefici offerti dalle API LLM:

  • Accessibilità: le aziende possono utilizzare al meglio le funzionalità linguistiche dell'AI senza alcuna conoscenza ed esperienza approfondita nel campo dell'AI. Inoltre, non dovranno investire nello sviluppo dei propri modelli e dei relativi costi infrastrutturali.
  • Personalizzazione: tramite le API LLM, le organizzazioni possono mettere a punto modelli linguistici di grandi dimensioni per adattarli ad attività o domini specifici.
  • Aggiornamenti periodici: i fornitori aggiornano regolarmente i propri algoritmi per migliorare le prestazioni e stare al passo con il rapido ritmo dei cambiamenti nell'AI.
  • Scalabilità: le API LLM possono solitamente gestire grandi volumi di richieste simultaneamente, scalando via via che l'azienda cresce.

Nonostante questi vantaggi, le API LLM presentano anche delle sfide:

  • Costi: queste interfacce possono essere costose, in particolare in presenza di volumi elevati o se utilizzate su larga scala. Le aziende devono gestire i costi in modo efficace per aumentare al massimo il valore delle API LLM.
  • Vulnerabilità a livello di sicurezza: i malintenzionati possono utilizzare endpoint API per scopi illeciti, come l'estrazione di dati sensibili, l'installazione di malware o l'esecuzione di attacchi DDoS (Distributed Denial-of-Service) inviando un'enorme quantità di richieste.

 

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Suggerimenti per utilizzare le API LLM in modo efficiente

Le API LLM offrono alle aziende la possibilità di utilizzare al meglio il potenziale delle loro applicazioni tramite l'AI. Ecco cinque tecniche per aiutare le aziende a utilizzare le API LLM in modo più efficiente:

1. Considera il tuo caso d'uso

Seleziona il modello linguistico più adatto al tuo caso d'uso. Parti dalle caratteristiche di base e passa gradualmente a quelle più avanzate.

Ad esempio, se ti interessa solo l'analisi del sentiment, andrà bene anche un modello più piccolo, più vecchio e più efficiente in termini di costi. Tuttavia, se desideri risposte rapide e in tempo reale, ad esempio i customer service chatbot e le app di traduzione, potresti optare per un modello più grande e nuovo. Per le attività più complesse potrebbe essere necessaria la variante del modello più recente e potente.

Alcuni fornitori offrono persino API e modelli personalizzati per casi d'uso specifici. L'API Assistants di OpenAI è progettata per creare assistenti AI, mentre Mistral offre API per attività di codifica e computer vision. Puoi anche prendere in considerazione le API di fine-tuning per mettere a punto un modello con i dati di addestramento della tua organizzazione.

2. Gestisci i costi

Il costo dell'utilizzo delle API LLM può aumentare rapidamente, quindi tieni d'occhio gli utilizzi. La maggior parte dei provider dispone di dashboard o strumenti per monitorare l'utilizzo dei token e determinare limiti di spesa mensili per gestire i costi. Tieniti sempre aggiornato sui prezzi e sulle modifiche degli algoritmi che potrebbero essere più adatti al tuo budget e offrire maggiore valore.

Alcuni fornitori offrono prezzi più bassi o sconti su determinati servizi. L'API Gemini di Google, come OpenAI, ha un prezzo più economico per il context caching, dove un insieme di token di input viene memorizzato in una cache per il recupero da parte delle richieste successive. Questa pratica è utile quando contenuti ripetitivi vengono passati a un modello, indipendentemente dal fatto che si tratti di un'istruzione ricorrente da parte di un chatbot, di query ripetute per un set di dati o di correzioni di bug simili per una base di codice.

OpenAI offre invece uno sconto per l'elaborazione in batch attraverso la sua API Batch (Anthropic e Mistral hanno API simili). Questa elaborazione asincrona può rappresentare un'opzione conveniente per l'invio di gruppi di richieste a grandi set di dati che non richiedono risposte immediate, come il riassunto di lunghi documenti o la classificazione di contenuti.

Approfitta dei livelli API LLM gratuiti. Questi livelli sono gratuiti ma hanno limiti a livello di token o utilizzi. Per le aziende con un budget limitato, i livelli API LLM gratuiti potrebbero essere ideali per testare app o creare prototipi.

3. Dai priorità alla sicurezza

L'API security è fondamentale per qualsiasi organizzazione. Ecco alcuni modi per proteggere le interazioni dell'API con gli LLM:

  • Implementare protocolli sicuri per criptare le informazioni che passano attraverso l'API LLM, proteggendo così i dati in transito.
  • Definire delle policy di controllo degli accessi affinché solo gli utenti autorizzati possano accedere alle chiavi API, limitando così l'accesso all'API stessa.
  • Rimuovere qualsiasi informazione sensibile dai set di dati prima di inviarli tramite le API LLM.
  • Valutare le misure e le policy di sicurezza del fornitore che è stato scelto per le API LLM.

4. Ottimizza, ottimizza, ottimizza

Poiché i token aumentano i costi, riducendo al minimo il numero di token di input si possono ridurre i costi e migliorare le prestazioni. Un modo per ridurre al minimo il token di input è attraverso l'ottimizzazione dei token, che si ispira in larga misura alle tattiche di prompt engineering.

Ecco alcune strategie per l'ottimizzazione dei token:

  • Crea prompt chiari e concisi. Usa un linguaggio diretto e istruzioni mirate.
  • Se non riesci a evitare un prompt lungo, suddividilo in parti più piccole e significative.
  • Rimuovi i dati ridondanti e i dettagli non necessari.
  • Fornisci esempi brevi e altamente rappresentativi in un formato strutturato e coerente, in termini di contesto. Includi solo le informazioni critiche per consentire a un modello di comprendere l'attività.

5. Perfeziona e monitora

Dopo avere applicato le tecniche di ottimizzazione pertinenti, metti a punto più volte i prompt in base agli output del modello. Verifica gli output per assicurarti che siano corretti e precisi.

Osserva i tuoi pattern di utilizzo per vedere se sono in linea con il tuo budget e se stai implementando il modello più conveniente. Utilizza soluzioni di monitoraggio delle API per tracciare le prestazioni delle API LLM in base a metriche chiave come tempo di risposta, latenza e tassi di errore per aumentare al massimo l'efficacia del modello scelto.

API LLM più diffuse

Le API LLM sono un mercato in crescita. Molti sviluppatori LLM hanno le proprie API, mentre altri fornitori esterni offrono l'accesso a vari modelli linguistici di grandi dimensioni.

La società di benchmarking indipendente Artificial Analysis stila una celebre classifica delle API LLM (link esterno a ibm.com) che confronta e classifica i diversi endpoint API in base a metriche quali latenza, velocità di output, qualità e prezzo.

Ecco alcune delle API LLM più popolari:

Anthropic

La società di ricerca sull'AI Anthropic (link esterno a ibm.com) dispone di API per la sua famiglia di modelli linguistici di grandi dimensioni Claude. Questi modelli includono Claude 3.5 Sonnet, l'ultima offerta premium dell'azienda, Claude 3.5 Haiku, il suo modello più veloce ed economico e Claude 3 Opus, un potente modello per attività complesse. Sono disponibili API anche per le versioni precedenti dei modelli, come Claude 3 Haiku e Claude 3 Sonnet.

Esistono tre modi per accedere all'API (link esterno a ibm.com): la console web di Anthropic, le librerie per sviluppatori in Python e TypeScript su GitHub e su piattaforme partner come Amazon Bedrock e Google Cloud Vertex AI.

Cohere

La società di AI Cohere (link esterno a ibm.com) fornisce la propria API per Command R+, il suo LLM creato appositamente per i casi d'uso aziendali, e Command R, un modello di AI generativa ottimizzato per la retrieval-augmented generation (RAG) e per la funzionalità di agentic AI. Gli sviluppatori possono accedere all'API (link esterno a ibm.com) utilizzando lo strumento di interfaccia a riga di comando di Cohere o tramite le librerie Go, Java, Python e TypeScript su GitHub.

Google

Google offre API (link esterno a ibm.com) per la sua suite di modelli linguistici di grandi dimensioni Gemini. Questi modelli includono Gemini 1.5 Flash, il suo modello di AI multimodale più veloce, Gemini 1.5 Flash-8B, il modello più piccolo, Gemini 1.5 Pro, il modello di nuova generazione, e Gemini 1.0 Pro, il modello di prima generazione.

Gli sviluppatori possono accedere all'API Gemini (link esterno a ibm.com) da Google AI Studio e Google Cloud Vertex AI. Sono inoltre disponibili librerie di sviluppo software in diversi linguaggi di programmazione.

IBM

IBM Granite è la serie di punta di foundation model LLM di IBM. Gli sviluppatori possono utilizzare le API sulla piattaforma IBM watsonx per accedere ai modelli Granite 3.0, in particolare Granite 3.0 2B Instruct e Granite 3.0 8B Instruct, modelli ottimizzati per le istruzioni con 2 e 8 miliardi di parametri. I modelli open source Granite 3.0 sono disponibili anche tramite partner di piattaforma come Google Vertex AI e Hugging Face.

Meta

Llama è la raccolta di modelli AI open source di Meta. I modelli Llama 3, in particolare le versioni 3.1, possono essere accessibili tramite le API dei vari partner dell'ecosistema di Meta (link esterno a ibm.com).

Meta ha anche rilasciato Llama Stack (link esterno a ibm.com) per semplificare lo sviluppo e l'implementazione di app di AI basate sui modelli Llama. Llama Stack è costituito da un set di API interoperabili per agenti, inferenza, memoria, sicurezza e molto altro.

Mistral

Mistral AI ha diversi endpoint API (link esterno a ibm.com) per i suoi modelli principali, come Mistral Large, Mistral Small e Ministral, e per i modelli gratuiti, tra cui Mistral NeMo e Mistral 7B. L'azienda offre anche un'API di fine-tuning. È possibile accedere all'API Mistral tramite la sua piattaforma di sviluppo La Plateforme e piattaforme partner come IBM watsonx e Microsoft Azure AI.

OpenAI

OpenAI, la società di ChatGPT, fornisce API per i suoi molteplici modelli (link esterno a ibm.com). Queste API includono i suoi ultimi modelli di trasformatori generativi pre-addestrati (GPT), GPT-4o e GPT-4o mini, e i vecchi modelli OpenAI GPT, come GPT-4 Turbo e GPT-3.5 Turbo.

I modelli di generazione del testo di OpenAI utilizzano un endpoint API di completamento della chat, ma tra le altre API vi sono l'API Images per il modello di immagini di OpenAI, l'API Audio per il suo modello di text to speech e l'API Realtime per le applicazioni a bassa latenza. Gli sviluppatori possono accedere all'API OpenAI attraverso la piattaforma e le librerie di sviluppo software di OpenAI in vari linguaggi di programmazione.

Le API LLM rivestono un ruolo fondamentale nella pipeline dell'AI. Abbinando la potenza di ragionamento degli LLM all'usabilità delle interfacce programmate, le API LLM colmano il divario tra i modelli linguistici di grandi dimensioni e le applicazioni aziendali. Comprendere il funzionamento interno delle API LLM e come utilizzarle in modo efficiente può aiutare le aziende a integrare meglio l'AI nei propri sistemi.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai Esplora le soluzioni AI