Intelligenza artificiale

IBM nominata leader nell'IDC Marketscape Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessment

Autori

Maryam Ashoori

VP of Product and Engineering, watsonx.governance

IBM

Manish Bhide

Distinguished Engineer and CTO, watsonx.governance

IBM

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

IBM è stata nominata leader nell'IDC MarketScape: Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessment.

Riteniamo che questo riconoscimento rifletta il crescente impatto e la continua innovazione di IBM watsonx.governance e l'impegno di IBM nel soddisfare le moderne esigenze di AI responsabile, scalabile e affidabile.

"Le aziende che hanno un ambiente diversificato di tecnologia potrebbero scoprire che IBM è un fornitore neutrale, ovvero non legato a un particolare cloud service, ad esempio. Inoltre, le aziende che apprezzano la gamma più ampia di offerte IBM in questo campo, tra cui documentazione automatizzata, protezioni e soluzioni di sicurezza, dovrebbero prendere in considerazione IBM", afferma il rapporto IDC MarketScape.

Il modello di analisi dei fornitori di IDC MarketScape è progettato per fornire una panoramica dell'idoneità competitiva della tecnologia e dei fornitori in un determinato mercato. La metodologia di ricerca utilizza una rigorosa metodologia di punteggio basata su criteri sia qualitativi che quantitativi, in grado di produrre un'unica illustrazione grafica della posizione di ciascun fornitore all'interno di un determinato mercato. Il punteggio delle funzionalità misura il prodotto del fornitore, il go-to-market e l'esecuzione aziendale nel breve periodo. Il punteggio della strategia misura l'allineamento delle strategie dei fornitori alle esigenze dei clienti in un periodo di 3-5 anni. La quota di mercato dei fornitori è rappresentata dalla dimensione delle icone

Le 5 categorie della metodologia IDC MarketScape 

Il rigoroso framework di valutazione di IDC MarketScape fornisce una valutazione obiettiva e di terze parti di cui le organizzazioni possono fidarsi quando prendono decisioni sulla tecnologia di valutazione dei modelli di gen AI.

Il framework considera le seguenti 5 categorie:

  1. Soddisfazione del cliente: le interviste dirette con i clienti hanno fornito insight reali sul successo dell'implementazione, sul ROI e sul supporto continuo, non solo sulle offerte attuali, ma anche sulla visione e la roadmap per affrontare le sfide legate ai rischi emergenti.
  2. Funzionalità o soluzione: il rapporto valuta la neutralità, come la facilità d'uso indipendentemente dagli strumenti utilizzati per crearle o da dove vengono eseguite, o la personalizzazione in termini di dashboard e metriche.
  3. Innovazione tecnologica: i fornitori sono stati valutati in base a funzionalità differenziate che offrono un valore notevole al cliente.
  4. Gamma di servizi: il rapporto ha preso in esame la gamma delle funzionalità della valutazione RAG, con particolare attenzione alla capacità di valutare gli agenti.
  5. Portfolio: è stata prestata particolare attenzione a una serie di soluzioni adiacenti per l'ottimizzazione dei modelli, come monitoraggio della produzione, governance e sicurezza dei modelli e la perfetta integrazione degli strumenti di valutazione in tutto il ciclo di vita, dallo sviluppo alla produzione.

Punti di forza di IBM watsonx.governance 

Quali riteniamo che siano i punti di forza di IBM:

1. Sviluppo e governance semplificati del modello

IBM watsonx.governance offre un approccio unificato alla gestione dell'intero ciclo di vita dell'AI, dallo sviluppo alla distribuzione. Con un questionario guidato, gli utenti possono definire i problemi aziendali, aiutare a scoprire e identificare i rischi potenziali e individuare le strategie di mitigazione.

Queste dimensioni di rischio sono mappate all'interno di metriche utilizzabili durante il processo di valutazione. Inoltre, questo processo integrato estrae automaticamente i metadati durante il processo di valutazione, memorizzandoli in una scheda informativa centralizzata e fornendo una registrazione trasparente del processo di sviluppo dell'applicazione, comprese le informazioni sul modello, i prompt e molto altro. Incorporando la tecnologia di valutazione in questo ciclo di vita strettamente integrato, che include la documentazione, ci differenziamo come soluzione ideale per gli utenti aziendali.

2. Identificazione automatica del rischio in fase di esecuzione con dashboard dinamiche

Integrando i dati sui rischi, le valutazioni del rischio e del controllo, gli eventi di perdita interni ed esterni e gli indicatori o le metriche chiave di rischio, i team possono ottenere una visione completa del livello di rischio in tutta l'azienda. Questo può aiutare le aziende a identificare automaticamente i rischi non appena si presentano, in tempo reale. Inoltre, IBM watsonx.governance fornisce una valutazione automatica del rischio, offrendo ai team una valutazione chiara e obiettiva del livello di rischio. Dashboard e grafici dinamici facilitano l'identificazione, la misurazione, il monitoraggio e l'analisi rapidi, mentre gli avvisi automatici consentono una pronta correzione in caso di superamento delle soglie di rischio.

3. Metriche pronte all'uso

Con IBM watsonx.governance gli utenti hanno accesso a un'ampia gamma di metriche precostituite per valutare le prestazioni e l'efficacia del sistema AI. Queste includono metriche per l'identificazione delle derive, le prestazioni del modello e altre aree chiave:

  • HAP
  • pii
  • Iniezione di prompt
  • Pertinenza del contesto
  • Fedeltà
  • Somiglianza della risposta
  • Pertinenza della risposta
  • Tasso di successo
  • Precisione media
  • Posizionamento reciproco
  • Richieste non andate a buon fine
  • E molte altre

Queste metriche, tra le altre, forniscono un framework completo per valutare le prestazioni e l'efficacia del sistema AI. Inoltre, gli utenti possono creare metriche personalizzate per adattare le proprie valutazioni a requisiti aziendali e profili di rischio specifici, fornendo un framework completo.

4. Ottimizzazione e sperimentazione di agenti efficienti e agili

Un'altra innovazione del team IBM è l'Evaluation Studio. Questa funzionalità offre due caratteristiche chiave:

  1. Ottimizzazione dei prompt confrontandone diverse versioni fianco a fianco
  2. Monitoraggio della sperimentazione per gli agenti

Evaluation Studio aiuta gli sviluppatori a valutare diverse versioni del prompt su un set di dati e a confrontare i risultati in un'interfaccia utente intuitiva.  Fornisce inoltre supporto per una classifica personalizzata unica, in cui gli utenti possono creare uno schema di classificazione personalizzato selezionando le metriche e assegnando loro pesi in base all'importanza.  Questo aiuta gli utenti a ottimizzare facilmente un prompt da utilizzare in uno strumento o in un agente. 

watsonx.governance Evaluation Studio supporta anche il monitoraggio degli esperimenti, uno strumento potente per creare sistemi di agentic AI migliori. Può impostare rapidamente esperimenti, provare diverse varianti (dell'agente) e taggarli con dettagli come il modello, il retriever o il prompt che hai usato. I confronti affiancati basati su latenza, costo e qualità (ad esempio la fedeltà) consentono di capire facilmente cosa funziona meglio. È importante sottolineare che la piattaforma ti aiuta a salvare il codice esatto per ogni esecuzione, consentendo agli sviluppatori di risparmiare tempo perché non è necessario memorizzare ogni versione, così che possano concentrarsi sulla creazione e il miglioramento dell'agente.

5. Valutatori in-the-loop: un elemento chiave di differenziazione nel mercato

La soluzione IBM watsonx.governance supporta valutatori in-the-loop pronti all'uso, basati su decorator, che stabiliscono un nuovo standard per la governance degli agenti, offrendo ai clienti la capacità di valutare le metriche e utilizzarle per decidere il flusso di esecuzione degli agenti. IBM watsonx.governance supporta anche la valutazione offline degli agenti tramite appositi agenti che aiutano a valutare gli agenti AI in base ai dati di test via via che vengono ottenuti. Alcune delle caratteristiche principali sono:

  • Valutatori in-the-loop: i valutatori in-the-loop possono essere utilizzati per calcolare una metrica ogni volta che viene eseguito uno strumento o un nodo in un LangGraph Agent. Questo può essere utilizzato per calcolare diverse metriche, come la pertinenza del contesto, la fedeltà, l'allucinazione della chiamata degli strumenti e molto altro. Il flusso di esecuzione degli agenti può essere regolato in base al valore delle metriche calcolate. Ad esempio, se in un'applicazione Agentic RAG la rilevanza del contesto è bassa, non ha senso generare una risposta utilizzando il contesto recuperato.  Il flusso degli agenti può quindi essere modificato in base al valore di pertinenza del contesto calcolato per non passare al nodo di generazione delle risposte, ma per rispondere direttamente all'utente.
  • Facilità d'uso: il modo tipico di utilizzare i valutatori in-the-loop è quello di aggiungere codice personalizzato come nodo nell'applicazione LangGraph. Le valutazioni in-the-loop di watsonx.governance sono disponibili come decorator python, il che lo rende molto facile da usare quando si crea un'applicazione di Agentic AI.

Questo strumento innovativo offre visibilità e controllo senza precedenti sulle prestazioni degli agenti, consentendo ai clienti di ottimizzare il workflow e ottenere risultati migliori.

Supportare le esigenze in evoluzione dei team delle operazioni AI/ML: la roadmap per il futuro

Per potenziare ulteriormente i team responsabili delle tecnologie AI/ML, IBM si impegna a promuovere l'innovazione con una pipeline di nuove funzionalità. Con le prossime versioni introdurremo ulteriori funzionalità di governance agentica, come:

  1. Monitoraggio avanzato della produzione per l'agentic AI: IBM watsonx.governance sarà in grado di offrire una supervisione continua delle applicazioni basate su agenti, lanciando avvisi quando una delle metriche specificate supera i limiti predefiniti. Questa caratteristica garantisce una gestione proattiva e un intervento tempestivo per mantenere prestazioni dell'AI ottimali e affidabili.
  2. Governed Agentic Catalog: consentirà agli utenti di aggiungere la governance al processo di aggiunta di strumenti e agenti a un catalogo centrale. Questo aiuterà le aziende a garantire che solo strumenti e agenti affidabili siano messi a disposizione degli sviluppatori.

La governance non è più una barriera definita dalla conformità e dall'audit. Ora è un fattore di scalabilità, che consente ai team di creare sistemi di gen AI robusti, trasparenti e pronti per l'implementazione aziendale. La governance consiste nello sviluppo di agenti, applicazioni e modelli AI efficienti, sicuri e affidabili fin dalle loro fondamenta.

Mentre la gen AI continua a evolversi, watsonx.governance consente ai team di muoversi rapidamente con sicurezza, trasparenza e controllo. Il nostro approccio alla valutazione si concentra sulla gestione del rischio in tempo reale, sulla gestione automatizzata degli esperimenti e sul monitoraggio e sulla trasparenza in ogni fase. Progettato pensando alla complessità del mondo reale, watsonx.governance aiuta i team a scalare in modo responsabile, così come a ridurre i rischi e sbloccare tutto il potenziale della gen AI senza rallentare la tua attività.

Scarica l'estratto

Maggiori informazioni su IBM watsonx.governance

Prova il prodotto gratuitamente

