La ricerca generativa è la combinazione di modelli AI con funzionalità di ricerca. Estende le funzionalità di ricerca e recupero delle soluzioni di ricerca con le capacità di generazione e riepilogo dei contenuti dei modelli linguistici di grandi dimensioni (LLM). L'architettura concettuale della ricerca generativa è mostrata nel seguente diagramma
I documenti dei clienti, inclusi documenti Word, PDF, dati web e altro testo strutturato e non strutturato, vengono inseriti in un componente di analisi dei contenuti e preparati per la ricerca semantica.
Un utente invia una domanda utilizzando l'interfaccia utente di Content Analysis.
Il componente Content Analysis utilizza la domanda dell'utente per identificare i documenti e i passaggi di informazioni più rilevanti rispetto alla domanda stessa. A seconda della domanda dell'utente, il componente invia la domanda insieme ai documenti e ai passaggi rilevanti a un LLM, al fine di generare una risposta simile a quella umana.
L'LLM restituisce la risposta generata che viene successivamente passata all'utente.
La mappatura della famiglia di prodotti IBM watsonx al pattern di ricerca generativa è mostrata nel seguente diagramma. IBM Watson Discovery per fornire l’ingestione dei documenti, la comprensione dei documenti e l’analisi dei contenuti e degli insight del componente Content Analysis. IBM watsonx.ai è utilizzato per selezionare, adattare, testare e implementare il modello linguistico di grandi dimensioni utilizzato per estendere Watson Discovery.
Alcuni clienti potrebbero non avere accesso a watsonx.ai nella loro regione, oppure potrebbero avere timori di sicurezza o requisiti normativi che impediscono loro di utilizzare la soluzione SaaS watsonx.ai. Per questi clienti, offriamo watsonx.ai come insieme di servizi basati su container che possono essere implementati su Red Hat Openshift all’interno dei data center del cliente, oppure all’interno di un cloud privato virtuale (VPC) nell’infrastruttura di un fornitore di cloud service.
I fattori che influiscono sulla scelta del modello che funzionerà bene per il tuo progetto sono molti.
La licenza del modello può limitare il modo in cui questo può essere utilizzato. Ad esempio, la licenza di un modello può impedirne l'utilizzo all'interno di un'applicazione commerciale.
Il set di dati utilizzato per addestrare il modello ha un impatto diretto sul funzionamento del modello per un'applicazione specifica e influisce in modo significativo sul rischio che il modello possa generare risposte non sensate, offensive o semplicemente indesiderate. Allo stesso modo, i modelli addestrati su dati privati o protetti da copyright possono esporre gli utenti a responsabilità legali. IBM garantisce la totale trasparenza dei dati di addestramento e tutela gli utenti da eventuali azioni legali legate ai suoi modelli.
La dimensione del modello, ovvero il numero di parametri con cui viene addestrato, e la dimensione della sua finestra di contesto, ovvero la lunghezza di un passaggio di testo che il modello può accettare, influiscono sulle prestazioni del modello, sui requisiti di risorse e, per estensione, sui costi e sulla produttività. Sebbene si sia tentati di adottare una filosofia "più grande è meglio" e scegliere un modello da 20 miliardi di parametri, i requisiti di risorse e il miglioramento (se presente) della precisione potrebbero non giustificarlo. Studi recenti hanno dimostrato che i modelli più piccoli possono superare significativamente quelli più grandi per alcune soluzioni.
Qualsiasi messa a punto applicata a un modello può influire sulla sua idoneità per un'attività. Ad esempio, IBM offre due versioni del modello Granite: una ottimizzata per applicazioni di chat generiche e un'altra ottimizzata per seguire le istruzioni.
Altre considerazioni nella scelta di un modello includono:
Selezione dei parametri del modello, ad esempio la temperatura del modello, per bilanciare la creazione di risposte testuali e fattuali simili a quelle umane. Impostando la temperatura del modello su un valore alto si genereranno risposte coerenti ma potenzialmente poco interessanti o eccessivamente concise, mentre impostando la temperatura su un valore basso si introdurrà una maggiore varietà nelle risposte ma si aggiungerà imprevedibilità nella lunghezza e nel contenuto della risposta.
Selezione e implementazione di guardrail dei modelli per proteggersi da risultati inefficaci o offensivi.
È inoltre necessario tenere conto della lingua dei dati del cliente e dei prompt forniti dagli utenti. La maggior parte degli LLM è addestrata su testi in lingua inglese e spesso può tradurre dall'inglese ad altre lingue con diversi livelli di competenza. Le applicazioni che necessitano di supporto linguistico multilingue o localizzato possono richiedere l'uso di più modelli addestrati in ciascuna delle lingue supportate, oppure dell’implementazione di una fase di traduzione per convertire gli input multilingue in inglese o in un’altra lingua “di base”.
Alcuni clienti potrebbero desiderare un meccanismo di feedback per perfezionare continuamente le risposte del sistema. Nel tempo, questo feedback può contribuire a migliorare sia la configurazione di Watson Discovery (ad esempio, perfezionando i parametri di ricerca) che la messa a punto del modello LLM.
I clienti che operano in settori regolamentati potrebbero voler includere un ulteriore livello di monitoraggio per rispettare le normative e fornire trasparenza agli utenti su come vengono gestite le loro richieste e sul ruolo dell'AI nel generare le risposte.
Come per qualsiasi sistema integrato, è importante monitorare continuamente le prestazioni, la soddisfazione degli utenti ed eventuali potenziali problemi. Bisogna essere pronti a scalare l’infrastruttura via via che cresce la domanda degli utenti.