La sintesi è la capacità di condensare documenti lunghi in un riassunto conciso che cattura i punti chiave del lavoro più ampio. Dal punto di vista tecnologico, il riepilogo è impegnativo perché richiede un'ampia gamma di funzionalità: comprensione di lunghi passaggi di testo, identificazione di punti e argomenti chiave e generazione di nuovo testo che colga l'intento del lavoro più ampio. Fortunatamente, i modelli linguistici di grandi dimensioni (LLM) sono adatti a questi compiti. Utilizzando gli LLM, gli architetti possono creare soluzioni che aiutano gli utenti a minimizzare l'onere di dover leggere documenti lunghi e dettagliati; il risultato è un aumento della produttività e un'esperienza utente più positiva.

Architettura

Un'illustrazione dei componenti principali e delle loro interconnessioni per una soluzione di riassunto di documenti.

Modelli di architettura AI generativa

Il diagramma sopra mostra le due forme del modello di riassunto. La forma più semplice del modello è la variante Stuff. In questo schema:

Il contenuto di un documento viene letto e "riempito", ad es. copiato per intero, in un prompt LLM.
Un modello di prompt viene comunemente utilizzato per "avvolgere" il contenuto con le istruzioni e le parole chiave per indirizzare il modello di destinazione a generare un riepilogo.
Il prompt risultante viene inviato a un LLM addestrato che genera un riassunto in risposta.

L'approccio Stuff è ottimo per documenti piccoli, ma non funziona per documenti troppo grandi per la finestra contestuale dell'LLM, né per le collezioni di documenti. Fortunatamente abbiamo la variante Map-Reduce per queste situazioni. Nella fase Map della variante, i singoli documenti e/o le sottosezioni dei documenti vengono inseriti nei prompt dell'LLM usando l'approccio Stuff. I riassunti restituiti per i documenti e/o i blocchi vengono aggregati dalla domanda e poi inviati a un LLM (4) per generare un riepilogo complessivo del lavoro e/o del set documentale più ampio. È possibile utilizzare lo stesso LLM per le fasi Map e Reduce, ma più spesso il modello Reduce dovrà essere affinato per generare riassunti aggregati senza perdere dettagli chiave.

Concettualmente, la sintesi è simile a un compito di traduzione automatica: vogliamo che l'LLM "traduca" un documento lungo in un riassunto più breve. Pertanto, i modelli encoder-decoder come BART e T5 sono adatti alle soluzioni di riepilogo. La maggior parte degli LLM adatti al riepilogo viene addestrata utilizzando uno o più set di formazione disponibili al pubblico tratti da fonti come notizie, Wikipedia, legislazioni e pubblicazioni scientifiche, ma generalmente richiede una messa a punto prima di poter generare riepiloghi accettabili per processi aziendali mirati e dati di input.

Un processo aziendale complesso richiederà in genere più modelli perfezionati per generare i riepiloghi per diversi gruppi di utenti. Ad esempio, una richiesta di risarcimento assicurativa richiederebbe potenzialmente un LLM ottimizzato per il riepilogo e l'instradamento dei reclami, il rilevamento delle frodi e l'indagine e per il riepilogo delle segnalazioni dei fornitori di servizi, come consulenti medici o ingegneristici.

Casi d'uso

La sintesi è un modello di soluzione candidato per qualsiasi scenario aziendale in cui gli utenti devono leggere e comprendere regolarmente documenti di grandi dimensioni, ma non necessitano necessariamente di una conoscenza approfondita del contenuto del documento fino a una fase successiva del processo aziendale.

I possibili usi includono:

Liquidazione dei sinistri assicurativi. Le richieste assicurative, in particolare quelle commerciali e di gruppo complesse, vengono spesso lette più volte nel processo di presentazione e giudizio. Spesso, le richieste di risarcimento vengono inizialmente lette per determinare il reparto e/o il perito più adatto a gestire il sinistro. Sono necessarie ulteriori letture per comprendere e agire sui report di valutazione indipendenti, per determinare la copertura e per valutare potenziali frodi. Una soluzione di riassunto che estragga i punti rilevanti da un testo ha il potenziale per migliorare sostanzialmente questi processi.
Contratti. I contratti commerciali sono spesso complessi e difficili da comprendere, anche nel caso di transazioni relativamente semplici. Una soluzione di sintesi che possa riassumere i termini e le condizioni chiave di un contratto in modo chiaro potrebbe essere un grande vantaggio per imprenditori, avvocati e paralegali in diversi settori.
Abstract medici. La compilazione di abstract medici dai referti dei pazienti è un compito arduo che richiede una notevole competenza per essere svolto correttamente. Una soluzione di riepilogo in grado di estrarre gli elementi chiave di una cartella clinica di grandi dimensioni e assistere nella codifica dei record (utilizzando l'ICD-10 o un altro schema di codifica diagnostica) migliorerebbe sia la velocità che la coerenza del processo di astrazione.
Supporto per prodotti e servizi. Il personale dell'assistenza clienti è spesso chiamato a rispondere o a lanciarsi in iniziative di risoluzione dei problemi, che possono comprendere molte interazioni tra i clienti e il team di assistenza. Una soluzione di riepilogo che riassuma accuratamente un caso di supporto può ridurre il tempo necessario al personale di supporto per informarsi rapidamente su un caso e, idealmente, ridurre il tempo necessario per risolvere i casi.

Decisioni e considerazioni sull'architettura

Le soluzioni di sintesi richiedono agli architetti di prendere una serie di decisioni significative per raggiungere i requisiti funzionali e non funzionali della soluzione.

Scelta del modello di generazione

Come documentato sopra, molti LLM sono in grado di eseguire una sintesi del testo "pronta all'uso". Se le funzionalità insite nel modello soddisfano i requisiti della soluzione, allora gli architetti devono considerare fattori come la dimensione del modello (che determina i requisiti infrastrutturali), la qualità delle risposte e la velocità di inferenza. Se è richiesta la messa a punto, gli architetti devono anche considerare la quantità di dati di messa a punto e la complessità del processo necessario per adattare un modello base selezionato alle loro esigenze specifiche.

Metriche di valutazione

Valutare le prestazioni delle soluzioni di AI generativa può essere difficile a causa della natura qualitativa del loro compito, ad esempio, in che modo uno ha generato un riepilogo "migliore" di un altro. Le metriche più comuni includono perplessità, fluidità, pertinenza e coerenza, oltre alle metriche BLU e ROUGE. Un architetto deve selezionare metriche che siano in linea con i requisiti funzionali della soluzione e gli obiettivi complessivi del business.

Risorse

Guarda la demo per vedere come watsonx.ai può aiutarti a trasformare un testo denso nella tua panoramica personalizzata dell'esecuzione, acquisendo i punti chiave dei report finanziari, le trascrizioni delle riunioni e altro ancora.

L'architettura di AI generativa di IBM

L'architettura di AI generativa di IBM è l'architettura generale di AI generativa in IBM IT Architect Assistant (IIAA), uno strumento di sviluppo e gestione dell'architettura.