Cos'è il recupero dei dati?

By Alice Gomstyn , Alexandra Jonker

Recupero dei dati, definizione

Il recupero dei dati è il processo di accesso a informazioni pronte all'uso da una fonte di dati.

Tradizionalmente, il termine recupero dei dati si riferisce all'uso di linguaggi di query per recuperare dati strutturati dai database. Tuttavia, con l'espansione dei volumi di dati e l'avanzare della tecnologia, il termine è diventato associato al recupero di una miriade di tipi di dati, sia strutturati che non strutturati.

Il recupero dei dati viene utilizzato dalle organizzazioni per utilizzare le raccolte sempre più ricche di dati sia all'interno dei propri sistemi che da repository di terze parti. Attraverso gli strumenti di recupero dei dati, utenti aziendali, ricercatori e altri soggetti possono trovare risposte alle domande e individuare punti dati chiave da fonti che sarebbero difficili o addirittura proibitive da raggiungere tramite approcci manuali.

Un tempo limitati a ricerche rudimentali nei database, i sistemi di recupero dati di oggi sono spesso migliorati con tecnologie di automazione e intelligenza artificiale (AI) in grado di gestire richieste di dati complesse, connettersi a più basi di conoscenza e ottimizzare in modo dinamico l'esecuzione delle query. Il machine learning, l'elaborazione del linguaggio naturale e la retrieval-augmented generation (RAG) aiutano a migliorare l'accuratezza e la rilevanza dei dati forniti in risposta alle query.

Perché il recupero dei dati è importante?

Un processo decisionale efficace si realizza quando le organizzazioni possono ricavare insight dai dati di alta qualità.

Tuttavia, prima ancora che l'analisi possa avvenire, le organizzazioni devono poter accedere a quei dati. Questo compito può risultare particolarmente impegnativo quando i dati risiedono all'interno di un grande set di dati o di un vasto complesso dei dati, come un vasto database di ricerca o un ampio sistema di storage multi cloud ibrido.

La crescita esplosiva dei dati intensifica queste sfide: secondo alcune stime, vengono creati ogni giorno oltre 400 milioni di terabyte di dati, mentre le aziende gestiscono spesso un petabyte o più di dati.¹

I progressi nell'intelligenza artificiale hanno modificato anche le esigenze di dati aziendali. I workflow AI richiedono un accesso rapido ai dati, compreso l'accesso a grandi volumi di dati non strutturati.

Storicamente, i processi di recupero dei dati si concentravano su query provenienti da fonti strutturate come i sistemi di gestione di database relazionali. Tuttavia, anziché utilizzare approcci manuali e dispendiosi in termini di tempo per esaminare le enormi quantità di dati interni ed esterni odierni, le organizzazioni si affidano a moderne tecniche di recupero dati. Questo approccio utilizza tecnologie come database vettoriali e retrieval-augmented generation per soddisfare la domanda di dati che risiedono al di fuori dei database interni e relazionali.

La RAG agentica, in particolare, si è dimostrata particolarmente potente nel soddisfare questa domanda. David Levy, un Advisory Technology Engineer for Client Engineering presso IBM, ha illustrato le funzionalità della RAG agentica in una presentazione per IBM Technology.

"La RAG agentica rappresenta un'evoluzione nel modo in cui miglioriamo la pipeline RAG, andando oltre la semplice generazione di risposte e passando a un processo decisionale più intelligente. Permettendo a un agente di scegliere le migliori fonti di dati e potenzialmente anche di incorporare informazioni esterne, come dati in tempo reale o servizi di terze parti, possiamo creare una pipeline più reattiva, più precisa e più adattabile," ha affermato Levy.

Il risultato? Le imprese e altre organizzazioni possono utilizzare maggiormente i dati aziendali strutturati e non strutturati, così come i crescenti volumi di dati prodotti al di fuori dei loro ecosistemi. Hanno la possibilità di accedere precisamente ai dati di cui hanno bisogno quando ne hanno bisogno, consentendo analytics e insight basati sui dati che portano a risultati aziendali migliori.

Recupero dei dati, recupero delle informazioni e data mining

I termini recupero dei dati e recupero delle informazioni (IR) sono spesso usati in modo intercambiabile e per un buon motivo.

Sebbene tradizionalmente siano stati associati a diversi tipi di dati (strutturati per il recupero dei dati; non strutturati per le IR), gli sviluppi nella data science hanno offuscato la distinzione. Non solo il recupero dati può ora coprire dati non strutturati, ma alcuni sistemi IR permettono il "recupero di documenti strutturati" (tramite l'uso di XML per indicizzare documenti di testo).

Probabilmente, la differenza più evidente tra i due si manifesta nei tipi di risultati prodotti da ciascuno di essi. Il recupero dei dati si concentra sul restituire corrispondenze esatte alle query degli utenti, mentre i sistemi IR, che costituiscono la spina dorsale dei motori di ricerca web, forniscono molteplici risultati (come pagine web) classificati in base alle informazioni rilevanti.

Sia il recupero dei dati che il recupero delle informazioni sono talvolta confusi con il data mining. In questo caso, tuttavia, la differenziazione è netta: mentre il recupero dei dati e l'IR si concentrano sull'accesso e sulla fornitura di dati, il data mining si occupa di scoprire modelli e insight dai dati. In altre parole, comprende l'analisi, non solo il recupero. Inoltre, il data mining viene applicato a grandi set di dati, mentre il recupero dei dati e l'IR possono essere utilizzati per raccolte dati di qualsiasi dimensione.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Approcci tradizionali di recupero dei dati

I metodi di recupero dei dati possono essere suddivisi in due categorie: tecniche tradizionali e tecniche AI.² Le tecniche tradizionali includono:

Utilizzo di linguaggi di query
Indicizzazione
Ottimizzazione delle query

Utilizzo di linguaggi di query

I dati vengono recuperati dai classici sistemi di gestione dei database (DBMS) tramite linguaggi di query. Il linguaggio di query più importante è il linguaggio di query strutturato, o SQL, utilizzato per i database relazionali. Gli utenti implementano comandi SQL per recuperare dati e svolgere altre attività, tra cui aggiunte, aggiornamenti ed eliminazioni.

Indicizzazione

L'indicizzazione è la creazione di strutture dati ricercabili che puntano a record dati in tabelle più grandi. Le operazioni di ricerca possono scansionare gli indici anziché intere tabelle, con conseguente elaborazione delle query più rapida ed efficiente.

Ottimizzazione delle query

Nei sistemi di gestione dei database, gli strumenti di ottimizzazione delle query ne migliorano le prestazioni scegliendo l'opzione più efficiente tra diversi piani di query o diversi modi per eseguirle. Gli ottimizzatori decidono, ad esempio, se utilizzare gli indici, in che modo leggere una tabella e, quando viene richiesta un join, l'ordine in cui le tabelle vengono unite.

Queste tecniche ben consolidate si sono dimostrate efficaci nel recuperare dati strutturati e supportare operazioni di ricerca di base, ma sono note anche per le carenze che presentano in diversi ambiti, tra cui il recupero di dati non strutturati, l'esecuzione di query complesse, l'acquisizione di significato semantico, il supporto alla scalabilità e la fornitura di risultati in tempo reale.³

Tecniche di AI per il recupero dei dati

Le tecniche basate sull'AI per il recupero dei dati aiutano a compensare le carenze delle tecniche tradizionali, migliorando le prestazioni delle query e l'esperienza degli utenti.⁴

Le principali tecnologie di recupero dei dati con l'AI includono:

Ricerca vettoriale
Machine learning e deep learning
Elaborazione del linguaggio naturale
Retrieval-augmented generation e RAG agentica

Ricerca vettoriale

Nei database vettoriali, vari tipi di dati, tra cui testo e immagini, sono memorizzati come rappresentazioni numeriche note come embedding. Gli embedding vettoriali che presentano dimensioni simili sono raggruppati insieme. Durante una ricerca vettoriale, i sistemi recuperano dati e documenti rilevanti con embedding vettoriali simili ai termini di ricerca. Tali ricerche si basano in genere su algoritmi più vicini che deducono le connessioni tra i punti dati in base alla loro prossimità.

Machine learning e deep learning

Gli algoritmi di machine learning addestrati su dati storici e comportamenti degli utenti possono fornire raccomandazioni di query basate su comuni schemi di query, per poi far emergere dati rilevanti. Inoltre, un sottoinsieme di machine learning noto come deep learning può contribuire a recuperare dati non strutturati. Ad esempio, le reti neurali convoluzionali (CNN) supportano la computer vision, che può essere utilizzata per cercare immagini e file video.⁵

Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale, o NLP, abilita query di ricerca facilmente utilizzabili consentendo agli utenti di effettuare query verbali in modo conversazionale, invece di strutturarle come comandi linguistici di interrogazione. Quindi, invece di affidarsi esclusivamente alla corrispondenza delle parole chiave, i motori di ricerca basati sulla NLP possono impegnarsi nella ricerca semantica: identificano risultati rilevanti che riflettono l'intento della query, anche se i termini di ricerca esatti non sono presenti in un documento.

Retrieval-augmented generation e RAG agentica

La retrieval-augmented generation collega grandi modelli linguistici a basi di conoscenza esterne utilizzando delle application programming interface, o API. Questo consente ai sistemi di recuperare informazioni che siano sia specifiche per il settore sia tempestive.

I sistemi di RAG agentica aggiungono funzionalità avanzate alla RAG tradizionale, con un ragionamento agentico che ottimizza dinamicamente le query ed eleva le prestazioni di recupero dei dati. I componenti dei principali sistemi di RAG agentica includono:

Funzionalità di ricerca di base: il recupero dati è supportato da approcci tradizionali e basati sull'AI, tra cui indicizzazione e combinazioni di ricerca per parole chiave e ricerca vettoriale (nota come ricerca ibrida).

Caching semantico: i sistemi di RAG agentica possono memorizzare e fare riferimento a set precedenti di query, contesto e risultati. Questa memoria può informare nuove ricerche, producendo risultati più rilevanti e personalizzati.

Segmentazione agentica: la segmentazione agentica suddivide input di testo di grandi dimensioni in blocchi (chunk) più piccoli e semanticamente coerenti, memorizzati in database vettoriali. La loro coerenza semantica consente ai sistemi di recuperare risposte alle query più complete e di qualità superiore.

Agenti di routing: gli agenti di routing determinano quali fonti di conoscenza esterne e strumenti sarebbero i migliori per rispondere a una query dell'utente.

Agenti di pianificazione delle query: gli agenti di pianificazione delle query suddividono le query complesse degli utenti in processi dettagliati e inviano le query secondarie risultanti agli altri agenti nel sistema RAG. Una volta che questi agenti forniscono le rispettive risposte, gli agenti di pianificazione delle query le combinano per ottenere una risposta coesa.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

Casi d'uso per il recupero dei dati

Le tecniche e le soluzioni di recupero dati possono migliorare l'accesso ai dati e la gestione dei dati in molteplici settori e discipline.

Settore sanitario

Un fornitore di servizi per le strutture sanitarie ha utilizzato l'elaborazione del linguaggio naturale e il retrieval-augmented generation per accelerare del 90% il recupero dei dati critici.

Servizi finanziari

Un'azienda fintech ha distribuito un customer service chatbot che recuperava informazioni in tempo reale, riducendo del 80% il tempo medio di interazione rispetto ai call center.

E-commerce

Aziende di e-commerce permettono agli acquirenti di caricare foto di ciò che intendono acquistare, mentre le soluzioni di ricerca basate su computer vision recuperano informazioni su prodotti simili a quelli mostrati.

Sfide per il recupero dei dati

Man mano che le aziende esplorano soluzioni per il recupero dei dati, è importante tenere conto delle potenziali problematiche.

Qualità dei dati

Man mano che le aziende diventano più efficienti nel recupero dei dati, potrebbero scoprire che alcuni di essi sono pieni di lacune ed errori. Le pratiche di gestione della qualità dei dati , come la profilazione e la pulizia dei dati, possono aiutare le organizzazioni a ottimizzare i set di dati in termini di accuratezza, completezza, coerenza e altre dimensioni della qualità.

Sicurezza

L'implementazione di funzionalità avanzate di recupero dei dati può essere rischiosa senza le giuste misure di sicurezza per garantire che i dati sensibili non possano essere recuperati dalle persone sbagliate. Le piattaforme di dati governati possono includere controlli integrati di sicurezza, identità e accesso per prevenire accessi non autorizzati e garantire la conformità normativa.

Blocco da fornitore

Le soluzioni di dati proprietarie spesso raggruppano il recupero dati, l'orchestrazione e i modelli di AI in sistemi chiusi, limitando le organizzazioni a stack tecnologici controllati dai fornitori. Le soluzioni di dati open source che includono la RAG agentica e altre tecnologie offrono un'alternativa, permettendo alle aziende un maggiore controllo sui loro stack tecnologici e sulle funzioni di gestione dei dati.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor