Che cos'è il recupero delle informazioni?

Autori

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

Che cos'è il recupero delle informazioni?

Il recupero delle informazioni (IR) è un ampio campo dell'informatica e della scienza dell'informazione che si occupa del recupero dei dati per le query degli utenti. Alimenta strumenti di ricerca come cataloghi di biblioteche e motori di ricerca web.

In genere possiamo definire l'IR come la ricerca di dati non strutturati all'interno di una vasta raccolta per soddisfare una particolare esigenza informativa.1 Un sistema IR, il sistema di recupero delle informazioni, fornisce materiale in risposta a una determinata query. Il sistema cerca nelle raccolte gli articoli rilevanti per la query dell'utente. Poi restituisce questi elementi all'utente, in genere sotto forma di elenco ordinato in base alla rilevanza calcolata.2

I sistemi e le tecniche IR alimentano una serie di strumenti di ricerca, come motori di ricerca web e cataloghi di biblioteca digitale.

Recupero delle informazioni e recupero dei dati

È opportuno notare che molte fonti online confrontano i sistemi IR con il recupero dei dati: i sistemi IR recuperano informazioni non strutturate, come documenti di testo e pagine web; il recupero dei dati, al contrario, si occupa di dati strutturati, come quelli che si trovano nei sistemi di gestione di database relazionali. Per estensione, il recupero dei dati utilizza un linguaggio di interrogazione strutturato (SQL) per condurre query di ricerca.

Questa distinzione tra l'IR come non strutturato e non relazionale e il recupero dei dati come strutturato e relazionale, tuttavia, è più equivoca di quanto suggeriscano molte fonti online. I sistemi IR indicizzano, e quindi strutturano, le informazioni. Ad esempio, mentre è vero che l'IR si occupa tradizionalmente del recupero di documenti di testo non elaborato, alcuni sistemi IR utilizzano XML per rappresentare e indicizzare i testi. La letteratura di ricerca spesso descrive i sistemi basati su XML come una branca dell'IR chiamata recupero strutturato o recupero semi-strutturato.3 Inoltre, la letteratura esplora da decenni l'uso dei modelli IR relazionali.4

La distinzione tra IR e recupero dei dati è quindi più ambigua di quanto tradizionalmente ritenuto. Di fatto, poiché che i dati sono, per definizione, informazioni, il recupero di dati strutturati è forse meglio compreso come un tipo di recupero delle informazioni.

Recupero delle informazioni e sistemi di raccomandazione

Bisogna tenere presente che l'IR è distinto dai sistemi di raccomandazione. Le tecniche di raccomandazione basate sul machine learning, come il filtraggio collaborativo e il filtraggio basato sui contenuti, possono forse essere intese come una forma di filtraggio delle informazioni, un'attività secondaria dei sistemi IR. Tuttavia, i sistemi IR e di raccomandazione sono distinti. L'IR richiede tradizionalmente una query utente; i motori di raccomandazione in genere recuperano gli oggetti senza una query dell'utente.5

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funzionano i sistemi di recupero delle informazioni

Diversi modelli IR rappresentano le informazioni in modi diversi. La forma scelta per la rappresentazione del documento determina in larga misura il modo in cui il modello cerca e recupera le informazioni. Tuttavia, l'indicizzazione, la ponderazione e il feedback sulla pertinenza sono tre tecniche di recupero delle informazioni comuni nei modelli IR.

Indicizzazione

L'indicizzazione equivale essenzialmente alla creazione di metadati.6 Spesso nei libri stampati è presente un indice. Si tratta di un insieme strutturato di parole compilato a partire da un determinato documento stampato che consente ai lettori di accedere facilmente a passaggi su determinati argomenti. L'indice IR è simile. Un indice IR (o indice invertito) è una struttura di dati ricavata da un insieme di documenti destinati a migliorare i risultati delle query di ricerca.7

La costruzione dell'indice richiede prima l'analisi di un documento per l'estrazione delle funzioni. Per esempio, diciamo che stiamo creando un sistema IR per i documenti basati sul testo. Come è comune nell'elaborazione del linguaggio naturale (NLP), prepariamo la raccolta di documenti con varie tecniche di preelaborazione, come la tokenizzazione e la rimozione delle parole chiave. Il sistema IR rappresenta quindi questa raccolta di documenti elaborati come una struttura di dati organizzata. Una di queste strutture è un dizionario in cui ogni documento ha un ID indicato dalle parole (o termini dell'indice) che vi compaiono.8 Un'altra potenziale struttura dati per un sistema di recupero di testo è un modello di spazio vettoriale, come bag of words.9 Entrambi questi approcci estraggono le parole come funzioni, che vengono poi utilizzate per recuperare e classificare i documenti in risposta alle query degli utenti.

Ponderazione

In che modo un sistema di ricerca classifica le corrispondenze approssimative o esatte per una determinata query? Gli approcci alla classificazione e al recupero delle informazioni dipendono sia dal tipo di modello di recupero delle informazioni sia dalla forma di rappresentazione del documento utilizzata nel sistema. Tuttavia, i termini di indice svolgono un ruolo fondamentale nel modo in cui un sistema IR classifica i documenti in risposta alle query. Ma non tutti i termini dell'indice sono uguali. I sistemi IR utilizzano quindi metodi diversi per ponderare i termini dell'indice in base alla loro importanza percepita.

I sistemi IR che utilizzano modelli di spazio vettoriale, come bag of words, possono utilizzare la funzione TF-IDF (Term Frequency-Inverse Document Frequency). La TF-IDF è una variante di bag of words che tiene conto della prevalenza di una parola in ogni documento del set di testo. Quanti più documenti contengono una determinata parola, tanto più la TF-IDF riduce il peso di quella parola. Altri approcci includono la scomposizione dei valori singolari (SVD) e l'analisi semantica latente (LSA), quest'ultima un approccio comune di modellazione degli argomenti.10

Tali approcci di ponderazione influenzano il modo in cui i sistemi IR classificano i documenti in risposta alle query. Diversi tipi di modelli IR utilizzano tuttavia questi pesi per classificarsi in modi diversi.

Feedback di rilevanza

Come può un sistema migliorare i risultati della ricerca? Ovvero, come può un sistema mettere a punto la ricerca dell'utente e aumentare il numero di documenti pertinenti restituiti?

Il feedback sulla pertinenza è una tecnica comune di recupero delle informazioni per migliorare i risultati di ricerca. Il feedback sulla pertinenza raccoglie essenzialmente informazioni sulla risposta dell'utente a un set iniziale di risultati di query. Il sistema riconsidera quindi la pertinenza degli elementi alla luce delle risposte dell'utente. Restituisce quindi un nuovo set di risultati di ricerca che incorpora la query iniziale e il feedback dell'utente a quel set iniziale di risultati della query.

Il feedback sulla pertinenza in genere implica che l'utente fornisca risposte esplicite sulla pertinenza dei documenti recuperati. Il feedback implicito è una variante che deduce la pertinenza degli elementi osservando il comportamento dell'utente, ad esempio, su quali link di un sito web l'utente fa clic in una pagina dei risultati di ricerca. Il feedback di pseudo-pertinenza presuppone che i primi n documenti recuperati di una query iniziale siano rilevanti. Raccoglie quindi funzioni aggiuntive comuni a tali documenti per modificare ulteriormente la query.11

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Tipi di tecniche di recupero delle informazioni

Esistono numerosi tipi di modelli di recupero delle informazioni. Per fornire un riassunto esaustivo sarebbe necessaria una discussione molto più ampia. Tuttavia, i libri di testo e le panoramiche enciclopediche sull'IR spesso si sovrappongono nel menzionare tre metodologie generali di IR: booleana, algebrica e probabilistica.

Modello booleano

I modelli booleani sono forse i modelli IR più semplici, persino semplicistici. Usano una struttura a dizionario di termini di indice come descritto in precedenza. Il modello classifica quindi i documenti in base alla presenza di parole della query di un utente nei documenti recuperati. Ad esempio, se un utente fornisce la query "jazz E ballo", il modello booleano recupera solo i documenti che contengono le parole jazz e ballo in combinazione. I modelli booleani quindi tengono conto solo della presenza o dell'assenza di parole in un documento; le corrispondenze parziali non esistono nei sistemi di recupero booleani. Le tecniche di pre-elaborazione del testo, come lo stemming e la lemmatizzazione, possono risolvere questo problema di varianti morfologiche, ad esempio documenti che contengono balloballiballerino, piuttosto che solo la query di ballo dell'utente.

Come accennato, i modelli booleani considerano solo la presenza e l'assenza di parole. Questo criterio di decisione binaria non dispone di una scala di valutazione per determinare quali documenti sono più pertinenti alla query di un utente. Una possibile soluzione è quella di classificare i documenti in base alla frequenza con cui gli utenti li interrogano. In altre parole, più un documento menziona il jazz e la danza, più il modello lo considera pertinente alla query dell'utente. Tuttavia, l'aumento della frequenza dei termini non indica necessariamente una maggiore rilevanza. Nonostante questo potenziale inconveniente, i modelli booleani sono stati utilizzati in molti sistemi IR, data la loro facilità di implementazione.12

Modello algebrico

Il recupero booleano dei documenti inibisce qualsiasi forma di corrispondenza parziale. I modelli algebrici e probabilistici affrontano questo problema assegnando pesi non binari ai termini dell'indice.

Un modello algebrico rappresentativo è il modello dello spazio vettoriale. In questo approccio, il sistema IR rappresenta documenti e interrogazioni come vettori in uno spazio vettoriale multidimensionale. In questo spazio, i termini dell'indice saranno probabilmente caratteristiche dello spazio vettoriale e le query e i documenti vengono qui tracciati in base alla presenza e alla frequenza con cui contengono i termini dell'indice. Il sistema IR calcola la somiglianza tra una query di ricerca e i documenti in base alla loro vicinanza nello spazio vettoriale.

Esistono diverse metriche per determinare la prossimità in un modello di spazio vettoriale, come Jaccard e il prodotto scalare. Forse una delle più comuni, tuttavia, è la similarità del coseno, rappresentata dalla formula

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

Qui, A e B significano due vettori nello spazio vettoriale. Il punteggio di similarità del coseno può essere qualsiasi valore compreso tra -1 e 1. Più alto è il valore del coseno, più due oggetti sono considerati simili.

Il modello dello spazio vettoriale IR restituisce i documenti in ordine in base al grado di similarità misurato. In questo modo, i sistemi IR algebrici, come il modello dello spazio vettoriale, consentono un abbinamento parziale, fornendo potenzialmente una forma più precisa o sfumata di recupero delle informazioni.13

Modello probabilistico

Anche i modelli probabilistici consentono la corrispondenza parziale tra le query utente e i documenti. I modelli probabilistici funzionano partendo dal presupposto che una determinata query abbia un insieme ideale di risorse del sistema informativo recuperate. Questo insieme ideale è, certamente, sconosciuto. Ma la semantica dei termini di indice può caratterizzare le proprietà di questo insieme.

Come i modelli algebrici, i modelli probabilistici utilizzano la presenza e la frequenza dei termini di indice per determinare la somiglianza tra le query e i documenti. Ma i modelli probabilistici si differenziano per il fatto che considerano altri fattori. Ad esempio, possono tenere conto della co-frequenza dei termini di indice, ossia la frequenza con cui i termini di indice si trovano insieme in un documento, in relazione alla lunghezza del testo completo del documento, oppure la frequenza con cui un singolo termine di indice ricorre su tutti i termini della query in una determinata query. Questi sono solo alcuni potenziali fattori presi in considerazione: una discussione più dettagliata richiede una comprensione più approfondita della teoria della probabilità.

È opportuno notare che non tutti i modelli probabilistici considerano gli stessi fattori quando calcolano la similarità o la probabilità del documento. Ad esempio, il BIM (Binary Independence Model), il primo modello IR probabilistico, non considera la frequenza dei termini. Un modello che incorpora la tecnica di modellazione degli argomenti dell'allocazione latente di Dirichlet (LDA), tuttavia, terrà conto della co-frequenza dei termini.14

Ricerche recenti

Distorsione. I motori di ricerca web sono forse uno dei casi d'uso IR più noti. Lo strumento di riassunto del testo PageRank è utilizzato per recuperare e classificare le pagine web (documenti HTML). La ricerca conferma la spiacevole realtà che vede gli algoritmi di ricerca perpetuare una serie di pregiudizi, come quelli razziali e di genere.15 In risposta, gli esperimenti pubblicati esplorano una serie di metodi per ridurre i pregiudizi sociali nei sistemi IR, come il campionamento negativo16 e gli algoritmi sensibili alle distorsioni, o bias, che incorporano penalità in caso di risultati distorti.17 La riduzione dei pregiudizi è un'area fondamentale per la ricerca al fine di sviluppare una prassi etica sull'IR e persino sull'intelligenza artificiale.

Soluzioni correlate
IBM watsonx Orchestrate

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate
Strumenti di elaborazione del linguaggio naturale e API

Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.

Esplora le soluzioni NLP
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate Esplora le soluzioni NLP
Note a piè di pagina

1 Christopher Manning, Prabhakar Raghavan e Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan e Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas e Ricardo Baeza-Yates, "Structured Document Retrieval", Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, n. 1, 1981, pp. 51-64.

5 Alejandro Bellogín e Alan Said, "Information Retrieval and Recommender Systems", Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen, and Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan e Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

9 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.

10 Qiaozhu Mei e Dragomir Radev, "Information Retrieval", The Oxford Handbook of Computational Linguistics, 2a edizione, Oxford University Press, 2016. Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei e Dragomir Radev, "Information Retrieval", The Oxford Handbook of Computational Linguistics, 2a edizione, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke e Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan e Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

13 Qiaozhu Mei e Dragomir Radev, "Information Retrieval", The Oxford Handbook of Computational Linguistics, 2a edizione, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan e Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan e Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., "A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers", Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022, pagg. 47-55.

17 Dhanasekar Sundararaman e Vivek Subramanian, "Debiasing Gender Bias in Information Retrieval Models", 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., "Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases", Microsoft Research, 2022.