Qu’est-ce que la récupération des données ?

By Alice Gomstyn , Alexandra Jonker

Définition de la récupération des données

La récupération des données désigne le processus consistant à accéder à des informations prêtes à l’emploi à partir d’une source de données.

Traditionnellement, ce terme désignait l’utilisation de langages de requête pour extraire des données structurées à partir de bases de données. Cependant, avec l’augmentation des volumes et les progrès technologiques, ce terme est désormais associé à la récupération de nombreux types de données, qu’elles soient structurées ou non.

Cette technique est utilisée par les entreprises pour exploiter des collections de données de plus en plus riches, tant au sein de leurs propres systèmes que dans des référentiels tiers. Les outils spécialisés permettent aux utilisateurs professionnels, aux chercheurs et à d’autres intervenants de trouver des réponses à leurs questions et d’identifier des points de données clés, à partir de sources auxquelles il serait difficile, voire impossible, d’accéder par des méthodes manuelles.

Autrefois limités à des recherches rudimentaires dans des bases de données, les systèmes sont aujourd’hui souvent enrichis de technologies d’automatisation et d’intelligence artificielle (IA) capables de gérer des requêtes complexes, de se connecter à davantage de bases de connaissances et d’optimiser dynamiquement l’exécution des requêtes. Le machine learning, le traitement automatique du langage naturel et la génération augmentée de récupération (RAG) contribuent à améliorer la précision et la pertinence des données fournies en réponse aux requêtes.

Pourquoi la récupération des données est-elle importante ?

La possibilité d’extraire des informations pertinentes à partir de données de haute qualité permet aux entreprises de prendre des décisions éclairées.

Mais avant toute analyse, il faut pouvoir accéder à ces données. Cette tâche peut s’avérer particulièrement difficile lorsque celles-ci se trouvent au sein d’un vaste jeu ou parc, par exemple une base de données de recherche scientifique étendue ou un système de stockage hybride multicloud tentaculaire.

La croissance explosive des données accentue ces difficultés : selon certaines estimations, plus de 400 millions de téraoctets de données sont créés chaque jour, tandis que les entreprises gèrent souvent elles-mêmes un pétaoctet de données, si ce n’est plus¹.

Les progrès de l’intelligence artificielle ont également modifié les besoins des entreprises dans ce domaine. Les workflows d’IA nécessitent un accès rapide aux données, notamment à de grands volumes non structurés.

Historiquement, les processus de récupération des données se concentraient sur les requêtes provenant de sources structurées telles que les systèmes de gestion de bases de données relationnelles. Cependant, plutôt que d’utiliser des approches manuelles et chronophages pour passer au crible les immenses sources internes et externes d’aujourd’hui, les entreprises se tournent vers la récupération moderne des données. Cette approche utilise des technologies telles que les bases de données vectorielles et la génération augmentée de récupération pour répondre à la demande de données résidant en dehors des bases de données relationnelles internes.

La RAG agentique, en particulier, s’est révélée particulièrement efficace pour répondre à cette demande. David Levy, Advisory Technology Engineer for Client Engineering chez IBM, a décrit les capacités de la RAG agentique lors d’une présentation pour IBM Technology.

« La RAG agentique marque une évolution dans la manière dont nous améliorons le pipeline RAG, en dépassant la simple génération de réponses pour parvenir à une prise de décision plus intelligente. En permettant à un agent de choisir les meilleures sources de données et, éventuellement, d’intégrer des informations externes (par exemple en temps réel ou provenant de services tiers), nous pouvons créer un pipeline plus réactif, plus précis et plus adaptable. »

Résultat ? Les entreprises et autres organisations peuvent mieux tirer parti de leurs propres données structurées et non structurées, ainsi que des volumes croissants produits en dehors de leurs écosystèmes. La possibilité d’accéder aux données exactes dont elles ont besoin au bon moment leur permet de mettre en œuvre des analyses et d’extraire des informations qui améliorent leurs résultats.

Récupération des données, recherche d’informations et data mining

Les termes « récupération des données » et « recherche d’informations » sont souvent utilisés de manière interchangeable, et ce à juste titre.

Alors qu’ils ont traditionnellement été associés à des types de données différents (structurées pour la récupération des données ; non structurées pour la recherche d’informations), les avancées en science des données ont estompé cette distinction. Non seulement la récupération peut désormais couvrir les données non structurées, mais certains systèmes de recherche d’informations permettent de récupérer des documents structurés (grâce à l’utilisation du XML pour indexer les documents textuels).

La différence la plus notable entre les deux réside sans doute dans les types de résultats obtenus. La récupération des données vise à renvoyer des correspondances exactes aux requêtes des utilisateurs, tandis que les systèmes de recherche d’informations, qui constituent l’épine dorsale des moteurs de recherche Web, fournissent de multiples résultats (tels que des pages Web) classés en fonction de leur pertinence.

La récupération des données et la recherche d’informations sont également parfois confondues avec le data mining (ou exploration des données). Ici, cependant, la distinction est claire : alors que les deux premières se concentrent sur l’accès aux données et leur mise à disposition, le troisième consiste à découvrir des tendances et des informations à partir des données. En d’autres termes, il englobe également l’analyse. De plus, il s’applique à de grands jeux de données, tandis que les deux autres peuvent être utilisées pour des collections de données de toute taille.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Approches traditionnelles de la récupération des données

Les méthodes de récupération des données peuvent être divisées en deux catégories : les techniques traditionnelles et les techniques d’IA². Les techniques traditionnelles sont les suivantes :

Langages de requête
Indexation
Optimisation des requêtes

Langages de requête

Les données sont extraites de systèmes de gestion de bases de données relationnelles (DBMS) classiques à l’aide de langages de requête. Le plus connu est le langage de requête structuré, ou SQL. Les utilisateurs se servent de commandes SQL pour extraire des données et effectuer d’autres tâches, notamment des ajouts, des mises à jour et des suppressions.

Indexation

L’indexation consiste à créer des structures de données interrogeables qui renvoient à des enregistrements de données dans des tables plus volumineuses. Les opérations de recherche analysent les index plutôt que les tables dans leur intégralité, ce qui accélère et optimise le traitement des requêtes.

Optimisation des requêtes

Dans les systèmes de gestion de bases de données, les outils d’optimisation des requêtes améliorent les performances de ces dernières en sélectionnant la solution la plus efficace parmi différents plans de requête, c’est-à-dire différentes façons d’exécuter les requêtes. Les optimiseurs déterminent, par exemple, s’il convient d’utiliser des index, la manière de lire une table et, lorsqu’une jointure est demandée, l’ordre dans lequel les tables sont jointes.

Ces techniques bien établies se sont avérées efficaces pour récupérer des données structurées et prendre en charge des opérations de recherche de base, mais elles se sont également révélées insuffisantes dans de nombreux domaines, notamment la récupération de données non structurées, l’exécution de requêtes complexes, la capture de la signification sémantique, la prise en charge de l’évolutivité et la fourniture de résultats en temps réel³.

Techniques de récupération des données pilotées par l’IA

Les techniques de récupération des données pilotées par l’IA contribuent à pallier les lacunes des techniques traditionnelles, améliorant ainsi les performances des requêtes et l’expérience utilisateur⁴.

Les principales technologies récupération des données par IA sont les suivantes :

Recherche vectorielle
Machine learning et apprentissage profond
Traitement automatique du langage naturel
Génération augmentée de récupération et RAG agentique

Recherche vectorielle

Dans les bases de données vectorielles, divers types de données, notamment du texte et des images, sont stockés sous forme de représentations numériques appelées « embeddings vectoriels ». Ceux qui possèdent des dimensions similaires sont ensuite regroupés. Lors d’une recherche vectorielle, les systèmes récupèrent les données et documents pertinents dont les embeddings vectoriels sont similaires aux termes de recherche. Ces recherches s’appuient généralement sur des algorithmes de plus proche voisin qui déduisent des liens entre les points de données en fonction de leur proximité.

Machine learning et apprentissage profond

Les algorithmes de machine learning entraînés sur des données historiques et sur le comportement des utilisateurs peuvent suggérer des requêtes aux utilisateurs en fonction de leurs habitudes de recherche, puis faire remonter les données pertinentes. De plus, un sous-ensemble du machine learning appelé apprentissage profond permet de récupérer des données non structurées. Par exemple, les réseaux de neurones convolutifs (CNN), sur lesquels repose la vision par ordinateur, peuvent être utilisés pour rechercher des fichiers image et vidéo⁵.

Traitement automatique du langage naturel

Le traitement automatique du langage naturel (TALN ou NLP), facilite l’utilisation des requêtes de recherche en permettant aux utilisateurs de les formuler de manière conversationnelle, plutôt que sous forme de commandes de programmation. Ainsi, au lieu de s’appuyer uniquement sur la correspondance de mots-clés, les moteurs basés sur le TALN effectuent une recherche sémantique : ils identifient les résultats pertinents qui reflètent l’intention de la requête, même si les termes de recherche exacts ne sont pas présents dans un document.

Génération augmentée de récupération et RAG agentique

La génération augmentée de récupération relie les grands modèles de langage à des bases de connaissances externes à l’aide d’interfaces de programmation d’applications (API). Cela permet aux systèmes de récupérer des informations à la fois actuelles et spécifiques à un domaine.

Les systèmes de RAG agentique se distinguent des systèmes traditionnels par des capacités avancées, notamment un raisonnement agentique qui optimise dynamiquement les requêtes et améliore la récupération des données. Les principaux composants des systèmes de RAG agentique de pointe sont les suivants :

Fonctionnalités de recherche de base : la récupération des données s’appuie sur des approches traditionnelles et alimentées par l’IA, notamment l’indexation et la combinaison de la recherche par mots-clés et de la recherche vectorielle (appelée « recherche hybride »).

Mise en cache sémantique : les systèmes RAG basés sur des agents peuvent stocker et consulter des ensembles antérieurs de requêtes, de contextes et de résultats. Cette mémoire peut orienter les nouvelles recherches, fournissant ainsi des résultats plus pertinents et personnalisés.

Segmentation agentique : la segmentation agentique divise les entrées textuelles volumineuses en blocs plus petits et sémantiquement cohérents (segments ou chunks) stockés dans des bases de données vectorielles. Leur cohérence sémantique permet aux systèmes de fournir des réponses plus complètes et de meilleure qualité aux requêtes.

Agents de routage : les agents de routage déterminent quels outils et sources de connaissances externes répondraient le mieux à la requête d’un utilisateur.

Agents de planification des requêtes : les agents de planification des requêtes décomposent les requêtes complexes des utilisateurs en étapes et soumettent les sous-requêtes ainsi obtenues aux autres agents du système RAG. Une fois que ces agents ont fourni leurs réponses respectives, les agents de planification des requêtes les combinent pour former une réponse cohérente.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Cas d’utilisation de la récupération des données

Les techniques et solutions de récupération des données peuvent améliorer l’accès aux données et leur gestion dans un grand nombre de secteurs et de disciplines.

Soins de santé

Un fournisseur de services auprès d’établissements de santé a utilisé le traitement automatique du langage naturel et la génération augmentée de récupération pour accélérer de 90 % la récupération de données stratégiques.

Services financiers

Une entreprise de fintech a déployé un chatbot de service client alimenté par la RAG qui récupérait des informations en temps réel, réduisant ainsi le temps d’interaction moyen de 80 % par rapport aux centres d’appel traditionnels.

E-commerce

Les entreprises d’e-commerce permettent aux acheteurs de charger des photos des articles qu’ils souhaitent acheter, afin que des solutions de recherche basées sur la vision par ordinateur récupèrent des informations sur des produits similaires.

Défis liés à la récupération des données

Alors que les entreprises se renseignent sur les solutions de récupération des données, il est important de prendre en compte les défis auxquels elles pourraient être confrontées.

Qualité des données

À mesure que la récupération des données devient plus performante, les entreprises peuvent constater que certaines données sont truffées de lacunes et d’erreurs. Les pratiques de gestion de la qualité des données, telles que le profilage et le nettoyage, permettent d’optimiser les jeux de données, notamment leur exactitude, leur exhaustivité, leur cohérence et d’autres aspects de la qualité.

Sécurité

La mise en œuvre de capacités de récupération des données avancées peut s’avérer risquée sans mesures de sécurité adéquates visant à empêcher l’accès à des données sensibles par des personnes non autorisées. Les plateformes de données gouvernées comprennent des contrôles intégrés de sécurité, d’identité et des accès afin d’empêcher tout accès non autorisé et de garantir la conformité réglementaire.

Enfermement propriétaire

Les solutions de données propriétaires regroupent souvent la récupération des données, l’orchestration et les modèles d’IA dans des systèmes fermés, ce qui limite les entreprises à des piles technologiques contrôlées par les fournisseurs. Les solutions de données open source intégrant la RAG agentique et d’autres technologies offrent une alternative intéressante, car elles permettent aux entreprises de mieux contrôler leur pile technologique et leurs fonctions de gestion des données.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor