Surmonter les trois principaux défis des données non structurées

Rendu 3D de plateformes carrées blanches flottantes dans une grille avec un cube bleu au-dessus de l’une d’entre elles

Auteurs

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

Staff Writer

IBM Think

Les données fiables sont essentielles pour aider les entreprises à réussir leurs initiatives d’IA générative. Les entreprises peinent à exploiter ce qui pourrait être une source puissante d’informations : les données non structurées. Environ 90 % des données produites par les entreprises sont non structurées, avec des informations précieuses stockées dans des e-mails, des documents PDF, des fichiers vidéo et d’autres formats1.

La bonne nouvelle, c’est que des solutions et des approches en constante évolution peuvent permettre aux entreprises d’organiser leurs données non structurées, d’y accéder et d’en tirer des enseignements. Alice Gomstyn, collaboratrice de Think, s’est entretenue avec Dinesh Nirmal, vice-président senior d’IBM Software, pour discuter de la manière dont les entreprises peuvent libérer le potentiel des données autrefois considérées comme hors de portée.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Gomstyn : Quels sont les défis auxquels les entreprises sont confrontées lorsqu’il s’agit d’utiliser leurs données non structurées ?

Nirmal : Les données non structurées posent trois grands défis. Le premier est l’évolutivité. Comment les faire évoluer et les gouverner ? Deuxièmement, comment s’assurer que les performances et la précision de l’IA générative y sont associées ? Et troisièmement, comment corréler les données non structurées et structurées afin d’en tirer de la valeur ?

Gomstyn : Pouvez-vous nous en dire plus sur le défi de l’évolutivité et sur ce qu’il faut faire pour le relever ?

Nirmal : Les données non structurées sont plus complexes dans la mesure où elles peuvent comporter des centaines de champs, certains pouvant être des champs de masse ou sécurisés. Lorsque vous ingérez ces documents, il est essentiel que l’ingestion soit régie et que les données soient stockées dans un magasin régi, tel qu’un data lakehouse.

Vous avez également besoin d’une gouvernance dans votre pipeline de données. Comment y intégrer l’observabilité et la surveillance ? S’il y a une dérive ou un changement dans ce pipeline, comment l’identifier rapidement et le résoudre ? Ces pipelines peuvent être complexes et longs, et vous devez vous assurer que vous obtenez des résultats, un temps d’exécution, des performances et une précision de qualité tout au long du processus. Vous avez besoin d’outils pour vous assurer que vous pouvez développer, gouverner et observer les pipelines.

Pour les entreprises, c’est aussi une question de sécurité. La sécurité des données devient un élément critique pour s’assurer qu’elles ne perdent pas ces données. Nous disposons d’outils de sécurité dédiés pour nous assurer que les données sont chiffrées. À mesure que vous évoluez, vous devez donc vous assurer que la gouvernance et la sécurité que vous avez pour les données structurées s’appliquent également aux données non structurées.

Gomstyn : Qu’en est-il du deuxième défi majeur : obtenir des modèles d’IA générative performants ?

Nirmal : Il y a là une énorme opportunité, car l’IA générative ne peut réussir que si nous pouvons fournir des données gouvernées et fiables à ces modèles pour l’entraînement et le prompting.

Les outils de gouvernance permettent également d’accéder aux données. À l’aide d’outils de gouvernance tels que les catalogues de données, je peux mettre des données non structurées à la disposition de mes data scientists et de mes ingénieurs afin qu’ils puissent optimiser les prompts des modèles à l’aide de données non structurées.

La gouvernance et l’innovation vont de pair. Si vous innovez vraiment pour fournir des données en libre-service, la gouvernance doit être en place pour que vous puissiez le faire. Du point de vue des produits de données, la mise à disposition de ces données en libre-service est le premier élément à privilégier.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Gomstyn : Comment relever le troisième défi qui consiste à corréler les données structurées et non structurées ?

Nirmal : Actuellement, si vous disposez de données non structurées sous la forme de document, vous devez diviser ou subdiviser ce dernier en plusieurs parties et les stocker sous forme d’embeddings dans une base de données vectorielle.

Le problème qui se pose est que vous perdez en précision parce que vous ne savez pas où vous fragmentez les données. Supposons que vous ayez un tableau coupé en deux. Lorsque vous l’importez, vous n’obtenez que la moitié et toute précision est perdue.

Que pouvons-nous faire ? Nous ne stockons pas seulement les données dans une base de données vectorielle, mais nous prenons également les aspects transactionnels de ce document et les plaçons dans une base de données transactionnelle. Lorsque vous avez une requête en langage naturel, vous comparez les deux côtés pour savoir comment rassembler les données afin d’obtenir une meilleure précision et des performances accrues. C’est là que RAG SQL ou Graph RAG entrent en jeu ; vous pouvez les utiliser pour obtenir un niveau de précision supérieur. C’est là tout l’intérêt de s’assurer que vous mettez en corrélation les données de la base de données transactionnelle et celles de votre base de données vectorielle.

Gomstyn : Quelles sont les aptitudes et les compétences critiques que les responsables informatiques doivent acquérir pour gérer efficacement les données non structurées ?

Nirmal : L’ingénierie des données est l’élément le plus important dans le domaine des données non structurées. Du côté structuré, cette discipline est bien organisée, mais elle n’a pas vraiment décollé du côté non structuré parce que le volume de données est énorme.

Mais aujourd’hui, la gouvernance, la sécurité et tous ces éléments entrent en ligne de compte dans l’aspect non structuré. Nous avons besoin d’ingénieurs en données pour concevoir les données, pour les rendre disponibles sous forme de pipelines. Nous avons besoin d’eux pour créer des produits de données pour les données non structurées et pour mettre le libre-service à la disposition de chaque data scientist et de chaque ingénieur. Les compétences que les ingénieurs de données utilisent pour les données structurées peuvent être employées pour les données non structurées ; elles seront simplement appliquées à une échelle beaucoup plus grande.

Gomstyn : Comment mesurez-vous le succès des projets pilotes en matière de données non structurées ?

Nirmal : Le véritable retour sur investissement se produit lorsqu’il y a une valeur ajoutée pour l’utilisateur final au sein de l’entreprise. Par exemple, j’appelle mon opérateur téléphonique et un représentant client me répond. Lorsque je pose une question, il doit chercher la réponse avant de me la donner.

Grâce à l’IA générative, je peux désormais le faire en ligne. Il me suffit de poser une question simple à un assistant ou à un chatbot, qui peut accéder à un format de données non structuré tel qu’un document de facturation. En moins de 15 secondes, j’obtiens une réponse qui résume ma facture ou tout autre élément de mon compte. Regardez le temps que j’ai gagné. Je n’ai pas eu à passer 15 minutes à attendre que quelqu’un me réponde. Les réponses sont à portée de main. C’est ce que l’IA générative m’a permis de faire en tant qu’utilisateur final.

Ce qui compte, c’est la productivité, les gains de temps et l’optimisation que l’IA générative apporte, en particulier en matière de données non structurées.

Cet entretien a été modifié et condensé par souci de clarté et de concision.

Solutions connexes
Logiciels et solutions de base de données

Utilisez les solutions de base de données IBM pour répondre aux différents besoins en matière de workload sur le cloud hybride.

Découvrir les solutions de bases de données
Base de données cloud native avec IBM Db2

Découvrez IBM Db2, une base de données relationnelle qui offre des performances, une évolutivité et une fiabilité élevées pour le stockage et la gestion des données structurées. Elle est disponible en tant que solution SaaS sur IBM Cloud ou en autohébergement.

Découvrez Db2
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passer à l’étape suivante

Utilisez les solutions de base de données IBM pour répondre aux différents besoins en matière de workload sur le cloud hybride.

Découvrir les solutions de bases de données Découvrir IBM Db2