Les données fiables sont essentielles pour aider les entreprises à réussir leurs initiatives d’IA générative. Les entreprises peinent à exploiter ce qui pourrait être une source puissante d’informations : les données non structurées. Environ 90 % des données produites par les entreprises sont non structurées, avec des informations précieuses stockées dans des e-mails, des documents PDF, des fichiers vidéo et d’autres formats1.
La bonne nouvelle, c’est que des solutions et des approches en constante évolution peuvent permettre aux entreprises d’organiser leurs données non structurées, d’y accéder et d’en tirer des enseignements. Alice Gomstyn, collaboratrice de Think, s’est entretenue avec Dinesh Nirmal, vice-président senior d’IBM Software, pour discuter de la manière dont les entreprises peuvent libérer le potentiel des données autrefois considérées comme hors de portée.
Gomstyn : Quels sont les défis auxquels les entreprises sont confrontées lorsqu’il s’agit d’utiliser leurs données non structurées ?
Nirmal : Les données non structurées posent trois grands défis. Le premier est l’évolutivité. Comment les faire évoluer et les gouverner ? Deuxièmement, comment s’assurer que les performances et la précision de l’IA générative y sont associées ? Et troisièmement, comment corréler les données non structurées et structurées afin d’en tirer de la valeur ?
Gomstyn : Pouvez-vous nous en dire plus sur le défi de l’évolutivité et sur ce qu’il faut faire pour le relever ?
Nirmal : Les données non structurées sont plus complexes dans la mesure où elles peuvent comporter des centaines de champs, certains pouvant être des champs de masse ou sécurisés. Lorsque vous ingérez ces documents, il est essentiel que l’ingestion soit régie et que les données soient stockées dans un magasin régi, tel qu’un data lakehouse.
Vous avez également besoin d’une gouvernance dans votre pipeline de données. Comment y intégrer l’observabilité et la surveillance ? S’il y a une dérive ou un changement dans ce pipeline, comment l’identifier rapidement et le résoudre ? Ces pipelines peuvent être complexes et longs, et vous devez vous assurer que vous obtenez des résultats, un temps d’exécution, des performances et une précision de qualité tout au long du processus. Vous avez besoin d’outils pour vous assurer que vous pouvez développer, gouverner et observer les pipelines.
Pour les entreprises, c’est aussi une question de sécurité. La sécurité des données devient un élément critique pour s’assurer qu’elles ne perdent pas ces données. Nous disposons d’outils de sécurité dédiés pour nous assurer que les données sont chiffrées. À mesure que vous évoluez, vous devez donc vous assurer que la gouvernance et la sécurité que vous avez pour les données structurées s’appliquent également aux données non structurées.
Gomstyn : Qu’en est-il du deuxième défi majeur : obtenir des modèles d’IA générative performants ?
Nirmal : Il y a là une énorme opportunité, car l’IA générative ne peut réussir que si nous pouvons fournir des données gouvernées et fiables à ces modèles pour l’entraînement et le prompting.
Les outils de gouvernance permettent également d’accéder aux données. À l’aide d’outils de gouvernance tels que les catalogues de données, je peux mettre des données non structurées à la disposition de mes data scientists et de mes ingénieurs afin qu’ils puissent optimiser les prompts des modèles à l’aide de données non structurées.
La gouvernance et l’innovation vont de pair. Si vous innovez vraiment pour fournir des données en libre-service, la gouvernance doit être en place pour que vous puissiez le faire. Du point de vue des produits de données, la mise à disposition de ces données en libre-service est le premier élément à privilégier.
Gomstyn : Comment relever le troisième défi qui consiste à corréler les données structurées et non structurées ?
Nirmal : Actuellement, si vous disposez de données non structurées sous la forme de document, vous devez diviser ou subdiviser ce dernier en plusieurs parties et les stocker sous forme d’embeddings dans une base de données vectorielle.
Le problème qui se pose est que vous perdez en précision parce que vous ne savez pas où vous fragmentez les données. Supposons que vous ayez un tableau coupé en deux. Lorsque vous l’importez, vous n’obtenez que la moitié et toute précision est perdue.
Que pouvons-nous faire ? Nous ne stockons pas seulement les données dans une base de données vectorielle, mais nous prenons également les aspects transactionnels de ce document et les plaçons dans une base de données transactionnelle. Lorsque vous avez une requête en langage naturel, vous comparez les deux côtés pour savoir comment rassembler les données afin d’obtenir une meilleure précision et des performances accrues. C’est là que RAG SQL ou Graph RAG entrent en jeu ; vous pouvez les utiliser pour obtenir un niveau de précision supérieur. C’est là tout l’intérêt de s’assurer que vous mettez en corrélation les données de la base de données transactionnelle et celles de votre base de données vectorielle.
Gomstyn : Quelles sont les aptitudes et les compétences critiques que les responsables informatiques doivent acquérir pour gérer efficacement les données non structurées ?
Nirmal : L’ingénierie des données est l’élément le plus important dans le domaine des données non structurées. Du côté structuré, cette discipline est bien organisée, mais elle n’a pas vraiment décollé du côté non structuré parce que le volume de données est énorme.
Mais aujourd’hui, la gouvernance, la sécurité et tous ces éléments entrent en ligne de compte dans l’aspect non structuré. Nous avons besoin d’ingénieurs en données pour concevoir les données, pour les rendre disponibles sous forme de pipelines. Nous avons besoin d’eux pour créer des produits de données pour les données non structurées et pour mettre le libre-service à la disposition de chaque data scientist et de chaque ingénieur. Les compétences que les ingénieurs de données utilisent pour les données structurées peuvent être employées pour les données non structurées ; elles seront simplement appliquées à une échelle beaucoup plus grande.
Gomstyn : Comment mesurez-vous le succès des projets pilotes en matière de données non structurées ?
Nirmal : Le véritable retour sur investissement se produit lorsqu’il y a une valeur ajoutée pour l’utilisateur final au sein de l’entreprise. Par exemple, j’appelle mon opérateur téléphonique et un représentant client me répond. Lorsque je pose une question, il doit chercher la réponse avant de me la donner.
Grâce à l’IA générative, je peux désormais le faire en ligne. Il me suffit de poser une question simple à un assistant ou à un chatbot, qui peut accéder à un format de données non structuré tel qu’un document de facturation. En moins de 15 secondes, j’obtiens une réponse qui résume ma facture ou tout autre élément de mon compte. Regardez le temps que j’ai gagné. Je n’ai pas eu à passer 15 minutes à attendre que quelqu’un me réponde. Les réponses sont à portée de main. C’est ce que l’IA générative m’a permis de faire en tant qu’utilisateur final.
Ce qui compte, c’est la productivité, les gains de temps et l’optimisation que l’IA générative apporte, en particulier en matière de données non structurées.
Cet entretien a été modifié et condensé par souci de clarté et de concision.
Utilisez les solutions de base de données IBM pour répondre aux différents besoins en matière de workload sur le cloud hybride.
Découvrez IBM Db2, une base de données relationnelle qui offre des performances, une évolutivité et une fiabilité élevées pour le stockage et la gestion des données structurées. Elle est disponible en tant que solution SaaS sur IBM Cloud ou en autohébergement.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.