Les données sont le carburant qui fait tourner les moteurs de l’IA. Et de nombreuses entreprises ne tirent pas pleinement parti du trésor que constituent les données non structurées à leur disposition, car elles ne savent pas comment remplir le réservoir.
C’est pourquoi les entreprises qui disposent des outils nécessaires pour traiter les données non structurées attirent l’attention des investisseurs. Le mois dernier, Salesforce a réalisé une acquisition majeure en vue de renforcer sa plateforme Agentforce, qui n’est qu’un exemple parmi d’autres d’investissements récents dans des fournisseurs de gestion de données non structurées.
« L’IA générative a accru l’importance des données non structurées, à savoir les documents, pour la RAG ainsi que pour le réglage fin des LLM et l’analyse traditionnelle pour le machine learning, la business intelligence et l’ingénierie des données, explique Edward Calvesbert, vice-président de la gestion des produits chez IBM watsonx et l’un des experts en données d’IBM. La plupart des données générées chaque jour sont non structurées et représentent la plus grande des nouvelles opportunités. »
Nous voulions en savoir plus sur ce que les données non structurées réservent à l’IA. Nous avons donc rencontré Edward Calvesbert et Dave Donahue, responsable de la stratégie de la société de science des données Unstructured, qui a conclu en mars un cycle d’investissement de 40 millions de dollars avec IBM, Nvidia et Databricks, afin de connaître leur point de vue sur l’importance des données non structurées et leur évolution future.
Edward Calvesbert, IBM : Les données non structurées (langage, images, etc.) sont les « nouvelles » données dont se nourrissent les modèles de fondation et qui peuvent aider à les interpréter. Elles sont donc au centre de l’attention actuellement. Mais tout comme les données structurées, elles doivent être gérées : classées, évaluées en matière de qualité, filtrées pour supprimer les données personnelles et les contenus répréhensibles, et dédupliquées. Les stratégies efficaces appliqueront donc bon nombre des capacités traditionnelles de gestion des données structurées aux données non structurées.
Dave Donahue, Unstructured : Les données non structurées ne sont pas intrinsèquement plus précieuses que les données structurées, mais d’une manière générale, les grandes entreprises produisent quatre fois plus de données non structurées que de données structurées. La question est donc la suivante : souhaitez-vous utiliser davantage vos données, en particulier les données non structurées générées par les humains, lors de la mise en œuvre de l’IA ? La réponse devrait être un « oui » retentissant.
E. Calvesbert : La notion de « suffisamment bonnes » est variable et dépend du cas d’utilisation. Une base de connaissances pour la RAG visant à améliorer la recherche sémantique, les questions-réponses et la synthèse pour les agents du support client nécessite une base de connaissances documentaire complète, précise et à jour. Les données nécessaires au réglage fin d’un modèle nécessitent un jeu d’exemples de paires de prompts/réponses sélectionnés par des humains. Les documents traités sous forme de tableaux ou de bases de données graphiques pour alimenter des cas d’utilisation analytiques nécessitent une extraction efficace des entités ou des valeurs. Dans presque tous les cas, les données doivent être classées, filtrées et gérées dans le contexte du cycle de vie du cas d’utilisation.
D. Donahue : Au niveau de l’entreprise, les « bonnes » données sont propres, structurées et enrichies. Ce pipeline de prétraitement doit minimiser la perte d’informations entre le contenu original et la version prête pour les LLM. Unstructured permet aux entreprises de transformer leurs données non structurées en un format standardisé, quel que soit le type de fichier, et de les enrichir avec des métadonnées supplémentaires. Ceci leur permet d’atténuer les trois principaux défis auxquels elles sont confrontées lorsqu’elles utilisent des LLM : ils sont figés dans le temps, ils ont tendance à inventer des choses et ils ne savent rien de votre entreprise spécifique dès leur mise en service.
E. Calvesbert : Un important client du secteur des télécommunications a commencé par mettre en place une base de connaissances interne destinée aux agents du support client, ce qui a permis de réduire le temps nécessaire pour répondre aux clients et d’améliorer la précision des réponses. Cette base s’est répandue de manière organique, comme une traînée de poudre, au sein du centre d’appels, à tel point que l’entreprise a dû prendre du recul et commencer à travailler sur la gouvernance et la performance des prix. En interne, nous avons mis en œuvre un cas d’utilisation pour l’automatisation du marketing, dans lequel les directives et les exemples de la marque IBM ont été intégrés afin de générer de nouveaux contenus marketing et de les organiser pour garantir une qualité et un ton cohérents.
D. Donahue : Nous travaillons avec une entreprise mondiale de biens de grande consommation pour l’aider à développer de nouvelles idées de produits. Vous vous demandez peut-être : « Quel est le rapport avec les données non structurées ? » Eh bien, historiquement, il fallait des mois aux équipes marketing et produit pour analyser des montagnes de données de vente, d’informations sur les retours client et de données démographiques afin de générer de nouvelles idées ou de nouveaux concepts qu’elles pouvaient tester auprès des utilisateurs finaux sur ces marchés spécifiques. Et si nous pouvions réduire ce processus de plusieurs mois à quelques heures ? Et si nous pouvions générer de nouvelles idées de produits basées sur les données que les équipes pourraient tester rapidement ?
C’est là tout le pouvoir de l’exploitation de vos données non structurées pour créer de la valeur commerciale. Aujourd’hui, cette entreprise de biens de grande consommation exploite ses données sur plusieurs de ses marques dans le but de développer et de tester de nouvelles idées de produits à commercialiser.
E. Calvesbert : Toutes les entreprises possèdent des documents (pensez à ceux qu’elles fournissent aux nouveaux employés pour leur intégration) ; cela suffit pour se lancer dans la RAG et la recherche sémantique.
D. Donahue : 80 % des données d’une entreprise sont non structurées, qu’il s’agisse d’e-mails, de mémos, de plateformes de messagerie interne (comme Slack ou Microsoft Teams) ou de présentations. La question est : que voulez-vous faire avec ces données ? Améliorer l’efficacité des ingénieurs qui effectuent actuellement un travail similaire de nettoyage des données ? Développer de nouvelles idées de produits basées sur les données commerciales et marketing ? Les possibilités et les opportunités offertes par l’IA sont innombrables. Déterminez un objectif, identifiez les données nécessaires et commencez modestement.
E. Calvesbert : Je pense que les architectures lakehouse et les formats de table ouverts, à savoir Iceberg, sont devenus courants et constituent désormais l’architecture de gestion des données dominante pour les nouvelles données et les nouveaux workloads. Les capacités vectorielles ont été intégrées en natif dans de nombreuses bases de données opérationnelles/analytiques, de sorte que les workloads d’IA générative peuvent être intégrés dans les applications existantes. Nous commençons à voir le secteur réaliser que la RAG seul ne suffira pas pour certains cas d’utilisation en entreprise qui nécessitent une contextualisation supplémentaire basée sur des relations non évidentes (GraphRAG) et une précision améliorée à partir des enregistrements transactionnels (SQL-RAG). Les clients se rendent également compte que la mise en œuvre d’un modèle d’autorisation des utilisateurs qui respecte les contrôles d’accès en place avec les systèmes de gestion de contenu d’entreprise est un défi crucial à relever pour déployer l’IA générative à l’échelle de l’entreprise.
D. Donahue : Nous commençons à voir les équipes d’ingénierie en science des données et en machine learning travailler plus étroitement avec les équipes d’ingénierie des données. Ces dernières se sont développées au cours de la dernière décennie, parallèlement à l’essor des applications d’entrepôt de données et de business intelligence, et ont toujours opéré dans le monde du SQL, des bases de données structurées et des processus d’analyse métier conçus pour les analystes de données et les dirigeants. À mesure que les entreprises se sont tournées vers les LLM, la demande en grands volumes de données prétraitées a explosé. Cependant, ces consommateurs ont tendance à opérer dans le monde de Python, des bases de données vectorielles et des interfaces utilisateur rapides et jetables. Au fil du temps, nous nous attendons à ce que les équipes d’ingénieurs de données matures assument de plus en plus la responsabilité de fournir aux équipes d’IA générative des données prêtes à l’emploi pour l’entreprise.
E. Calvesbert : Je pense que les clients cherchent à simplifier leurs parcs de données ainsi que les coûts et les risques associés. À cette fin, les bases de données multimodèles et les architectures lakehouse multimoteurs continueront à rivaliser avec les bases de données cloisonnées pour les workloads, car les clients cherchent à regrouper leurs données sur un nombre réduit de plateformes. Les modèles Text-to-SQL s’améliorent considérablement, ce qui réduira considérablement les obstacles à l’utilisation des données pour un large éventail de cas d’utilisation au-delà de la business intelligence.
De même, la prolifération des agents va injecter des données dans des workflows automatisés dont le volume et la diversité vont exploser. Certains de ces workflows agentiques vont révolutionner de nombreuses activités des travailleurs du savoir et créer de nouvelles opportunités passionnantes. Imaginez le traitement d’une conversation interne ou externe avec des clients et son mappage immédiat vers des produits dans un catalogue ou un enregistrement d’opportunités dans un système CRM, avec notamment une évaluation automatisée de l’état d’avancement et de la propension à conclure.
D. Donahue : Contrairement à la pile de données moderne, dans laquelle Snowflake, BigQuery et Databricks ont établi une « gravité des données » dans l’espace de l’entrepôt de données, nous n’avons pas encore fait de même pour les données non structurées. Et comme elles sont quatre fois plus volumineuses que les données structurées et connaissent une croissance exponentielle chaque année, les enjeux ne sauraient être plus importants concernant la nouvelle génération de solutions de stockage pour les LLM. Le jury n’a pas encore tranché quant à la combinaison de vecteurs, de graphes, d’objets ou d’autres types de stockage qui dominera, ni quant aux fournisseurs qui s’imposeront dans chaque catégorie, mais les gagnants devraient être connus dans les 18 à 24 prochains mois.