6 mai 2025
Cette semaine, à l’occasion de la conférence Think, IBM simplifie radicalement la pile de données pour l’IA.
IBM présente une évolution majeure de watsonx.data, qui pourra aider les entreprises à préparer leurs données pour l’IA tout en apportant une fondation de données hybride et ouverte, ainsi qu’une gestion des données structurées et des données non structurées professionnelles.
Résultat ? Une IA 40 % plus précise que la RAG conventionnelle, selon les tests réalisés avec IBM watsonx.data.1 Voici les produits et fonctionnalités dont le lancement est prévu en juin :
watsonx.data integration et watsonx.data intelligence seront disponibles en tant que produits autonomes. Certaines capacités seront également disponibles via watsonx.data, offrant aux clients plus de choix et de modularité.
En complément de ces produits, IBM a récemment annoncé son intention d’acquérir DataStax, qui excelle dans l’exploitation des données non structurées à des fins d’IA générative. Avec DataStax, les clients peuvent accéder à des capacités de recherche vectorielle supplémentaires.
Reposant sur des tests internes comparant l’exactitude des réponses des sorties des modèles d’IA à l’aide de la couche de récupération watsonx.data Premium ; RAG vectorielle disponible uniquement sur trois cas d’utilisation courants avec des jeux de données IBM, à l’aide du même ensemble de modèles d’inférence open source, d’évaluation et d’embedding et variables supplémentaires. Les résultats peuvent varier.
Lorsqu’il s’agit de précision et de performance d’IA générative, notamment d’IA agentique, les entreprises se heurtent à un obstacle de taille. Mais l’obstacle n’est pas celui auquel pensent la plupart des responsables d’entreprise.
Le problème ne concerne pas les coûts d’inférence ou l’inatteignable modèle « parfait » : le problème, ce sont les données.
Les entreprises ont besoin de données fiables et spécifiques pour que l’IA agentique puisse créer une vraie valeur ; les données non structurées contenues dans les e-mails, les documents, les présentations et les vidéos. On estime qu’en 2022, 90 % des données générées par les entreprises n’étaient pas structurées, mais les projets IBM ne représentent que 1 % des LLM.
Les données non structurées peuvent être extrêmement difficiles à exploiter. Souvent distribuées et dynamiques, elles sont restreintes à des formats, manquent d’étiquettes claires et ont souvent besoin de contexte supplémentaire pour une interprétation complète. La génération augmentée par récupération conventionnelle (RAG) ne permet d’extraire leur valeur et n’est pas en mesure de correctement associer les données non structurées et structurées.
À l’inverse, une gamme d’outils déconnectés peut complexifier et encombrer la pile de données d’IA. Les entreprises doivent jongler entre entrepôts de données, data lakes et outils de gouvernance et d’intégration des données. La pile de données peut sembler aussi désordonnée que les données non structurées qu’elle est censée gérer.
Bien souvent, les entreprises ne s’attaquent pas au problème de base : elles se concentrent uniquement sur la couche applicative d’IA générative, plutôt que sur la couche de données essentielle sous-jacente. Tant que les entreprises n’auront pas renforcé leur socle de données, les agents d’IA et autres initiatives d’IA générative ne pourront pas atteindre leur plein potentiel.
Les nouvelles capacités d’IBM permettront aux entreprises d’ingérer, de gouverner et de récupérer des données non structurées (et structurées), puis de mettre à l’échelle une IA générative précise et performante.
Les nouveautés dans la newsletter IBM
Obtenez les plus grandes annonces de produits et de fonctionnalités, y compris les récents chats vidéo sur les produits, et les offres de formation d'IBM et de nos partenaires de formation. Consultez la Déclaration de confidentialité d’IBM.