11 juillet 2025
Le 11 juin 2025, IBM a annoncé la disponibilité de sa nouvelle approche de l’ intégration des données : watsonx.data integration. Cette solution offre un plan de contrôle unique pour créer des pipelines de traitement par lots pour le streaming en temps réel et la réplication des données, soutenus par une observabilité intégrée.
Au sein de la même solution, les équipes peuvent créer des pipelines de données non structurées réutilisables aux côtés des pipelines structurés, débloquant ainsi une mine d’or de données auparavant inaccessibles pour alimenter de nouveaux cas d’utilisation et répondre à l’évolution des exigences des environnements de données modernes. Grâce à la capacité d’intégration des données non structurées (UDI) de watsonx.data integration, les utilisateurs peuvent créer intuitivement et en quelques minutes des pipelines qui ingèrent, transforment et traitent de grands volumes de données non structurées, y compris des documents, des PDF, des PPT, etc.
Ce produit combine des innovations révolutionnaires open source et propriétaires, issues directement d’IBM Research. Voici quelques-unes des fonctionnalités du produit, parmi les meilleures de leur catégorie :
Conçue pour gérer les données d’entreprise traditionnellement sous-utilisées, watsonx.data intégration marque un tournant dans l’exploitation des données non structurées à des fins d’IA et d’analyse.
La plupart des données publiques sont déjà bien représentées dans les modèles de fondation d’aujourd’hui ; le véritable avantage concurrentiel provient donc de l’exploitation des données de votre entreprise. Pourtant, 90 % des données d’entreprise ne sont pas structurées, un volume impressionnant d’informations qui restent inexploitées – documents, PDF, e-mails, images et logs – et la plupart restent hors de portée de l’analytique traditionnelle et des workflows d’IA. Et en raison de la complexité de l’accès et de la gestion, seul 1 % est actuellement utilisé dans l’IA générative.
Apprenez-en davantage sur les défis liés aux approches traditionnelles en matière de données non structurées. IBM watsonx.data integration et son vaste écosystème d’outils sont conçus pour relever ces défis. Vous trouverez ci-dessous les fonctionnalités principales de la capacité UDI qui aident les entreprises à naviguer dans l’environnement en constante évolution d’aujourd’hui.
Cette solution inclut des connecteurs prédéfinis qui permettent aux utilisateurs d’ingérer un large éventail de sources de données et de formats couramment utilisés, ainsi que les métadonnées et les contrôles d’accès associés, à l’échelle et au fur et à mesure de leur évolution. Bien qu’il existe des connecteurs non structurés sur le marché, peu d’entre eux peuvent s’adapter dynamiquement à l’évolution des documents ou des autorisations.
Développée en collaboration avec IBM, watsonx.data integration combine l’innovation avec les technologies open source pour intégrer le traitement des données non structurées dans le pipeline de données moderne. Son écran visuel comprend des opérateurs spécialement conçus pour le texte et d’autres modalités, notamment le masquage des données personnelles (PII), la détection des propos haineux, injurieux et grossiers (HAP), le filtrage de la qualité, la détection du langage et les scores de confiance. Les développeurs peuvent concevoir un pipeline unique pour traiter divers types de fichiers à l’échelle, sans devoir écrire ni gérer de code personnalisé. Tout comme l’ELT par glisser-déposer pour les données structurées, watsonx.data integration apporte la même expérience intuitive, low-code/no-code aux données non structurées et propose également un SDK Python pour ceux qui préfèrent travailler par programmation.
En outre, des opérateurs prédéfinis pour l’embedding, la fragmentation et la vectorisation permettent aux utilisateurs de transformer des documents bruts en représentations structurées optimisées pour l’IA en aval. Ces opérateurs convertissent automatiquement le contenu non structuré en vecteurs sémantiquement significatifs, permettant des cas d’utilisation tels que la RAG, la classification de documents et la recherche intelligente, le tout sans nécessiter d’expertise approfondie en machine learning (ML).
Cette prise en charge de l’intégration des données non structurées est conçue pour traiter efficacement des pétaoctets de contenu complexe et non structuré. Les documents de 10 Mo ou plus, répartis sur des milliers de fichiers, sont compressés dans un format unifié et hautes performances, permettant un traitement et un retraitement rapides. Cette architecture est conçue pour répondre aux exigences des données non structurées à l’échelle de l’entreprise.
Le pipeline prend en charge les structures de données mises à jour automatiquement. Lorsqu’un document source, par exemple le « Document A », est mis à jour vers une nouvelle version, seul le delta est capturé et propagé de façon fluide en aval, y compris dans la base de données vectorielle. Cela garantit que des milliers de pipelines à l’échelle restent à jour sans avoir besoin d’un nouveau traitement.
Prise en charge native des ACL, garantissant la préservation des autorisations au niveau des documents dans l’ensemble du pipeline de données. Les utilisateurs ne peuvent ainsi accéder qu’aux données qu’ils sont autorisés à voir, un point essentiel pour maintenir la sécurité, la conformité et la confiance, car les données non structurées circulent entre les équipes et les applications.
En fin de compte, aucune entreprise ne peut à elle seule résoudre les problèmes susmentionnés dans le vide. Le support UDI de watsonx.data integration repose sur une infrastructure flexible basée sur des outils open source modernes. Vous trouverez ci-dessous les principaux composants techniques qui constituent cette base.
La prise en charge de watsonx.data integration pour l’UDI a été développée en réponse à la propre expérience d’IBM dans la création de la famille de modèles de fondation Granite. Le traitement et la préparation des 12 billions de tokens utilisés pour entraîner Granite ont mis en évidence des lacunes critiques dans les outils de données non structurées existants. En réponse à cette évolution, IBM Research a créé les frameworks modulaires Data Prep Kit (DPK) et Data and Model Factory (DMF), qui offrent aux opérateurs de nettoyage robustes des modalités telles que le texte, le code, les langages et les images. Ces composants, désormais intégrés à watsonx.data integration, ont été conçus pour des cas d’utilisation à haut débit et de niveau production. Aujourd’hui, le DPK est open source par l’intermédiaire de la Linux Foundation, poursuivant ainsi la mission d’IBM visant à démocratiser l’accès aux outils avancés de données non structurées.
La prise en charge de watsonx.data integration pour l’UDI intègre également Watson Document Understanding et Docling,, une initiative IBM open source ayant reçu plus de 30 000 d’étoiles GitHub, pour fournir une analyse de documents et une extraction d’entités de pointe. Ces technologies permettent de réaliser des tâches d’extraction complexes, y compris l’extraction de tables, avec une rapidité et une précision inégalées dans les secteurs.
Que vous préfériez des options open source comme Milvus et/ou des bases de données vectorielles gérées, l’UDI de watsonx.data integration propose des options de prise en charge. Les pipelines de vectorisation sont intégrés nativement à la plateforme, permettant un déploiement rapide vers votre solution de stockage préférée pour les workloads de recherche sémantique et de RAG.
IBM watsonx.data integration pilote activement des intégrations à Langchain et d’autres frameworks d’orchestration open source populaires, apportant ainsi à la plateforme une véritable vague d’innovation pilotée par la communauté. Ces intégrations permettent l’orchestration de la pile complète des fonctions créées ou obtenues via Langchain directement dans un pipeline watsonx.data integration, tout en préservant la gouvernance, la sécurité et l’évolutivité nécessaires aux entreprises pour l’utilisation en production.
Grâce à IBM watsonx.data integration, les clients peuvent débloquer tout le potentiel des données non structurées grâce à une combinaison puissante d’innovation open source et de technologie d’entreprise propriétaire. De la génération de contenu personnalisé à l’agrégation des factures et à la prise de décision, l’UDI transforme le contenu brut en informations prêtes pour l’IA, maintenant disponibles avec IBM watsonx.data integration.
Cette offre se distingue par sa capacité à unifier des données structurées et non structurées sur une seule plateforme, ce qui simplifie la création de pipelines et la prolifération des outils, accélérant ainsi les résultats. Quel que soit le cas d’utilisation, watsonx.data integration est la base nécessaire pour débloquer la valeur métier de toutes vos données.