Nous sommes ravis d’annoncer un nouveau partenariat entre IBM et Unstructured, une société du portefeuille IBM Ventures. Ensemble, nous nous attaquons à l’un des obstacles les plus importants à l’expansion de l’IA d’entreprise : la préparation de données non structurées pour l’IA générative.
Environ 80 % des données d’entreprise ne sont pas structurées. Elles se trouvent dans des fichiers PDF, des e-mails, des plateformes de collaboration et des référentiels de documents. Pourtant, moins de 1 % de ces données présentent un format adapté directement à la consommation d’IA. Cet écart représente à la fois une opportunité considérable et un défi majeur pour les entreprises qui souhaitent développer leurs projets en matière d’IA.
Les approches traditionnelles de la préparation des données non structurées freinent les entreprises. Les pipelines manuels nécessitent 6 à 12 mois pour être construits, restent fragiles et s’interrompent à chaque nouveau format de document ou changement du système source. Les équipes d’ingénierie consacrent un temps considérable à la « plomberie » des données, au lieu de pouvoir se concentrer sur l’innovation en matière d’IA. Sans une structure et une cohérence appropriées, les modèles d’IA donnent des résultats peu fiables, ce qui entrave la confiance et retarde la création de valeur.
IBM watsonx.data répond à ce défi en tant que seul data lakehouse du secteur qui soit hybride, ouvert et conçu pour l’IA et l’analytique. Il simplifie l’accès, la préparation et la gouvernance des données structurées et non structurées, aidant les entreprises à établir un socle de données fiable pour l’IA générative à l’échelle.
Grâce à ce partenariat, Unstructured amplifie la puissance de watsonx.data pour accéder aux données non structurées, obtenir des formats adaptés à l’IA et favoriser une IA générative fiable, évolutive et de confiance.
Unstructured fournit plus de 30 connecteurs préconfigurés pour accéder aux sources de données d’entreprise comme SharePoint, Google Drive, Salesforce, Confluence, Box et Dropbox. Avec la prise en charge de plus de 70 types de fichiers (PDF avec mise en page complexe, images numérisées, e-mails et documents Microsoft Office), les entreprises peuvent accéder à l’ensemble de leur patrimoine informationnel et le transformer.
Contrairement aux outils d’extraction de texte classiques, Unstructured est doté d’une compréhension intelligente des documents pour préserver des éléments critiques tels que les tables, les hiérarchies et la structure sémantique, et garantir que les modèles d’IA reçoivent des données riches en contexte, et non du texte brut.
Un créateur de workflows visuels no-code permet aux équipes commerciales et de données de concevoir et de gérer les pipelines de données sans avoir recours à des ressources d’ingénierie spécialisées. Pour les entreprises disposant d’équipes de développement, une API complète offre des options de contrôle et de personnalisation programmatiques.
Les processus de synchronisation incrémentielle automatiques n’ingèrent que les documents nouveaux et modifiés, ce qui réduit les coûts de calcul et permet aux applications d’IA de rester à jour. L’orchestration multi-sources coordonne simultanément les flux de données sur plusieurs systèmes, éliminant ainsi les frais de coordination manuelle.
La technologie Unstructured est conforme aux exigences SOC 2 Type II, HIPAA et RGPD, et répond aux normes strictes de sécurité et de protection des données requises par les entreprises informatiques. Associée à watsonx.data, la solution assure le contrôle des versions, la traçabilité des données et des contrôles d’accès granulaires, qui respectent les autorisations du système source tout au long du pipeline de données.
Les données non structurées fournissent des données sémantiquement enrichies et correctement fragmentées, optimisées pour les architectures d’IA modernes :
Avec watsonx.data et Unstructured, les équipes peuvent agir rapidement grâce à des pipelines prêts pour la production qui combinent rapidité, flexibilité et compatibilité avec l’IA au sein d’une seule et même solution intégrée.
Si watsonx.data est le moteur de données des applications d’IA générative, Unstructured fournit le carburant. Ensemble, watsonx.data et Unstructured fournissent des données non structurées adaptées à l’IA et permettent des modèles de génération augmentée par récupération avancés, qui améliorent la précision et la fiabilité de l’IA.
Les entreprises accélèrent la création de valeur en remplaçant la préparation manuelle des documents par un traitement automatisé et intelligent. Les politiques de gouvernance vont des systèmes de sources de documents jusqu’aux applications d’IA, afin d’améliorer la confiance et la transparence à chaque étape. En éliminant le goulot d’étranglement lié à la préparation des données non structurées et en fournissant un socle de données avec un accès, une préparation et une gouvernance des données unifiés, les entreprises peuvent enfin pleinement exploiter le potentiel de leur contenu non structuré pour alimenter une IA fiable.
Pour voir watsonx.data et Unstructured en action, participez à notre prochain webinaire, ou prenez rendez-vous. Ensemble, nous vous aiderons à ne plus perdre de temps en préparant des données désordonnées et non structurées, mais à accélérer vos agents IA et applications alimentés par des données prêtes pour l’IA, et ce à l’échelle.