Les entreprises doivent se concentrer sur la création d’une base de données ouverte et fiable afin d’accéder à des données fiables pour l’IA. Une approche ouverte crée une base pour stocker, gérer, intégrer et accéder aux données, construites sur des capacités ouvertes et interopérables couvrant les déploiements cloud hybrides, le stockage de données, les formats de données, les moteurs de requête, la gouvernance et les métadonnées. Cela permet une intégration plus facile avec vos investissements technologiques existants tout en éliminant les silos de données et en accélérant la transformation basée sur les données.

Créer une base de données fiable permet une gestion de données et de métadonnées de haute qualité, fiable, sécurisée et gouvernée, afin qu’elle puisse être livrée pour les applications d’analytique et d’IA tout en répondant aux besoins en matière de confidentialité des données et de conformité réglementaire. Les quatre composantes suivantes contribuent à la mise en place d’une base de données ouverte et fiable.

1. Moderniser votre infrastructure de données vers un cloud hybride pour les applications, l’analytique et l’IA générative

L’adoption de stratégies multicloud et hybrides devient obligatoire, ce qui nécessite des bases de données qui prennent en charge des déploiements flexibles sur le cloud hybride. Gartner prévoit que 95 % (lien externe à ibm.com) des nouvelles initiatives numériques seront développées sur des plateformes cloud-native, essentielles pour les technologies d’IA nécessitant un stockage de données massif et une grande évolutivité.

2. Alimenter les applications, l’analytique et l’IA fondées sur les données grâce à des bases de données appropriées et à une stratégie de data lakehouse ouvert

Pour le stockage et l’analyse des données, il est essentiel de choisir la base de données adaptée au workload, au type de données et au rapport qualité-performance. Vous disposez ainsi d’une base de données qui évolue en fonction de vos besoins, quel que soit l’endroit où se trouvent vos données. Votre stratégie de données doit intégrer des bases de données conçues avec des composants ouverts et intégrés, ce qui permet une unification et un accès transparents aux données pour les applications d’analytique avancée et d’IA au sein d’une plateforme de données. Cela permet à votre organisation d’extraire des informations précieuses et de prendre des décisions éclairées.

Par exemple, les entreprises ont besoin de bases de données transactionnelles performantes, sécurisées et résilientes pour gérer leurs données opérationnelles les plus critiques. Grâce à la disponibilité du cloud hybride, les entreprises peuvent utiliser leurs bases de données pour moderniser les applications héritées, créer de nouvelles applications cloud-natives et alimenter les assistants IA et les applications d'entreprise.

À mesure que les types de données et les applications évoluent, vous pourriez avoir besoin de bases de données NoSQL spécialisées pour gérer des structures de données diverses et des besoins spécifiques d’application. Il s’agit notamment de bases de données de séries chronologiques, de documentation, de messagerie, de clés-valeurs, de recherche en texte intégral et de bases de données en mémoire, qui répondent à divers besoins, tels que les applications IdO, la gestion de contenu et les applications géospatiales.

Pour alimenter les workloads d’IA et d’analytique sur vos bases de données transactionnelles et spécialisées, vous devez vous assurer qu’elles peuvent s’intégrer de façon fluide à une architecture de data lakehouse sans duplication ni processus d’extraction, de transformation et de chargement (ETL) supplémentaires. Avec un data lakehouse ouvert, vous pouvez accéder à une copie unique de vos données, quel que soit leur emplacement.

Un data lakehouse gère plusieurs formats ouverts (comme Apache Iceberg sur le cloud object storage) et combine des données provenant de diverses sources et de référentiels existants à travers le cloud hybride. Le data lakehouse le plus performant permet également la séparation du stockage et du calcul grâce à plusieurs moteurs de requête open source et à l’intégration avec d’autres moteurs d’analytique pour optimiser les workloads et obtenir de meilleures performances en termes de coût.

Cela inclut l’intégration avec vos moteurs d’entrepôt de données, qui doivent désormais équilibrer le traitement de données et la prise de décision en temps réel avec un stockage d’objets rentable, des technologies open source et une couche de métadonnées partagée pour partager les données de façon fluide avec votre data lakehouse. Grâce à une architecture de data lakehouse, vous pouvez désormais optimiser les workloads de votre entrepôt de données en termes de rapport qualité-prix et moderniser les data lakes traditionnels en améliorant les performances et la gouvernance pour l’IA.

Les entreprises peuvent aussi disposer de pétaoctets, voire d’exaoctets, de données propriétaires précieuses stockées dans leur mainframe, qui doivent être débloquées pour obtenir de nouvelles connaissances et des modèles ML/IA. Avec un data lakehouse ouvert qui prend en charge la synchronisation des données entre le mainframe et les formats ouverts tels qu’Iceberg, les entreprises peuvent mieux identifier la fraude, comprendre le comportement des administrés et créer des modèles d’IA prédictifs pour comprendre, anticiper et influencer les résultats métier avancés.

Avant de mettre en place une IA générative fiable pour votre entreprise, vous avez besoin de la bonne architecture de données afin de préparer et de transformer ces données disparates en données de qualité. Pour l’IA générative, la bonne base de données peut inclure divers entrepôts de connaissances couvrant les bases de données NoSQL pour les conversations, les bases de données transactionnelles pour les données contextuelles, une architecture de data lakehouse pour accéder et préparer vos données pour l’IA et l’analytique et des capacités pour stocker et récupérer les embeddings pour la génération augmentée de récupération (RAG). Une couche de métadonnées partagées, une gouvernance pour cataloguer vos données et la traçabilité des données permettent d’obtenir des résultats d’IA fiables.

3. Établir une base de confiance : qualité des données et gouvernance pour l’IA d’entreprise

Alors que les Entreprises s’appuient de plus en plus sur l’IA pour piloter des prises de décision critiques, on ne saurait trop insister sur l’importance de la qualité des données et de la gouvernance. Selon Gartner, 30 % des projets d'IA générative devraient être abandonnés d'ici 2025 en raison de la mauvaise qualité des données, de contrôles des risques inadéquats, de l'escalade des coûts ou d'une valeur commerciale peu claire. Les conséquences de l'utilisation de données de mauvaise qualité sont considérables, notamment l'érosion de la confiance des clients, le non-respect des réglementations et les dommages financiers et de réputation.

Une gestion efficace de la qualité des données est cruciale pour atténuer ces risques. Une stratégie d’architecture des données bien conçue est essentielle pour atteindre cet objectif. Une data fabric fournit un cadre robuste pour les responsables des données pour profiler les données, concevoir et appliquer des règles de qualité des données, découvrir des violations de la qualité des données, nettoyer les données et augmenter les données. Cette approche garantit que les initiatives de qualité des données garantissent précision, accessibilité, rapidité et pertinence.

En outre, une data fabric permet un contrôle continu des niveaux de qualité des données grâce à des capacités d’observabilité des données, ce qui permet aux entreprises d’identifier les problèmes liés aux données avant qu’ils ne se transforment en problèmes plus importants. Cette transparence des flux de données permet également aux responsables des données et de l’IA d’identifier les problèmes potentiels, en veillant à ce que les bonnes données soient utilisées pour la prise de décisions.

En donnant la priorité à la qualité et à la gouvernance des données, les entreprises peuvent instaurer la confiance dans leurs systèmes d’IA, minimiser les risques et maximiser la valeur de leurs données. Il est essentiel de reconnaître que la qualité des données n’est pas seulement une question technique, mais un impératif commercial critique qui requiert attention et investissement. En adoptant la bonne stratégie d’architecture de données, les entreprises peuvent déverrouiller tout le potentiel de leurs initiatives en matière d’IA et favoriser leur succès commercial.

4. Gérer et fournir des données pour l’IA

Les données sont fondamentales pour l’IA, depuis la construction de modèles IA avec les ensembles de données appropriés jusqu’à l’ajustement des modèles IA avec des données d’entreprise spécifiques au secteur, en passant par l’utilisation d’embeddings vectorisés pour construire des applications IA RAG (y compris des chatbots, des systèmes de recommandation personnalisés et des applications de recherche de similarité d’images).

Des données gouvernées et fiables sont essentielles pour garantir l’exactitude, la pertinence et la précision de l’IA. Pour déverrouiller pleinement la valeur des données pour l’IA, les entreprises doivent être capables de naviguer dans leur environnement informatique complexe afin de briser les silos, d’unifier leurs données et de préparer et de fournir des données fiables et gouvernées pour leurs modèles IA et leurs applications.

Grâce à une architecture de data lakehouse alimentée par des formats ouverts permettant de se connecter et d’accéder aux données critiques de votre patrimoine de données existant (y compris les entrepôts de données, les lacs de données et les environnements mainframe), vous pouvez utiliser une seule copie de vos données d’entreprise pour construire et régler des modèles IA et des applications.

Grâce à une couche sémantique, vous pouvez générer des enrichissements de données qui permettent aux utilisateurs de trouver et de comprendre des données auparavant cryptiques mais efficacement structurées dans votre parc de données en langage naturel, grâce à la recherche sémantique, afin d’accélérer la découverte de données et de déverrouiller des informations plus rapidement, sans SQL.

En utilisant une base de données vectorielle intégrée directement dans votre lakehouse, vous pouvez stocker de façon fluide et interroger vos données en tant qu’embeddings vectorisés pour des cas d’utilisation RAG, améliorant ainsi la pertinence et la précision de vos résultats d’IA.