Toute organisation a besoin de résoudre des problèmes. Je parle d’opérateurs indépendants, qui sont mécontents du type de prise de main qui frappe les entreprises inefficaces et qui sont suffisamment confiants pour lire entre les lignes. Lorsqu’un logiciel fait preuve de ce type d’intelligence, on dit qu’il « fonctionne ». Quand il s’agit d’un(e) employé(e), nous disons : « Il ou elle comprend vite ».
Il y a ensuite l’autre extrémité du spectre, caractérisée par des reports, des retards et de l’indécision. Souvent à la traîne ou agissant sur la base d’informations obsolètes, ces personnes bruyantes paralysent tout et suscitent régulièrement des réactions, notamment la phrase souvent entendue : « Je vais le faire moi-même ».
Des millions d’agents IA, et vous le savez sans doute si vous lisez ce blog, seront construits et déployés dans les années à venir. Selon l’IBM Institute for Business Value, 70 % des cadres interrogés déclarent que l’IA agentique est essentielle à leur stratégie future. La question est de savoir quel type d’agents vous allez libérer : ceux qui résolvent les problèmes ou ceux qui en créent ?
La différence entre les deux se résume à un ennemi bien connu : les silos. On serait tenté de verser dans l’optimisme lors de la partie inaugurale, lorsque les conditions sont idéales, mais lorsqu’il est temps de réaliser un déploiement à l’échelle de l’entreprise, les complexités des grandes entreprises ralentissent la progression. Les workflows complexes, la gouvernance en patchwork et l’accès incohérent aux données transforment chaque agent en un problème de maintenance ponctuel. Ce qui était censé stimuler la productivité devient une perte de productivité majeure. On pourrait parler de l’ironie de l’IA.
Pour évoluer, les organisations doivent orchestrer tous leurs agents de manière holistique, en créant une liste de collaborateurs IA gouvernés de manière cohérente qui s’intègrent facilement aux outils existants. Lorsque l’orchestration fonctionne, les processus s’alignent, les silos se dissolvent et le potentiel de l’IA se transforme en résultats réels. Pourtant, l’orchestration seule ne permettra pas de gagner la course à l’IA. Les données constituent le facteur de différenciation. C’est la force qui permet à vos agents, à tous, et pas seulement aux cas de test POC, de maîtriser votre activité et de faire preuve de suffisamment de confiance pour agir de manière autonome.
Après tout, les données génériques conduisent à une IA générique qui parle de la même manière que vos concurrents. Ou pire encore, des données mal gérées peuvent transformer l’IA en une faille qui propage les erreurs plus rapidement et plus profondément que n’importe quel être humain.
Il aura fallu trop de temps pour reconnaître l’importance de la préparation des données pour l’IA, une négligence qui a entraîné un retour sur investissement indéterminé et qui se traduit par une multitude de statistiques démontrant que la plupart des organisations en sont encore au stade pilote. En effet, seulement 5 % des entreprises interrogées ont intégré des outils d’IA dans leurs workflows à l’échelle, selon un rapport du MIT.
Une importante correction est actuellement en cours, les entreprises investissant des milliards dans leurs initiatives liées aux données. Selon les données d’enquête à venir de l’IBM Institute of Business Value, environ 13 % des budgets informatiques ont été alloués à la stratégie en 2025, contre 4 % en 2022. De même, 82 % des responsables des données interrogés déclarent recruter pour des postes qui n’existaient pas l’année dernière.
L’objectif est bien sûr de doter votre IA du type de données propriétaires et fiables qui rendent votre entreprise unique. Lorsque vous ou vos clients sollicitez votre IA, elle doit renvoyer des informations contextuellement pertinentes et cohérentes avec les objectifs, valeurs et obligations réglementaires de votre organisation. L’IA agentique augmente encore les enjeux. Lorsque vous mettez un agent en mouvement et lui donnez les moyens de prendre des décisions et de poursuivre des objectifs explicites, vous devez être sûr qu’il connaît votre entreprise et sa culture de fond en comble, c’est-à-dire vos données.
Pour réussir, les agents ont besoin de données de qualité, c’est-à-dire, selon The Data Management Association, des données précises, complètes, cohérentes, actuelles, uniques et valides. IBM ajoute une septième dimension à la qualité des données, l’ homogénéité, qui est une mesure de qualité garantissant que des données variées peuvent être harmonisées pour une interprétation cohérente et enrichies pour une compréhension sémantique.
Il n’est pas facile de maintenir la qualité des données, surtout lorsqu’on parle de zettaoctets . Les contrôles de qualité manuels prennent du temps, sont sources d’erreurs et nécessitent une échelle de professionnels des données qui n’existe tout simplement pas dans un contexte de pénurie persistante de talents.
Les organisations ont tenté de combler cette lacune en construisant de manière précaire des piles de données qui s’effondrent sous le poids des entrepôts de données, des data lakes et des outils d’intégration. Les correctifs, les tableaux de bord et les scripts ne font qu’ajouter des tâches. L’approche ad hoc conduit trop souvent à une dette technique qui s’alourdit constamment et de manière imprévisible. L’innovation passe au second plan lorsque votre personnel informatique est accaparé par la maintenance et gâche sa productivité dans les méandres de votre infrastructure informatique.
Et maintenant ?
La réponse commence par une couche de données qui connecte, enrichit et gouverne toutes vos sources de données et sert de source pour les agents d’IA qui maîtrisent le contexte et la voix de votre organisation. Grâce à cette base, les agents prennent des décisions en lesquelles vous pouvez avoir confiance : ils accélèrent les workflows, réduisent les risques et stimulent la productivité à l’échelle.
Les métadonnées sont le langage de cette couche. Elles fournissent le contexte qui rend vos données facilement exploitables pour l’IA ou les charges de travail plus traditionnelles, telles que l’analytique et l’ingénierie des données. Pourtant, le classement manuel n’est pas échelonné. Le marquage automatique le fait, car il applique une structure au rythme de l’ingestion. Il capture la traçabilité, la sensibilité et la signification métier, avec une supervision humaine disponible si nécessaire, afin de réduire les risques et d’accélérer les tâches en aval, telles que la récupération et la conformité. En bref, il transforme les actifs bruts en connaissances contextuelles et gouvernées avant même que quiconque ne le demande.
Le contexte est essentiel. Au final, cela conduit à une IA plus précise et à une prise de décision plus assurée. Cependant, les données sans les autorisations appropriées constituent un risque, et non un actif.
Les règles d’accès ne devraient pas rester dans des feuilles de calcul. Elles devraient évoluer avec les données. À mesure que les actifs évoluent, du stockage de documents à un lakehouse puis à un travail d’optimisation, les autorisations doivent également être déplacées. Lorsque les politiques s’appliquent en fonction de l’identité, du rôle et de l’objectif, les bonnes personnes voient les bonnes données au bon moment. Ce processus réduit les risques, prévient les expositions accidentelles et empêche la conformité de devenir un exercice d’incendie.
Une gouvernance solide est essentielle, mais elle ne constitue qu’une partie de l’équation. L’architecture sous-jacente détermine si le contrôle évolue ou s’arrête. Une conception ouverte et hybride est la bonne approche, car la plupart des entreprises utilisent déjà plusieurs clouds et environnements sur site. La séparation du stockage et de l’informatique permet d’éviter les migrations coûteuses et les perturbations qu’elles entraînent. Les formats de fichiers ouverts, tels Apache Iceberg, rendent cela possible en découplant les applications du stockage, en laissant les outils lire et écrire les données sur place, où qu’elles se trouvent. Ils permettent également d’éviter l’enfermement dans la base de données d’un seul fournisseur. La flexibilité n’est pas un luxe, c’est une protection contre les coûts exorbitants et les systèmes rigides qui ne peuvent pas s’adapter lorsque les priorités changent. Il n’est donc pas étonnant que les trois quarts des organisations prévoient d’augmenter leur utilisation des technologies d’IA open source (y compris les formats de fichiers ouverts) au cours des prochaines années, invoquant des coûts de mise en œuvre et de maintenance plus faibles, selon une étude de McKinsey.
Les données non structurées restent le principal réservoir inexploité. Les factures, e-mails, journaux, images contiennent des informations, (et même ce blog, j’espère) qui se retrouvent rarement dans les analyses car elles sont dispersées dans les systèmes, enfermées dans des formats incompatibles et sans étiquettes bien définies. L’extraction manuelle n’est pas envisageable. Il exigerait des heures d’efforts humains, conduirait à des erreurs et s’effondrerait sous le poids des données à l’échelle de l’entreprise. L’automatisation est le seul moyen de mettre de l’ordre au niveau de l’entreprise : identifier les entités, saisir les valeurs et superposer les sémantiques qui reflètent la manière dont votre entreprise communique réellement et dont elle souhaite se présenter sur le marché. À partir de là, un schéma émerge que les machines peuvent traiter et auquel les humains (et les agents d’IA) peuvent se fier.
Lorsque ces données enrichies sont transmises à une couche de recherche qui combine le texte vers SQL, la recherche vectorielle et les requêtes hybrides, les agents n’ont plus besoin de deviner. Ils commencent à raisonner et à agir en toute confiance. Les systèmes RAG traditionnels, en revanche, ont souvent du mal à comprendre le contexte, ce qui les rend mal adaptés au raisonnement à l’échelle de l’entreprise. Une approche unifiée permet d’éviter ces écueils en donnant aux agents la profondeur et la précision dont ils ont besoin pour agir de manière décisive.
Transformer le chaos non structuré de manière claire, c'est-à-dire en structure est un début, mais c’est l’intelligence qui rend cette clarté utile. Sans elle, même les données les mieux organisées restent inertes. Les renseignements relatifs aux données permettent à chaque actif d’avoir une histoire : d’où il vient, comment il a évolué et qui en est responsable. Le catalogage et la généalogie ne sont pas de simples tâches ménagères, c’est la base de la confiance. La notation de la qualité garantit que les agents ne raisonnent pas sur des bases instables. La publication de produits de données avec des termes bien définis transforme les ressources brutes en services consommables sur lesquels les équipes peuvent compter. Lorsqu’un agent cite un chiffre, la source doit être accessible en un clic. Quand une définition change, chaque système dépendant doit le savoir avant de prendre la prochaine décision.
Mais l’intelligence seule ne suffit pas. Le rapport l’IA en action d’IBM de 2024 a révélé que la complexité des données, notamment leur intégration dans des systèmes fragmentés, reste l’un des principaux obstacles au développement de l’IA. Les agents et autres systèmes qui s’appuient sur des données ont besoin d’une intégration continue plutôt que ponctuelle. L’intégration est le processus qui permet de façonner les données en mouvement : elles sont standardisées, enrichies, régies et préparées pour être utilisées au fur et à mesure de leur circulation. Les pipelines doivent s’adapter à chaque exécution, apprendre des dérives et optimiser les performances, les coûts et la qualité. L’observabilité est également importante. Lorsque l’intégration est visible et réactive, les systèmes en aval, y compris les agents, n’héritent pas d’erreurs silencieuses ou d’une logique obsolète.
Lorsque l’intégration et l’intelligence travaillent de concert, le résultat est connu : cela fonctionne, tout simplement. Non pas par chance, mais parce que l’architecture sous-jacente est réfléchie. Une couche de données qui relie vos actifs, lui donne du sens et assure la gouvernance à chaque étape, qu’elle soit active ou non, augmente la précision et favorise une prise de décision en toute confiance. C’est ainsi que vous transformez une démonstration prometteuse en système fiable. C’est ainsi que vous passez des projets pilotes à la production sans perte de temps.
1. From AI projects to profits: How agentic AI can sustain financial returns, IBM Institute for Business Value, 9 juin 2025.
2. The GenAI Divide: State of AI in Business 2025, MIT Nanda, juillet 2025
3. The AI multiplier effect: Accelerate growth with decision-ready data, IBM Institute for Business Value, décembre 2025
4. The Six Primary Dimensions for Data Quality Assessment, DAMA United Kingdom, octobre 2013.
5. Data quality dimensions, IBM, 17 octobre 2025.
6. Open source technology in the age of AI, McKinsey & Company, the Mozilla Foundation and the Patrick J. McGovern Foundation, avril 2025.
7. AI in Action 2024, IBM, 2024.