Infrastructures

Une gestion réfléchie des données, indispensable à tout projet d’IA

Share this post:

Les coûts de stockage ne diminuent pas suffisamment pour compenser l’explosion du volume des données.

C’est un fait : l’intelligence artificielle n’est rien sans une architecture de l’information adéquate. Pas d’IA sans AI !

Qu’il s’agisse de machine learning ou de deep learning, l’IA exige une quantité phénoménale de données. Or la data est multiple : non structurée, structurée dès son origine ou après son traitement … Les données peuvent être dans le cloud, dans les datacenters des entreprises (c’est le cas pour l’instant de 80% d’entre elles), temporaires (données extraites des réseaux sociaux) ou durables (bulletins de salaire)… Conscientes des opportunités offertes par l’IA, les entreprises qui souhaitent conserver leurs données doivent relever deux défis : le coût du stockage et l’accessibilité.

 

Choisir le bon média

La quantité de données produites double tous les 7 mois selon les experts du marché, alors qu’il y a peu, ce doublement se produisait tous les ans. Bien sûr, les données ne sont pas toutes conservées. Mais nous constatons tout de même une croissance de leur volumétrie de 30 à 40% par an. Or le coût du stockage ne diminue pas assez pour compenser cette explosion. Le choix du média s’avère donc essentiel pour maîtriser les coûts. : stockage dans le cloud (IBM Cloud ou concurrents), on premise (quand l’entreprise a besoin de puissance et de vitesse ou quand elle doit procéder à de l’archivage règlementaire (la bande est alors la meilleure solution). De fait, la majorité dess clients reviennent vers le tiering[1]. Aujourd’hui, la bande est en forte progression alors que le disque dur disparaît peu à peu en raison de son coût. Pour aider à la décision, nous déterminons les besoins en termes de performance, les exigences en matière de sécurité, les besoins non fonctionnels (combien de temps une donnée doit être conservée, et s’il faut ou non la conserver, ce qui par exemple n’est pas le cas des commentaires sur les réseaux sociaux). Cet effort d’analyse des besoins pour déterminer le bon média est essentiel pour diminuer le TCO[2] global dans un projet d’IA.

 

Vision unifiée de la donnée

L’objectif n’est pas de « stocker pour stocker », mais de présenter la donnée à une application de la manière la plus simple possible et avec les standards du marché.

Dans le domaine de l’IA, les algorithmes ont besoin d’un socle le plus large possible, et vont aller lire des data archivées sur des bandes, des commentaires volatiles provenant des réseaux sociaux, des données de l’entreprise mises à jour chaque semaine, etc.

Il est donc essentiel d’avoir une vision unifiée de l’information, quelle que soit l’application. Il faut procéder alors à la virtualisation de la donnée et faire abstraction de la couche matérielle afin de faciliter sa mise à disposition. Cette abstraction permet d’accéder à la donnée sans passer par un coûteux logiciel d’ETL[3]. De plus, les charges d’administration sont diminuées et les capacités de stockage sont exploitées à leur maximum, la virtualisation s’accompagnant d’une compression et de déduplication pour gagner en volume. Cette couche de virtualisation engendre certes un coût supplémentaire, mais permet de gérer l’obsolescence du stockage, d’éviter la multiplication des supports de stockage et aboutit au final à un TCO global inférieur.

Rendre accessible la donnée au travers de processus de communication standards est d’autant plus crucial que les applications et les manières de programmer changent très vite. Le deep learning ne faisait pas partie des projets des entreprises il y a quelques années. Hadoop et Spark étaient très répandus dans le domaine du big data à un moment, mais d’autres technologies sont depuis apparues.

Disposer de la bonne technologie de stockage au bon endroit, adaptée aux besoins des métiers est une condition sine qua non pour réussir son projet d’intelligence artificielle. Optimiser le stockage au fur et à mesure et éviter que les coûts de possession n’explosent permet d’affecter des budgets pour les nouveaux enjeux que sont le machine learning, le deep learning, ou dans un autre registre, la cybersécurité.

 

Pour aller plus loin sur la question du stockage dans le lancement d’un projet d’IA, nous vous invitons à visionner le replay du webinar « Cheminement d’un projet IA par la donnée« .

[1] Hiérarchisation de données en fonction de leur importance et de la fréquence à laquelle elles sont consultées.

[2] Total Cost of Ownership

[3] Extract Transform & Load, logiciel de prise en charge des données

 

IT Architect Director

More Infrastructures stories
22 septembre 2021

La « data fabric » : La fin du « data hub » centralisé ?

Les données distribuées, en silos, continuent d’être le point de compression de l’exploitation et la gouvernance des données. L’intégration, la préparation de ces données, leur nettoyage, leur mise en qualité, leur exposition continuent d’être le défi de la création de valeur. Les « data hub » existants sont fortement sollicités pour accélérer, voire automatiser cette phase d’intégration […]

Continue reading

2 septembre 2021

Intelligence artificielle : les quatre piliers stratégiques et l’approche industrielle d’IBM

Plusieurs sujets sont essentiels pour garantir le succès d’une solution d’intelligence artificielle : le langage, l’automatisation, la confiance et un déploiement facilité, sur site comme dans le cloud. L’article qui suit présente le point de vue d’IBM complété par son approche pratique de type « garage », permettant de se plonger directement dans le projet pour faciliter […]

Continue reading

25 août 2021

Supply Chain : Intelligence Artificielle et signaux faibles

Dans un monde de plus en plus complexe et imprévisible, l’intelligence artificielle permet, à toutes les étapes de la supply chain, d’aider et d’accompagner les équipes opérationnelles dans leurs prises de décision. Pendant la crise sanitaire, la supply chain a été présente sur toutes les lèvres. Les directions générales ont fini par prendre conscience du […]

Continue reading