Infrastructures

Une gestion réfléchie des données, indispensable à tout projet d’IA

Share this post:

Les coûts de stockage ne diminuent pas suffisamment pour compenser l’explosion du volume des données.

C’est un fait : l’intelligence artificielle n’est rien sans une architecture de l’information adéquate. Pas d’IA sans AI !

Qu’il s’agisse de machine learning ou de deep learning, l’IA exige une quantité phénoménale de données. Or la data est multiple : non structurée, structurée dès son origine ou après son traitement … Les données peuvent être dans le cloud, dans les datacenters des entreprises (c’est le cas pour l’instant de 80% d’entre elles), temporaires (données extraites des réseaux sociaux) ou durables (bulletins de salaire)… Conscientes des opportunités offertes par l’IA, les entreprises qui souhaitent conserver leurs données doivent relever deux défis : le coût du stockage et l’accessibilité.

 

Choisir le bon média

La quantité de données produites double tous les 7 mois selon les experts du marché, alors qu’il y a peu, ce doublement se produisait tous les ans. Bien sûr, les données ne sont pas toutes conservées. Mais nous constatons tout de même une croissance de leur volumétrie de 30 à 40% par an. Or le coût du stockage ne diminue pas assez pour compenser cette explosion. Le choix du média s’avère donc essentiel pour maîtriser les coûts. : stockage dans le cloud (IBM Cloud ou concurrents), on premise (quand l’entreprise a besoin de puissance et de vitesse ou quand elle doit procéder à de l’archivage règlementaire (la bande est alors la meilleure solution). De fait, la majorité dess clients reviennent vers le tiering[1]. Aujourd’hui, la bande est en forte progression alors que le disque dur disparaît peu à peu en raison de son coût. Pour aider à la décision, nous déterminons les besoins en termes de performance, les exigences en matière de sécurité, les besoins non fonctionnels (combien de temps une donnée doit être conservée, et s’il faut ou non la conserver, ce qui par exemple n’est pas le cas des commentaires sur les réseaux sociaux). Cet effort d’analyse des besoins pour déterminer le bon média est essentiel pour diminuer le TCO[2] global dans un projet d’IA.

 

Vision unifiée de la donnée

L’objectif n’est pas de « stocker pour stocker », mais de présenter la donnée à une application de la manière la plus simple possible et avec les standards du marché.

Dans le domaine de l’IA, les algorithmes ont besoin d’un socle le plus large possible, et vont aller lire des data archivées sur des bandes, des commentaires volatiles provenant des réseaux sociaux, des données de l’entreprise mises à jour chaque semaine, etc.

Il est donc essentiel d’avoir une vision unifiée de l’information, quelle que soit l’application. Il faut procéder alors à la virtualisation de la donnée et faire abstraction de la couche matérielle afin de faciliter sa mise à disposition. Cette abstraction permet d’accéder à la donnée sans passer par un coûteux logiciel d’ETL[3]. De plus, les charges d’administration sont diminuées et les capacités de stockage sont exploitées à leur maximum, la virtualisation s’accompagnant d’une compression et de déduplication pour gagner en volume. Cette couche de virtualisation engendre certes un coût supplémentaire, mais permet de gérer l’obsolescence du stockage, d’éviter la multiplication des supports de stockage et aboutit au final à un TCO global inférieur.

Rendre accessible la donnée au travers de processus de communication standards est d’autant plus crucial que les applications et les manières de programmer changent très vite. Le deep learning ne faisait pas partie des projets des entreprises il y a quelques années. Hadoop et Spark étaient très répandus dans le domaine du big data à un moment, mais d’autres technologies sont depuis apparues.

Disposer de la bonne technologie de stockage au bon endroit, adaptée aux besoins des métiers est une condition sine qua non pour réussir son projet d’intelligence artificielle. Optimiser le stockage au fur et à mesure et éviter que les coûts de possession n’explosent permet d’affecter des budgets pour les nouveaux enjeux que sont le machine learning, le deep learning, ou dans un autre registre, la cybersécurité.

 

Pour aller plus loin sur la question du stockage dans le lancement d’un projet d’IA, nous vous invitons à visionner le replay du webinar « Cheminement d’un projet IA par la donnée« .

[1] Hiérarchisation de données en fonction de leur importance et de la fréquence à laquelle elles sont consultées.

[2] Total Cost of Ownership

[3] Extract Transform & Load, logiciel de prise en charge des données

 

IT Architect Director

More Infrastructures stories
28 avril 2021

Ressources pour se former à enseigner et pratiquer la Data Science

La Data Science est une des compétences les plus demandées sur le marché de l’emploi, tant pour les profils « Business » que pour les techniciens et ingénieurs. De nombreuses formations intègrent cette notion dans leurs cursus. Cependant, les établissements manquent d’enseignants compétents et d’outils pour former leurs étudiants. Voici un panorama des ressources à la disposition […]

Continue reading

16 avril 2021

Construire, moderniser, sécuriser et opérer votre IT avec IBM IS

  Le « Move to Cloud » et l’intégration d’environnements hybrides De nouveaux rôles clés émergent pour accélérer l’innovation en entreprise tout en maîtrisant les coûts. L’usage du Cloud en entreprise représente, en effet, une opportunité extraordinaire d’innovation. Mais aussi une menace sur l’intégrité, le contrôle des données et la gestion des assets informatiques. « Le « Move to […]

Continue reading

26 janvier 2021

La Transformation Digitale RH – L’art de bien maitriser la préparation de son projet

A l’ère du digital, il est essentiel de ne pas sous-estimer l’effort de préparation pour mener à bien sa stratégie de gestion des talents. Devenir une entreprise capable d’attirer et retenir les meilleurs profils nécessitent de mettre en place une approche holistique qui prenne en compte l’ensemble des processus RH. Les meilleures solutions RH du […]

Continue reading