Infrastructures

Une gestion réfléchie des données, indispensable à tout projet d’IA

Share this post:

Les coûts de stockage ne diminuent pas suffisamment pour compenser l’explosion du volume des données.

C’est un fait : l’intelligence artificielle n’est rien sans une architecture de l’information adéquate. Pas d’IA sans AI !

Qu’il s’agisse de machine learning ou de deep learning, l’IA exige une quantité phénoménale de données. Or la data est multiple : non structurée, structurée dès son origine ou après son traitement … Les données peuvent être dans le cloud, dans les datacenters des entreprises (c’est le cas pour l’instant de 80% d’entre elles), temporaires (données extraites des réseaux sociaux) ou durables (bulletins de salaire)… Conscientes des opportunités offertes par l’IA, les entreprises qui souhaitent conserver leurs données doivent relever deux défis : le coût du stockage et l’accessibilité.

 

Choisir le bon média

La quantité de données produites double tous les 7 mois selon les experts du marché, alors qu’il y a peu, ce doublement se produisait tous les ans. Bien sûr, les données ne sont pas toutes conservées. Mais nous constatons tout de même une croissance de leur volumétrie de 30 à 40% par an. Or le coût du stockage ne diminue pas assez pour compenser cette explosion. Le choix du média s’avère donc essentiel pour maîtriser les coûts. : stockage dans le cloud (IBM Cloud ou concurrents), on premise (quand l’entreprise a besoin de puissance et de vitesse ou quand elle doit procéder à de l’archivage règlementaire (la bande est alors la meilleure solution). De fait, la majorité dess clients reviennent vers le tiering[1]. Aujourd’hui, la bande est en forte progression alors que le disque dur disparaît peu à peu en raison de son coût. Pour aider à la décision, nous déterminons les besoins en termes de performance, les exigences en matière de sécurité, les besoins non fonctionnels (combien de temps une donnée doit être conservée, et s’il faut ou non la conserver, ce qui par exemple n’est pas le cas des commentaires sur les réseaux sociaux). Cet effort d’analyse des besoins pour déterminer le bon média est essentiel pour diminuer le TCO[2] global dans un projet d’IA.

 

Vision unifiée de la donnée

L’objectif n’est pas de « stocker pour stocker », mais de présenter la donnée à une application de la manière la plus simple possible et avec les standards du marché.

Dans le domaine de l’IA, les algorithmes ont besoin d’un socle le plus large possible, et vont aller lire des data archivées sur des bandes, des commentaires volatiles provenant des réseaux sociaux, des données de l’entreprise mises à jour chaque semaine, etc.

Il est donc essentiel d’avoir une vision unifiée de l’information, quelle que soit l’application. Il faut procéder alors à la virtualisation de la donnée et faire abstraction de la couche matérielle afin de faciliter sa mise à disposition. Cette abstraction permet d’accéder à la donnée sans passer par un coûteux logiciel d’ETL[3]. De plus, les charges d’administration sont diminuées et les capacités de stockage sont exploitées à leur maximum, la virtualisation s’accompagnant d’une compression et de déduplication pour gagner en volume. Cette couche de virtualisation engendre certes un coût supplémentaire, mais permet de gérer l’obsolescence du stockage, d’éviter la multiplication des supports de stockage et aboutit au final à un TCO global inférieur.

Rendre accessible la donnée au travers de processus de communication standards est d’autant plus crucial que les applications et les manières de programmer changent très vite. Le deep learning ne faisait pas partie des projets des entreprises il y a quelques années. Hadoop et Spark étaient très répandus dans le domaine du big data à un moment, mais d’autres technologies sont depuis apparues.

Disposer de la bonne technologie de stockage au bon endroit, adaptée aux besoins des métiers est une condition sine qua non pour réussir son projet d’intelligence artificielle. Optimiser le stockage au fur et à mesure et éviter que les coûts de possession n’explosent permet d’affecter des budgets pour les nouveaux enjeux que sont le machine learning, le deep learning, ou dans un autre registre, la cybersécurité.

 

Pour aller plus loin sur la question du stockage dans le lancement d’un projet d’IA, nous vous invitons à nous rejoindre le 4 juillet prochain « Infra’Novation 2019 – Embarquez vers un monde toujours plus ouvert »

[1] Hiérarchisation de données en fonction de leur importance et de la fréquence à laquelle elles sont consultées.

[2] Total Cost of Ownership

[3] Extract Transform & Load, logiciel de prise en charge des données

 

  Pierre Jaeger – IT Architect Director

  pierre.jaeger@fr.ibm.com

  Pierre Jaeger

More Infrastructures stories
18 juin 2019

Enjeux de la sauvegarde des données face aux applications modernes

Les nouvelles architectures logicielles, notamment la virtualisation, et les nouveaux usages comme l’intelligence artificielle (IA) ou le Big Data imposent des solutions spécifiques de sauvegarde. La sauvegarde classique de bases de données ou de progiciels fonctionnant sur des serveurs dédiés peut s’opérer sur bande, sur des disques à bas coût, dans des espaces de stockage […]

Continue reading

4 juin 2019

Prévoir les ressources nécessaires aux applications d’Intelligence Artificielle

Quelques exemples concrets reposant sur la solution IBM AC922 dotée de l’option gratuite Watson Machine Learning Community Edition. En matière d’intelligence artificielle (IA), nous observons un équilibre entre les projets déployés dans le cloud (off premise) ou sur site (on premise). Certaines entreprises préfèrent en effet que leur projet reste en interne. L’une des raisons […]

Continue reading

20 mai 2019

L’IA permet de piloter des systèmes de vidéosurveillance à grande échelle

Entre l’augmentation du trafic et la multiplication des menaces, la sécurité des aéroports et des gares constitue un défi de taille. Les moyens humains pour prévenir et lutter contre les risques étant limités, les technologies offrent de véritables opportunités pour assurer la sécurité dans ces zones fréquentées par les voyageurs. L’intelligence artificielle permet déjà de […]

Continue reading