Infrastructures

Une gestion réfléchie des données, indispensable à tout projet d’IA

Share this post:

Les coûts de stockage ne diminuent pas suffisamment pour compenser l’explosion du volume des données.

C’est un fait : l’intelligence artificielle n’est rien sans une architecture de l’information adéquate. Pas d’IA sans AI !

Qu’il s’agisse de machine learning ou de deep learning, l’IA exige une quantité phénoménale de données. Or la data est multiple : non structurée, structurée dès son origine ou après son traitement … Les données peuvent être dans le cloud, dans les datacenters des entreprises (c’est le cas pour l’instant de 80% d’entre elles), temporaires (données extraites des réseaux sociaux) ou durables (bulletins de salaire)… Conscientes des opportunités offertes par l’IA, les entreprises qui souhaitent conserver leurs données doivent relever deux défis : le coût du stockage et l’accessibilité.

 

Choisir le bon média

La quantité de données produites double tous les 7 mois selon les experts du marché, alors qu’il y a peu, ce doublement se produisait tous les ans. Bien sûr, les données ne sont pas toutes conservées. Mais nous constatons tout de même une croissance de leur volumétrie de 30 à 40% par an. Or le coût du stockage ne diminue pas assez pour compenser cette explosion. Le choix du média s’avère donc essentiel pour maîtriser les coûts. : stockage dans le cloud (IBM Cloud ou concurrents), on premise (quand l’entreprise a besoin de puissance et de vitesse ou quand elle doit procéder à de l’archivage règlementaire (la bande est alors la meilleure solution). De fait, la majorité dess clients reviennent vers le tiering[1]. Aujourd’hui, la bande est en forte progression alors que le disque dur disparaît peu à peu en raison de son coût. Pour aider à la décision, nous déterminons les besoins en termes de performance, les exigences en matière de sécurité, les besoins non fonctionnels (combien de temps une donnée doit être conservée, et s’il faut ou non la conserver, ce qui par exemple n’est pas le cas des commentaires sur les réseaux sociaux). Cet effort d’analyse des besoins pour déterminer le bon média est essentiel pour diminuer le TCO[2] global dans un projet d’IA.

 

Vision unifiée de la donnée

L’objectif n’est pas de « stocker pour stocker », mais de présenter la donnée à une application de la manière la plus simple possible et avec les standards du marché.

Dans le domaine de l’IA, les algorithmes ont besoin d’un socle le plus large possible, et vont aller lire des data archivées sur des bandes, des commentaires volatiles provenant des réseaux sociaux, des données de l’entreprise mises à jour chaque semaine, etc.

Il est donc essentiel d’avoir une vision unifiée de l’information, quelle que soit l’application. Il faut procéder alors à la virtualisation de la donnée et faire abstraction de la couche matérielle afin de faciliter sa mise à disposition. Cette abstraction permet d’accéder à la donnée sans passer par un coûteux logiciel d’ETL[3]. De plus, les charges d’administration sont diminuées et les capacités de stockage sont exploitées à leur maximum, la virtualisation s’accompagnant d’une compression et de déduplication pour gagner en volume. Cette couche de virtualisation engendre certes un coût supplémentaire, mais permet de gérer l’obsolescence du stockage, d’éviter la multiplication des supports de stockage et aboutit au final à un TCO global inférieur.

Rendre accessible la donnée au travers de processus de communication standards est d’autant plus crucial que les applications et les manières de programmer changent très vite. Le deep learning ne faisait pas partie des projets des entreprises il y a quelques années. Hadoop et Spark étaient très répandus dans le domaine du big data à un moment, mais d’autres technologies sont depuis apparues.

Disposer de la bonne technologie de stockage au bon endroit, adaptée aux besoins des métiers est une condition sine qua non pour réussir son projet d’intelligence artificielle. Optimiser le stockage au fur et à mesure et éviter que les coûts de possession n’explosent permet d’affecter des budgets pour les nouveaux enjeux que sont le machine learning, le deep learning, ou dans un autre registre, la cybersécurité.

 

Pour aller plus loin sur la question du stockage dans le lancement d’un projet d’IA, nous vous invitons à visionner le replay du webinar « Cheminement d’un projet IA par la donnée« .

[1] Hiérarchisation de données en fonction de leur importance et de la fréquence à laquelle elles sont consultées.

[2] Total Cost of Ownership

[3] Extract Transform & Load, logiciel de prise en charge des données

 

IT Architect Director

More Infrastructures stories
10 juillet 2019

Les défis du multi-Cloud

Le Cloud est un passage obligé, prédit IDC : pour rester compétitive, toute entreprise se doit d’avoir une stratégie Cloud mêlant des infrastructures sur site et publiques, en provenance de différents fournisseurs. Une transformation qui s’accompagne de l’adoption de nouvelles méthodes de développement agile. Le multi-Cloud devient la règle Fin 2020, 85 % des entreprises […]

Continue reading

26 juin 2019

L’éthique comme accélérateur de l’Intelligence Augmentée

L’intelligence artificielle est un vecteur incontournable de la transformation digitale des entreprises, notamment dans le secteur bancaire. Promesse d’une révolution dans la valorisation des données et du big data, l’Intelligence Artificielle – ou devrait-on dire « l’Intelligence Augmentée » – nous place aussi devant de nouveaux défis, dont celui de la transparence et de l’éthique. Explications, illustrations […]

Continue reading

24 juin 2019

L’IA et le prédictif vont permettre d’offrir davantage de services de transport connectés

L’analyse des données de transport permet aux opérateurs et aux collectivités d’avoir une connaissance plus fine des flux et des usages. Ces diagnostics sont autant de leviers pour renforcer l’efficacité des infrastructures existantes et mieux combiner les transports individuels et collectifs. Les outils numériques encouragent aussi les usages partagés, en attendant les nouvelles opportunités liées […]

Continue reading