Infrastructures

Une gestion réfléchie des données, indispensable à tout projet d’IA

Share this post:

Les coûts de stockage ne diminuent pas suffisamment pour compenser l’explosion du volume des données.

C’est un fait : l’intelligence artificielle n’est rien sans une architecture de l’information adéquate. Pas d’IA sans AI !

Qu’il s’agisse de machine learning ou de deep learning, l’IA exige une quantité phénoménale de données. Or la data est multiple : non structurée, structurée dès son origine ou après son traitement … Les données peuvent être dans le cloud, dans les datacenters des entreprises (c’est le cas pour l’instant de 80% d’entre elles), temporaires (données extraites des réseaux sociaux) ou durables (bulletins de salaire)… Conscientes des opportunités offertes par l’IA, les entreprises qui souhaitent conserver leurs données doivent relever deux défis : le coût du stockage et l’accessibilité.

 

Choisir le bon média

La quantité de données produites double tous les 7 mois selon les experts du marché, alors qu’il y a peu, ce doublement se produisait tous les ans. Bien sûr, les données ne sont pas toutes conservées. Mais nous constatons tout de même une croissance de leur volumétrie de 30 à 40% par an. Or le coût du stockage ne diminue pas assez pour compenser cette explosion. Le choix du média s’avère donc essentiel pour maîtriser les coûts. : stockage dans le cloud (IBM Cloud ou concurrents), on premise (quand l’entreprise a besoin de puissance et de vitesse ou quand elle doit procéder à de l’archivage règlementaire (la bande est alors la meilleure solution). De fait, la majorité dess clients reviennent vers le tiering[1]. Aujourd’hui, la bande est en forte progression alors que le disque dur disparaît peu à peu en raison de son coût. Pour aider à la décision, nous déterminons les besoins en termes de performance, les exigences en matière de sécurité, les besoins non fonctionnels (combien de temps une donnée doit être conservée, et s’il faut ou non la conserver, ce qui par exemple n’est pas le cas des commentaires sur les réseaux sociaux). Cet effort d’analyse des besoins pour déterminer le bon média est essentiel pour diminuer le TCO[2] global dans un projet d’IA.

 

Vision unifiée de la donnée

L’objectif n’est pas de « stocker pour stocker », mais de présenter la donnée à une application de la manière la plus simple possible et avec les standards du marché.

Dans le domaine de l’IA, les algorithmes ont besoin d’un socle le plus large possible, et vont aller lire des data archivées sur des bandes, des commentaires volatiles provenant des réseaux sociaux, des données de l’entreprise mises à jour chaque semaine, etc.

Il est donc essentiel d’avoir une vision unifiée de l’information, quelle que soit l’application. Il faut procéder alors à la virtualisation de la donnée et faire abstraction de la couche matérielle afin de faciliter sa mise à disposition. Cette abstraction permet d’accéder à la donnée sans passer par un coûteux logiciel d’ETL[3]. De plus, les charges d’administration sont diminuées et les capacités de stockage sont exploitées à leur maximum, la virtualisation s’accompagnant d’une compression et de déduplication pour gagner en volume. Cette couche de virtualisation engendre certes un coût supplémentaire, mais permet de gérer l’obsolescence du stockage, d’éviter la multiplication des supports de stockage et aboutit au final à un TCO global inférieur.

Rendre accessible la donnée au travers de processus de communication standards est d’autant plus crucial que les applications et les manières de programmer changent très vite. Le deep learning ne faisait pas partie des projets des entreprises il y a quelques années. Hadoop et Spark étaient très répandus dans le domaine du big data à un moment, mais d’autres technologies sont depuis apparues.

Disposer de la bonne technologie de stockage au bon endroit, adaptée aux besoins des métiers est une condition sine qua non pour réussir son projet d’intelligence artificielle. Optimiser le stockage au fur et à mesure et éviter que les coûts de possession n’explosent permet d’affecter des budgets pour les nouveaux enjeux que sont le machine learning, le deep learning, ou dans un autre registre, la cybersécurité.

 

Pour aller plus loin sur la question du stockage dans le lancement d’un projet d’IA, nous vous invitons à visionner le replay du webinar « Cheminement d’un projet IA par la donnée« .

[1] Hiérarchisation de données en fonction de leur importance et de la fréquence à laquelle elles sont consultées.

[2] Total Cost of Ownership

[3] Extract Transform & Load, logiciel de prise en charge des données

 

IT Architect Director

More Infrastructures stories
28 février 2024

L’intelligence artificielle et l’analytique avancée dans le système de santé français (Partie 2)

Face aux défis auxquels sont confrontés les systèmes de soins de santé, l’analytique avancée (AA) et l’intelligence artificielle (IA) sont des technologies à haut potentiel d’impact. Ces technologies peuvent équiper les systèmes de santé d’outils avancés pour renforcer les soins des patients et améliorer l’efficacité opérationnelle. La deuxième partie de cet article reprend le fil […]

Continue reading

15 février 2024

L’Intelligence Artificielle et l’Analytique avancée dans les systèmes de santé français (Partie 1)

Dans le paysage complexe de la Santé, les systèmes médicaux du monde entier sont confrontés à une multitude de défis. Ceux-ci vont de la gestion délicate des maladies chroniques jusqu’à la quête d’accès égaux aux services de santé. Dans ce contexte spécifique, l’émergence de l’Analytique avancée et de l’Intelligence Artificielle (IA) joue un rôle de […]

Continue reading

8 février 2024

De la donnée au passage à l’échelle de l’intelligence artificielle générative !

Notre monde est de plus en plus axé sur la donnée. Sa gestion en devient cruciale pour assurer la réussite des transformations des organisations actuelles. Cette année 2023 aura été pour moi un approfondissement des sujets d’architecture autour de la gestion de cette donnée. Je souhaitais partager mes sujets de réflexion pour les semaines à […]

Continue reading