Peut-être que votre organisation a récemment décidé d’acheter des nœuds de calcul et de se lancer dans l’intelligence artificielle (IA). Il y a de nombreux aspects de votre infrastructure informatique et de votre environnement (informatique) à examiner alors que vous vous préparez aux charges de travail d’IA, y compris, et peut-être surtout, vos systèmes de stockage. L’IA est pilotée par les données, et la manière dont vos données sont stockées peut affecter de manière significative le résultat de votre projet d’IA. Non seulement cela, mais les quatre étapes différentes de l’IA (ingestion, préparation, entraînement et inférence) ont chacune des besoins et des exigences de stockage différents.
Malheureusement, certaines entreprises se concentrent sur l’aspect informatique de l’IA et négligent l’aspect stockage. Cette orientation unique peut, et c’est parfois, conduire à l’interruption ou à l’échec total des projets d’IA. Des quantités massives de données sont nécessaires pour faciliter la phase d’apprentissage de l’IA. Ces données doivent être ingérées, stockées et préparées afin de pouvoir être intégrées à la phase d’entraînement. Sans la capacité d’ingérer, de stocker et de consommer les données nécessaires à la formation, le projet risque d’échouer.
Les projets d’IA exigent une infrastructure de stockage offrant d’excellentes performances, évolutivité et flexibilité. La bonne nouvelle, c’est que les systèmes de stockage actuels peuvent être conçus pour répondre aux besoins des projets d’IA. Les superordinateurs les plus puissants du monde, Sierra et Summit, en sont un bon exemple.
Voyons maintenant quelques exigences.
Les exigences pour chaque étape du pipeline d’IA doivent être examinées en fonction de la charge attendue pour votre application d’IA. Les charges de travail varient, mais certaines entreprises utilisant de grands jeux de données peuvent entraîner pendant de longues périodes. Une fois l’entraînement terminé, ces données sont souvent déplacées hors des plateformes de stockage critique pour préparer une nouvelle charge de travail. La gestion manuelle des données peut être un défi. Il est donc judicieux d’anticiper la manière dont les données sont placées au niveau du stockage et où elles iront une fois l’entraînement terminé. En trouvant une plateforme capable de déplacer les données automatiquement pour vous, vous vous rapprochez d’une gestion efficace et performante du stockage pour l’IA.
Après avoir examiné les implications de vos besoins en matière de charge de travail, vous pouvez choisir les technologies de stockage qui fonctionnent le mieux pour votre infrastructure de calcul de l’IA et votre projet.
Ingestion de données. Les données brutes pour les charges de travail d’IA peuvent provenir d’une variété de sources de données structurées et de données non structurées, et vous avez besoin d’un endroit très fiable pour stocker les données. Le support de stockage peut être un data lake de grande capacité ou un fast tier, comme le stockage flash, en particulier pour l’analytique en temps réel.
Préparation des données. Une fois stockées, les données doivent être préparées car elles sont au format « brut ». Les données doivent être traitées et formatées pour être utilisées par les autres phases. Les performances des entrées/sorties de fichiers sont très importantes à ce stade, car vous avez désormais un mélange de lectures et d’écritures aléatoires. Prenez le temps de déterminer les besoins de performance de votre pipeline d’IA. Une fois les données formatées, elles seront transmises aux neural networks pour l’entraînement.
Entraînement et inférence. Ces étapes sont très gourmandes en ressources informatiques et nécessitent généralement l’introduction de données en continu dans les modèles d’apprentissage. La formation est un processus itératif, nécessitant des réglages et des réinitialisations, qui est utilisé pour créer les modèles. L’inférence peut être considérée comme la somme des données et de la formation. Les GPU des serveurs et votre infrastructure de stockage deviennent ici très importants en raison du besoin de faible latence, de débit élevé et de temps de réponse rapides. Vos réseaux de stockage doivent être conçus pour gérer ces exigences ainsi que l’ingestion de données et la préparation. À l’échelle, cela met à l’épreuve de nombreux systèmes de stockage, en particulier ceux qui ne sont pas préparés pour les charges de travail d’IA, il est donc important d’examiner spécifiquement si votre plateforme de stockage peut gérer les charges de travail en fonction de vos objectifs métier.
Pensez également à la question suivante : votre infrastructure de stockage évolue-t-elle facilement ? Pouvez-vous étendre le système de stockage au fur et à mesure que vos besoins en données augmentent ? Ce sont des questions très importantes qui ont un effet direct sur vos besoins en infrastructure IA.
Assurez-vous de pouvoir faire évoluer votre infrastructure de stockage avec un minimum d’interruption de vos opérations de production, afin de suivre le rythme de croissance des données de votre entreprise. Soyez suffisamment flexible pour envisager différentes configurations de stockage en fonction des différents besoins de l’infrastructure d’IA.
Une planification minutieuse, qui fait correspondre vos exigences en matière de serveurs d’IA et de modélisation à l’infrastructure de stockage, vous permettra de tirer le meilleur parti de vos investissements et d’assurer la réussite de vos projets d’IA.
Ces recommandations ne sont qu’un point de départ. Gardez à l’esprit que si vous n’avez pas l’expertise dans votre entreprise pour concevoir et mettre en œuvre l’infrastructure de stockage IA appropriée, vous devez travailler avec votre fournisseur pour préparer vos systèmes de stockage pour l’IA.
Et si vous avez des questions ou cherchez un soutien pour planifier et préparer un projet d’IA avec IBM® Storage, n’hésitez pas à contacter IBM Systems Lab Services.
Profitez d’une valeur métier augmentée en intégrant l’IA aux workloads critiques sur l’IBM z17.
IBM Z est une famille d’infrastructures modernes alimentées par le processeur IBM Telum qui exécutent des systèmes d’exploitation d’entreprise et le logiciel IBM Z, permettant d’améliorer la précision, la productivité et l’agilité de l’IA.
Le IBM z17™ intègre l’IA avancée dans le cloud hybride, optimisant les performances, la sécurité et la prise de décision là où résident les données critiques.
Découvrez comment protéger les données de votre organisation contre les cybermenaces et assurer une récupération rapide après des événements critiques.
Associez cadres et outils open source pour appliquer IA et machine learning aux données les plus importantes de votre entreprise sur les mainframes IBM zSystems.
IBM propose des solutions d’infrastructure IA pour accélérer l’impact à l’échelle de l’entreprise grâce à une stratégie « hybrid by design ».
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
Optimisez vos workloads d’IA grâce à une infrastructure qui allie performance, fiabilité et intégration cloud, afin de répondre aux besoins réels des entreprises.