L’IA générative, également appelée IAgénérative, est une intelligence artificielle (IA) capable de créer du texte, des images, des vidéos, de l’audio et même du code logiciel en réponse à une demande de l’utilisateur. De nos jours, les organisations font la queue pour créer de nouvelles applications d'IA génératives, mais elles négligent souvent les étapes nécessaires à l'élaboration d'une stratégie de données efficace qui les soutienne.
Les modèles d'IAgénérative, c'est-à-dire les programmes informatiques qui ont été entraînés à prendre des décisions similaires à celles du cerveau humain, nécessitent des volumes massifs de données pour s'entraîner. Et bien que les entreprises puissent avoir une idée brillante pour une application, si les données sous-jacentes ne sont pas traitées correctement, l’application tombe en panne.
Du coût de la collecte et du traitement des données à l’infrastructure sous-jacente nécessaire pour les stocker en toute sécurité, en passant par l’évolution des exigences en matière de gouvernance des données, il est important que les organisations adoptent une approche stratégique pour garantir le succès des applications.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
En 2022, le lancement de ChatGPT a marqué le début d’une nouvelle ère d’innovation dans l’IA générative, incitant les entreprises à tirer parti de cette technologie pour leurs applications métier. ChatGPT était un chatbot d'IA, formé sur de grands modèles de langage (LLM), qui dialoguait avec les utilisateurs de manière conversationnelle. Depuis son lancement, les entreprises ont cherché à appliquer sa technologie sous-jacente à divers problèmes commerciaux, notamment l'automatisation, l'augmentation de la productivité et les informations sur les clients.
Divers risques et défis sont également apparus. Dans le domaine médical, par exemple, bien qu’il ait aidé à automatiser certains diagnostics, il a également soulevé des problèmes de confidentialité et de sécurité.1 En outre, un problème connu sous le nom d'hallucinations de l'IA persiste, ce qui pousse certains modèles d'IA générative à « inventer » des faits lorsqu'ils ne trouvent pas la réponse à une question.
Mais alors que ces problèmes — et d’autres — persistent, des entreprises de toutes tailles et de divers secteurs ont continué à investir massivement dans ce secteur, cherchant de nouveaux moyens de tirer parti de sa puissance. Selon Menlo Ventures, de 2022 à 2023, les investissements des entreprises dans l'IA générative ont été multipliés par six, passant de 2,3 milliards de dollars à 10 milliards de dollars. 13,8 milliards.
L'infrastructure d'IA est un terme qui désigne les solutions matérielles et logicielles nécessaires à la création d'applications d'IA. À l'ère de l'IA générative, l'infrastructure d'IA doit évoluer pour répondre aux exigences accrues en ressources de calcul, en capacité de stockage de données, en bande passante et plus encore associées à la technologie. Mais les organisations sont tellement pressées de déployer de nouvelles applications d'IA générative qu'elles négligent parfois les besoins en IA et en infrastructure de données.
Alors que les organisations cherchent à tirer parti de l'IA générative et de tout son potentiel à des fins commerciales, elles doivent repenser les principaux aspects de leur approche en matière d'infrastructure et de stratégie de données.
Pour créer une application d'IA générative et performante, les organisations ont généralement besoin d'une combinaison de données structurées et non structurées. Les données structurées, également appelées données quantitatives, sont des données préalablement formatées pour pouvoir être facilement traitées par des algorithmes d’apprentissage automatique (ML) qui alimentent les applications d’IA générative.
À l'aide de modèles ML avancés, les algorithmes simulent la façon dont les humains apprennent à partir de grandes quantités de données (ensembles de données) jusqu'à ce qu'ils puissent comprendre des questions sur les données et y répondre en créant un nouveau contenu.
Bien que certaines données collectées par les entreprises soient déjà structurées (par exemple, des informations clients et financières telles que les noms, les dates et les montants des transactions), une grande partie est non structurée. Les données non structurées, également appelées données qualitatives, sont des données qui n’ont pas de format prédéfini. Les données non structurées sont très variées et peuvent inclure des fichiers vidéo, audio et texte provenant de courriels, de pages Web, de comptes de réseaux sociaux et de capteurs de l'Internet des objets (IoT).
Avec l'expansion de l'économie numérique, la quantité de données non structurées collectées par les entreprises augmente à un rythme exponentiel. Selon Forbes, 80 à 90 % des données collectées par les entreprises ne sont pas structurées. Les données non structurées ne conviennent pas aux fins de ML et doivent être transformées avant de pouvoir être utilisées pour entraîner un modèle d’IA.
La conversion de données non structurées en données pouvant être traitées par un ordinateur et utilisées à des fins commerciales implique l'extraction d'informations pertinentes et leur organisation dans un format prédéfini. Le volume et la complexité des données créent des défis, et un environnement de gestion des données exigeant ainsi que le respect des lois sur la gouvernance des données peuvent être coûteux.
La gouvernance des données est la pratique consistant à garantir la qualité, la sécurité et la disponibilité des données appartenant à une entreprise à travers un ensemble de politiques et de procédures. Avec l’essor de l’IA générative et du big data, la gouvernance des données et toutes ses exigences sont passées au premier plan de l’entreprise moderne.
L’IA générative, avec sa capacité à créer de nouveaux contenus à partir des données sur lesquelles elle s’est entraînée, crée de nouvelles exigences en matière de collecte, de stockage et de traitement sûrs et légaux des données.
Qualité
Les modèles d’IA générative étant entraînés sur d’immenses jeux de données, les données contenues dans ces jeux doivent être de la plus haute qualité, et leur intégrité doit être incontestable. La gouvernance des données joue un rôle important pour garantir que les jeux de données sur lesquels les modèles d'IA générative s'entraînent soient précis et complets, un composant clé pour générer des réponses fiables.
Conformité
Selon le secteur et le lieu, les applications métier d’IA générative sont confrontées à un environnement de conformité rigoureux en matière de manière d’utiliser les données. Les règles du RGPD (Règlement Général sur la Protection des Données), par exemple, régissent la manière dont les données appartenant aux résidents de l'UE peuvent être utilisées par les entreprises. Les infractions entraînent de lourdes amendes et sanctions lorsque les informations des clients sont compromises de quelque manière que ce soit.
En 2021, Google et d'autres entreprises ont été condamnées à une amende de plus d'un milliard de dollars pour avoir enfreint les règles de protection des données stipulées dans le GDPR.
Transparence
Pour qu'une application d'IA générative soit efficace, l'origine de ses données et la manière dont elles ont été transformées à des fins professionnelles doivent être clairement établies et visibles. La gouvernance des données contribue à garantir que la documentation existe — et est transparente pour les utilisateurs — à chaque étape du cycle de vie des données, de la collecte au stockage, au traitement et à la production, afin que les utilisateurs comprennent comment une réponse a été générée.
Le succès des applications d'IA générative dépend de la mise en place d'une stratégie de données et d'une infrastructure adaptées. Voici quelques bonnes pratiques pour assurer votre réussite.
En raison de la nature des données non structurées - d'où elles proviennent, de la manière dont elles sont collectées et stockées, les organisations tendent à collecter beaucoup.
Mais cela ne signifie pas que tout sera utile à une application d’IA générative. « Commencez par une question », conseille Margaret Graves, chercheuse principale au IBM Center for the Business du gouvernement. « Il ne s’agit pas forcément d’une seule question, il peut y en avoir plusieurs, mais essayez de vous concentrer sur les manières précises dont l’application que vous souhaitez développer contribuera à l’avancement et au soutien de votre mission. »
Depuis le lancement de ChatGPT en 2022, les entreprises se sont empressées d'appliquer l'IA générative à de nombreux problèmes commerciaux, notamment en augmentant la productivité, en identifiant des informations et en accélérant la transformation numérique. Bien que ce soit certainement des domaines que la technologie peut traiter, ils sont également vastes et peuvent conduire une organisation à créer une application qui manque de spécificités.
Plus le problème de l'entreprise est précis, plus il est facile d'identifier les jeux de données pertinents sur lesquels vous devrez entraîner votre modèle d'IA générative et le type d'infrastructure d'IA dont vous aurez besoin pour soutenir le processus.
Une fois qu’une entreprise a décidé sur quelles questions métier elle souhaite concentrer une application d’IA générative, elle peut commencer à examiner les jeux de données pertinents pour entraîner ses modèles d’IA. Graves compare cette partie du processus à l'examen d'un spectre. « D'un côté, dit-elle, vous avez des données internes hautement confidentielles et exclusives sur lesquelles vous devez entraîner votre modèle. D'autre part, vous disposez de données plus générales qui ne sont pas propriétaires, mais qui aideront votre application à être plus performante. »
Le monde des RFP (Request for Proposals) est un bon exemple, car il s'agit de l'un des cas d'utilisation commerciale les plus convaincants de l'IA générative à avoir émergé au cours des dernières années. Une entreprise B2B souhaitant développer une application d’IA générative pour automatiser certains aspects de son processus de RFP devra s’entraîner sur des données internes, sinon elle ne pourrait pas présenter les capacités uniques de l’entreprise. Mais ce même modèle d’IA générative devrait également s’entraîner sur des données plus générales, comme la façon de créer une phrase et de structurer ses réponses de manière grammaticale, sinon ses réponses n’auraient pas de sens.
« Ces deux aspects doivent être réunis dans votre stratégie de données : des jeux de données généraux et plus propriétaires, ainsi que des jeux de données internes », explique Mme Graves. « Sinon, vous créez simplement un outil, vous y envoyez beaucoup de données et vous voyez ce qui se passe, ce qui est une perte de temps et d'argent. »
L'utilisation de données spécifiques à un secteur, c'est-à-dire de données relatives à un secteur ou à un domaine spécifique, peut aider les entreprises à créer des modèles IA mieux adaptés à leurs besoins particuliers. « À l'heure actuelle, l'accent est mis sur les données spécifiques à un domaine lorsqu'il s'agit de former des modèles d'IA, par exemple dans les domaines de la finance ou des ressources humaines », explique Jason Prow, associé senior chez IBM Consulting. « Avec toutes les données disponibles, il devient critique d'organiser votre modèle en fonction d'un domaine spécifique. »
L'exploitation des données du domaine dans la création de modèles IA permet d'adapter les modèles de manière à les rendre plus applicables à un besoin spécifique de l'entreprise. Les modèles spécifiques à un domaine sont plus précis et pertinents pour les besoins des utilisateurs et peuvent conduire à de meilleures performances globales des applications d’IA générative associées.
Les données spécifiques à un domaine peuvent être techniques et complexes, les organisations souhaitant les exploiter doivent donc envisager d’ajouter plus tard une « sémantique », une couche d’abstraction dans leurs modèles d’IA pour les traduire. « L’industrie pharmaceutique, en particulier, recourt beaucoup à la description sémantique », explique Anthony Vachino, associé chez IBM Consulting. Les différentes entreprises effectuent différents essais, et la couche sémantique les décrit de manière à rendre la recherche applicable à d’autres entreprises sans avoir à les reproduire.
Qu’il s’agisse de se préparer à des bouleversements géopolitiques susceptibles de perturber les chaînes d’approvisionnement ou à des catastrophes naturelles menaçant les infrastructures critiques, les responsables des données modernes commencent à prendre en compte bien plus que les talents et les coûts lorsqu’ils choisissent où stocker et accéder aux données. Selon l'IBM Institute of Business Value, 60 % des dirigeants du gouvernement pensent que la fréquence des chocs de la chaîne d'approvisionnement et de l'infrastructure augmentera à l'avenir, tandis que 70 % pensent qu'ils augmenteront en intensité.
Les régions présentent des avantages différents, et des éléments tels que les talents, l'écosystème et l'infrastructure des données, la gouvernance et les facteurs géopolitiques doivent tous être pris en compte. Les dirigeants en prennent note : l'année dernière, selon le même rapport de l'IBV, près de 70 % des dirigeants sondés ont déclaré s'attendre à ce que l'IA modifie l'emplacement des Ressources clés, alors que cette année, ce pourcentage est passé à 96 %.
Dan Chenok, directeur exécutif de l'IBM Center for the Business of gouvernement, s'intéresse au potentiel de l'utilisation de données distribuées pour la formation de modèles génératifs d'IA générative, car elle permet de stocker et d'accéder aux données à plusieurs endroits. « Les données distribuées vous permettent d'entraîner le modèle à partir de données stockées à plusieurs endroits », explique t-il, « tout en préservant la sécurité et les réglementations grâce au contrôle d'accès ».
Les solutions hybrides modernes aident les organisations à construire des modèles d'IA mieux adaptés à la résolution de problèmes professionnels spécifiques, ce qui permet d'économiser de l'argent, du temps et d'autres ressources essentielles. « Lorsque vous intégrez plusieurs plateformes, vous pouvez fournir de meilleurs services, surtout si vous êtes une entreprise qui travaille sur plusieurs sites », ajoute M. Chenok. « Et les meilleures solutions vous aideront à concilier tout cela afin que votre application soit performante. »
Les data-lakehouses hybrides ouverts offrent aux utilisateurs la possibilité de partager des données à la fois sur infrastructure cloud et sur site — partout où elles se trouvent — afin qu’elles puissent être accessibles par des applications d’IA générative. Les data lakehouses sont des plateformes qui fusionnent les aspects des entrepôts de données et des data lakes en une seule et même solution de gestion des données.
Les data lakes sont des solutions de stockage de données à faible coût conçues pour gérer d’énormes quantités de données structurées et non structurées, et les entrepôts de données sont des systèmes qui collectent des données provenant de plusieurs sources en un seul lieu afin qu’elles puissent être analysées. Bien qu'ils ne soient pas aussi évolutifs que les lacs ou les entrepôts, les data lakehouses ont tendance à être plus rationalisés, plus performants et capables de prendre en charge un plus large éventail de Workload.
Pour les entreprises à la recherche d’une solution plus complète, des plateformes telles que Databricks, Snowflake et Amazon RedShift gagnent en popularité en raison de la complexité de la préparation des données pour l’IA générative ainsi que du développement et du déploiement des applications. Des solutions complètes aident à la gestion des données, à la formation des modèles et au déploiement de solutions, permettant aux organisations de lancer une application d'IA générative dotée d'une évolutivité et d'une gouvernance intégrées pour différents cas d'utilisation.
IBM watsonx.data est un magasin de données spécialisé bâti sur une architecture de data lakehouse ouverte, permettant d'augmenter l’évolutivité des workloads d’IA générative. L'approche ouverte, hybride et adaptée aux besoins améliore l'intégration avec différents types de bases de données, ce qui permet aux entreprises d'exploiter des données réparties dans différents écosystèmes et environnements et de ne pas être enfermées dans une seule région ou un seul ensemble de règles.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.