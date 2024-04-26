Au fur et à mesure que les grands modèles de langage (LLM) se sont généralisés, les gens ont découvert comment utiliser les applications qui y accèdent. Les outils modernes basés sur l’IA peuvent générer, créer, résumer, traduire, classer et même discuter. Les outils du domaine de l’IA générative nous permettent de générer des réponses à des prompts après avoir appris d’artefacts existants.
Un domaine qui n’a pas connu beaucoup d’innovations est celui de la périphérie lointaine et des appareils à ressources limitées. Certaines versions d’applications d’IA fonctionnent localement sur des appareils mobiles avec des fonctionnalités de traduction intégrées, mais nous n’avons pas encore atteint le stade où les LLM génèrent de la valeur en dehors des fournisseurs de cloud.
Cependant, il existe des modèles plus petits qui ont le potentiel d’innover en matière de capacités d’IA générative sur les appareils mobiles. Examinons ces solutions du point de vue d’un modèle IA hybride.
Les LLM constituent une catégorie spéciale de modèles IA qui alimentent ce nouveau paradigme. Le traitement automatique du langage naturel (NLP) permet cette capacité. Pour entraîner les LLM, les développeurs utilisent d’énormes quantités de données provenant de diverses sources, y compris d’Internet. Les milliards de paramètres traités les rendent très volumineux.
Bien que les LLM connaissent un large éventail de sujets, ils se limitent uniquement aux données sur lesquelles ils ont été entraînés. Autrement dit, ils ne sont pas toujours à jour ou exacts. En raison de leur taille, les LLM sont généralement hébergés dans le cloud, ce qui nécessite d’importants déploiements matériels avec de nombreux GPU.
Par conséquent, les entreprises qui cherchent à tirer des informations de leurs données privées ou propriétaires ne peuvent pas utiliser les LLM prêts à l’emploi. Pour répondre à des questions spécifiques, générer des résumés ou créer des briefs, elles doivent inclure leurs données dans des LLM publics ou créer leurs propres modèles. La méthode d’ajout de ses propres données au LLM est appelée « génération augmentée par récupération » ou « modèle RAG ». Il s’agit d’un modèle de conception d’IA générative qui ajoute des données externes au LLM.
Les entreprises qui opèrent dans des domaines spécialisés, comme la téléphonie, les soins de santé ou le pétrole et le gaz, se concentrent sur un objectif précis. Bien qu’elles puissent tirer avantage de scénarios et de cas d’utilisation typiques de l’IA générative, elles seraient mieux servis avec des modèles plus petits.
En ce qui concerne les opérateurs téléphoniques, par exemple, les cas d’utilisation courants sont notamment les assistants IA dans les centres d’appel, les offres personnalisées dans la prestation de services et les chatbots alimentés par l’IA pour améliorer l’expérience client. Les cas d’utilisation qui aident les opérateurs téléphoniques à améliorer les performances de leur réseau, à augmenter l’efficacité spectrale des réseaux 5G ou à repérer des goulets d’étranglement spécifiques dans leur réseau bénéficient davantage des données propres à l’entreprise (plutôt que d’un LLM public).
Cela nous amène à l’idée que plus c’est petit, mieux c’est. Il existe aujourd’hui de petits modèles de langage (SLM) dont la taille est inférieure à celle des LLM. Ces SLM sont entraînés sur des dizaines de milliards de paramètres, tandis que les LLM sont entraînés sur des centaines de milliards de paramètres. Plus important encore, les SLM sont entraînés sur des données relatives à un domaine spécifique. Ils ne disposent peut-être pas d’informations contextuelles générales, mais ils sont très performants dans le domaine choisi.
En raison de leur taille réduite, ces modèles peuvent être hébergés dans le centre de données de l’entreprise plutôt que dans le cloud. Les SLM pourraient même fonctionner sur une seule puce GPU à l’échelle, ce qui permettrait d’économiser des milliers de dollars en coûts informatiques annuels. Cependant, la délimitation entre ce qui ne peut être exécuté que dans un cloud et dans un centre de données d’entreprise devient moins claire avec l’évolution de la conception des puces.
Que ce soit pour des raisons de coût, de confidentialité ou de souveraineté des données, les entreprises voudront peut-être gérer ces SLM dans leurs centres de données. La plupart des entreprises n’aiment pas envoyer leurs données vers le cloud. L’autre raison majeure concerne les performances. L’IA générative en périphérie effectue les calculs et les inférences au plus près des données, ce qui les rend plus rapides et plus sûrs que s’ils étaient effectués par un fournisseur de cloud.
Il convient de noter que les SLM nécessitent moins de puissance de calcul et sont idéaux pour un déploiement dans des environnements à ressources limitées et même sur des appareils mobiles.
Un exemple sur site pourrait être un emplacement IBM Cloud Satellite, qui dispose d’une connexion haut débit sécurisée vers IBM Cloud hébergeant les LLM. Les opérateurs télécoms pourraient héberger ces SLM dans leurs stations de base et proposer cette option à leurs clients. Il s’agit simplement d’optimiser l’utilisation des GPU, car la distance que les données doivent parcourir est réduite, ce qui améliore la bande passante.
Revenons à la question initiale de la possibilité d’exécuter ces modèles sur un appareil mobile. Ce dernier peut être un téléphone haut de gamme, une voiture ou même un robot. Les fabricants d’appareils ont découvert qu’une bande passante importante était nécessaire à l’exécution des LLM. Les LLM minuscules sont des modèles encore plus petits, qui peuvent être exécutés localement sur des téléphones portables et des dispositifs médicaux.
Pour créer ces modèles, les développeurs utilisent des techniques telles que l’adaptation de bas rang. Les utilisateurs peuvent ainsi affiner les modèles en fonction de leurs besoins tout en conservant un nombre relativement faible de paramètres entraînables. Il existe même un projet TinyLlama sur GitHub.
Les fabricants de puces mettent au point des puces capables d’exécuter une version allégée des LLM grâce à la diffusion d’images et à la distillation des connaissances. Les systèmes sur puce (SOC) et les unités de traitement neuronal (NPU) permettent aux appareils périphériques (edge) d’exécuter des tâches d’IA générative.
Bien que certains de ces concepts ne soient pas encore en production, les architectes de solutions devraient réfléchir à ce qui est possible aujourd’hui. Les SLM fonctionnant et collaborant avec des LLM peuvent être une solution viable. Les entreprises peuvent décider d’utiliser des modèles IA existants, plus petits et spécialisés dans leur secteur, ou de créer leurs propres modèles pour offrir une expérience client personnalisée.
Si l’exécution de SLM sur site semble pratique et que les LLM minuscules sur appareils edge mobiles sont attrayants, que se passe-t-il si le modèle nécessite un corpus de données plus important pour répondre à certains prompts ?
Le cloud computing hybride offre le meilleur des deux mondes. Peut-il en être de même pour les modèles IA ?
Lorsque les modèles plus petits ne suffisent pas, le modèle d’IA hybride pourrait permettre d’accéder au LLM dans le cloud public. Il est tout à fait logique de mettre en place une telle technologie. Les entreprises pourraient sécuriser leurs données dans leurs locaux en utilisant des SLM spécifiques à leur domaine, mais aussi accéder aux LLM dans le cloud public en cas de besoin. Cette solution semble être un moyen plus efficace de répartir les workloads de l’IA générative alors que les appareils mobiles équipés de SOC disposent de capacités de plus en plus importantes.
IBM® a récemment annoncé la disponibilité du modèle IA Mistral open source sur sa plateforme watson. Ce LLM compact nécessite moins de ressources pour fonctionner, mais il est tout aussi efficace et offre de meilleures performances que les LLM traditionnels. IBM a également lancé un modèle Granite 7B dans sa gamme de modèles de fondation très organisée et fiable.
Selon nous, les entreprises doivent se concentrer sur la création de petits modèles spécifiques à un domaine, avec des données d’entreprise internes, pour différencier leur compétence principale et exploiter les informations issues de leurs données (plutôt que de s’aventurer à créer leurs propres LLM génériques, auxquels elles peuvent facilement accéder auprès de plusieurs fournisseurs).
Les opérateurs télécoms sont un excellent exemple d’entreprise qui pourrait tirer profit de l’adoption de ce modèle d’IA hybride. Ils jouent un rôle unique, car ils peuvent être à la fois consommateurs et fournisseurs. Des scénarios similaires peuvent s’appliquer aux secteurs de la santé, des plateformes pétrolières, de la logistique et d’autres. Les opérateurs télécoms sont-ils prêts à tirer parti de l’IA générative ? Nous savons qu’ils disposent de nombreuses données, mais ont-ils un modèle de séries chronologiques adapté à ces données ?
En ce qui concerne les modèles IA, IBM a une stratégie multimodèle pour s’adapter à chaque cas d’utilisation. Plus grand n’est pas forcément mieux, car les modèles spécialisés sont plus performants que les modèles à usage général et nécessitent moins d’infrastructure.
