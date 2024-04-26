Les entreprises qui opèrent dans des domaines spécialisés, comme la téléphonie, les soins de santé ou le pétrole et le gaz, se concentrent sur un objectif précis. Bien qu’elles puissent tirer avantage de scénarios et de cas d’utilisation typiques de l’IA générative, elles seraient mieux servis avec des modèles plus petits.

En ce qui concerne les opérateurs téléphoniques, par exemple, les cas d’utilisation courants sont notamment les assistants IA dans les centres d’appel, les offres personnalisées dans la prestation de services et les chatbots alimentés par l’IA pour améliorer l’expérience client. Les cas d’utilisation qui aident les opérateurs téléphoniques à améliorer les performances de leur réseau, à augmenter l’efficacité spectrale des réseaux 5G ou à repérer des goulets d’étranglement spécifiques dans leur réseau bénéficient davantage des données propres à l’entreprise (plutôt que d’un LLM public).

Cela nous amène à l’idée que plus c’est petit, mieux c’est. Il existe aujourd’hui de petits modèles de langage (SLM) dont la taille est inférieure à celle des LLM. Ces SLM sont entraînés sur des dizaines de milliards de paramètres, tandis que les LLM sont entraînés sur des centaines de milliards de paramètres. Plus important encore, les SLM sont entraînés sur des données relatives à un domaine spécifique. Ils ne disposent peut-être pas d’informations contextuelles générales, mais ils sont très performants dans le domaine choisi.

En raison de leur taille réduite, ces modèles peuvent être hébergés dans le centre de données de l’entreprise plutôt que dans le cloud. Les SLM pourraient même fonctionner sur une seule puce GPU à l’échelle, ce qui permettrait d’économiser des milliers de dollars en coûts informatiques annuels. Cependant, la délimitation entre ce qui ne peut être exécuté que dans un cloud et dans un centre de données d’entreprise devient moins claire avec l’évolution de la conception des puces.

Que ce soit pour des raisons de coût, de confidentialité ou de souveraineté des données, les entreprises voudront peut-être gérer ces SLM dans leurs centres de données. La plupart des entreprises n’aiment pas envoyer leurs données vers le cloud. L’autre raison majeure concerne les performances. L’IA générative en périphérie effectue les calculs et les inférences au plus près des données, ce qui les rend plus rapides et plus sûrs que s’ils étaient effectués par un fournisseur de cloud.

Il convient de noter que les SLM nécessitent moins de puissance de calcul et sont idéaux pour un déploiement dans des environnements à ressources limitées et même sur des appareils mobiles.

Un exemple sur site pourrait être un emplacement IBM Cloud Satellite, qui dispose d’une connexion haut débit sécurisée vers IBM Cloud hébergeant les LLM. Les opérateurs télécoms pourraient héberger ces SLM dans leurs stations de base et proposer cette option à leurs clients. Il s’agit simplement d’optimiser l’utilisation des GPU, car la distance que les données doivent parcourir est réduite, ce qui améliore la bande passante.