Qu’est-ce qu’un grand modèle de langage open source ?

Les grands modèles de langage (LLM) sont des modèles de fondation qui utilisent l’intelligence artificielle (IA), l’apprentissage profond et d’immenses jeux de données, y compris des sites Web, des articles et des livres, pour générer du texte, traduire d’une langue à l’autre et rédiger de nombreux types de contenu. Il existe deux types de modèles d'IA générative : les grands modèles linguistiques propriétaires et les grands modèles linguistiques open source.

Dans cette vidéo, Martin Keen explique brièvement les grands modèles de langage, comment ils sont liés aux modèles de fondation, comment ils opèrent et comment ils peuvent être utilisés pour résoudre divers problèmes métier.

Les LLM propriétaires appartiennent à une entreprise et ne peuvent être utilisés que par les clients qui achètent une licence. La licence peut restreindre l’utilisation du LLM. D'autre part, les LLM open source sont gratuits et accessibles à tous, pouvant être utilisés à toutes fins, modifiés et distribués.

Le terme « open source » fait référence au code du LLM et à l’architecture sous-jacente accessibles au public, ce qui signifie que les développeurs et les chercheurs sont libres d’utiliser, d’améliorer ou de modifier le modèle.

Quels sont les avantages des LLM open source ?

Auparavant, il semblait que plus un LLM était grand, mieux c’était, mais les entreprises se rendent compte aujourd’hui que le coût de la recherche et de l’innovation peut être prohibitif. En réponse, un écosystème de modèles open source a commencé à se montrer prometteur et à remettre en question le modèle de gestion des LLM.

Transparence et flexibilité

Les entreprises qui ne disposent pas en interne de compétences en machine learning peuvent utiliser des LLM open source, qui offrent transparence et flexibilité, au sein de leur propre infrastructure, que ce soit dans le cloud ou sur site. Elles ont ainsi un contrôle total sur leurs données et signifie que les informations sensibles restent au sein de leur réseau. Tout cela permet de réduire le risque de fuite de données ou d’accès non autorisé.

Un LLM open source offre de la transparence sur son fonctionnement, son architecture, ses données et ses méthodologies d’entraînement, et sur son utilisation. La possibilité d'inspecter le code et d'avoir une visibilité sur les algorithmes permet à une entreprise de gagner en confiance, facilite les audits et contribue à garantir le respect des normes éthiques et légales. De plus, l'optimisation efficace d'un LLM open source peut réduire la latence et augmenter les performances.

Économies de coûts

Ils sont généralement beaucoup moins coûteux à long terme que les LLM propriétaires, car ils ne nécessitent pas de frais de licence. Cependant, le coût d'exploitation d'un LLM inclut les coûts liés à l'infrastructure cloud ou sur site, et ceux-ci impliquent généralement un coût initial de déploiement important.

Fonctionnalités ajoutées et contributions de la communauté

Les LLM open source pré-entraînés permettent un ajustement précis. Les entreprises peuvent ajouter des fonctionnalités au LLM qui apportent un avantage à leur utilisation spécifique, et les LLM peuvent également être entraînés sur des jeux de données spécifiques. Apporter ces modifications ou spécifications à un LLM propriétaire nécessite de collaborer avec un fournisseur et implique des coûts en termes de temps et d'argent.

Alors que les LLM propriétaires impliquent qu'une entreprise doit s'appuyer sur un seul fournisseur, un LLM open source permet à l'entreprise de tirer parti des contributions de la communauté, de plusieurs fournisseurs de services et éventuellement d'équipes internes pour gérer les mises à jour, le développement, la maintenance et l'assistance. L’open source permet aux entreprises d’expérimenter et d’utiliser les contributions de personnes ayant des perspectives différentes. Cela peut aboutir à des solutions permettant aux entreprises de rester à la pointe de la technologie. Cela permet également aux entreprises utilisant des LLM open source de mieux contrôler leur technologie et leurs décisions concernant la manière dont elles l’utilisent.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Quels types de projets les modèles LLM open source peuvent-ils favoriser ?

Les entreprises peuvent utiliser des modèles LLM open source pour créer pratiquement n'importe quel projet utile à leurs employés ou, lorsque la licence open source le permet, qui peut être proposé sous forme de produits commerciaux. En voici quelques exemples :

Génération de texte

Les modèles LLM open source vous permettent de créer une application avec des capacités de génération de langage, telles que la rédaction d’e-mails, d’articles de blog ou de récits créatifs. Un LLM comme le Falcon-40B, proposé sous licence Apache 2.0, peut répondre à un prompt en proposant des suggestions de texte de haute qualité que vous pouvez ensuite affiner et peaufiner.

Génération de code

Les LLM open source entraînés sur les langages de code et de programmation existants peuvent aider les développeurs à créer des applications et à trouver les erreurs et les défauts liés à la sécurité.

Tutoriel virtuel

Les LLM open source vous permettent de créer des applications qui offrent des expériences d’apprentissage personnalisées, qui peuvent être personnalisées et adaptées à des styles d’apprentissage particuliers.

Synthèse de contenu

Un outil LLM open source qui résume des articles longs, des actualités, des rapports de recherche et plus encore peut faciliter l’extraction de données clés.

Chatbots pilotés par l’IA

Ces systèmes sont capables de comprendre et de répondre à des questions, de formuler des suggestions et d'engager une conversation en langage naturel.

La traduction

Les LLM open source qui s’entraînent sur des jeux de données multilingues peuvent fournir des traductions précises et fluides dans de nombreux langages.

Analyse des sentiments

Les LLM peuvent analyser le texte pour déterminer le ton relatives aux émotions ou aux sentiments, ce qui est précieux pour gérer la réputation de la marque et analyser les commentaires des clients.

Filtrage et modération du contenu

Les LLM peuvent être utiles pour identifier et filtrer les contenus en ligne inappropriés ou nuisibles, ce qui contribue grandement à maintenir un environnement en ligne plus sûr.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Accéder à l’épisode

Quels types d’entreprises utilisent des LLM open source ?

Un grand nombre d’entreprises utilisent des LLM open source. Par exemple, IBM et la NASA ont développé un LLM open source entraîné sur des données géospatiales pour aider les scientifiques et leurs organisations à lutter contre le changement climatique.

Les éditeurs et les journalistes utilisent des LLM open source en interne pour analyser, identifier et résumer les informations sans partager les données propriétaires en dehors de la salle de rédaction.

Certaines entreprises de santé utilisent des LLM open source dans leurs logiciels de santé, notamment les outils de diagnostic, l’optimisation des traitements et les outils gérant les informations sur les patients, la santé publique et plus.

Le LLM open source FinGPT a été développé spécifiquement pour le secteur financier.

Certains des meilleurs LLM open source et organisés

L'Open LLM Leaderboard a pour objectif de suivre, de classer et d'évaluer les LLM et les chatbots open source selon différents critères de référence.

Un LLM open source performant avec une licence permettant des accords d'utilisation commerciale est LLaMa par Meta IA, qui englobe des modèles de texte génératif pré-entraînés et affinés avec 7 à 70 milliards de paramètres et est disponible dans le studio watsonx.ai. Il est également disponible via l'écosystème Hugging Face et la bibliothèque de transformateurs.
Vicuna et Alpaca ont été créées à partir du modèle LLaMa et, comme Bard de Google et ChatGPT d'OpenAI, sont optimisés pour suivre des instructions. Vicuna, qui surpasse Alpaca, offre des performances équivalentes à celles de GPT-4.
Bloom (lien externe à ibm.com) de BigScience est un modèle de langage multilingue créé par plus de 1 000 chercheurs en IA. Il s’agit du premier LLM multilingue entraîné en toute transparence.
Le LLM Falcon (lien externe à ibm.com) de la Technology Innovation Institute (TII) peut être utilisé avec les chatbots pour générer des textes créatifs, résoudre des problèmes complexes et réduire et automatiser les tâches répétitives. Les modèles Falcon 6B et 40B sont disponibles sous forme de modèles bruts pouvant être affinés ou sous forme de modèles déjà optimisés pouvant être utilisés tels quels. Falcon n’utilise qu’environ 75 % du budget de calcul d’entraînement de GPT-3 et le surpasse de manière significative.
MPT-7B et MPT-30B (lien externe à ibm.com) sont des LLM open source sous licence d'utilisation commerciale de MosaicML (récemment acquis par Databricks). MPT-7B correspond aux performances de LlaMA. MPT-30B surpasse GPT-3. Les deux sont entraînés sur des tokens 1T.
FLAN-T5, lancé par Google IA, peut gérer plus de 1 800 tâches diverses.
StarCoder (lien externe à ibm.com) de Hugging Face est un assistant de codage LLM open source entraîné sur un code permissif de GitHub.
RedPajama-INCITE (lien externe à ibm.com), sous licence Apache-2, est un modèle linguistique pré-entraîné de 6,9 milliards de paramètres développé par Together et des chercheurs de diverses institutions, notamment l'Université de Montréal et le Stanford Center for Research on Foundation Models.
Cerebras-GPT (lien externe à ibm.com) de Cerebras est une famille de sept modèles GPT qui varient de 111 millions à 13 milliards de paramètres.
StableLM est un LLM open source de Stability AI, qui a créé le générateur d'images IA Stable Diffusion. Il a été formé sur un jeu de données contenant 1 500 milliards de tokens appelé « The Pile » et a été affiné avec une combinaison de jeux de données open source d’Alpaga, de GPT4All (qui propose une gamme de modèles basés sur GPT-J, MPT et LlaMa), Dolly, ShareGPT et HH.

Risques associés aux grands modèles de langage

Bien que les résultats du LLM semblent fluides et fiables, il peut y avoir des risques, notamment celui de fournir des informations basées sur des « hallucinations », ainsi que des problèmes liés aux préjugés, au consentement ou à la sécurité. La sensibilisation à ces risques constitue une réponse à ces questions relatives aux données et à l'IA.

Les hallucinations, ou inexactitudes, peuvent résulter d'un entraînement du LLM à partir de données incomplètes, contradictoires ou inexactes, ou de la prédiction du mot exact suivant en fonction du contexte sans en comprendre le sens.
Un biais survient lorsque la source des données n'est pas diversifiée ou représentative.
Le consentement fait référence au fait que les données d'entraînement ont été collectées de manière responsable, c'est-à-dire qu'elles respectent les processus de gouvernance de l'IA qui les rendent conformes aux lois et réglementations et offrent aux personnes la possibilité d'intégrer leur commentaire.
Les problèmes de sécurité peuvent inclure la fuite d’informations personnelles identifiables, l’utilisation du LLM par des cybercriminels pour des tâches malveillantes telles que l’hameçonnage et le spam, et la modification de la programmation originale par des hackers.

Grands modèles de langage open source et IBM

Les modèles IA, en particulier les LLM, seront l’une des technologies les plus révolutionnaires de la prochaine décennie. Étant donné que les nouvelles réglementations relatives à l'IA imposent des directives concernant son utilisation, il est essentiel non seulement de gérer et de réglementer les modèles d'IA, mais également, et tout aussi important, de réglementer les données intégrées à l'IA.

Afin d'aider les organisations à répondre à ces besoins et à multiplier l'impact de l'IA, IBM propose watsonx, notre plateforme d'IA et de données prête à l'emploi pour les entreprises. Ainsi, watsonx offre aux organisations la possibilité de :

Former, régler et déployer l’IA dans l’ensemble de l’entreprise avec watsonx.ai
Mettez les charges de travail d’IA à l’échelle, pour toutes vos données, partout, avec watsonx.data
favoriser des flux de données et d’IA responsables, transparents et explicables avec watsonx.governance.

La fonctionnalité de recherche conversationnelle d'IBM Watsonx Assistant s'appuie sur ses intégrations préconfigurées, son cadre d'intégrations low-code (lien externe à ibm.com) et son expérience de création sans code. Les développeurs et les utilisateurs professionnels peuvent automatiser les réponses aux questions grâce à la recherche conversationnelle, ce qui leur permet de se consacrer à la création de flux transactionnels à plus forte valeur ajoutée et d'expériences en ligne intégrées avec leurs assistants virtuels.

Au-delà de la recherche conversationnelle, watsonx Assistant poursuit sa collaboration avec IBM Research et watsonx afin de développer des modèles d'apprentissage automatique watsonx personnalisés, spécialisés dans la classification, le raisonnement, l'extraction d'informations, la synthèse et d'autres cas d'utilisation conversationnelle. Watsonx Assistant a déjà réalisé des avancées majeures en matière de capacité à comprendre les clients en utilisant de grands modèles linguistiques en toute simplicité.

Auteur

IBM Data and AI Team

Choisir le bon modèle de fondation

Découvrez comment choisir la bonne approche pour préparer des ensembles de données et utiliser des modèles de fondation.

Grands modèles de langage open source : avantages, risques et types