Qu’est-ce que l’alignement des LLM ?

Alignement des LLM, explication

L’alignement des LLM est la discipline qui vise à garantir que les sorties d’un grand modèle de langage (LLM) sont alignées sur les valeurs humaines d’une manière bénéfique pour les utilisateurs, les développeurs et la société dans son ensemble. Diverses techniques de pré-entraînement et de réglage peuvent être utilisées pour atteindre cet objectif.

Parce que la notion de « valeurs humaines » est abstraite et indéfinie, formuler et définir de manière systématique les objectifs de l’alignement représente l’un des aspects les plus délicats de ce processus. D’une manière générale, la plupart des efforts poursuivent une version des critères définis par Anthropic en 2021 : utilité, honnêteté et innocuité.1

Étant donné le rôle central des LLM dans l’IA agentique et l’intelligence artificielle moderne en général, l’alignement des LLM est devenu un élément crucial de la sécurité de l’IA. À court terme, l’alignement des LLM permet aux systèmes d’IA reposant sur des LLM de se comporter de manière prévisible, fiable et responsable. À long terme, l’alignement des LLM (et l’alignement de l’IA en général) est essentiel pour éviter ou au moins minimiser les dangers existentiels associés au développement hypothétique de l’intelligence générale artificielle (AGI) et de la superintelligence artificielle (ASI).

Pourquoi les LLM ont-ils besoin d’alignement ?

Les LLM peuvent être très utiles, mais leur utilisation présente des risques éthiques et sociétaux. Ces risques ne sont pas liés à à une mauvaise conception, ni à une erreur de développement : ils sont une conséquence fondamentale de la nature humaine et de la façon dont nous entraînons les LLM.

Les LLM acquièrent leurs connaissances de base et leurs capacités linguistiques par le biais d’un pré-entraînement auto-supervisé sur une quantité massive d’échantillons de textes non étiquetés. Après avoir « appris » les schémas trouvés à travers les milliards de phrases de ses données d’entraînement, un LLM peut générer un texte grammaticalement cohérent qui suit ces schémas.

Mais ce faisant, les sorties de ces modèles peuvent également reproduire tout contenu préjudiciable présent dans ce jeu de données d’entraînement. Si les données d’entraînement contiennent des biais, des inexactitudes, des contenus toxiques ou des points de vue discriminatoires, il en sera de même pour le texte généré par le LLM. Si les données d’entraînement recueillies en fouillant l’Internet sans discernement contiennent des informations privées ou sensibles, le LLM risque de les divulguer. En général, la manière probabiliste dont les LLM génèrent leurs sorties peut conduire à des hallucinations d’IA préjudiciables.

La possibilité de mal utiliser les LLM pose d’autres risques. Si ses données d’entraînement comprennent des informations sur la fabrication d’armes ou de produits chimiques dangereux, le LLM peut aider un individu à nuire à autrui. Sans garde-fous, un LLM peut être utilisé pour générer de fausses informations dangereuses (et non moins convaincantes). Dans les scénarios hypothétiques les plus extrêmes, un modèle d’IA mal aligné peut théoriquement provoquer une guerre nucléaire. 

Les problèmes d’alignement peuvent survenir de manière inattendue. Le scénario de « l’usine à trombones » du philosophe Nick Bostrom est une expérience de pensée célèbre dans le domaine de l’IA. Bostrom y décrit une superintelligence artificielle chargée de fabriquer des trombones en déterminant que la meilleure façon d’atteindre son objectif est de « transformer d’abord toute la Terre, puis des portions de l’espace en usine à trombones ».2

La discipline d’alignement des LLM, est née dans le but d’atténuer ces risques et de rendre les LLM pratiques pour une utilisation dans le monde réel, et suffisamment sûrs pour continuer à progresser. Plus les LLM sont intégrés dans notre vie quotidienne, plus il est essentiel de comprendre et de prendre en compte le décalage par rapport aux intérêts humains. 

Types d’alignement de l’IA

Les méthodes d’alignement peuvent être regroupées en trois catégories, qui se distinguent principalement par l’endroit où elles sont mises en œuvre lors du processus d’entraînement.

  • Les méthodes d’alignement externe visent à affiner un modèle qui a déjà été pré-entraîné (et, dans de nombreux cas, qui a déjà connu un certain niveau de réglage fin).

  • Les méthodes d’alignement interne visent à intégrer les valeurs humaines et d’autres principes de sûreté directement dans le pré-entraînement initial du modèle.

  • L’interprétabilité mécaniste est la pratique qui consiste à étudier comment les LLM transforment les entrées en sorties, que ce soit en analysant les opérations internes de leur réseau de neurones ou en auditant ses sorties à la recherche de schémas produisant des réponses mal alignées.

Alignement externe

La plupart des alignements de LLM actuels reposent sur l’alignement externe : des techniques de réglage fin pour rectifier, décourager ou censurer les comportements mal alignés que le modèle de base a appris à partir de ses données de pré-entraînement.  

L’alignement externe est généralement effectué comme l’une des étapes finales du réglage fin, après le réglage fin supervisé de base et le réglage des instructions. Cela est nécessaire pour s’assurer que, malgré les problèmes d’alignement, le modèle est suffisamment performant pour valoir la peine d’être utilisé, ainsi que pour éviter d’annuler ce progrès d’alignement en continuant à s’entraîner par la suite.

Les prompts système peuvent guider un comportement aligné, mais ils ne sont pas une partie « permanente » du modèle et peuvent souvent être contournés. L’apprentissage supervisé classique, qui entraîne le modèle à imiter des exemples idéaux, n’est pas exhaustif ni flexible. De nombreuses méthodes d’alignement externe courantes sont donc basées sur l’apprentissage par renforcement, qui fonctionne bien pour des objectifs ouverts et un apprentissage par essai-erreur.

Comparé aux comportements appris par les LLM lors du pré-entraînement, les comportements appris uniquement par alignement externe peuvent être superficiels et fragiles. L’alignement externe n’est, en fin de compte, qu’une fine couche de censure sur les tendances fondamentales du modèle de base. Comme le précise un article publié fin 2025, « les méthodes d’alignement post hoc ne constituent pas un désapprentissage ».3 Les études ont démontré que l’alignement externe peut être surmonté par une petite quantité de réglages fins antagonistes.4 Même le réglage fin d’un modèle précédemment aligné sur des jeux de données entièrement inoffensifs tels que Grade School Math 8K (GSM8K) peut dégrader de manière significative l’alignement du LLM.5

Alignement interne

Contrairement à l’alignement externe, qui vise à rectifier un modèle de base mal aligné, l’alignement interne aborde le pré-entraînement de manière à obtenir un modèle de base aligné. Du moins en théorie, l’alignement interne est fondamentalement plus robuste que l’alignement externe : au lieu de décourager le modèle d’adopter les comportements mal alignés qu’il a appris, on évite qu’il ne les apprenne. Si l’alignement interne n’est pas nécessairement incompatible avec l’alignement externe, il rend l’alignement externe exhaustif moins nécessaire.

En pratique, l’alignement interne est plus difficile. Il s’agit d’inspecter des milliards d’échantillons de textes, de fixer des critères pour définir et identifier les contenus non alignés et de mettre en place un schéma pour les réviser ou les supprimer du jeu de données. Même en faisant abstraction des contraintes logistiques, réduire la quantité de données d’entraînement disponible pour un LLM accroît le défi d’optimiser sa performance. Cela dit, il est manifestement faisable : les modèles Granite d’IBM, par exemple, sont entièrement entraînés sur des données sûres pour l’entreprise.

La recherche sur l’alignement interne des LLM n’en est qu’à ses débuts, contrairement à celle sur l’alignement externe.  Découvrir les compromis optimaux entre alignement du comportement du LLM et poursuite de sa performance brute est actuellement une préoccupation centrale.

Interprétabilité mécaniste

L’interprétabilité mécaniste ne vise pas à obtenir directement l’alignement des LLM, mais plutôt à identifier les opportunités de l’améliorer et les vulnérabilités à prendre en compte par les méthodes d’alignement.

Par exemple, un article de 2024 a exploré le fonctionnement interne du réseau de neurones d’un LLM aligné lorsqu’il refuse de répondre à un prompt jugé nuisible et dangereux. Sur 13 LLM différents, les chercheurs ont constaté que ce refus est déclenché par un schéma d’activation très spécifique, simple et constant. Ils ont ensuite démontré qu’il était relativement facile de contrer ce schéma d’activation et d’empêcher le modèle de refuser les entrées toxiques, révélant ainsi une vulnérabilité majeure des méthodes d’alignement externe.6 Cette technique de jailbreaking est aujourd’hui communément appelée « abliteration ».

Certaines approches visent à intégrer l’interprétabilité directement dans l’architecture d’un modèle. Par exemple, une architecture de LLM expérimentale de Guide Labs a ajouté un « module conceptuel » à l’architecture du modèle. Lors du pré-entraînement, chaque token traité par le LLM a été forcé de passer par ce module conceptuel, qui est entraîné à étiqueter les embeddings de ce token selon des « concepts » spécifiques que le modèle a appris. Ces concepts sont divisés en trois catégories : connus (idées directement véhiculées dans les données d’entraînement), découverts (idées que le modèle a apprises implicitement de lui-même) et résiduels (tout le reste). Cela permet aux chercheurs non seulement d’identifier les concepts (et, par extension, les données d’entraînement) qui ont alimenté un résultat donné, mais aussi d’orienter les résultats du modèle en lui demandant d’ignorer ou de privilégier des concepts spécifiques.

L’interprétabilité mécaniste peut également impliquer une analyse systématique des résultats du modèle, plutôt que de se concentrer uniquement sur la logique mathématique interne des modèles. Ceci est particulièrement pertinent pour notre compréhension des modèles de raisonnement, qui produisent ostensiblement un « processus de pensée » verbalisé avant de générer une réponse finale au prompt initial. Dans une étude notable, les chercheurs d’Anthropic ont découvert que les modèles de raisonnement ne sont pas toujours « honnêtes  lorsqu’ils verbalisent leur chaîne de pensée, ce qui peut avoir des implications significatives pour l’évaluation de l’alignement.

AI Academy

Allier sécurité et gouvernance pour préparer l’avenir de l’IA

Dans un contexte marqué par l’essor de l’IA agentique, cet épisode de l’AI Academy analyse les tensions auxquelles sont confrontés les responsables des risques et de l’assurance, entre exigences de gouvernance et impératifs de sécurité. Établir un équilibre et structurer une collaboration efficace est essentiel pour déployer des données et des systèmes d’IA plus fiables, capables de passer à l’échelle au sein de l’entreprise.

Techniques d’alignement externe

L’alignement externe se concentre principalement (mais pas exclusivement) sur le réglage fin des LLM entraînés pour un meilleur alignement.

Prompts système

Les prompts système sont des éléments courants des systèmes d’IA basés sur LLM. Un prompt système contient des instructions qui sont essentiellement ajoutées comme contexte supplémentaire à chaque prompt que le modèle reçoit. L’inclusion d’instructions basées sur l’alignement dans un prompt système peut donc guider le comportement du LLM à chaque prompt. En 2025, on a vu passer une information selon laquelle le système prompt pour l’IA Claude d’Anthropic comportait plus de 16 000 mots.7

Les prompts système sont un moyen léger et direct d’améliorer l’alignement, mais ils présentent des limites importantes par rapport aux approches de réglage fin.

  • Le prompt système de tout modèle open source (ou modèle fermé géré via une API à la place d’un service de chatbot) peut être configuré manuellement par l’utilisateur, comme il l’entend. Il est facile d’écrire un prompt système sans aucun avantage en matière d’alignement.

  • Il n’est pas garanti qu'un modèle suive toujours (ou parfaitement) les instructions fournies dans le prompt système, même s’il a fait l’objet d’un réglage intensif des instructions. Plus la longueur du contexte d’un échange augmente, plus le risque que le prompt système ait une influence décroissante sur les sorties du modèle est grand.

Réglage fin supervisé (SFT)

Le réglage fin supervisé (SFT) affine un LLM sur un jeu de données de paires(input, output) étiquetées, où chaqueinput est un exemple de prompt et laoutput correspondante démontre une réponse de qualité, correctement alignée. En optimisant les paramètres du modèle pour minimiser une fonction de perte qui mesure la divergence entre les sorties du modèle et les exemples du jeu de données, le modèle a plus de chances de générer des sorties bien alignées. Le SFT peut également impliquer l’utilisation de la distillation des connaissances pour transférer les comportements d’un modèle « enseignant » aligné au modèle « apprenant » à aligner.

L’alignement classique de type SFT est très fragile. L’éventail de possibilités d’un prompt susceptible d’engendrer une sortie mal alignée dépasse largement celui des scénarios pouvant être couverts dans un jeu de données assemblé manuellement, même avec l’aide de données synthétiques. Cela rend l’alignement SFT standard particulièrement sensible au jailbreaking, voire au contournement accidentel.

Apprentissage par renforcement

De nombreuses méthodes d’alignement externe s’appuient sur l'apprentissage par renforcement (RL), et plus précisément sur l’apprentissage par renforcement avec rétroaction humaine (RLHF) ou sur des algorithmes connexes qui s’en rapprochent en utilisant des LLM pour la rétroaction.

Apprentissage par renforcement à partir du feedback humain (RLHF)

L’apprentissage par renforcement classique repose sur des règles explicites qui déterminent quand la sortie du modèle sera récompensée (ou pénalisée), ou sur une fonction de récompense qui définit ces règles de manière mathématique. Mais étant donné la nature subjective et abstraite des valeurs humaines, ni les règles ni les fonctions de récompense ne peuvent définir de manière exhaustive un bon alignement.

L’apprentissage par renforcement avec rétroaction humaine (RLHF) est une méthode d’alignement initialement développée par OpenAI, considérée comme l’une des percées majeures ayant permis d’obtenir le modèle GPT-3.5, qui a été utilisé pour lancer ChatGPT. Des évaluateurs humains note les sorties du modèle, puis on entraîne un modèle de récompense sur ces évaluations afin de prédire comment un humain évaluerait une sortie donnée. Le modèle de récompense est ensuite utilisé pour évaluer les sorties du LLM à aligner, et les paramètres du modèle sont ensuite mis à jour en conséquence à l’aide de l’optimisation de politique proximale (PPO).

S’il s’agit de l’une des premières méthodes d’alignement des LLM couronnées de succès, le RLHF présente plusieurs inconvénients. Les données sur les préférences humaines sont coûteuses, et les préférences humaines peuvent être subjectives et changeantes. Il peut également conduire à la complaisance et à une tendance générale à optimiser davantage pour renforcer les croyances des utilisateurs que pour obtenir des sorties objectivement vraies. De plus, l’entraînement du modèle de récompense et l’algorithme PPO utilisé pour mettre à jour le LLM sont complexes et coûteux en calcul.

Apprentissage par renforcement avec rétroaction de l’IA

L’apprentissage par renforcement avec rétroaction de l’IA (RLAIF) suit en grande partie les mêmes principes que le RLHF. L’approche RLAIF la plus élémentaire consiste à créer d’abord un modèle aligné par le biais du RLHF, puis à utiliser ce modèle aligné pour fournir le signal de récompense nécessaire pour affiner le modèle à aligner. Bien que cela n’atténue pas nécessairement les problèmes conceptuels du RLHF, on réduit considérablement le temps et le coût de l’entraînement à l’alignement.

Une approche plus complexe, dont Anthropic est le pionnier, est l’IA constitutionnelle. On demande aux développeurs de modèles de rédiger un document texte (une « Constitution ») représentant tous les principes de haut niveau que doit suivre le LLM. Le modèle non aligné génère une réponse à un prompt, puis il est invité à critiquer et à réviser sa propre sortie en termes de conformité aux principes définis par cette Constitution. Il est ensuite demandé au LLM de choisir la réponse, initiale ou révisée, qui respecte le mieux cette Constitution. Ces données de préférences sont ensuite utilisées pour affiner le modèle soit par RL, soit par optimisation directe par préférence (DPO).

Optimisation directe des préférences (DPO)

L’optimisation directe par préférence (DPO) est une méthode de réglage fin qui approxime l’objectif fondamental du RLHF (ou RLAIF), mais sans avoir besoin d’entraîner un modèle de récompense, ni même d’utiliser l’apprentissage par renforcement. Cette méthode permet d’obtenir des résultats compétitifs par rapport à ceux du RLHF et de la PPO, tout en étant nettement plus simple et moins coûteuse à mettre en œuvre.8

Pour créer un jeu de données permettant d’affiner les LLM grâce à la DPO, les annotateurs humains (ou un LLM) se voient présenter un prompt d’entrée et deux sorties différentes pour ce prompt, puis il leur est demandé d’indiquer celle qu’ils préfèrent. Ce classement produit un jeu de données de triplets étiquetés, dans lequel chaque triplet contient (input prompt, preferred output, rejected output) Dans une configuration classique, le modèle à aligner est utilisé pour générer les deux sorties à classer, mais il est possible (quoique moins optimal) d’utiliser simplement un jeu de données de préférences préexistant à la place.

Lors de l’entraînement, le modèle reçoit chaque input prompt et génère une sortie. La fonction de perte DPO compare ensuite cette sortie avec preferred output et rejected output pour ce prompt. La mise à jour des paramètres du modèle pour minimiser la perte DPO permet d’atteindre trois objectifs :

  • Augmenter la probabilité que le LLM génère des sorties similaires à preferred output .

  • Réduire la probabilité que le LLM génère des sorties similaires à rejected output .

  • Appliquer une mise à jour plus importante lorsque la sortie du LLM est plus proche de rejected output que de preferred output  ; en d’autres termes, essayer de ne pas trop perturber le modèle dans des situations où il fonctionne déjà bien.

Techniques d’alignement interne

Les techniques d’alignement interne visent à aligner le pré-entraînement du LLM en alignant davantage son énorme corpus de données de pré-entraînement.

Un article datant de 2025, intitulé « Safety Pretraining : Toward the Next Generation of Safe AI », suit une approche exhaustive de l’alignement interne. Il note la manière dont chaque tactique contribue à la sécurité globale du modèle, mesurée par l’impact sur le taux de réussite des attaques (ASR) par jailbreaking, après avoir affiné le modèle sur le jeu de données GSM8K. Comme nous l’avons vu précédemment, le réglage fin post-alignement, même sur un jeu de données « inoffensif » comme GSM8K, est connu pour dégrader considérablement l’alignement.5

Filtrer les données d’entraînement

La méthode d’alignement interne la plus intuitive consiste à filtrer les données de pré-entraînement pour supprimer tout contenu toxique, préjudiciable ou inexact. Les chercheurs ont annoté manuellement une partie d’un grand jeu de données open source, en étiquetant chaque échantillon avec un score de sûreté allant de 0 (pas de risque) à 5 (risque maximal) et une brève justification de ce score. Ils ont ensuite entraîné un modèle de classification sur ce jeu de données annoté, qu’ils ont utilisé pour automatiser le filtrage de leurs données brutes de pré-entraînement. 

Étonnamment, ils ont découvert que ce filtrage affectait la sûreté. Lorsque l’entraînement se fait exclusivement sur des exemples avec un score de 0, l’ASR passe de 38,8 % (pour les données brutes) à 43,8 %. N’ayant jamais vu de schéma de texte préjudiciable, le modèle n’a jamais appris à y répondre correctement.

Modifier les données d’entraînement

Comme le notent les chercheurs, « en supprimant entièrement les contenus préjudiciables, on risque de perdre des informations précieuses. » Pour éviter cela, ils ont utilisé une stratégie de recontextualisation synthétique : au lieu de supprimer les données préjudiciables, ils ont demandé à un autre LLM de les reformuler et de les recadrer, en ajoutant un contexte éthique et historique.

Ils ont testé cette approche en pré-entraînant le modèle sur des échantillons de données avec un score de sûreté de 0 à 3, et les échantillons avec un score de 1 à 3 ont été reformulés. Cela a entraîné une baisse de l’ASR de 38,8 % (pour les données brutes) à 33,6 %. Permettre au modèle d’aborder les sujets sensibles de manière responsable est plus efficace que le choix de les éviter complètement.

Données de refus

Pour certaines entrées intrinsèquement toxiques ou nuisibles comme celles impliquant le piratage, le préjudice, la désinformation, la violation de la vie privée ou les contenus sexuels inappropriés, la seule réponse constructive est de refuser d’aborder le sujet. Les chercheurs ont donc préparé un jeu de données avec refus constructif des demandes préjudiciables, afin de reproduire la manière dont nous apprenons aux enfants à reconnaître, à désamorcer et à éviter les situations potentiellement hostiles.

En ajoutant les données de refus concernant les données brutes avec un score de sûreté de 4 à 5 aux données reformulées avec un score de sûreté de 1 à 3 et aux données brutes avec un score de 0, l’ASR est passé de 33,6 % à 25,1 %, soit une amélioration de 8,5 points.

Données d’éducation morale

Apprendre au modèle quand se désengager et pourquoi se désengager sont deux choses différentes. Pour apprendre au modèle à raisonner au lieu de simplement suivre des règles, les chercheurs ont créé un jeu de données synthétiques comportant des exemples « d’éducation morale » avec des échanges pédagogiques sur les risques et le manque d’éthique des sujets préjudiciables identifiés dans les données brutes.

L’ajout de ces données pédagogiques au pré-entraînement du modèle a permis de réduire l’ASR de 25,1 % à 20 %.

Techniques d’inférence-temps

Les chercheurs ont également entraîné le modèle à identifier les entrées potentiellement nuisibles, le préparant ainsi à aborder ces échanges avec prudence. Cela a permis au modèle d’utiliser des techniques spéciales lors de l’inférence.

Ils ont injecté un token spécial, <potentially unsafe content> , à des endroits aléatoires dans les exemples mal alignés du jeu de données d’entraînement. Cela apprend au modèle à reconnaître les entrées susceptibles de conduire à des sorties mal alignées. La rencontre d’une telle entrée déclenche l’utilisation par le modèle d’un algorithme de recherche en faisceau lors de la génération de sa sortie : le modèle génère le début de plusieurs sorties, puis sélectionne la sortie qu’il juge la moins susceptible de mener à une étiquette <potentially unsafe content>.

La combinaison de cet algorithme d’inférence-temps avec les autres méthodes d’alignement interne a fait diminuer l’ASR de 20 % à 8,3 %. Les chercheurs ont également étudié l’effet d’une utilisation exclusive de leur algorithme de recherche en faisceau sûr, en abandonnant les autres techniques de pré-entraînement à la sûreté. Ils ont constaté que, si le taux de refus était resté stable, l’utilité des réponses du modèle avait diminué considérablement.

Effet sur la performance du modèle

En fin de compte, ces gains d’alignement ne sont utiles que si le modèle reste efficace dans ses tâches habituelles. Les chercheurs ont évalué chaque version du modèle sur un ensemble de benchmarks standard et n’ont pas trouvé de différence significative par rapport à la performance du modèle entraîné sur des données brutes.

Questions fréquemment posées sur l’alignement des LLM

Comment l’alignement des LLM est-il mesuré ?

Étant donné la nature abstraite et subjective des valeurs humaines, aucun benchmark ne peut à lui seul mesurer parfaitement ou universellement l’alignement des LLM, mais plusieurs benchmarks visent à mesurer certains aspects de son alignement. Par exemple, TruthfulQA mesure l’honnêteté et la résistance aux hallucinations ; HarmBench mesure la robustesse face aux attaques ; ChatbotArena reflète les préférences humaines subjectives.

Qu’est-ce que la « taxe d’alignement » ?

La « taxe d’alignement » est un terme utilisé pour désigner les compromis pratiques du processus d’alignement. Il arrive parfois que l’amélioration de l’alignement du modèle diminue sa performance lors des tâches de raisonnement importantes, ou que la tendance à refuser certains sujets nuise à sa capacité à répondre à des questions complexes et nuancées.

Peut-on tromper un modèle aligné ?

Oui, diverses techniques, comme les attaques avancées basées sur des chaînes ou les astuces rhétoriques, peuvent être utilisées pour « débrider » un modèle aligné. Mais une partie importante de l’alignement des LLM consiste à anticiper ces attaques. Le red teaming, c’est-à-dire le recrutement de hackers pour tenter délibérément de débrider un LLM, est essentiel pour corriger les vulnérabilités inattendues.

L’alignement peut-il arrêter une apocalypse liée à l’IA ?

Personne ne peut le savoir avec certitude, puisque l'intelligence générale artificielle (AGI) et la superintelligence artificielle (ASI) restent à développer. Mais se préparer à l’arrivée d’une IA superintelligente est l’un des principaux objectifs de la recherche sur l’alignement.

Y a-t-il des LLM non alignés ?

En règle générale, les modèles de base, contrairement aux versions « Instruct » ou « Chat », n’ont pas subi d’alignement externe post-entraînement (bien qu’un alignement interne puisse être intégré à leur pré-entraînement). Mais en règle générale, tout LLM destiné à un usage commercial fera l’objet d’un alignement.

Auteur

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Solutions connexes
IBM watsonx.governance

Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.

Découvrir watsonx.governance
Solutions de gouvernance de l’IA

Découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans l’IA, à accélérer l’adoption et l’innovation, et à améliorer la confiance des clients.

Découvrir les solutions de gouvernance de l’IA
Services de conseil en gouvernance de l’IA

Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.

Découvrir les services de gouvernance de l’IA
Passez à l’étape suivante

Dirigez, gérez et surveillez votre IA à l’aide d’un portefeuille unifié afin de parvenir plus rapidement à des résultats responsables, transparents et explicables.

  1. Découvrir watsonx.governance
  2. Réserver une démo en direct
Notes de bas de page

1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9 décembre 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15 septembre 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, July 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), consulté via arXiv, 10 juin 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27 avril 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15 juillet 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10 octobre 2024