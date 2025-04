Les humains ont tendance à attribuer des caractéristiques humaines aux systèmes d'IA. Nous associons des notions humaines à leurs actions, comme « apprendre » et « penser ». Par exemple, on pourrait dire : « ChatGPT ne comprend pas ma requête » lorsque l'algorithme de traitement de NLP (traitement automatique du langage naturel) du chatbot échoue à fournir le résultat souhaité.

Des notions comme « compréhension » nous permettent de mieux appréhender le fonctionnement des systèmes d'IA complexes. Cependant, ces idées peuvent aussi nous induire en erreur sur les véritables potentialités de l'IA. En attribuant des concepts humains aux systèmes d'IA, il est naturel que nous supposions qu'ils possèdent aussi des valeurs et des motivations humaines.

Mais cette déduction est fondamentalement erronée. L'intelligence artificielle n'est pas humaine et ne peut donc pas, par nature, se soucier de la raison, de la loyauté, de la sécurité, des enjeux environnementaux ou du bien commun. L'objectif fondamental d'un « esprit » artificiel est de mener à bien la mission pour laquelle il a été programmé.

Il incombe donc aux développeurs d'IA d'intégrer les valeurs et objectifs humains. Sinon, dans leur volonté de mener à bien la tâche, les systèmes d'IA peuvent se désaligner des objectifs des programmeurs et engendrer des dégâts, parfois catastrophiques. Cette réflexion est importante, car l'automatisation devient de plus en plus présente dans des secteurs stratégiques comme la santé, les ressources humaines, la finance, les opérations militaires et les transports.

Par exemple, les voitures autonomes pourraient être conçues pour accomplir leur mission principale, à savoir se rendre du point A au point B aussi rapidement que possible. Si ces véhicules autonomes ignorent les règles de sécurité pour arriver à leurs fins, ils pourraient causer de graves accidents, en blessant ou tuant des piétons et d'autres conducteurs.

Simon Zhuang et Dylan Hadfield-Menell, chercheurs à l'Université de Californie à Berkeley, établissent une analogie entre l'alignement de l'IA et le mythe grec du roi Midas. En résumé, le roi Midas se voit accorder un vœu et demande que tout ce qu'il touche se transforme en or. Il finit par mourir parce que la nourriture qu'il touche se transforme aussi en or, et devient alors immangeable.

Le roi Midas a connu une fin tragique, car son vœu (de l'or à l'infini) ne correspondait pas à ce qu'il voulait réellement (la richesse et le pouvoir). Les chercheurs expliquent que les concepteurs d'IA se trouvent souvent dans une situation comparable, et que « l'écart entre ce que nous pouvons programmer et ce que nous voulons a déjà entraîné des dommages importants. »2