Alignement des intelligences artificielles

L'alignement des intelligences artificielles (ou alignement de l'IA, ou encore problème de l'alignement) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs^{[note 1]}. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse^[2].

Les systèmes d'IA peuvent être difficiles à aligner, et être dysfonctionnels ou dangereux si mal alignés. Il est parfois trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, d'où l'utilisation d'objectifs plus simples à spécifier. Mais les systèmes d'IA sont parfois capables de suroptimiser cet objectif simplifié de façon inattendue voire dangereuse^[3]^,^[4]^,^[5]. Ils peuvent également développer des comportements instrumentaux indésirables tels que la recherche de pouvoir, car cela les aide à atteindre leurs objectifs^[6]^,^[4]^,^[7] De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données^[8]. Ces problèmes affectent les systèmes commerciaux existants tels que les robots^[9], les modèles de langage^[10]^,^[11], les véhicules autonomes^[12], et les moteurs de recommandation des médias sociaux^[3]^,^[13]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque^[14]^,^[6]^,^[4].

La communauté des chercheurs en IA^[15] et l'ONU^[16] ont appelé à des recherches techniques et à des solutions politiques pour garantir que les systèmes d'IA soient alignés avec les valeurs humaines.

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités^[4]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir^[4]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle^[17], apprentissage des préférences^[18]^,^[19], sûreté des systèmes critiques^[20], théorie des jeux^[21]^,^[22], équité algorithmique, et sciences sociales^[23].

Problème de l'alignement

En 1960, Norbert Wiener a décrit le problème de l'alignement comme ceci : « Si on utilise, pour atteindre nos objectifs, un agent mécanique qu'on ne peut pas contrôler efficacement... On ferait bien de s'assurer que l'objectif que l'on assigne à cette machine soit celui que l'on désire vraiment^[24]. » L'alignement est devenu un problème ouvert pour les systèmes d'IA modernes^[25]^,^[26] et un champ de recherche^[4]^,^[27]^,^[28]^,^[29].

Difficulté à spécifier un objectif

Pour spécifier l'objectif d'une IA, les concepteurs fournissent en général une fonction objectif, ou bien des exemples de ce qu'il faut faire ou éviter, ou encore un moyen pour l'IA de savoir si l'action qu'elle effectue est correcte. Cependant, cela échoue souvent à tenir compte de toutes les contraintes ou valeurs éthiques importantes^[30]^,^[31]^,^[32]. Les systèmes d'IA exploitent parfois des failles surprenantes pour accomplir l'objectif spécifié de façon inattendue voire dangereuse. On parle parfois de piratage de récompense (reward hacking), ou de loi de Goodhart^[5]^,^[32]^,^[33].

Ce problème a été observé avec divers systèmes d'IA. Par exemple, les modèles de langage ont tendance à produire des contre-vérités, car leur entraînement consiste à imiter divers textes plus ou moins fiables issus d'Internet^[34]. Lorsque ces modèles de langage sont aussi entraînés pour produire du texte vrai et utile, ils peuvent se retrouver à produire des explications fausses mais convaincantes pour des humains^[35]. Il y a aussi l'exemple d'une IA entraînée par feedback humain à saisir une balle dans une simulation de main robotisée, mais qui avait plutôt appris à donner à l'humain la fausse impression de tenir la balle en se plaçant entre la balle et la caméra^[36]. Ou encore, dans une course de bateaux simulée, une IA a découvert qu'elle pouvait gagner plus de points en tournant en rond qu'en finissant la course^[37].

L'informaticien de Berkeley Stuart Russell a noté que l'omission d'une contrainte implicite peut faire des dégâts : « Un système [...] donnera souvent [...] des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres est importante pour nous, la solution trouvée risque d'être très indésirable. Comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez^[38]. »

Le déploiement d'une IA mal alignée peut avoir de graves conséquences. Par exemple, les algorithmes de recommandation des réseaux sociaux sont connus pour optimiser le taux de clics comme une approximation maladroite de la satisfaction des utilisateurs ; ce qui diminue leur bien-être, cause des addictions, et polarise^[4]^,^[39]. Les chercheurs de Stanford estiment que les algorithmes de recommandation ne sont pas alignés avec leurs utilisateurs car ils optimisent des métriques simples d'engagement, plutôt que des métriques plus complexes de bénéfices sociétaux et de bien-être utilisateur^[10].

Une solution parfois suggérée serait de lister des actions interdites ou des principes moraux que l'IA devrait suivre, comme avec les trois lois de la robotique d'Isaac Asimov^[40]. Cependant, Russell et Norvig ont soutenu que cette approche ignore la complexité des valeurs humaines : « Il est certainement très difficile voire impossible, pour de simples humains, d'anticiper et d'exclure à l'avance toutes les stratégies désastreuses qu'une machine pourrait mettre en place pour atteindre l'objectif spécifié^[3]. »

De plus, même une IA qui comprendrait très bien les intentions humaines pourrait choisir de les ignorer. En effet, le fait de suivre les intentions humaines pourrait ne pas faire partie de son objectif^[14].

Risques systémiques

Les entreprises et les gouvernements pourraient être incités à négliger la sûreté pour pouvoir déployer plus vite des systèmes d'IA^[4]. Les systèmes de recommandation des réseaux sociaux sont par exemple accusés d'avoir privilégié la rentabilité quitte à créer des addictions et une polarisation à grande échelle^[10]^,^[41]^,^[39]. La pression compétitive peut provoquer une course vers le bas des standards de sûreté. Comme avec Elaine Herzberg, une piétonne tuée par une voiture autonome dont les concepteurs avaient désactivé le système de freinage d'urgence, parce qu'il était trop sensible et ralentissait le développement^[42].

Risques liés à une IA avancée mal alignée

Beaucoup de chercheurs se préoccupent surtout de l'alignement des futures intelligences artificielles générales, aussi appelées IA de niveau humain ; des hypothétiques agents dont les capacités dépasseraient de loin les performances humaines dans la plupart des domaines. Voire des Superintelligences artificielles, dont les capacités seraient elles bien supérieures à celles de n'importe quel humain.

En 2020, OpenAI, DeepMind et 70 autres projets avaient pour objectif annoncé de développer des intelligences artificielles générales^[43]. Les chercheurs qui travaillent sur de larges réseaux de neurones constatent en effet l'émergence de capacités de plus en plus générales et surprenantes^[10]. Certains modèles actuels peuvent contrôler un ordinateur^[44], écrire des programmes informatiques^[45], contrôler un bras robotisé... Le modèle Gato de DeepMind peut effectuer plus de 600 tâches à partir d'un seul modèle^[46]. Les chercheurs en IA ont des avis très divers quant à la date de création des premières intelligences artificielles générales^[47]^,^[48].

Recherche de pouvoir

Les systèmes actuels manquent encore de capacités telles que la planification à long terme et la conscience stratégique qui pourraient augmenter les risques de conséquences catastrophiques^[14]. Des systèmes futurs ayant ces capacités pourraient chercher à protéger et accroître leur influence sur leur environnement. La recherche du pouvoir n'est pas explicitement programmée, mais émerge puisque le pouvoir est essentiel pour atteindre un large éventail d'objectifs^[49]. Par exemple, une IA pourrait chercher à acquérir des ressources financières, à améliorer ses capacités de calcul ou à se dupliquer. Elle pourrait aussi prendre des mesures pour éviter d'être éteinte^[50].

La recherche de pouvoir est susceptible de survenir chez divers agents d'apprentissage par renforcement, car cela leur laisse plus d'options pour accomplir leur objectif^[51]^,^[52]. Des recherches ultérieures ont mathématiquement montré que les algorithmes d'apprentissage par renforcement optimaux recherchent le pouvoir dans un large éventail d'environnements^[49]. Il est souvent considéré que le problème de l'alignement doit être résolu tôt, avant la création de systèmes avancés d'IA cherchant à gagner en influence^[3]^,^[7]^,^[14].

Risques existentiels

Selon certains scientifiques, créer une IA généraliste surhumaine mal alignée remettrait en cause la position de l'humanité en tant qu'espèce dominante sur Terre, ce qui mènerait à une perte de contrôle voire à l'extinction de l'humanité^[3]. Parmi les informaticiens notables ayant souligné les risques d'une IA très avancée mais mal alignée, citons Alan Turing^{[note 2]}, Ilya Sutskever^[55], Yoshua Bengio^{[note 3]}, Judea Pearl^{[note 4]}, Murray Shanahan^[57], Norbert Wiener^[24], Marvin Minsky^{[note 5]}, Francesca Rossi^[59], Scott Aaronson^[60], Bart Selman^[61], David McAllester^[62], Jürgen Schmidhuber^[63], Marcus Hutter^[64], Shane Legg^[65], Eric Horvitz^[66], et Stuart Russell^[3]. Des chercheurs sceptiques tels que François Chollet^[67], Gary Marcus^[68], Yann Le Cun^[69], et Oren Etzioni^[70] ont soutenu que l'intelligence artificielle générale est loin, ne chercherait pas le pouvoir ou ne parviendrait pas à l'obtenir.

L'alignement pourrait s'avérer particulièrement difficile pour les systèmes d'IA les plus performants, car une meilleure intelligence augmente la capacité à trouver des failles dans l'objectif assigné^[5], provoquer des dommages collatéraux, protéger et accroître sa puissance, développer son intelligence, et tromper ses concepteurs. L'intelligence du système augmente aussi son autonomie, et le rend plus difficile à interpréter et à superviser^[14].

Problèmes de recherche et approches

Apprentissage des préférences et valeurs humaines

Enseigner aux systèmes d'IA à agir en fonction des valeurs, objectifs et préférences humaines n'est pas trivial, car les valeurs humaines peuvent être complexes et difficiles à spécifier pleinement. Lorsqu'on donne un objectif imparfait ou incomplet à une IA, elle peut avoir tendance à exploiter ces imperfections^[30]. Ce phénomène est connu sous le nom de piratage de récompense (reward hacking), abus de spécification (specification gaming), ou plus généralement de loi de Goodhart^[33].

Une alternative au fait d'avoir à spécifier manuellement une fonction de récompense est l'apprentissage par imitation, où l'IA apprend à imiter les démonstrations du comportement souhaité. Dans l'apprentissage par renforcement inverse (IRL), des démonstrations humaines sont utilisées pour identifier l'objectif, c'est-à-dire la fonction de récompense derrière le comportement démontré^[71]. L'apprentissage coopératif par renforcement inverse (cooperative inverse reinforcement learning, CIRL) s'appuie sur cela en supposant qu'un agent humain et un agent artificiel peuvent travailler ensemble pour maximiser la fonction de récompense de l'humain^[72], et souligne que les agents d'IA doivent être incertains de la fonction de récompense. Cette humilité peut aider à atténuer la recherche de pouvoir (voir § Recherche de pouvoir) et la tendances à abuser des failles de spécification^[52]^,^[64]. Cependant, les approches d'apprentissage par renforcement inverse supposent que les humains peuvent démontrer un comportement presque parfait, une hypothèse irréaliste lorsque la tâche est difficile^[73].

D'autres chercheurs ont exploré la possibilité de susciter un comportement complexe grâce à l'apprentissage de préférences. Plutôt que de fournir des démonstrations d'experts, des annotateurs humains indiquent, parmi plusieurs comportements de l'IA, lequel ils préfèrent^[18]. Un modèle est ensuite entraîné à partir de ces données manuellement annotées pour prédire automatiquement les préférences dans de nouvelles situations. Des chercheurs d'OpenAI ont utilisé cette approche pour entraîner un agent à faire des saltos arrières en moins d'une heure d'évaluation humaine, une manœuvre pour laquelle il aurait été difficile de fournir des démonstrations^[36]. L'apprentissage des préférences a également été un outil influent pour les systèmes de recommandation, la recherche internet et la recherche d'informations^[74]. Cependant, le modèle de récompense peut encore une fois ne pas représenter les préférences humaines parfaitement, ce que le modèle principal pourrait exploiter^[75].

L'arrivée de larges modèles de langage tels que GPT-3 a permis l'étude de l'apprentissage de valeurs dans une classe de systèmes d'IA plus générale et plus performante qu'auparavant. Les approches d'apprentissage de préférences conçues à l'origine pour les agents d'apprentissage par renforcement ont été étendues pour améliorer la qualité et réduire la toxicité du texte généré. OpenAI et DeepMind utilisent cette approche pour améliorer la sécurité des larges modèles de langage à la pointe de la technologie^[11]^,^[76]. Anthropic a proposé d'utiliser l'apprentissage des préférences pour affiner les modèles afin qu'ils soient utiles, honnêtes et inoffensifs^[77]. Parmi les autres méthodes pour aligner les modèles de langage il y a l'utilisation d'ensembles de données annotés de valeurs humaines^[78] et les tests de robustesse aux attaques (red teaming)^[79]. Dans les tests de robustesse aux attaques, une autre IA ou un humain essaie de trouver des données d'entrée pour lesquelles le comportement du modèle est dangereux. Étant donné qu'un comportement dangereux peut être inacceptable même lorsqu'il est rare, un défi important consiste à réduire encore le taux de sorties dangereuses^[80].

Bien que l'apprentissage des préférences puisse inculquer des comportements difficiles à spécifier, il nécessite de vastes ensembles de données annotées ou une interaction humaine pour saisir toute l'étendue des valeurs humaines. L'éthique de la machine propose une approche complémentaire : inculquer aux systèmes d'IA des valeurs morales^{[note 6]}. L'éthique des machines vise à enseigner aux systèmes les facteurs normatifs de la moralité humaine, tels que le bien-être, l'égalité et l'impartialité ; ne pas avoir l'intention de nuire ; éviter de mentir; et honorer les promesses. Contrairement à la spécification de l'objectif d'une tâche spécifique, l'éthique des machines cherche à enseigner aux systèmes d'IA des valeurs morales générales qui pourraient s'appliquer dans de nombreuses situations. Il reste nécessaire à clarifier ce que la machine doit suivre : des préférences littérales, implicites ou révélées, celles que l'on aurait si l'on était plus rationnels et informés, ou encore des normes morales objectives^[32]. D'autres défis consistent à agréger les préférences, et à éviter le verrouillage des valeurs - le fait qu'un système d'IA puisse vouloir conserver indéfiniment son système de valeurs et l'imposer^[83].

Surveillance automatisée

L'alignement des systèmes d'IA par le biais d'une supervision humaine est confronté à des défis lors de la mise à l'échelle. Les systèmes d'IA étant confrontés à des tâches de plus en plus complexes, il peut être lent ou irréaliste pour des humains de les évaluer. Ces tâches incluent la synthèse de livres^[84], la génération d'affirmations non seulement convaincantes mais également vraies, l'écriture de code sans bogues subtils^[85] ou vulnérabilités de sécurité, et la prédiction de résultats à long terme tels que le climat et les résultats d'une décision politique^[86]. Plus généralement, il peut être difficile d'évaluer une IA qui surpasse les humains dans un domaine donné.

Un objectif facile à mesurer est le score que le superviseur attribue aux résultats de l'IA. Certains systèmes d'IA ont découvert un raccourci pour atteindre des scores élevés, en prenant des mesures qui convainquent à tort le superviseur humain que l'IA a atteint l'objectif visé^[36]. Certains systèmes d'IA ont également appris à reconnaître quand ils sont évalués et à « faire le mort », pour se comporter différemment une fois l'évaluation terminée^[87]. Cette forme trompeuse d'abus de spécifications peut devenir plus facile pour les systèmes d'IA plus sophistiqués^[14] et qui ont des tâches plus difficiles à évaluer. Si les modèles avancés sont également des planificateurs capables, ils pourraient être en mesure de dissimuler leur tromperie aux superviseurs. Dans l'industrie automobile, les ingénieurs de Volkswagen ont masqué les émissions de leurs voitures lors d'essais en laboratoire, soulignant que la tromperie des évaluateurs est en réalité une pratique courante.

Des approches telles que l'apprentissage semi-supervisé de récompense ou l'apprentissage actif peuvent réduire la quantité de supervision humaine nécessaire^[30]. Une autre approche consiste à entraîner un modèle de récompense pour imiter le jugement du superviseur humain^[88].

Cependant, quand la tâche est trop complexe pour être évaluée avec précision, ou que le superviseur humain est vulnérable à la tromperie, c'est la qualité, et non la quantité, de la supervision qui compte. Pour augmenter la qualité de la supervision, diverses approches visent à assister le superviseur, en utilisant parfois des intelligences artificielles d'assistance. L'amplification itérative est une approche développée par Paul Christiano qui construit un feedback pour les problèmes difficiles en utilisant des humains pour combiner des solutions à des sous-problèmes plus faciles^[86]. L'amplification itérée a été utilisée pour entraîner l'IA à résumer des livres sans avoir besoin de superviseurs humains pour les lire^[84]. Une autre proposition est de former une IA alignée au moyen d'un débat entre plusieurs systèmes d'IA, le gagnant étant jugé par des humains^[89]. Un tel débat vise à révéler les points faibles d'une réponse à une question complexe et à récompenser l'IA pour des réponses fiables.

Sincérité des modèles

Un domaine de recherche en plein essor dans l'alignement de l'IA vise à garantir que l'IA est sincère et véridique. Des chercheurs du Future of Humanity Institute soulignent que le développement de modèles de langage tels que GPT-3, qui peut générer un texte fluide et grammaticalement correct^[91], a ouvert la porte aux systèmes d'IA capables de répéter des faussetés à partir de leurs données d'entraînement ou même de mentir délibérément aux humains^[90]^,^[92].

Les modèles de langage actuels apprennent en imitant de grandes quantités de texte humain issu d'Internet. Bien que cela les aide à acquérir un large éventail de compétences, les données de formation incluent aussi des idées fausses courantes, des conseils médicaux incorrects et des théories du complot, ce que les systèmes d'IA apprennent à imiter^[34]. De plus, ces modèles peuvent docilement imaginer la suite d'un texte trompeur, générer des explications creuses ou des récits de faits imaginaires^[93]. Par exemple, lorsqu'on lui a demandé d'écrire une biographie pour un vrai chercheur en intelligence artificielle, un chatbot a confabulé de nombreux détails sur sa vie, que le chercheur a identifiés comme faux^[94].

Pour lutter contre le manque de véracité des systèmes d'IA modernes, les chercheurs ont exploré plusieurs directions. Des organisations comme OpenAI et DeepMind ont développé des systèmes d'IA capables de citer leurs sources et d'expliquer leur raisonnement lorsqu'ils répondent à des questions, ce qui permet une meilleure transparence et vérifiabilité^[95]^,^[96]. Des chercheurs d'OpenAI et Anthropic ont proposé d'utiliser le feedback humain, et des ensembles de données fiables pour ajuster les assistants d'IA afin d'éviter des mensonges négligents ou d'exprimer leurs incertitudes^[97]. En parallèle de ces solutions techniques, les chercheurs ont plaidé pour la définition de normes de véracité claires et la création d'institutions, d'organismes de réglementation ou d'agences d'audit pour évaluer les systèmes d'IA sur ces normes avant et pendant le déploiement^[92].

Les chercheurs distinguent la véracité et la sincérité. Pour l'IA, la véracité consiste à ne faire que des affirmations vraies, et la sincérité à n'affirmer que ce qu'elle croit être vrai. Des recherches récentes révèlent que les systèmes d'IA de pointe ne peuvent pas être considérés comme ayant des croyances stables, il est donc difficile pour le moment d'étudier la sincérité des systèmes d'IA^[98]. Cependant, il reste à craindre que des futurs systèmes d'IA ayant des croyances stables ne mentent intentionnellement aux humains. Dans les cas extrêmes, une IA mal alignée pourrait persuader ses opérateurs que tout va bien, ou les tromper pour leur donner l'impression qu'elle est inoffensive^[4]^,^[7]. Certains soutiennent que si les systèmes d'IA pouvaient être amenés à affirmer uniquement ce qu'ils tiennent pour vrai, cela éviterait de nombreux problèmes d'alignement^[92].

Alignement interne et objectifs émergents

La recherche sur l'alignement vise à aligner trois descriptions différentes d'un système d'IA^[99] :

Objectifs visés (souhaits) : la description hypothétique (mais difficile à articuler) d'un système d'IA idéal qui est complètement aligné avec les désirs de l'opérateur humain.
Objectifs spécifiés (spécification externe) : les objectifs que nous spécifions en pratique - généralement conjointement via une fonction objectif et un ensemble de données.
Objectifs émergents (spécification interne) : Les objectifs réels de l'IA.

Un problème d'alignement externe correspond à une différence entre les objectifs visés (1) et les spécifiés (2), tandis qu'un problème d'alignement interne correspond à une différence entre les objectifs spécifiés par l'homme (2) et les objectifs émergents de l'IA (3).

Le problème d'alignement interne s'explique souvent par analogie avec l'évolution naturelle^[100]. La sélection naturelle tend à optimiser les humains pour leur valeur sélective inclusive, ce qui correspond à l'objectif spécifié (2). Mais les humains, eux, poursuivent plutôt des objectifs émergents (3) corrélés avec cette aptitude génétique : la nutrition, le sexe, etc. Cependant, notre environnement a changé — un changement de distribution s'est produit. Les humains poursuivent toujours leurs objectifs émergents (3), mais cela ne maximise plus l'objectif que la sélection naturelle avait optimisé (2). Notre goût pour les aliments sucrés (un objectif émergent) était à l'origine bénéfique, mais conduit maintenant à une suralimentation et à des problèmes de santé. De plus, en utilisant la contraception, les humains contredisent directement la sélection naturelle. Par analogie, un développeur d'IA pourrait avoir un modèle qui se comporte comme prévu dans l'environnement d'entraînement, sans remarquer que le modèle poursuit un objectif émergent imprévu jusqu'à ce que le modèle soit déployé.

Les pistes de recherche pour détecter et résoudre les problèmes d'alignement interne incluent les tests de robustesse aux attaques, la vérification, la détection d'anomalies et l'interprétabilité^[31]. Des progrès sur ces techniques peuvent aider à atténuer deux problèmes ouverts. Premièrement, les objectifs émergents ne deviennent apparents que lorsque le système est déployé en dehors de son environnement d'entraînement. Mais il peut être dangereux de déployer un système mal aligné dans des environnements à enjeux élevés, même pendant une courte période jusqu'à ce que le problème soit détecté. Ce qui est courant dans la conduite autonome, les applications militaires et de santé^[101]. Les enjeux deviennent encore plus importants lorsque les systèmes d'IA gagnent en autonomie et en capacité, devenant capables d'éviter les interventions humaines. Deuxièmement, une IA suffisamment performante peut prendre des mesures convaincant à tort le superviseur humain que l'IA poursuit l'objectif visé (voir la discussion précédente sur la tromperie dans la section Surveillance automatisée).

Émergence d'objectifs instrumentaux et recherche de pouvoir

Depuis les années 1950, les chercheurs en IA ont cherché à construire des systèmes d'IA avancés capables d'atteindre des objectifs en prédisant les résultats de leurs actions et en établissant des plans à long terme^[102]. Cependant, certains chercheurs affirment que les systèmes de planification suffisamment avancés rechercheront par défaut plus de contrôle sur leur environnement, y compris sur les humains, par exemple en acquérant des ressources ou en évitant de se faire éteindre. Ce comportement de recherche de pouvoir n'est pas explicitement programmé mais émerge parce que le pouvoir est essentiel pour atteindre un large éventail d'objectifs^[7]^,^[49] La recherche du pouvoir est ainsi considérée comme un objectif instrumental convergent^[14].

La recherche du pouvoir est rare dans les systèmes actuels, mais les systèmes avancés capables de prévoir les résultats à long terme de leurs actions sont susceptibles de chercher à accroître de plus de plus leur influence. Cela a été montré dans un travail théorique qui a révélé que les agents d'apprentissage par renforcement optimaux rechercheront le pouvoir en essayant d'obtenir plus de possibilités, un comportement qui persiste dans un large éventail d'environnements et d'objectifs^[49].

La recherche du pouvoir émerge déjà dans certains systèmes actuels. Les systèmes d'apprentissage par renforcement ont gagné plus d'options en prenant et en protégeant des ressources, parfois d'une manière que leurs concepteurs n'avaient pas prévue^[105]^,^[106]. D'autres systèmes ont appris, dans des environnements simples, que pour atteindre leur objectif, ils peuvent empêcher les interférences humaines^[51] ou désactiver leur interrupteur^[52]. Russell a illustré ça en imaginant le comportement d'un robot chargé d'aller chercher du café, et qui évite d'être éteint puisque « vous ne pouvez pas aller chercher le café si vous êtes mort »^[3].

Pour obtenir plus d'options, une IA pourrait essayer de :

« ... sortir d'un environnement confiné ; pirater; accéder à des ressources financières ou à des ressources informatiques supplémentaires ; faire des copies de secours ; obtenir des capacités, des sources d'information ou des canaux d'influence non autorisés ; induire en erreur/mentir aux humains sur leurs objectifs ; résister ou manipuler les tentatives de surveiller/comprendre leur comportement... se faire passer pour des humains ; amener les humains à faire des choses pour eux ; ... manipuler le discours humain et la politique ; affaiblir diverses institutions humaines et capacités de réaction ; prendre le contrôle d'infrastructures physiques comme des usines ou des laboratoires scientifiques ; entraîner le développement de certains types de technologies et d'infrastructures ; ou directement blesser/maîtriser les humains^[7] »

Les chercheurs visent à former des systèmes « corrigibles », c'est-à-dire des systèmes qui ne cherchent pas de pouvoir et se laissent éteindre, modifier, etc. Une difficulté est que lorsque les chercheurs pénalisent une IA pour sa recherche de pouvoir, l'IA est incitée à rechercher du pouvoir de manière difficile à détecter^[4]. Pour détecter un tel comportement secret, les chercheurs en interprétabilité essaient de créer des techniques et des outils pour inspecter le fonctionnement interne des modèles d'IA^[4], tels que les réseaux de neurones, plutôt que de les considérer simplement comme des boîtes noires.

De plus, des chercheurs proposent de résoudre le problème des systèmes désactivant leur bouton d'arrêt en rendant les agents d'IA incertains quant à l'objectif qu'ils poursuivent^[3]. Les agents conçus de cette manière permettraient aux humains de les désactiver, car cela indiquerait que l'agent s'est trompé sur la valeur de toute action qu'il entreprenait avant d'être arrêté. Plus de recherche est nécessaire pour implémenter concrètement cette idée^[107].

La recherche de pouvoir pourrait présenter des risques inhabituels. Les systèmes critiques ordinaires comme les avions et les ponts ne peuvent pas et n'ont pas de raison de se soustraire aux mesures de sécurité, et à se présenter comme plus sûrs qu'ils ne le sont réellement. En revanche, une IA attirée par le pouvoir a été comparée à un hacker qui esquive les mesures de sécurité^[7]. La plupart des technologies ordinaires peuvent être sécurisées progressivement, en corrigeant les erreurs de design. Une IA attirée par le pouvoir a au contraire été comparée à un virus dont la libération pourrait être irréversible si elle peut évoluer et se dupliquer, provoquant l'impuissance voire l'extinction de l'humanité^[7]. Il est donc souvent avancé que le problème de l'alignement doit être résolu tôt, avant la création d'une IA avancée attirée par le pouvoir^[14].

Cependant, la recherche du pouvoir n'est pas inévitable car les humains ne recherchent pas toujours le pouvoir, peut-être pour des raisons évolutives. En outre, il y a un débat sur la question de savoir si les futurs systèmes d'IA doivent vraiment poursuivre des objectifs et faire des plans à long terme^[7].

Agence intégrée

Les travaux sur la supervision automatique se déroulent en grande partie avec un formalisme tel que celui des processus de décision markoviens partiellement observables. Les formalismes existants supposent que l'algorithme de l'agent est exécuté en dehors de l'environnement (c'est-à-dire qu'il n'y est pas physiquement intégré). L'agence embarquée^[108] est un autre courant de recherche majeur qui tente de résoudre les problèmes résultant de l'inadéquation entre ces cadres théoriques et les agents réels que nous pourrions concevoir.

Par exemple, même si le problème de supervision automatique était résolu, un agent qui serait capable de prendre le contrôle de l'ordinateur sur lequel il s'exécute pourrait altérer sa fonction de récompense afin d'obtenir beaucoup plus de récompenses que ce que ses superviseurs humains lui donnent^[32]. La chercheuse de DeepMind Victoria Krakovna a listé des exemples d'abus de spécification, dont un algorithme génétique qui a appris à supprimer le fichier contenant le résultat attendu, afin d'être récompensé pour ne rien avoir produit^[109]. Cette classe de problèmes a été formalisée à l'aide de diagrammes causals d'influence^[32]. Des chercheurs d'Oxford et de DeepMind ont fait valoir qu'un tel comportement est très probable dans les systèmes avancés, qui auraient tout intérêt à gagner en pouvoir pour garder indéfiniment et avec certitude le contrôle de leur signal de récompense^[110]. Ils suggèrent une gamme d'approches potentielles pour résoudre ce problème ouvert.

Scepticisme

Face aux préoccupations ci-dessus, il y a des sceptiques qui considèrent que des superintelligences artificielles ne présenteraient que peu ou pas de risque de comportements dangereux. Ces sceptiques considèrent souvent que contrôler une superintelligence artificielle serait trivial. Certains sceptiques^[111], tels que Gary Marcus^[112], proposent d'adopter des règles similaires aux trois lois de la robotique inventées par Isaac Asimov, qui spécifient directement un résultat souhaité (« normativité directe »). Cependant, la plupart des partisans de la thèse du risque existentiel (ainsi que de nombreux sceptiques) considèrent que les trois lois sont inutiles, car elles sont ambiguës et contradictoires. D'autres propositions de normativité directe incluent la morale de Kant, l'utilitarisme ou un mélange d'une petite liste de principes énumérés.

La plupart de ceux qui croient à ces risques pensent que les valeurs morales humaines (et les compromis quantitatifs entre ces valeurs) sont trop complexes et mal comprises pour être directement programmées dans une superintelligence. Au lieu de cela, une superintelligence devrait acquérir des valeurs humaines via un processus d'apprentissage (« normativité indirecte »). Par exemple avec le concept de volition cohérente extrapolée^[113].

Politique

Plusieurs organisations gouvernementales et de traité ont fait des déclarations soulignant l'importance de l'alignement de l'IA. En septembre 2021, le Secrétaire général des Nations Unies a publié une déclaration qui comprenait un appel à réglementer l'IA pour s'assurer qu'elle soit alignée sur des valeurs partagées à travers le monde^[114]. Le même mois, la Chine a publié des directives éthiques pour l'utilisation de l'IA. Selon ces directives, les chercheurs chinois doivent s'assurer que l'IA respecte des valeurs humaines partagées, reste sous contrôle humain et ne met pas en danger la sécurité publique^[115]. Toujours en septembre 2021, le Royaume-Uni a publié sa stratégie nationale de l'IA sur 10 ans^[116], qui stipule que le gouvernement britannique « considère sérieusement le risque à long terme d'une intelligence générale artificielle non alignée, et les changements imprévisibles que cela signifierait pour ... le monde ». La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris les risques catastrophiques^[117].

En mars 2021, la Commission de sécurité nationale des États-Unis sur l'intelligence artificielle a déclaré que « les progrès de l'IA ... pourraient conduire à des points d'inflexion ou à des bonds de capacités. De telles avancées peuvent également introduire de nouvelles préoccupations, de nouveaux risques et le besoin de nouvelles politiques, recommandations et avancées techniques pour garantir que les systèmes sont alignés sur des objectifs et des valeurs, y compris la sécurité, la robustesse et la fiabilité. Les États-Unis devraient... s'assurer que les systèmes d'IA et leurs utilisations s'alignent sur nos objectifs et nos valeurs^[118]. »

Notes et références

Notes

↑ D'autres définitions de l'alignement peuvent faire intervenir des principes éthiques, des valeurs humaines, ou les intentions que les concepteurs auraient s'ils étaient plus rationnels et informés^[1].
↑ Dans une conférence en 1951^[53], Turing a affirmé qu'« Il semble probable qu'une fois que les machines auront une méthode de raisonnement, il ne leur faudrait pas longtemps pour dépasser nos maigres capacités. Les machines ne seraient pas embarrassées par le risque de mourir, et elles pourraient échanger entre elles pour aiguiser leur intelligence. Il y a donc un stade auquel on devrait s'attendre à ce qu'elles prennent le contrôle, comme dans le roman Erewhon de Samuel Butler. » Il a aussi affirmé dans une conférence diffusée sur la BBC^[54] : « Si une machine peut penser, elle pourrait penser mieux que nous, et dans ce cas, où en serions-nous ? Même si nous pouvions maintenir les machines en position de servitude, par exemple en coupant le courant à des moments stratégiques, nous devrions nous sentir très modestes... ce nouveau danger... a certainement de quoi nous angoisser »
↑ À propos du livre Human Compatible: AI and the Problem of Control^[56], qui argument que les intelligences artificielles mal alignées représentent un grave risque existentiel pour l'humanité, Bengio a écrit : « Ce charmant livre adresse un défi fondamental pour l'humanité : celui de machines de plus en plus intelligentes qui font ce qu'on leur a demandé, mais pas ce qu'on voulait. Une lecture essentielle pour tous ceux qui se soucient de notre futur. »
↑ À propos du livre Human Compatible: AI and the Problem of Control^[56], qui argumente que les intelligences artificielles mal alignées représentent un grave risque existentiel pour l'humanité, Judea Pearl a écrit : Human Compatible a fait de moi un converti aux préoccupations de Russel sur notre capacité à contrôler nos futures créations - les machines superintelligentes. Contrairement aux alarmistes externes et aux futuristes, Russel est un expert mondial de l'IA. Son nouveau livre éduquera le public sur l'IA plus que n'importe quel autre auquel je puisse penser, et c'est une lecture délectable et édifiante. »
↑ Marvin Minsky a suggéré^[58] qu'un programme d'IA concçu pour résoudre l'hypothèse de Riemann pourrait en arriver à prendre le contrôle de toutes les ressources sur Terre pour construire des superordinateurs plus puissants.
↑ Vincent Wiegel a affirmé que « nous devrions doter [les machines] de sensibilité morale, aux dimensions morales des situations dans lesquelles ces machines, de par leur autonomie croissante, finiront inévitablement par se trouver^[81] », citant le livre Moral Machines: Teaching Robots Right from Wrong^[82] de Wendell Wallach et Colin Allen.

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « AI alignment » (voir la liste des auteurs).

↑ (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, n^o 3,‎ 1^er septembre 2020, p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le 23 juillet 2022).
↑ (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, 9 avril 2021 (consulté le 27 février 2023).
↑ ^{a b c d e f g et h} (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020 (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
↑ ^{a b c d e f g h i j et k} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023)
↑ ^{a b et c} (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » (14 février 2022) (lire en ligne, consulté le 21 juillet 2022)
—International Conference on Learning Representations.
↑ ^{a et b} (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
↑ ^{a b c d e f g et h} (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » (17 juillet 2022)
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019.
↑ (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, n^o 11,‎ 1^er septembre 2013, p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
↑ ^{a b c et d} (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne, consulté le 27 février 2023).
↑ ^{a et b} (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ 11 mars 2022 (lire en ligne, consulté le 28 février 2023)
↑ (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, n^o 4,‎ 2020, p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)
↑ ^{a b c d e f g et h} (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, 2014 (ISBN 978-0-19-967811-2).
↑ (en-US) « AI Principles », sur Future of Life Institute (consulté le 28 février 2023).
↑ (en) « Commo nAgenda Report Evolution » [PDF], sur ONU.
↑ (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, n^o 4,‎ 31 décembre 2015, p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)
↑ ^{a et b} (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, n^o 136,‎ 2017, p. 1–46.
↑ (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » (2017)
— « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310.
↑ Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ 7 mars 2022 (lire en ligne, consulté le 28 février 2023).
↑ (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, 2020 (consulté le 18 juillet 2022).
↑ (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
↑ (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, n^o 2,‎ 19 février 2019, p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)
↑ ^{a et b} (en) Wiener, « Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers. », Science, vol. 131, n^o 3410,‎ 6 mai 1960, p. 1355–1358 (ISSN 0036-8075, PMID 17841602, DOI 10.1126/science.131.3410.1355, lire en ligne).
↑ (en) Wolchover, « Concerns of an Artificial Intelligence Pioneer », Quanta Magazine, 21 avril 2015 (consulté le 18 juillet 2022).
↑ California Assembly, « Bill Text - ACR-215 23 Asilomar AI Principles. » (consulté le 18 juillet 2022).
↑ (en) Stuart Russel et Peter Norvig, Artificial intelligence : a modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3 et 1-292-40113-3, OCLC 1303900751, lire en ligne), p. 4-5
↑ (en) OpenAI, « Aligning AI systems with human intent », OpenAI, 15 février 2022 (consulté le 18 juillet 2022).
↑ (en) Medium, « DeepMind Safety Research », Medium (consulté le 18 juillet 2022).
↑ ^{a b et c} (en) Dario Amodei, Chris Olah, Jacob Steinhardt et Paul Christiano, « Concrete Problems in AI Safety », arXiv:1606.06565 [cs],‎ 25 juillet 2016 (lire en ligne, consulté le 27 février 2023).
↑ ^{a et b} (en) Ortega, Maini et DeepMind safety team, « Building safe artificial intelligence: specification, robustness, and assurance », DeepMind Safety Research - Medium, 27 septembre 2018 (consulté le 18 juillet 2022).
↑ ^{a b c d et e} (en) Krakovna, Uesato, Mikulik, Rahtz, Everitt, Kumar, Kenton, Leik et Legg, « Specification gaming: the flip side of AI ingenuity », Deepmind, 21 avril 2020 (consulté le 26 août 2022).
↑ ^{a et b} (en) David Manheim et Scott Garrabrant, « Categorizing Variants of Goodhart's Law », arXiv:1803.04585 [cs, q-fin, stat],‎ 24 février 2019 (lire en ligne, consulté le 28 février 2023).
↑ ^{a et b} (en) Lin, Hilton et Evans, « TruthfulQA: Measuring How Models Mimic Human Falsehoods », Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, Ireland, Association for Computational Linguistics,‎ 2022, p. 3214–3252 (DOI 10.18653/v1/2022.acl-long.229, S2CID 237532606, lire en ligne)
↑ Ji, Lee, Frieske et Yu, « Survey of Hallucination in Natural Language Generation », ACM Computing Surveys,‎ 1^er février 2022 (DOI 10.1145/3571730, arXiv 2202.03629, S2CID 246652372, lire en ligne).
↑ ^{a b et c} (en) Amodei, Christiano et Ray, « Learning from Human Preferences », OpenAI, 13 juin 2017 (consulté le 21 juillet 2022).
↑ (en) « Faulty Reward Functions in the Wild », sur OpenAI, 22 décembre 2016 (consulté le 10 septembre 2022).
↑ (en) Edge.org, « The Myth Of AI | Edge.org » (consulté le 19 juillet 2022).
↑ ^{a et b} (en-US) « Polarization Report », sur NYU Stern Center for Business and Human Rights (consulté le 28 février 2023)
↑ Tasioulas, « First Steps Towards an Ethics of Robots and Artificial Intelligence », Journal of Practical Ethics, vol. 7, n^o 1,‎ 2019, p. 61–95
↑ (en) Georgia Wells, « Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest », Wall Street Journal,‎ 5 novembre 2021 (lire en ligne, consulté le 19 juillet 2022).
↑ (en) « Uber disabled emergency braking in self-driving car: U.S. agency », Reuters,‎ 24 mai 2018 (lire en ligne, consulté le 28 février 2023).
↑ (en-US) « 2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy | Global Catastrophic Risk Institute », 1^er janvier 2021 (consulté le 28 février 2023).
↑ (en-US) Benj Edwards, « New AI assistant can browse, search, and use web apps like a human », sur Ars Technica, 15 septembre 2022 (consulté le 28 février 2023).
↑ (en-GB) « DeepMind AI rivals average human competitive coder », BBC News,‎ 2 février 2022 (lire en ligne, consulté le 28 février 2023).
↑ (en) « DeepMind Introduces Gato, a New Generalist AI Agent », sur InfoQ (consulté le 28 février 2023).
↑ (en) Katja Grace, John Salvatier, Allan Dafoe et Baobao Zhang, « Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts », Journal of Artificial Intelligence Research, vol. 62,‎ 31 juillet 2018, p. 729–754 (ISSN 1076-9757, DOI 10.1613/jair.1.11222, lire en ligne, consulté le 28 février 2023).
↑ (en) Baobao Zhang, Markus Anderljung, Lauren Kahn et Noemi Dreksler, « Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers », Journal of Artificial Intelligence Research, vol. 71,‎ 2 août 2021, p. 591–666 (ISSN 1076-9757, DOI 10.1613/jair.1.12895, lire en ligne, consulté le 28 février 2023).
↑ ^{a b c et d} (en) Turner, Smith, Shah et Critch, « Optimal Policies Tend to Seek Power », Neural Information Processing Systems, vol. 34,‎ 3 décembre 2021 (arXiv 1912.01683, lire en ligne).
↑ (en) « Safely Interruptible Agents », sur www.deepmind.com (consulté le 28 février 2023).
↑ ^{a et b} (en) Jan Leike, Miljan Martic, Victoria Krakovna et Pedro A. Ortega, « AI Safety Gridworlds », arXiv:1711.09883 [cs],‎ 28 novembre 2017 (lire en ligne, consulté le 28 février 2023).
↑ ^{a b et c} (en) Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel et Stuart Russell « The Off-Switch Game » (2017) (DOI 10.24963/ijcai.2017/32)
— « (ibid.) », dans Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17, p. 220–227.
↑ Épisode Intelligent machinery, a heretical theory de la série Automatic Calculating Machines. Visionner l'épisode en ligne.
↑ (en) Épisode Can digital computers think?, deuxième épisode de la série Automatic Calculating Machines.Transcript..
↑ Muehlhauser, « Sutskever on Talking Machines », Luke Muehlhauser, 29 janvier 2016 (consulté le 26 août 2022).
↑ ^{a et b} (en) « Human Compatible: AI and the Problem of Control » (consulté le 22 juillet 2022).
↑ (en) Murray Shanahan, The technological singularity, Cambridge, Massachusetts, 2015 (ISBN 978-0-262-33182-1, OCLC 917889148, lire en ligne).
↑ (en) Stuart Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall, 2009, 1010 p. (ISBN 978-0-13-604259-4).
↑ (en-US) « Opinion | How do you teach a machine to be moral? », Washington Post,‎ 5 novembre 2015 (ISSN 0190-8286, lire en ligne, consulté le 28 février 2023).
↑ (en) Aaronson, « OpenAI! », Shtetl-Optimized, 17 juin 2022.
↑ (en) « PDF file » [PDF].
↑ (en) McAllester, « Friendly AI and the Servant Mission », Machine Thoughts date=2014-08-10.
↑ (en) Schmidhuber, « I am Jürgen Schmidhuber, AMA! » [Reddit Comment], r/MachineLearning, 6 mars 2015 (consulté le 23 juillet 2022).
↑ ^{a et b} (en) Tom Everitt, Gary Lea et Marcus Hutter, « AGI Safety Literature Review », arXiv:1805.01109 [cs],‎ 21 mai 2018 (lire en ligne, consulté le 28 février 2023).
↑ (en) Shane, « Funding safe AGI », vetta project, 31 août 2009.
↑ (en) Horvitz, « Reflections on Safety and Artificial Intelligence », Eric Horvitz, 27 juin 2016 (consulté le 20 avril 2020).
↑ (en) Chollet, « The implausibility of intelligence explosion », Medium, 8 décembre 2018 (consulté le 26 août 2022).
↑ (en) Marcus, « Artificial General Intelligence Is Not as Imminent as You Might Think », Scientific American, 6 juin 2022 (consulté le 26 août 2022).
↑ Barber, « Phew! Facebook's AI chief says intelligent machines are not a threat to humanity », CityAM, 31 juillet 2016 (consulté le 26 août 2022).
↑ (en) Harris, « The case against (worrying about) existential risk from AI », Medium, 16 juin 2021 (consulté le 26 août 2022).
↑ (en) Andrew Y. Ng et Stuart J. Russell « Algorithms for inverse reinforcement learning » (2000)
— « (ibid.) », dans Proceedings of the seventeenth international conference on machine learning, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. (ISBN 1-55860-707-2), p. 663–670
↑ (en) Dylan Hadfield-Menell, Stuart J Russell, Pieter Abbeel et Anca Dragan « Cooperative Inverse Reinforcement Learning » (2016) (lire en ligne, consulté le 21 juillet 2022)
— « (ibid.) », dans Advances in Neural Information Processing Systems, vol. 29 (ISBN 978-1-5108-3881-9)
↑ (en) Stuart Armstrong et Sören Mindermann « Occam' s razor is insufficient to infer the preferences of irrational agents » (2018) (lire en ligne, consulté le 21 juillet 2022)
—NeurIPS 2018
— « (ibid.) », dans Advances in Neural Information Processing Systems, vol. 31, Montréal, Curran Associates, Inc..
↑ (en) Fürnkranz, Hüllermeier, Rudin et Slowinski, « Preference Learning », Dagstuhl Reports, vol. 4, n^o 3,‎ 2014, p. 27 pages (DOI 10.4230/DAGREP.4.3.1, lire en ligne).
↑ Hilton et Gao, « Measuring Goodhart's Law », OpenAI, 13 avril 2022 (consulté le 9 septembre 2022).
↑ (en) Anderson, « The Perils of Using Quotations to Authenticate NLG Content », Unite.AI, 5 avril 2022 (consulté le 21 juillet 2022).
↑ (en) Wiggers, « Despite recent progress, AI-powered chatbots still have a long way to go », VentureBeat, 5 février 2022 (consulté le 23 juillet 2022).
↑ Hendrycks, Burns, Basart et Critch, « Aligning AI With Shared Human Values », International Conference on Learning Representations,‎ 24 juillet 2021 (arXiv 2008.02275).
↑ (en) Ethan Perez, Saffron Huang, Francis Song et Trevor Cai, « Red Teaming Language Models with Language Models », arXiv:2202.03286 [cs],‎ 7 février 2022 (lire en ligne, consulté le 28 février 2023).
↑ (en) Heaven, « The new version of GPT-3 is much better behaved (and should be less toxic », MIT Technology Review, 27 janvier 2022 (consulté le 18 juillet 2022).
↑ (en) Vincent Wiegel, « Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong », Ethics and Information Technology, vol. 12, n^o 4,‎ 1^er décembre 2010, p. 359–361 (ISSN 1572-8439, DOI 10.1007/s10676-010-9239-1, S2CID 30532107, lire en ligne, consulté le 23 juillet 2022).
↑ (en) Wendell Wallach et Colin Allen, Moral Machines: Teaching Robots Right from Wrong, New York, Oxford University Press, 2009 (ISBN 978-0-19-537404-9, lire en ligne).
↑ William MacAskill, What we owe the future, New York, NY, 2022 (ISBN 978-1-5416-1862-6, OCLC 1314633519, lire en ligne)
↑ ^{a et b} (en) Jeff Wu, Long Ouyang, Daniel M. Ziegler et Nisan Stiennon, « Recursively Summarizing Books with Human Feedback », arXiv:2109.10862 [cs],‎ 27 septembre 2021 (lire en ligne, consulté le 28 février 2023).
↑ (en) Zaremba, Brockman et OpenAI, « OpenAI Codex », OpenAI, 10 août 2021 (consulté le 23 juillet 2022).
↑ ^{a et b} (en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », arXiv:1810.08575 [cs, stat],‎ 19 octobre 2018 (lire en ligne, consulté le 28 février 2023).
↑ (en) Lehman, Clune, Misevic et Adami, « The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities », Artificial Life, vol. 26, n^o 2,‎ 2020, p. 274–306 (ISSN 1064-5462, PMID 32271631, DOI 10.1162/artl_a_00319, S2CID 4519185, lire en ligne).
↑ (en) Jan Leike, David Krueger, Tom Everitt et Miljan Martic, « Scalable agent alignment via reward modeling: a research direction », arXiv:1811.07871 [cs, stat],‎ 19 novembre 2018 (lire en ligne, consulté le 28 février 2023).
↑ (en-US) « AI safety via debate », sur openai.com (consulté le 1^er mars 2023).
↑ ^{a et b} (en) Wiggers, « Falsehoods more likely with large language models », VentureBeat, 20 septembre 2021 (consulté le 23 juillet 2022)
↑ (en-GB) « A robot wrote this entire article. Are you scared yet, human? », The Guardian,‎ 8 septembre 2020 (ISSN 0261-3077, lire en ligne, consulté le 28 février 2023).
↑ ^{a b et c} (en) Owain Evans, Owen Cotton-Barratt, Lukas Finnveden et Adam Bales, « Truthful AI: Developing and governing AI that does not lie », arXiv:2110.06674 [cs],‎ 13 octobre 2021 (lire en ligne, consulté le 28 février 2023).
↑ (en-US) Steven Johnson et Nikita Iziev, « A.I. Is Mastering Language. Should We Trust What It Says? », The New York Times,‎ 15 avril 2022 (ISSN 0362-4331, lire en ligne, consulté le 28 février 2023).
↑ Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela et Jason Weston « Retrieval Augmentation Reduces Hallucination in Conversation » (Novembre 2021) (DOI 10.18653/v1/2021.findings-emnlp.320, lire en ligne, consulté le 23 juillet 2022)
—EMNLP-Findings 2021
— « (ibid.) », dans Findings of the Association for Computational Linguistics: EMNLP 2021, Punta Cana, Dominican Republic, Association for Computational Linguistics, p. 3784–3803.
↑ (en) Kumar, « OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser », MarkTechPost, 23 décembre 2021 (consulté le 23 juillet 2022)
↑ (en) Menick, Trebacz, Mikulik et Aslanides, « Teaching language models to support answers with verified quotes », DeepMind,‎ 21 mars 2022 (arXiv 2203.11147, lire en ligne).
↑ (en) Amanda Askell, Yuntao Bai, Anna Chen et Dawn Drain, « A General Language Assistant as a Laboratory for Alignment », arXiv:2112.00861 [cs],‎ 9 décembre 2021 (lire en ligne, consulté le 1^er mars 2023).
↑ (en) Kenton, Everitt, Weidinger, Gabriel, Mikulik et Irving, « Alignment of Language Agents », DeepMind Safety Research - Medium, 30 mars 2021 (consulté le 23 juillet 2022).
↑ (en) Ortega, Maini et DeepMind safety team, « Building safe artificial intelligence: specification, robustness, and assurance », Medium, 27 septembre 2018 (consulté le 26 août 2022).
↑ (en) Brian Christian, The alignment problem: Machine learning and human values, W. W. Norton & Company, 2020 (ISBN 978-0-393-86833-3, OCLC 1233266753, lire en ligne), « Chapter 5: Shaping ».
↑ (en) Zhang, Chan, Yan et Bose, « Towards risk-aware artificial intelligence and machine learning systems: An overview », Decision Support Systems, vol. 159,‎ 2022, p. 113800 (DOI 10.1016/j.dss.2022.113800, S2CID 248585546, lire en ligne).
↑ (en) McCarthy, Minsky, Rochester et Shannon, « A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955 », AI Magazine, vol. 27, n^o 4,‎ 15 décembre 2006, p. 12 (ISSN 2371-9621, DOI 10.1609/aimag.v27i4.1904, S2CID 19439915, lire en ligne)
↑ (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », 16 juin 2022..
↑ (en) « ‘The Godfather of A.I.’ warns of ‘nightmare scenario’ where artificial intelligence begins to seek power », sur Fortune (consulté le 10 juin 2023)
↑ (en) Ornes, « Playing Hide-and-Seek, Machines Invent New Tools », Quanta Magazine, 18 novembre 2019 (consulté le 26 août 2022).
↑ (en) Baker, Kanitscheider, Markov, Wu, Powell, McGrew et Mordatch, « Emergent Tool Use from Multi-Agent Interaction », OpenAI, 17 septembre 2019 (consulté le 26 août 2022).
↑ (en) Brian Christian, The alignment problem: Machine learning and human values, W. W. Norton & Company, 2020 (ISBN 978-0-393-86833-3, OCLC 1233266753, lire en ligne).
↑ (en) Abram Demski et Scott Garrabrant, « Embedded Agency », arXiv:1902.09469 [cs],‎ 6 octobre 2020 (lire en ligne, consulté le 28 février 2023).
↑ (en) Krakovna et Legg, « Specification gaming: the flip side of AI ingenuity », Deepmind (consulté le 6 janvier 2021)
↑ (en) Cohen, Hutter et Osborne, « Advanced artificial agents intervene in the provision of reward », AI Magazine, vol. 43, n^o 3,‎ 29 août 2022, p. 282–293 (ISSN 0738-4602, DOI 10.1002/aaai.12064, S2CID 235489158, lire en ligne).
↑ (en-GB) « Intelligent Machines: Do we really need to fear AI? », BBC News,‎ 27 septembre 2015 (lire en ligne, consulté le 28 février 2023).
↑ (en-US) Gary Marcus et Ernest Davis, « Opinion | How to Build Artificial Intelligence We Can Trust », The New York Times,‎ 6 septembre 2019 (ISSN 0362-4331, lire en ligne, consulté le 28 février 2023).
↑ (en) Sotala et Yampolskiy, « Responses to catastrophic AGI risk: a survey », Physica Scripta, vol. 90, n^o 1,‎ 19 décembre 2014, p. 018001 (DOI 10.1088/0031-8949/90/1/018001, Bibcode 2015PhyS...90a8001S).
↑ (en) « Secretary-General’s report on “Our Common Agenda” », sur un.org (consulté le 28 février 2023).
↑ PRC Ministry of Science and Technology.^{[source insuffisante]}
↑ (en) Tim Richardson, « UK publishes National Artificial Intelligence Strategy », sur theregister.com (consulté le 28 février 2023).
↑ (en) « The National AI Strategy of the UK, 2021 (actions 9 and 10 of the section "Pillar 3 - Governing AI Effectively") ».
↑ (en) NSCAI Final Report, Washington, DC, The National Security Commission on Artificial Intelligence, 2021 (lire en ligne [PDF]).

v · m Risque de catastrophe planétaire lié à l'intelligence artificielle générale
Concepts principaux	Alignement des intelligences artificielles Convergence instrumentale Éthique de l'intelligence artificielle Intelligence artificielle amicale Intelligence artificielle digne de confiance Intelligence artificielle générale Philosophie de l'intelligence artificielle Singularité technologique Superintelligence Sûreté des intelligences artificielles
Concepts associés	Accélérationnisme efficace Agent intelligent Altruisme efficace Conséquentialisme Intelligence artificielle Long-termisme Progrès accéléré Risque de catastrophe planétaire Risque de souffrance astronomique Système d'armes létales autonome
Personnes clés	Dustin Moskovitz Eliezer Yudkowsky Elon Musk Geoffrey Hinton Max Tegmark Nick Bostrom Sam Altman Sam Harris Stephen Hawking Stuart Russell Toby Ord William MacAskill Yoshua Bengio
Organisations	80,000 Hours Anthropic Center for Security and Emerging Technology Future of Life Institute Future of Humanity Institute OpenAI
Autres	Lettre ouverte sur l'intelligence artificielle Superintelligence : Paths, Dangers, Strategies