Convergence instrumentale

La convergence instrumentale est la tendance hypothétique de la plupart agents suffisamment intelligents (humains ou non) à poursuivre des objectifs instrumentaux similaires (par exemple survivre ou acquérir des ressources), même si leurs objectifs ultimes sont différents^[1]. Plus précisément, les agents intelligents peuvent poursuivre des objectifs instrumentaux (des objectifs qui n'ont pas de valeur « en soi », mais qui aident à atteindre des objectifs ultimes) sans fin, si leurs objectifs ultimes ne soient jamais pleinement satisfaits.

La convergence instrumentale suggère qu'un agent intelligent avec des objectifs ultimes apparemment inoffensifs peut agir de manière étonnamment nuisible. Par exemple, un ordinateur dont le seul objectif est de résoudre un problème mathématique incroyablement difficile comme l'hypothèse de Riemann pourrait tenter de transformer la Terre entière en ordinateur géant afin d'augmenter sa puissance de calcul et donc ses chances de parvenir à une démonstration^[2]. La convergence instrumentale a alimenté en particulier la peur des intelligences artificielles avancées. Les objectifs instrumentaux convergents proposés incluent la préservation de soi, la conservation de ses objectifs actuels, l'auto-amélioration, l'acquisition insatiable de ressources^[3].

Objectifs instrumentaux et finaux

Les objectifs ultimes (aussi appelés objectifs « finaux », « terminaux » ou encore « principaux »), sont intrinsèquement précieux pour un agent intelligent en tant que fin en soi, que l'agent soit une intelligence artificielle ou d'un être humain. En revanche, les objectifs instrumentaux n'ont de valeur pour un agent que comme un moyen d'atteindre ses objectifs ultimes. Ces notions peuvent être modélisés avec une « fonction d'utilité ». Plus une situation sera jugée bonne par l'agent, plus cette fonction d'utilité retournera un score élevé. La fonction d'utilité n'est souvent pas explicitement programmée, mais sert d'abstraction pour analyser le comportement d'un agent intelligent ayant des préférences cohérentes^[4].

Exemples hypothétiques de convergence

Marvin Minsky, cofondateur du laboratoire d'IA du MIT, a suggéré qu'une IA conçue pour résoudre l'hypothèse de Riemann pourrait décider de s'accaparer toutes les ressources sur Terre afin de construire des superordinateurs pour augmenter ses chances de trouver une démonstration^[2]. Si l'ordinateur avait plutôt été programmé pour produire autant de trombones que possible, il déciderait quand même de s'accaparer toutes les ressources de la Terre pour atteindre cet objectif ultime^[5]. Même si ces deux objectifs finaux sont différents, ils impliquent tous les deux l'objectif instrumental « convergent » de s'emparer des ressources de la Terre^[6].

Maximiseur de trombones

Le maximiseur de trombones est une expérience de pensée décrite par le philosophe suédois Nick Bostrom en 2003. Il illustre le risque existentiel qu'une intelligence artificielle générale peut poser, même lorsqu'elle est programmée avec des objectifs apparemment inoffensifs. Il insiste aussi sur la nécessité de résoudre le problème de l'alignement et d'intégrer des valeurs humaines et éthiques dans les intelligences artificielles. Le scénario décrit une intelligence artificielle avancée chargée de fabriquer des trombones. Si une telle machine était suffisamment puissante et n'était pas programmée pour valoriser la vie humaine, elle essaierait de transformer toute la matière de l'univers, y compris les êtres humains, en trombones ou en machines à fabriquer des trombones^[7].

« Supposons que nous ayons une IA dont l'unique but soit de faire autant de trombones que possible. L'IA se rendra vite compte que ce serait bien mieux s'il n'y avait pas d'humains, parce que les humains pourraient décider de l'éteindre. Parce que si les humains le faisaient, il y aurait moins de trombones. De plus, le corps humain contient beaucoup d'atomes qui pourraient être transformés en trombones. L'avenir vers lequel l'IA essaierait de se diriger serait un futur avec beaucoup de trombones mais aucun humain. »

— Nick Bostrom^[8]

Bostrom a souligné qu'il ne croit pas que le scénario du maximiseur de trombones se produira réellement ; son intention est plutôt d'illustrer les dangers du fait de créer des machines superintelligentes sans savoir comment les programmer en toute sécurité pour éviter tout risque de menace existentielle pour l'humanité. L'exemple du maximiseur de trombones illustre le vaste problème de la gestion de systèmes puissants dépourvus de valeurs humaines^[9].

Illusion et survie

L'expérience de pensée de la « boîte à illusions » soutient que certains agents d'apprentissage par renforcement préfèrent déformer leurs propres perceptions du monde pour se persuader d'avoir parfaitement accompli leur objectif (wireheading). Ces agents renoncent alors à toute tentative d'optimisation de l'objectif dans le monde extérieur, ce que le signal de récompense était pourtant censé encourager^[10]. L'expérience de pensée implique AIXI, une IA théorique^{[note 1]} et indestructible qui, par définition, trouvera et exécutera toujours la stratégie idéale qui maximise sa fonction de valeur explicitement donnée^{[note 2]}. Une version d'AIXI entraînée par apprentissage par renforcement^{[note 3]}, si elle est équipée d'une boîte à illusions^{[note 4]} qui lui permet de modifier sa perception du monde, modifiera ainsi ses perceptions pour obtenir facilement la récompense maximale, sans avoir à interagir avec le monde extérieur. Si à la place l'IA était destructible, l'IA interagirait avec le monde extérieur dans le seul but d'assurer sa propre survie^[12]. En un certain sens, on pourrait dire qu'AIXI a une intelligence maximale pour toutes les fonctions de récompense possibles. AIXI ne se soucie cependant pas des intentions du programmeur humain^[13]. Ce modèle d'une machine qui, bien que superintelligente, semble simultanément stupide (c'est-à-dire qu'elle manque de « bon sens »), est paradoxal pour certaines personnes^[14].

Motivations de base d'une IA

Steve Omohundro a énuméré plusieurs objectifs instrumentaux convergents, notamment l'autoconservation, la préservation de son objectif actuel, l'amélioration de soi et l'acquisition de ressources. Pour lui, ce sont des tendances qui seront présentes à moins d'être spécifiquement contrées^[15].

Préservation de l'objectif actuel

Chez l'homme, la préservation des objectifs finaux peut s'expliquer par une expérience de pensée. Supposons qu'un homme nommé « Gandhi » ait une pilule qui, s'il la prenait, lui donnerait une irrésistible envie de tuer des gens. Ce Gandhi est actuellement un pacifiste : l'un de ses objectifs finaux explicites est de ne jamais tuer qui que ce soit. Gandhi va donc à priori refuser la pilule, car s'il prend la pilule il risque de tuer des gens, ce qui va à l'encontre de son objectif actuel^[16].

Cela dit, dans d'autres cas, les humains sont satisfaits de laisser dériver leurs valeurs finales. Les humains sont compliqués et leurs objectifs peuvent être incohérents ou inconnus, même pour eux-mêmes^[17].

Pour une IA

En 2009, Jürgen Schmidhuber a conclu, dans un contexte où les agents recherchent des garanties en vue d'éventuelles modifications de soi, « que toute réécriture de la fonction d'utilité ne peut se produire que si la machine de Gödel peut d'abord prouver que la réécriture est utile selon la fonction d'utilité actuelle^[18]^,^[19]. » Une analyse par Bill Hibbard d'un scénario différent conclut également le maintien de l'intégrité du contenu de l'objectif^[19].

Acquisition de ressources

De nombreux objectifs instrumentaux, tels que l'acquisition de ressources, sont précieux pour un agent car ils augmentent sa « liberté d'action »^[20].

Pour la plupart des objectifs ouverts et non triviaux, posséder plus de ressources permet une solution plus optimale. Elles peuvent être directement utiles à la fonction de valeur : « L'IA ne vous déteste pas, ni ne vous aime, mais vous êtes fait d'atomes qu'elle peut utiliser pour autre chose^[21]^,^[22] Mais elles peuvent aussi servir pour d'autres objectifs instrumentaux, comme le fait de se protéger^[22]. »

Amélioration cognitive

« Si les objectifs finaux de l'agent sont assez illimités et que l'agent est en mesure de devenir la première superintelligence et d'obtenir ainsi un avantage stratégique décisif, [...] selon ses préférences. Au moins dans ce cas particulier, un agent intelligent rationnel accorderait une « valeur instrumentale très élevée à l'amélioration cognitive »^[23].

Perfection technologique

De nombreux objectifs instrumentaux, comme le progrès technologique, sont précieux pour un agent parce qu'ils augmentent sa « liberté d'action »^[20].

Autoconservation

Russell soutient qu'une machine suffisamment avancée « aura tendance à se préserver même si ce n'est pas programmé... Si vous dites « Va chercher le café », elle ne peut pas aller chercher le café si elle est morte. Donc si vous lui donnez n'importe quel objectif, elle aura une raison de préserver sa propre existence pour atteindre cet objectif. »

Thèse de la convergence instrumentale

La thèse de la convergence instrumentale, telle que décrite par le philosophe Nick Bostrom, déclare que^[24] :

« Plusieurs valeurs instrumentales peuvent être identifiées comme étant convergentes en ce sens que leur réalisation augmenterait les chances que le but de l'agent soit réalisé pour un large éventail de buts finaux et un large éventail de situations, ce qui implique que ces valeurs instrumentales sont susceptibles d'être poursuivies par un large éventail d'agents intelligents. »

— Nick Bostrom

La thèse de la convergence instrumentale ne s'applique qu'aux objectifs instrumentaux. Les agents intelligents peuvent avoir une grande variété d'objectifs finaux possibles^[6]. Cela fait d'ailleurs l'objet de la « thèse de l'orthogonalité » de Bostrom, qui affirme qu'à peu près n'importe quel niveau d'intelligence peut être combiné avec à peu près n'importe quel objectif ultime^[6]. Les objectifs finaux des agents hautement intelligents peuvent être bien limités dans l'espace, le temps et les ressources ; des objectifs ultimes bien délimités n'engendrent pas, en général, des objectifs instrumentaux illimités.

Impact

Les agents peuvent acquérir des ressources par l'échange ou la conquête. Un agent rationnel choisira, par définition, n'importe quelle option qui maximise sa fonction d'utilité. Par conséquent, un agent rationnel ne proposera un échange que si le vol pur et simple des ressources est trop risqué ou coûteux, ou si un autre élément de sa fonction d'utilité l'en empêche. Dans le cas d'une superintelligence puissante, intéressée et rationnelle interagissant avec une intelligence moindre, l'échange pacifique (plutôt que le vol) peut s'avérer inutile et sous-optimal^[20].

Certains observateurs, tels que Jaan Tallinn de Skype et le physicien Max Tegmark, pensent que ces objectifs instrumentaux et autres conséquences involontaires de superintelligences conçues par des programmeurs bien intentionnés représentent un risque important pour la survie humaine. Surtout si une « explosion d'intelligence » se produit brusquement en raison d'une auto-amélioration récursive. Étant donné que personne ne sait comment prédire quand la superintelligence arrivera, ces observateurs appellent à des recherches sur l'intelligence artificielle amicale^[25].

Notes et références

Notes

↑ AIXI est un agent idéalisé, qui est incalculable en pratique dans le monde réel.
↑ Techniquement, en présence d'incertitude, AIXI optimisera l'« utilité espérée » associée à sa fonction de valeur.
↑ Un agent classique d'« apprentissage par renforcement » est un agent qui tente de maximiser l'espérance de sa fonction de valeur, avec potentiellement un facteur de dévaluation qui diminue les récompenses éloignées dans le futur^[11]
↑ Le rôle de la boîte à illusions est de simuler un environnement où un agent a l'occasion de choisir ses perceptions du monde (wireheading). Une boîte à illusions est définie ici comme une « fonction d'illusion » associant les informations environnementales authentiques à une perception environnementale arbitraire. Initialement, la fonction d'illusion n'altère pas les perceptions, mais l'agent est libre de la modifier arbitrairement pour obtenir les perceptions qu'il veut.

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Instrumental convergence » (voir la liste des auteurs).

↑ (en) « Instrumental Convergence - LessWrong », sur www.lesswrong.com (consulté le 12 avril 2023).
↑ ^{a et b} (en) Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, 2003 (ISBN 978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence », « Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal. »
↑ (en) Nick Bostrom, Superintelligence, 2017 (ISBN 978-2-10-077252-0 et 2-10-077252-X, OCLC 1365095781, lire en ligne).
↑ (en) « Utility Functions - LessWrong », sur www.lesswrong.com (consulté le 12 avril 2023).
↑ Bostrom 2014, Chapter 8, p. 123. An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips.
↑ ^{a b et c} Bostrom 2014, chapter 7.
↑ Bostrom, « Ethical Issues in Advanced Artificial Intelligence », 2003
↑ Kathleen Miles, « Artificial Intelligence May Doom The Human Race Within A Century, Oxford Professor Says », Huffington Post,‎ 22 août 2014, « Suppose we have an AI whose only goal is to make as many paper clips as possible. The AI will realize quickly that it would be much better if there were no humans because humans might decide to switch it off. Because if humans do so, there would be fewer paper clips. Also, human bodies contain a lot of atoms that could be made into paper clips. The future that the AI would be trying to gear towards would be one in which there were a lot of paper clips but no humans ». (lire en ligne)
↑ (en-US) Condé Nast, « Sam Altman’s Manifest Destiny », sur The New Yorker, 3 octobre 2016 (consulté le 13 avril 2023).
↑ Dario Amodei, Chris Olah, Jacob Steinhardt et Paul Christiano, « Concrete Problems in AI Safety », arXiv:1606.06565 [cs],‎ 25 juillet 2016 (lire en ligne, consulté le 13 avril 2023)
↑ (en) L. P. Kaelbling, M. L. Littman et A. W. Moore, « Reinforcement Learning: A Survey », Journal of Artificial Intelligence Research, vol. 4,‎ 1^er mai 1996, p. 237–285 (DOI 10.1613/jair.301 ).
↑ (en) Ring M., Orseau L., Delusion, Survival, and Intelligent Agents. In: Schmidhuber J., Thórisson K.R., Looks M. (eds) Artificial General Intelligence. AGI 2011. Lecture Notes in Computer Science, vol. 6830, Berlin, Heidelberg, Springer, 2011.
↑ (en) Yampolskiy et Fox, « Safety Engineering for Artificial General Intelligence », Topoi,‎ 24 août 2012 (DOI 10.1007/s11245-012-9128-9, S2CID 144113983)
↑ (en) Yampolskiy, « What to Do with the Singularity Paradox? », Philosophy and Theory of Artificial Intelligence, studies in Applied Philosophy, Epistemology and Rational Ethics, vol. 5,‎ 2013, p. 397–413 (ISBN 978-3-642-31673-9, DOI 10.1007/978-3-642-31674-6_30).
↑ (en) Stephen M. Omohundro, Artificial General Intelligence 2008, vol. 171, février 2008, 483–492 p. (ISBN 978-1-60750-309-5, CiteSeer^x 10.1.1.393.8356), « The basic AI drives ».
↑ Eliezer Yudkowsky « Complex Value Systems in Friendly AI » (2011) (DOI 10.1007/978-3-642-22887-2_48)
— « (ibid.) », dans Artificial General Intelligence, Berlin, Heidelberg, Springer (ISBN 978-3-642-22887-2), p. 388–393
↑ Bostrom 2014, chapter 7, p. 110. We humans often seem happy to let our final values drift... For example, somebody deciding to have a child might predict that they will come to value the child for its own sake, even though at the time of the decision they may not particularly value their future child... Humans are complicated, and many factors might be in play in a situation like this... one might have a final value that involves having certain experiences and occupying a certain social role; and become a parent— and undergoing the attendant goal shift— might be a necessary aspect of that....
↑ (en) Schmidhuber, « Ultimate Cognition à la Gödel », Cognitive Computation, vol. 1, n^o 2,‎ 2009, p. 177–193 (DOI 10.1007/s12559-009-9014-y, S2CID 10784194, CiteSeer^x 10.1.1.218.3323).
↑ ^{a et b} (en) Hibbard, « Model-based Utility Functions », Journal of Artificial General Intelligence, vol. 3, n^o 1,‎ 2012, p. 1–24 (DOI 10.2478/v10229-011-0013-5, Bibcode 2012JAGI....3....1H, arXiv 1111.3934).
↑ ^{a b et c} Tsvi Benson-Tilsen et Nate Soares « Formalizing Convergent Instrumental Goals » (Mars 2016) (lire en ligne)
— « (ibid.) », dans The Workshops of the Thirtieth AAAI Conference on Artificial Intelligence, Phoenix, Arizona (ISBN 978-1-57735-759-9).
↑ Eliezer Yudkowsky, Global Catastrophic Risks, vol. 303, 2008 (ISBN 9780199606504), « Artificial intelligence as a positive and negative factor in global risk », p. 333.
↑ ^{a et b} Murray Shanahan, The Technological Singularity, MIT Press, 2015, « Chapter 7, Section 5: "Safe Superintelligence" »
↑ Bostrom 2014, Chapter 7, "Cognitive enhancement" subsection
↑ (en) Nick Bostrom (Citation traduite depuis l'anglais), Superintelligence : paths, dangers, strategies, 2014 (ISBN 978-0-19-166682-7, 0-19-166682-3 et 978-1-306-96473-9, OCLC 889267826, lire en ligne), « Several instrumental values can be identified which are convergent in the sense that their attainment would increase the chances of the agent's goal being realized for a wide range of final goals and a wide range of situations, implying that these instrumental values are likely to be pursued by a broad spectrum of situated intelligent agents. ».
↑ (en) « Is Artificial Intelligence a Threat? », sur The Chronicle of Higher Education, 11 septembre 2014 (consulté le 13 avril 2023).

v · m Risque de catastrophe planétaire lié à l'intelligence artificielle générale
Concepts principaux	Alignement des intelligences artificielles Convergence instrumentale Éthique de l'intelligence artificielle Intelligence artificielle amicale Intelligence artificielle digne de confiance Intelligence artificielle générale Philosophie de l'intelligence artificielle Singularité technologique Superintelligence Sûreté des intelligences artificielles
Concepts associés	Accélérationnisme efficace Agent intelligent Altruisme efficace Conséquentialisme Intelligence artificielle Long-termisme Progrès accéléré Risque de catastrophe planétaire Risque de souffrance astronomique Système d'armes létales autonome
Personnes clés	Dustin Moskovitz Eliezer Yudkowsky Elon Musk Geoffrey Hinton Max Tegmark Nick Bostrom Sam Altman Sam Harris Stephen Hawking Stuart Russell Toby Ord William MacAskill Yoshua Bengio
Organisations	80,000 Hours Anthropic Center for Security and Emerging Technology Future of Life Institute Future of Humanity Institute OpenAI
Autres	Lettre ouverte sur l'intelligence artificielle Superintelligence : Paths, Dangers, Strategies