• Votre panier est vide.

  • LOGIN

Les pirates informatiques étaient des humains. Bientôt, les IA vont pirater l’humanité


Certains articles de veille peuvent faire l'objet de traduction automatique.


Si vous ne avez déjà assez de soucis, considérez un monde où les IA sont hackers.

Le piratage informatique est aussi vieux que l’humanité. Nous sommes des résolveurs de problèmes créatifs. Nous exploitons les failles, manipulons les systèmes et cherchons à accroître notre influence, notre pouvoir et notre richesse. Jusqu’à présent, le piratage a été exclusivement une activité humaine. Pas pour longtemps.

Comme je l’ai exposé dans un rapport que je viens de publier l’intelligence artificielle finira par trouver des failles dans toutes sortes de systèmes sociaux, économiques et politiques, puis les exploitera à une vitesse, une échelle et une portée sans précédent. Après avoir piraté l’humanité, les systèmes d’IA pirateront ensuite d’autres systèmes d’IA, et les humains ne seront guère plus que des dommages collatéraux.

D’accord, c’est peut-être un peu hyperbolique, mais cela ne nécessite pas de technologie de science-fiction d’un futur lointain. Je ne postule pas une IA La « singularité », où la boucle de rétroaction IA-apprentissage devient si rapide qu’elle dépasse la compréhension humaine. Je ne suppose pas que les androïdes soient intelligents. Je ne suppose pas une mauvaise intention. La plupart de ces piratages ne nécessitent même pas de percées majeures dans la recherche sur l’IA. Ils sont déjà en cours. Mais au fur et à mesure que l’IA devient plus sophistiquée, on ne s’en rendra même pas compte.

Les IA ne résolvent pas les problèmes comme les humains. Elles envisagent plus de types de solutions que nous. Elle emprunte des voies complexes que nous n’avons pas envisagées. Cela peut poser problème à cause de ce qu’on appelle le problème de l’explicabilité. Les systèmes d’IA modernes sont essentiellement des boîtes noires. Les données entrent d’un côté et une réponse sort de l’autre. Il peut être impossible de comprendre comment le système est arrivé à sa conclusion, même si vous êtes un programmeur et que vous regardez le code.

En 2015, un groupe de recherche a alimenté un système d’IA appelé Deep Patient avec les données médicales et de santé de quelque 700 000 personnes, et a testé s’il pouvait prédire les maladies. C’était possible, mais Deep Patient ne fournit aucune explication sur les fondements d’un diagnostic, et les chercheurs n’ont aucune idée de la manière dont il parvient à ses conclusions. Un médecin peut soit faire confiance à l’ordinateur, soit l’ignorer, mais cette confiance restera aveugle.

Alors que les chercheurs travaillent sur une IA capable de s’expliquer elle-même, il semble y avoir un compromis entre la capacité et l’explicabilité. Les explications sont un raccourci cognitif utilisé par les humains, adapté à la manière dont ils prennent des décisions. Forcer une IA à produire des explications pourrait constituer une contrainte supplémentaire susceptible d’affecter la qualité de ses décisions. Pour l’instant, l’IA devient de plus en plus opaque et moins explicable.

Par ailleurs, les IA peuvent se livrer à ce qu’on appelle le « reward hacking ». Comme les IA ne résolvent pas les problèmes de la même manière que les humains, elles tombent invariablement sur des solutions que nous n’aurions jamais pu anticiper, et certaines d’entre elles vont aller à l’encontre de l’intention du système. En effet, les IA ne pensent pas en termes d’implications, de contexte, de normes et de valeurs que les humains partagent et considèrent comme allant de soi. Ce piratage de récompense implique d’atteindre un objectif mais d’une manière que les concepteurs de l’IA n’ont ni voulue ni prévue.

Prenons l’exemple d’une simulation de football où une IA a compris que si elle donnait un coup de pied dans le ballon en dehors des limites du terrain, le gardien de but devrait renvoyer le ballon et laisser le but sans défense. Ou une autre simulation, où une IA a compris qu’au lieu de courir, elle pouvait se rendre assez grande pour franchir une ligne d’arrivée lointaine en tombant par-dessus. Ou encore l’aspirateur robot qui, au lieu d’apprendre à ne pas se cogner, a appris à rouler à reculons, alors qu’aucun capteur ne lui indiquait qu’il se cognait. S’il existe des problèmes, des incohérences ou des failles dans les règles, et si ces propriétés conduisent à une solution acceptable telle que définie par les règles, alors les IA trouveront ces astuces.

Nous avons appris ce problème de piratage dans notre enfance avec l’histoire du roi Midas. Lorsque le dieu Dionysos lui accorde un vœu, Midas demande que tout ce qu’il touche se transforme en or. Il se retrouve affamé et malheureux alors que sa nourriture, sa boisson et sa fille se transforment toutes en or. C’est un problème de spécification : Midas a programmé le mauvais objectif dans le système.

Les génies sont très précis sur la formulation des souhaits, et peuvent être malicieusement pédants. Nous le savons, mais il n’y a toujours aucun moyen de déjouer le génie. Quel que soit votre souhait, il sera toujours capable de l’exaucer d’une manière que vous regretterez. Il va pirater votre souhait. Les objectifs et les désirs sont toujours sous-spécifiés dans le langage et la pensée humaine. Nous ne décrivons jamais toutes les options, ni n’incluons tous les avertissements, exceptions et réserves applicables. Tout objectif que nous spécifions sera nécessairement incomplet.

Voir aussi :

juin 17, 2021

Poster un commentaire

Please Login to comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Culte du code | 2015-2022  (Vecteurs par Freepik, Parallax par fullvector)