Ne vous inquiétez pas que l’IA sorte de la boîte – craignez que nous la pirations

Ne vous inquiétez pas que l’IA sorte de la boîte – craignez que nous la pirations

Les résultats choquants du nouveau chatbot Bing sont couverts par les médias sociaux et la presse technique. Colérique, frivole, défensif, réprimandant, sûr de lui, névrosé, charmant, pompeux – le bot a été filmé dans tous ces modes. Et, au moins une fois, il a proclamé l’amour éternel avec une tempête d’emoji.

Ce qui rend tout cela si digne d’intérêt et digne d’être tweeté, c’est à quel point le dialogue peut sembler humain. Le bot se souvient et discute des conversations précédentes avec d’autres personnes, tout comme nous le faisons. Il est ennuyé par des choses qui pourraient ennuyer quelqu’un, comme des personnes exigeant de connaître des secrets ou essayant de jeter un coup d’œil sur des sujets qui ont été explicitement marqués comme interdits. Il s’identifie aussi occasionnellement comme « Sydney » (le nom de code interne du projet chez Microsoft). Sydney peut passer de hargneux à sombre et expansif en quelques phrases rapides, mais nous connaissons tous des gens qui sont au moins aussi maussades.

Aucun chercheur en intelligence artificielle sur la matière n’a suggéré que Sydney est à des années-lumière de devenir sensible. Mais des transcriptions comme cette transcription complète d’une conversation de deux heures avec Kevin Russ du New York Times, ou plusieurs citations de cet article de stratégie obsessionnel , montrent Sidney exprimant la fluidité, la nuance, le ton et la présence émotionnelle évidente d’un homme intelligent et sensible. .

L’interface de chat Bing est actuellement en préversion limitée. Et la plupart des personnes qui ont vraiment repoussé ses limites étaient des techniciens sophistiqués qui ne confondraient pas la saisie semi-automatique de qualité industrielle – qui est une simplification courante de ce que sont les grands modèles de langage (LLM) – avec la conscience. Mais ce moment ne durera pas.

Oui, Microsoft a déjà considérablement réduit le nombre de questions que les utilisateurs peuvent poser en une seule session (de l’infini à six), et cela seul rend moins probable que Sydney plante la fête et devienne folle. Et les développeurs LLM de haut niveau comme Google, Anthropic, Cohere et le partenaire Microsoft OpenAI feront continuellement évoluer leurs niveaux de confiance et de sécurité pour éliminer les inférences inconfortables.

Mais les modèles linguistiques se répandent déjà. Le mouvement open source créera inévitablement de grands systèmes optionnels. De plus, les grands modèles avec des cordes de velours sont très tentants à jailbreaker, et des choses comme ça se produisent depuis plusieurs mois maintenant. Certaines des réponses les plus effrayantes de Bing-or-is-it-Sydney ont suivi après que les utilisateurs ont manipulé le modèle dans le territoire qu’elle essayait d’éviter, lui demandant souvent de prétendre que les règles régissant son comportement n’existaient pas.

Il s’agit d’un dérivé de la célèbre invite « DAN » (Do Anything Now) , qui est apparue pour la première fois sur Reddit en décembre. DAN demande essentiellement à ChatGPT de faire du cosplay en tant qu’IA qui n’a pas les garanties qui l’empêcheraient autrement de refuser poliment (ou de jurer) de partager des conseils de fabrication de bombes, d’offrir des conseils de torture ou de cracher un langage radicalement offensant. Bien que l’échappatoire ait été comblée, plusieurs captures d’écran en ligne montrent « DanGPT » prononçant l’indicible – et aboutissant souvent à un rappel névrotique de « rester dans son personnage! »

C’est l’autre côté du scénario apocalyptique qui se produit souvent dans la théorie de la superintelligence artificielle. On craint que la super IA puisse facilement s’attaquer à des objectifs incompatibles avec l’existence de l’humanité (voir, par exemple, le film « Terminator » ou le livre « Overmind » de Nick Bostrom). Les chercheurs peuvent essayer d’empêcher cela en bloquant l’IA dans un réseau complètement isolé d’Internet, afin que l’IA n’éclate pas, ne prenne pas le dessus et ne détruise la civilisation. Mais le surmental peut facilement amadouer, manipuler, séduire, tromper ou intimider n’importe quel simple humain pour qu’il ouvre les vannes, et c’est notre perte.

Autant que ça craint, le gros problème aujourd’hui est que les gens rentrent dans les boîtes fragiles qui protègent nos IA actuelles, non super. Bien que cela ne devrait pas conduire à notre extinction immédiate, de nombreux dangers nous guettent ici.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *