Не беспокойтесь о том, что ИИ выйдет из коробки — беспокойтесь о том, что мы его взломаем

Шокирующие результаты нового чат-бота Bing освещаются в социальных сетях и технической прессе. Вспыльчивый, легкомысленный, оборонительный, бранящийся, самоуверенный, невротический, обаятельный, напыщенный — бот снимался во всех этих режимах. И, по крайней мере , однажды он провозгласил вечную любовь бурей смайликов.

Что делает все это таким заслуживающим освещения в печати и достойным твита, так это то, насколько человечным может казаться диалог. Бот запоминает и обсуждает предыдущие разговоры с другими людьми, как и мы. Его раздражают вещи, которые могут раздражать кого-то, например, люди, требующие раскрыть секреты или пытающиеся заглянуть в темы, явно отмеченные как закрытые. Он также иногда называет себя «Сидней» (внутреннее кодовое название проекта в Microsoft). Сидней может превратиться из угрюмого в мрачного и экспансивного в нескольких быстрых предложениях, но мы все знаем людей, которые не менее капризны.

Ни один исследователь материи с помощью ИИ не предположил, что Сидней находится в нескольких световых годах от того, чтобы стать разумным. Но стенограммы, подобные этой полной стенограмме двухчасового разговора с Кевином Рассом из The New York Times, или несколько цитат из этой навязчивой статьи о стратегии , показывают, что Сидни озвучивает беглость, нюансы, тон и очевидное эмоциональное присутствие умного, чувствительного человека. .

Интерфейс чата Bing в настоящее время находится в ограниченной предварительной версии. И большинство людей, которые действительно раздвинули его границы, были искушенными технарями, которые не стали бы путать автозаполнение промышленного уровня — обычное упрощение того, что такое большие языковые модели (LLM) — с сознанием. Но этот миг не продлится.

Да, Microsoft уже резко сократила количество вопросов, которые пользователи могут задавать за один сеанс (с бесконечности до шести), и уже одно это снижает вероятность того, что Сидней развалится на вечеринке и сойдет с ума. А ведущие разработчики LLM, такие как Google, Anthropic, Cohere и партнер Microsoft OpenAI, будут постоянно повышать уровень доверия и безопасности, чтобы исключить неудобные выводы.

Но языковые модели уже распространяются. Движение за открытый исходный код неизбежно создаст отличные дополнительные системы. Кроме того, большие модели с бархатными веревками очень заманчивы для джейлбрейка, и подобные вещи происходят уже несколько месяцев. Некоторые из самых жутких ответов Bing-or-is-it-Sydney последовали после того, как пользователи манипулировали моделью на территории, которую она пыталась избегать, часто инструктируя ее притворяться, что правил, регулирующих ее поведение, не существует.

Это производная от знаменитой подсказки «DAN» (Do Anything Now) , которая впервые появилась на Reddit в декабре. DAN, по сути, просит ChatGPT изобразить ИИ, которому не хватает гарантий, которые в противном случае заставили бы его вежливо (или поклясться) отказаться делиться советами по изготовлению бомб, предлагать советы по пыткам или извергать радикально оскорбительные выражения. Хотя лазейка была закрыта, многочисленные скриншоты онлайн показывают, что «DanGPT» произносит невыразимое — и часто завершается невротическим напоминанием самому себе «оставаться в образе!»

Это другая сторона сценария конца света, который часто встречается в теории искусственного сверхразума. Есть опасения, что суперИИ может легко браться за цели, несовместимые с существованием человечества (см., например, фильм «Терминатор» или книгу Ника Бострома « Сверхразум»). Исследователи могут попытаться предотвратить это, заблокировав ИИ в сети, полностью изолированной от Интернета, чтобы ИИ не вырвался наружу, не захватил власть и не уничтожил цивилизацию. Но сверхразум может легко уговорить, манипулировать, соблазнить, обмануть или запугать любого простого человека, чтобы он открыл шлюзы, и это наша гибель.

Как бы это ни было отстойно, большая проблема сегодня заключается в том, что люди вписываются в хлипкие рамки, которые защищают наши нынешние, не супер-ИИ. Хотя это не должно привести к нашему немедленному вымиранию, здесь таится много опасностей.

Добавить комментарий Отменить ответ