Не хвилюйтеся, що штучний інтелект вийде з коробки – хвилюйтесь, що ми його зламаємо

Не хвилюйтеся, що штучний інтелект вийде з коробки – хвилюйтесь, що ми його зламаємо

Соціальні мережі та технічна преса висвітлюють шокуючі результати нового чат-бота Bing. Запальний, легковажний, оборонний, докорливий, самовпевнений, невротичний, чарівний, помпезний – бот знятий у всіх цих режимах. І принаймні один раз він оголосив про вічне кохання за допомогою бурі емодзі.

Що робить все це таким новинним і твітним, так це те, наскільки людським може здаватися діалог. Бот запам’ятовує та обговорює попередні розмови з іншими людьми, як і ми. Його дратують речі, які можуть когось дратувати, наприклад люди, які вимагають знати секрети або намагаються зазирнути в теми, які були явно позначені як заборонені. Він також іноді називає себе «Сідні» (внутрішня кодова назва проекту в Microsoft). Кількома швидкими реченнями Сідней може переходити від похмурого до похмурого та експансивного, але всі ми знаємо людей, які принаймні такі ж примхливі.

Жоден дослідник матерії ШІ не припустив, що Сідней знаходиться в межах світлових років від того, щоб стати розумним. Але стенограми, подібні до цієї повної стенограми двогодинної розмови з Кевіном Рассом із The New York Times, або численні цитати з цієї нав’язливої ​​статті про стратегію показують, що Сідні висловлює плавність, нюанси, тон і очевидну емоційну присутність розумної, чуйної людини. .

Інтерфейс чату Bing наразі знаходиться в обмеженій попередній версії. І більшість людей, які дійсно розширювали її межі, були досвідченими технарями, які не плутали автозаповнення промислового рівня – що є звичайним спрощенням того, що таке великі мовні моделі (LLM) – зі свідомістю. Але ця мить не триватиме.

Так, Microsoft вже суттєво зменшила кількість запитань, які користувачі можуть поставити під час одного сеансу (з нескінченності до шести), і лише це зменшує ймовірність того, що Сідней зірватиме вечірку та зійде з розуму. А найкращі розробники LLM, такі як Google, Anthropic, Cohere та партнер Microsoft OpenAI, постійно вдосконалюватимуть свої рівні довіри та безпеки, щоб усунути незручні висновки.

Але мовні моделі вже поширюються. Рух відкритого коду неминуче створить кілька чудових додаткових систем. Крім того, великі моделі з оксамитовими мотузками дуже тягнуть до джейлбрейку, і подібні речі відбуваються вже кілька місяців. Деякі з найстрашніших відповідей Bing-or-is-it-Sydney послідували після того, як користувачі маніпулювали моделлю на територію, яку вона намагалася уникнути, часто наказуючи їй робити вигляд, що правил, які регулюють її поведінку, не існує.

Це похідне від відомої підказки «DAN» (Do Anything Now) , яка вперше з’явилася на Reddit у грудні. DAN, по суті, просить ChatGPT зробити косплей як штучний інтелект, якому бракує гарантій, які інакше змусили б ввічливо (або лаятися) відмовлятися ділитися порадами щодо виготовлення бомб, пропонувати поради щодо тортур або викидати радикально образливу мову. Незважаючи на те, що лазівку було закрито, численні скріншоти в Інтернеті показують, як «DanGPT» вимовляє невимовне – і часто завершується невротичним нагадуванням самому собі «залишатися характером!»

Це інший бік сценарію кінця світу, який часто зустрічається в теорії штучного суперінтелекту. Є побоювання, що суперштучний інтелект легко може взяти на себе цілі, несумісні з існуванням людства (див., наприклад, фільм «Термінатор» або книгу Ніка Бострома « Надрозум»). Дослідники можуть спробувати запобігти цьому, заблокувавши ШІ в мережі, повністю ізольованій від Інтернету, щоб ШІ не вирвався, захопив і не знищив цивілізацію. Але надрозум може легко умовити, маніпулювати, спокусити, обдурити або залякати будь-яку просту людину, щоб вона відкрила шлюзи, і це наша загибель.

Як би це не було погано, велика проблема сьогодні полягає в тому, що люди вписуються в тендітні коробки, які захищають наш поточний, несупер штучний інтелект. Хоча це не повинно призвести до нашого негайного зникнення, тут ховається багато небезпек.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *