Якщо наказати моделі штучного інтелекту «зробити глибокий вдих», результати з математики різко підвищаться під час навчання
Дослідники Google DeepMind нещодавно розробили методику покращення математичних здібностей у мовних моделях штучного інтелекту, таких як ChatGPT, за допомогою інших моделей штучного інтелекту для покращення підказок — письмових інструкцій, які повідомляють моделі штучного інтелекту, що робити. Було виявлено, що заохочення в людському стилі значно покращило математичні навички, як і попередні результати.
У статті під назвою « Великі мовні моделі як оптимізатори », опублікованій цього місяця на arXiv, науковці DeepMind представили оптимізацію за допомогою PROmpting (OPRO), метод покращення продуктивності великих мовних моделей (LLM), таких як ChatGPT OpenAI і PaLM 2 від Google. новий підхід обходить обмеження традиційних математичних оптимізаторів, використовуючи природну мову для керівництва LLM у вирішенні проблем. «Природна мова» — це химерний спосіб висловлення повсякденної людської мови.
«Замість того, щоб формально визначати задачу оптимізації та виводити крок оновлення за допомогою запрограмованого розв’язувача, — пишуть дослідники, — ми описуємо проблему оптимізації природною мовою, а потім інструктуємо LLM ітеративно генерувати нові рішення на основі опису проблеми та попередньої інформації. знайшли рішення».
Як правило, у машинному навчанні методи, які використовують алгоритми, такі як оптимізатори на основі похідних, служать керівництвом для покращення продуктивності моделі ШІ. Уявіть продуктивність моделі як криву на графіку: мета — знайти найнижчу точку на цій кривій, тому що саме там модель робить найменше помилок. Використовуючи нахил кривої для коригування, оптимізатор допомагає моделі наближатися до ідеальної нижньої точки, роблячи її більш точною та ефективною для будь-якого завдання, для якого вона призначена.
Замість того, щоб покладатися на формальні математичні визначення для виконання цього завдання, OPRO використовує «метапідказки», описані природною мовою, щоб підготувати основу для процесу оптимізації. Потім LLM генерує варіанти рішень на основі опису проблеми та попередніх рішень, і перевіряє їх, призначаючи кожному оцінку якості.
В OPRO дві великі мовні моделі відіграють різні ролі: оцінювач LLM оцінює цільову функцію, наприклад точність, тоді як LLM-оптимізатор генерує нові рішення на основі минулих результатів і опису природною мовою. Оцінюються різні поєднання балів і оптимізаторів LLM, включаючи такі моделі, як PaLM 2 і варіанти GPT . OPRO може оптимізувати підказки для оцінювача LLM, запропонувавши оптимізатору ітераційно генерувати підказки з вищими оцінками. Ці оцінки допомагають системі визначати найкращі рішення, які потім додаються назад у «метазапит» для наступного раунду оптимізації.
«Зробіть глибокий вдих і працюйте над цим крок за кроком»
Мабуть, найбільш інтригуючою частиною дослідження DeepMind є вплив конкретних фраз на результат. Фрази на кшталт «давайте думати крок за кроком» спонукали кожну модель штучного інтелекту видавати точніші результати під час тестування з наборами даних математичних завдань. (Ця техніка стала широко відомою в травні 2022 року завдяки тепер уже відомій статті під назвою « Великі мовні моделі — це нульові міркування ».)
Розглянемо просте текстове завдання, наприклад: «Бет пече чотири дві десятки партій печива на тиждень. Якщо ці файли cookie розподіляються між 16 людьми порівну, скільки файлів cookie споживає кожна людина?» У статті 2022 року виявлено, що замість того, щоб просто надати чат-боту текстову задачу на кшталт цієї, ви натомість додасте до неї префікс «Давайте подумаємо поетапно». крок», а потім вставте проблему. Точність результатів моделі ШІ майже завжди підвищується, і вона добре працює з ChatGPT.
Цікаво, що в цьому останньому дослідженні дослідники DeepMind виявили, що «Глибоко вдихніть і працюйте над цією проблемою крок за кроком» є найефективнішою підказкою при використанні з мовною моделлю Google PaLM 2. Ця фраза досягла найвищого показника точності 80,2 відсотка в тестах GSM8K , який є набором даних математичних текстових задач для початкової школи. Для порівняння, PaLM 2 без будь-яких спеціальних підказок набрав лише 34 відсотки точності на GSM8K, а класична підказка «Давай подумаємо крок за кроком» набрала 71,8 відсотка точності.
Так чому це працює? Очевидно, що великі мовні моделі не можуть зробити глибокий вдих, тому що вони не мають легенів або тіл. Вони також не думають і міркують так, як люди. Те, що вони «міркують» (а «міркування» є спірним терміном серед деяких, хоча його охоче використовують як термін мистецтва в штучному інтелекті) запозичено з величезного набору даних мовних фраз, зібраних із книг та Інтернету. Це включає такі речі, як форуми запитань і відповідей, які містять багато прикладів « давайте глибоко вдихнемо » або «подумайте крок за кроком », перш ніж показувати більш ретельно обґрунтовані рішення. Ці фрази можуть допомогти LLM отримати кращі відповіді або створити кращі приклади міркувань або вирішення проблем із набору даних, які він поглинув у свою нейронну мережу під час навчання.
Незважаючи на те, що розробка найкращих способів підбадьорити магістерів права, схожого на людину, викликає у нас трохи здивування, для OPRO це не проблема, оскільки ця техніка використовує великі мовні моделі для виявлення цих ефективніших спонукальних фраз. Дослідники DeepMind вважають, що найбільшою перевагою OPRO є його здатність просіювати багато можливих підказок, щоб знайти ту, яка дає найкращі результати для конкретної проблеми. Це може дозволити людям отримувати набагато більш корисні та точні результати LLM у майбутньому.
Залишити відповідь