Исследователи Google DeepMind недавно разработали метод улучшения математических способностей в языковых моделях ИИ, таких как ChatGPT , используя другие модели ИИ для улучшения подсказок — письменных инструкций, которые сообщают модели ИИ, что делать. Было обнаружено, что использование человеческого поощрения значительно улучшило математические навыки, что соответствует предыдущим результатам.
В статье под названием « Большие языковые модели как оптимизаторы », опубликованной в этом месяце на arXiv, ученые DeepMind представили оптимизацию с помощью PROmpting (OPRO), метод повышения производительности больших языковых моделей (LLM), таких как ChatGPT OpenAI и PaLM 2 от Google. новый подход обходит ограничения традиционных математических оптимизаторов, используя естественный язык для руководства LLM при решении проблем. «Естественный язык» — это причудливый способ произнесения повседневной человеческой речи.
«Вместо формального определения задачи оптимизации и получения шага обновления с помощью запрограммированного решателя, — пишут исследователи, — мы описываем задачу оптимизации на естественном языке, а затем поручаем LLM итеративно генерировать новые решения на основе описания проблемы и ранее полученных результатов». нашел решения».
Обычно в машинном обучении методы, использующие такие алгоритмы, как оптимизаторы на основе производных, служат руководством для повышения производительности модели ИИ. Представьте себе производительность модели в виде кривой на графике: цель состоит в том, чтобы найти самую низкую точку на этой кривой, потому что именно здесь модель допускает меньше всего ошибок. Используя наклон кривой для внесения корректировок, оптимизатор помогает модели приближаться все ближе и ближе к идеальной нижней точке, делая ее более точной и эффективной при выполнении любой задачи, для выполнения которой она предназначена.
Вместо того, чтобы полагаться на формальные математические определения для выполнения этой задачи, OPRO использует «мета-подсказки», описанные на естественном языке, чтобы подготовить почву для процесса оптимизации. Затем LLM генерирует возможные решения на основе описания проблемы и предыдущих решений и тестирует их, присваивая каждому оценку качества.
В OPRO две большие языковые модели играют разные роли: оценщик LLM оценивает целевую функцию, например точность, а оптимизатор LLM генерирует новые решения на основе прошлых результатов и описания на естественном языке. Оцениваются различные пары LLM системы оценки и оптимизатора, включая такие модели, как варианты PaLM 2 и GPT . OPRO может оптимизировать подсказки для LLM оценщика, заставляя оптимизатор итеративно генерировать подсказки с более высокими оценками. Эти оценки помогают системе определить лучшие решения, которые затем добавляются обратно в «мета-подсказку» для следующего раунда оптимизации.
«Сделайте глубокий вдох и работайте над этим шаг за шагом»
Возможно, самая интригующая часть исследования DeepMind — это влияние конкретных фраз на результаты. Фразы вроде «давайте думать шаг за шагом» побуждали каждую модель ИИ давать более точные результаты при тестировании на наборах данных математических задач. (Этот метод стал широко известен в мае 2022 года благодаря знаменитой ныне статье под названием « Большие языковые модели — это рассуждения с нулевым выстрелом ».)
Рассмотрим простую словесную задачу, например: «Бет испечет четыре партии печенья по две дюжины в неделю. Если эти файлы cookie будут поровну распределены между 16 людьми, сколько файлов cookie потребляет каждый человек?» шаг», а затем вставьте задачу. Точность результатов модели ИИ почти всегда повышается, и она хорошо работает с ChatGPT.
Интересно, что в своем последнем исследовании исследователи DeepMind обнаружили, что «Сделайте глубокий вдох и работайте над этой проблемой шаг за шагом» является наиболее эффективной подсказкой при использовании с языковой моделью Google PaLM 2. Фраза достигла максимального показателя точности 80,2 процента в тестах на GSM8K , который представляет собой набор данных школьных математических задач. Для сравнения, PaLM 2 без каких-либо специальных подсказок набрал лишь 34 процента точности на GSM8K, а классическая подсказка «Давайте подумаем шаг за шагом» набрала точность 71,8 процента.
Так почему же это работает? Очевидно, что большие языковые модели не могут глубоко дышать, потому что у них нет легких и тела. Они также не думают и рассуждают, как люди. То, что они «рассуждают» (а «рассуждение» является спорным термином среди некоторых, хотя его охотно используют как художественный термин в ИИ), заимствовано из огромного набора данных языковых фраз, взятых из книг и Интернета. Сюда входят такие вещи, как форумы вопросов и ответов, которые включают множество примеров « давайте сделаем глубокий вдох » или «подумайте шаг за шагом », прежде чем показывать более тщательно обоснованные решения. Эти фразы могут помочь LLM получить лучшие ответы или предоставить лучшие примеры рассуждений или решения проблем на основе набора данных, которые он впитал в свою нейронную сеть во время обучения.
Несмотря на то, что разработка лучших способов поощрения LLM по-человечески вызывает у нас некоторое недоумение, для OPRO это не проблема, поскольку этот метод использует большие языковые модели для обнаружения этих более эффективных подсказок. Исследователи DeepMind считают, что самым большим достижением OPRO является его способность анализировать множество возможных подсказок, чтобы найти ту, которая дает наилучшие результаты для конкретной проблемы. Это может позволить людям получать гораздо более полезные и точные результаты от LLM в будущем.