AIモデルに「深呼吸してください」と指示すると、勉強の数学の得点が急上昇する

AIモデルに「深呼吸してください」と指示すると、勉強の数学の得点が急上昇する

Google DeepMind の研究者は最近、他の AI モデルを使用してプロンプト (AI モデルに何をすべきかを指示する書面による指示) を改善することで、ChatGPTなどのAI 言語モデルの数学能力を向上させる手法を開発しました。以前の結果と一致して、人間流の励ましを使用すると数学のスキルが劇的に向上することがわかりました。

arXiv に今月掲載された「オプティマイザーとしての大規模言語モデル」と呼ばれる論文で、DeepMind の科学者は、OpenAI の ChatGPT や Google の PaLM 2 などの大規模言語モデル (LLM) のパフォーマンスを向上させる手法である Optimization by PROmpting (OPRO) を紹介しまし。新しいアプローチは、自然言語を使用して LLM の問題解決をガイドすることで、従来の数学ベースのオプティマイザーの制限を回避します。「自然言語」とは、人間の日常的な会話を表現する派手な方法です。

研究者らは、「最適化問題を正式に定義し、プログラムされたソルバーで更新ステップを導き出す代わりに、最適化問題を自然言語で記述し、LLM に問題の記述と以前の解法に基づいて新しい解を繰り返し生成するように指示します」と書いています。解決策を見つけました。」

通常、機械学習では、微分ベースのオプティマイザーなどのアルゴリズムを使用する手法が、AI モデルのパフォーマンスを向上させるためのガイドとして機能します。モデルのパフォーマンスをグラフ上の曲線として想像してください。目標は、モデルが最もミスが少ない点であるため、この曲線上の最低点を見つけることです。オプティマイザーは、曲線の傾きを使用して調整を行うことで、モデルがその理想的な最低点にどんどん近づき、実行するように設計されたタスクにおいてモデルの精度と効率が向上します。

このタスクを実行するために正式な数学的定義に依存するのではなく、OPRO は自然言語で記述された「メタプロンプト」を使用して、最適化プロセスの準備を整えます。次に、LLM は問題の説明と以前の解決策に基づいて解決策の候補を生成し、それぞれに品質スコアを割り当ててテストします。

OPRO では、2 つの大きな言語モデルが異なる役割を果たします。スコアラー LLM は精度などの目的関数を評価し、オプティマイザー LLM は過去の結果と自然言語記述に基づいて新しいソリューションを生成します。PaLM 2GPTバリアントなどのモデルを含め、スコアラーとオプティマイザー LLM のさまざまな組み合わせが評価されます。OPRO は、オプティマイザーに高スコアのプロンプトを繰り返し生成させることで、スコアラー LLM のプロンプトを最適化できます。これらのスコアは、システムが最適なソリューションを特定するのに役立ち、そのソリューションは次の最適化ラウンドの「メタ プロンプト」に再度追加されます。

「深呼吸して、一歩ずつ取り組んでください」

おそらく、DeepMind の研究で最も興味深い部分は、出力に対する特定のフレーズの影響です。「ステップバイステップで考えてみましょう」のようなフレーズは、各 AI モデルが数学の問題データセットに対してテストされたときに、より正確な結果を生成するように促しました。(この手法は、「 Large Language Models are Zero-Shot Reasoners 」という今では有名な論文のおかげで、2022 年 5 月に広く知られるようになりました。)

「ベスは 1 週間に 24 個のクッキーを 4 回焼きます。」のような簡単な文章問題を考えてみましょう。「これらの Cookie が 16 人で均等に共有される場合、各人は何個の Cookie を消費しますか?」 2022 年の論文では、チャットボットにこのような文章の問題をそのまま与えるのではなく、「ステップバイで考えてみましょう」という接頭辞を付けるべきであることがわかりました。ステップ」を選択し、問題を貼り付けます。AI モデルの結果の精度はほぼ常に向上しており、ChatGPT とうまく連携します。

興味深いことに、この最新の研究では、DeepMind の研究者は、Google の PaLM 2 言語モデルで使用すると、「深呼吸して、この問題に一歩ずつ取り組む」ことが最も効果的なプロンプトであることを発見しました。このフレーズは、小学校の算数の文章問題のデータ セットであるGSM8Kに対するテストで、80.2 パーセントという最高の精度スコアを達成しました。比較すると、PaLM 2 は、特別なプロンプトを表示しなかった場合、GSM8K では 34 パーセントの精度しか記録できず、古典的な「ステップバイステップで考えてみましょう」プロンプトでは 71.8 パーセントの精度を記録しました。

では、なぜこれが機能するのでしょうか? 明らかに、大きな言語モデルには肺や体がないため、深呼吸することができません。彼らは人間のように考えたり推論したりすることもありません。彼らが行う「推論」(そして「推論」という用語は一部の人の間で議論の余地がありますが、AI の専門用語として容易に使用されます)は、書籍や Web から収集した言語フレーズの膨大なデータ セットから借用したものです。これには、より慎重に根拠のある解決策を示す前に、 「深呼吸してみましょう」または「段階的に考えてみましょう」という多くの例が含まれる Q&A フォーラムなどが含まれます。これらのフレーズは、LLM がトレーニング中にニューラル ネットワークに吸収したデータ セットからより良い答えを導き出したり、推論や問題解決のより良い例を生成したりするのに役立つ可能性があります。

LLM に人間のような励ましを与える最善の方法を見つけるのは私たちにとって少し戸惑いますが、OPRO にとっては問題ではありません。この技術では大規模な言語モデルを利用して、より効果的な励ましのフレーズを発見できるからです。DeepMind の研究者らは、OPRO の最大の利点は、考えられる多くのプロンプトをふるいにかけ、特定の問題に対して最良の結果をもたらすプロンプトを見つける能力であると考えています。これにより、将来的には、LLM からはるかに有用または正確な結果を生成できるようになる可能性があります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です