讓人工智慧模型「深呼吸」會導致數學成績在學習中飆升
Google DeepMind 研究人員最近開發了一種技術,透過使用其他 AI 模型來改進提示(告訴 AI 模型做什麼的書面指令),從而提高ChatGPT等AI 語言模型的數學能力。研究發現,使用人性化的鼓勵可以顯著提高數學技能,這與先前的結果一致。
在本月arXiv 上發布的一篇名為「大型語言模型作為優化器」的論文中,DeepMind 科學家介紹了Optimization by PROmpting (OPRO),這是一種提高大型語言模型(LLM) 性能的方法,例如OpenAI 的ChatGPT 和Google 的PaLM 。2 「自然語言」是表達人類日常言語的一種奇特方式。
研究人員寫道:「我們不是正式定義最佳化問題並使用程式設計求解器匯出更新步驟,而是用自然語言描述最佳化問題,然後指示法學碩士根據問題描述和先前的解決方案迭代生成新的解決方案。找到了解決方案。”
通常,在機器學習中,使用基於導數的優化器等演算法的技術可以作為提高人工智慧模型效能的指南。將模型的效能想像為圖表上的一條曲線:目標是找到該曲線上的最低點,因為這是模型犯錯最少的地方。透過使用曲線的斜率進行調整,優化器可以幫助模型越來越接近理想的低點,使其在執行任何設計任務時更加準確和高效。
OPRO 不依賴正式的數學定義來執行此任務,而是使用自然語言描述的「元提示」來為最佳化過程奠定基礎。然後,法學碩士根據問題的描述和先前的解決方案生成候選解決方案,並透過為每個解決方案分配品質分數來測試它們。
在 OPRO 中,兩個大型語言模型扮演著不同的角色:評分器 LLM 評估準確性等目標函數,而優化器 LLM 根據過去的結果和自然語言描述產生新的解決方案。評估計分器和優化器 LLM 的不同配對,包括PaLM 2和GPT變體等模型。OPRO 可以透過讓優化器迭代產生更高分的提示來優化評分器 LLM 的提示。這些分數可協助系統識別最佳解決方案,然後將其加回「元提示」以進行下一輪最佳化。
“深吸一口氣,一步一步地去做”
也許 DeepMind 研究中最有趣的部分是特定短語對輸出的影響。像「讓我們一步一步思考」這樣的短語促使每個人工智慧模型在針對數學問題資料集進行測試時產生更準確的結果。(由於一篇現在著名的題為「大型語言模型是零樣本推理機」的論文,這項技術於 2022 年 5 月廣為人知。)
考慮一個簡單的文字問題,例如“貝絲在一周內烘烤四兩批餅乾。如果這些 cookie 平均分配給 16 個人,那麼每個人會消耗多少個 cookie?」2022 年的論文發現,與其直接向聊天機器人提供這樣的應用題,不如在其前面加上「讓我們一步一步思考」。步驟”,然後貼上問題。AI 模型結果的準確性幾乎總是會提高,並且與 ChatGPT 配合得很好。
有趣的是,在這項最新研究中,DeepMind 研究人員發現,與 Google 的 PaLM 2 語言模型一起使用時,「深吸一口氣,逐步解決這個問題」是最有效的提示。該短語在GSM8K(小學數學應用題資料集)的測驗中獲得了 80.2% 的最高準確率。相較之下,PaLM 2 在沒有任何特殊提示的情況下,在 GSM8K 上的準確率僅為 34%,而經典的「讓我們一步一步思考」提示的準確率高達 71.8%。
那麼為什麼這會起作用呢?顯然,大型語言模型無法深呼吸,因為它們沒有肺或身體。他們也不像人類那樣思考和推理。他們所做的「推理」(「推理」在某些人中是一個有爭議的術語,儘管它很容易被用作人工智慧的藝術術語)是從書籍和網路上抓取的大量語言短語資料集借用的。這包括問答論壇之類的內容,其中包括許多「讓我們深呼吸」或「一步一步思考」的例子,然後再展示更仔細的推理解決方案。這些短語可能有助於法學碩士從訓練期間吸收到神經網路的資料集中得出更好的答案或產生更好的推理或解決問題的例子。
儘管找出為法學碩士提供人性化鼓勵的最佳方法對我們來說有點令人困惑,但這對 OPRO 來說不是問題,因為該技術利用大型語言模型來發現這些更有效的提示短語。DeepMind 研究人員認為,OPRO 的最大優勢在於它能夠篩選多種可能的提示,找到針對特定問題給予最佳結果的提示。這可以讓人們在未來從法學碩士中獲得更有用或更準確的結果。
發佈留言