AI 모델에게 “심호흡”을 지시하면 수학 점수가 치솟는 연구 결과가 있습니다.
Google DeepMind 연구원은 최근 다른 AI 모델을 사용하여 프롬프트(AI 모델에 수행할 작업을 알려주는 서면 지침)를 개선함으로써 ChatGPT 와 같은 AI 언어 모델 의 수학 능력을 향상시키는 기술을 개발했습니다 . 인간적인 격려를 사용하면 이전 결과와 마찬가지로 수학 능력이 극적으로 향상된다는 사실이 밝혀졌습니다.
이번 달 arXiv에 게재된 ” Large Language Models as Optimizers ” 라는 논문에서 DeepMind 과학자들은 OpenAI의 ChatGPT 및 Google의 PaLM 2와 같은 LLM(대규모 언어 모델)의 성능을 향상시키는 방법인 Optimization by PROmpting(OPRO)을 소개했습니다. 새로운 접근 방식은 자연어를 사용하여 LLM의 문제 해결을 안내함으로써 기존 수학 기반 최적화 프로그램의 한계를 피합니다. “자연어”는 일상적인 인간의 말을 표현하는 멋진 방법입니다.
연구원들은 “최적화 문제를 공식적으로 정의하고 프로그래밍된 솔버를 사용하여 업데이트 단계를 도출하는 대신 자연어로 최적화 문제를 설명한 다음 LLM에 문제 설명과 이전 솔루션을 기반으로 반복적으로 새로운 솔루션을 생성하도록 지시합니다. 해결책을 찾았습니다.”
일반적으로 머신러닝에서는 파생 기반 최적화 프로그램 과 같은 알고리즘을 사용하는 기술이 AI 모델의 성능을 향상시키기 위한 가이드 역할을 합니다. 모델의 성능을 그래프의 곡선으로 상상해 보십시오. 목표는 이 곡선에서 모델이 가장 적은 실수를 하는 지점인 가장 낮은 지점을 찾는 것입니다. 곡선의 기울기를 사용하여 조정함으로써 최적화 프로그램은 모델이 이상적인 최저점에 점점 더 가까워지도록 지원하여 수행하도록 설계된 모든 작업에서 모델을 더욱 정확하고 효율적으로 만듭니다.
이 작업을 수행하기 위해 공식적인 수학적 정의에 의존하는 대신 OPRO는 자연어로 설명된 “메타 프롬프트”를 사용하여 최적화 프로세스의 단계를 설정합니다. 그런 다음 LLM은 문제 설명과 이전 솔루션을 기반으로 후보 솔루션을 생성하고 각 솔루션에 품질 점수를 할당하여 테스트합니다.
OPRO에서는 두 가지 대규모 언어 모델이 서로 다른 역할을 합니다. 채점자 LLM은 정확성과 같은 목적 함수를 평가하고, 최적화 LLM은 과거 결과와 자연어 설명을 기반으로 새로운 솔루션을 생성합니다. PaLM 2 및 GPT 변형 과 같은 모델을 포함하여 다양한 스코어러 및 최적화 LLM 쌍이 평가됩니다 . OPRO는 최적화 프로그램이 더 높은 점수의 프롬프트를 반복적으로 생성하도록 하여 득점자 LLM에 대한 프롬프트를 최적화할 수 있습니다. 이러한 점수는 시스템이 최상의 솔루션을 식별하는 데 도움이 되며, 이 솔루션은 다음 최적화 라운드를 위해 ‘메타 프롬프트’에 다시 추가됩니다.
“심호흡을 하고 단계별로 진행해 보세요”
아마도 DeepMind 연구에서 가장 흥미로운 부분은 특정 문구가 결과에 미치는 영향일 것입니다. “단계적으로 생각해보자”와 같은 문구는 수학 문제 데이터 세트에 대해 테스트할 때 각 AI 모델이 더 정확한 결과를 생성하도록 유도했습니다. (이 기술은 현재 유명해진 ” Large Language Models are Zero-Shot Reasoners “라는 제목의 논문 덕분에 2022년 5월에 널리 알려졌습니다.)
다음과 같은 간단한 단어 문제를 생각해 보세요. “Beth는 일주일에 24개의 쿠키 배치 4개를 굽습니다. 이 쿠키를 16명이 동등하게 공유한다면 각 사람은 몇 개의 쿠키를 소비합니까?” 2022년 논문에서는 챗봇에게 이와 같은 단어 문제를 자동으로 제공하는 대신 “단계적으로 생각해 봅시다”라는 접두사를 붙인다는 사실을 발견했습니다. 단계”를 선택한 후 문제를 붙여넣으세요. AI 모델 결과의 정확성은 거의 항상 향상되며 ChatGPT와도 잘 작동합니다.
흥미롭게도, 이번 최신 연구에서 DeepMind 연구자들은 “심호흡을 하고 이 문제를 단계별로 해결해 보세요”가 Google의 PaLM 2 언어 모델과 함께 사용될 때 가장 효과적인 프롬프트라는 것을 발견했습니다. 이 문구는 초등학교 수학 단어 문제 데이터 세트인 GSM8K 에 대한 테스트에서 최고 정확도 80.2%를 달성했습니다 . 이에 비해 PaLM 2는 특별한 프롬프트 없이 GSM8K에서 34%의 정확도를 기록했고, 고전적인 “단계별로 생각해보자” 프롬프트는 71.8%의 정확도를 기록했습니다.
그럼 이것이 왜 작동하는 걸까요? 분명히, 대형 언어 모델은 폐나 신체가 없기 때문에 심호흡을 할 수 없습니다. 그들은 인간처럼 생각하고 추론하지도 않습니다. 그들이 하는 “추론”(및 “추론”은 AI에서 예술 용어로 쉽게 사용되지만 일부에서는 논쟁의 여지가 있는 용어임)은 책과 웹에서 스크랩한 언어 문구의 방대한 데이터 세트에서 차용한 것입니다. 여기에는 좀 더 신중하게 추론된 솔루션을 보여주기 전에 ” 심호흡을 해보자 ” 또는 ” 단계별로 생각해보자 ” 의 많은 예가 포함된 Q&A 포럼과 같은 것들이 포함됩니다 . 이러한 문구는 LLM이 더 나은 답변을 활용하거나 훈련 중에 신경망에 흡수된 데이터 세트에서 추론 또는 문제 해결의 더 나은 예를 생성하는 데 도움이 될 수 있습니다.
LLM에게 인간과 같은 격려를 제공하는 최선의 방법을 찾는 것이 우리에게는 약간 당혹스럽더라도 OPRO에서는 문제가 되지 않습니다. 왜냐하면 이 기술은 대규모 언어 모델을 활용하여 보다 효과적인 유도 문구를 발견하기 때문입니다. DeepMind 연구원들은 OPRO의 가장 큰 승리는 특정 문제에 대해 최상의 결과를 제공하는 프롬프트를 찾기 위해 가능한 많은 프롬프트를 선별하는 능력이라고 생각합니다. 이를 통해 사람들은 미래에 LLM에서 훨씬 더 유용하고 정확한 결과를 얻을 수 있습니다.
답글 남기기