Nakazanie modelowi sztucznej inteligencji, aby „wziął głęboki oddech”, powoduje, że wyniki z matematyki gwałtownie rosną w nauce
Badacze Google DeepMind opracowali niedawno technikę poprawy zdolności matematycznych w modelach językowych sztucznej inteligencji, takich jak ChatGPT , poprzez wykorzystanie innych modeli sztucznej inteligencji w celu usprawnienia podpowiedzi — pisemnych instrukcji, które mówią modelowi sztucznej inteligencji, co ma robić. Ustalono, że zgodnie z wcześniejszymi wynikami stosowanie zachęt w stylu ludzkim radykalnie poprawiło umiejętności matematyczne.
W artykule zatytułowanym „ Large Language Models as Optimizers ” zamieszczonym w tym miesiącu na arXiv naukowcy z DeepMind wprowadzili optymalizację przez PROmpting (OPRO), metodę poprawiającą wydajność dużych modeli językowych (LLM), takich jak ChatGPT OpenAI i PaLM 2 Google. nowe podejście pozwala ominąć ograniczenia tradycyjnych optymalizatorów matematycznych, wykorzystując język naturalny jako wskazówki dla osób LLM w rozwiązywaniu problemów. „Język naturalny” to fantazyjny sposób wyrażenia codziennej ludzkiej mowy.
„Zamiast formalnie definiować problem optymalizacji i wyprowadzać etap aktualizacji za pomocą programowanego solwera” – piszą badacze – „opisujemy problem optymalizacji w języku naturalnym, a następnie instruujemy LLM, aby iteracyjnie generował nowe rozwiązania w oparciu o opis problemu i wcześniej znaleźć rozwiązania.”
Zazwyczaj w uczeniu maszynowym techniki wykorzystujące algorytmy, takie jak optymalizatory oparte na pochodnych, służą jako wskazówki umożliwiające poprawę wydajności modelu sztucznej inteligencji. Wyobraź sobie wydajność modelu jako krzywą na wykresie: celem jest znalezienie najniższego punktu na tej krzywej, ponieważ tam model popełnia najmniej błędów. Wykorzystując nachylenie krzywej do wprowadzenia korekt, optymalizator pomaga modelowi coraz bardziej zbliżać się do idealnego najniższego punktu, dzięki czemu jest on dokładniejszy i wydajniejszy przy każdym zadaniu, do którego został zaprojektowany.
Zamiast polegać na formalnych definicjach matematycznych, aby wykonać to zadanie, OPRO wykorzystuje „metapodpowiedzi” opisane w języku naturalnym, aby przygotować grunt pod proces optymalizacji. Następnie LLM generuje potencjalne rozwiązania na podstawie opisu problemu i poprzednich rozwiązań, a następnie testuje je, przypisując każdemu wynik jakości.
W OPRO dwa duże modele językowe odgrywają różne role: scoringowy LLM ocenia funkcję celu, taką jak dokładność, podczas gdy optymalizator LLM generuje nowe rozwiązania w oparciu o wcześniejsze wyniki i opis w języku naturalnym. Oceniane są różne pary LLM strzelca i optymalizatora, w tym modele takie jak warianty PaLM 2 i GPT . OPRO może zoptymalizować podpowiedzi dla oceniającego LLM, pozwalając optymalizatorowi iteracyjnie generować podpowiedzi o wyższej punktacji. Wyniki te pomagają systemowi zidentyfikować najlepsze rozwiązania, które następnie są ponownie dodawane do „metapodpowiedzi” w następnej rundzie optymalizacji.
„Weź głęboki oddech i pracuj nad tym krok po kroku”
Być może najbardziej intrygującą częścią badania DeepMind jest wpływ określonych fraz na wynik. Zwroty takie jak „pomyślmy krok po kroku” skłoniły każdy model sztucznej inteligencji do uzyskania dokładniejszych wyników w porównaniu ze zbiorami danych związanych z problemami matematycznymi. (Technika ta stała się szeroko znana w maju 2022 r. dzięki słynnemu obecnie artykułowi zatytułowanemu „ Large Language Models are Zero-Shot Reasoners ”).
Rozważ proste zadanie tekstowe, na przykład: „Beth piecze cztery lub dwa tuziny ciasteczek tygodniowo. Jeśli te pliki cookie zostaną równo podzielone między 16 osób, ile plików cookie zjada każda osoba?” W artykule z 2022 r. odkryto, że zamiast po prostu podawać chatbotowi takie zadanie tekstowe, zamiast tego można je poprzedzić słowami „Pomyślmy krok po kroku step”, a następnie wklej problem. Dokładność wyników modelu AI prawie zawsze się poprawia i działa dobrze z ChatGPT.
Co ciekawe, w najnowszym badaniu badacze DeepMind odkryli, że „Weź głęboki oddech i pracuj nad tym problemem krok po kroku” jest najskuteczniejszą podpowiedzią w przypadku korzystania z modelu języka Google PaLM 2. Fraza uzyskała najwyższy wynik dokładności wynoszący 80,2% w testach z modułem GSM8K , który jest zbiorem danych dotyczących zadań tekstowych z matematyki dla szkół podstawowych. Dla porównania, PaLM 2, bez żadnego specjalnego podpowiedzi, uzyskał jedynie 34% dokładności w GSM8K, a klasyczna zachęta „Pomyślmy krok po kroku” uzyskała 71,8% dokładności.
Dlaczego więc to działa? Oczywiście modele o dużym języku nie mogą wziąć głębokiego oddechu, ponieważ nie mają płuc ani ciał. Oni też nie myślą i nie rozumują jak ludzie. To, co robią „rozumując” (a „rozumowanie” jest terminem kontrowersyjnym wśród niektórych, choć jest chętnie używany jako termin artystyczny w sztucznej inteligencji) jest zapożyczone z ogromnego zbioru danych fraz językowych pobranych z książek i Internetu. Obejmuje to fora pytań i odpowiedzi, które zawierają wiele przykładów „ weźmy głęboki oddech ” lub „pomyślmy krok po kroku ”, zanim pokażemy bardziej przemyślane rozwiązania. Zwroty te mogą pomóc LLM w uzyskaniu lepszych odpowiedzi lub stworzeniu lepszych przykładów rozumowania lub rozwiązywania problemów na podstawie zestawu danych zaabsorbowanego przez sieć neuronową podczas szkolenia.
Chociaż znalezienie najlepszych sposobów zapewniania LLM ludzkiej zachęty jest dla nas nieco zagadkowe, dla OPRO nie stanowi to problemu, ponieważ technika ta wykorzystuje duże modele językowe w celu odkrycia bardziej skutecznych zwrotów podpowiedzi. Badacze z DeepMind uważają, że największą zaletą OPRO jest umiejętność przeglądania wielu możliwych podpowiedzi w celu znalezienia tego, które daje najlepsze wyniki w przypadku konkretnego problemu. Może to umożliwić w przyszłości uzyskiwanie znacznie bardziej użytecznych i dokładnych wyników z LLM.
Dodaj komentarz