Wenn man dem KI-Modell sagt, es solle „tief durchatmen“, steigen die Mathe-Ergebnisse beim Lernen in die Höhe

Wenn man dem KI-Modell sagt, es solle „tief durchatmen“, steigen die Mathe-Ergebnisse beim Lernen in die Höhe

Forscher von Google DeepMind haben kürzlich eine Technik entwickelt, um die mathematischen Fähigkeiten in KI-Sprachmodellen wie ChatGPT zu verbessern , indem sie andere KI-Modelle verwenden, um die Eingabeaufforderung zu verbessern – die schriftlichen Anweisungen, die dem KI-Modell sagen, was es tun soll. Es stellte sich heraus, dass der Einsatz menschlicher Ermutigung die mathematischen Fähigkeiten dramatisch verbesserte, was mit früheren Ergebnissen übereinstimmt.

In einem Artikel mit dem Titel „ Große Sprachmodelle als Optimierer “, der diesen Monat auf arXiv veröffentlicht wurde, stellten DeepMind-Wissenschaftler Optimization by PROmpting (OPRO) vor, eine Methode zur Verbesserung der Leistung großer Sprachmodelle (LLMs) wie ChatGPT von OpenAI und PaLM 2 von Google Der neue Ansatz umgeht die Einschränkungen traditioneller mathematikbasierter Optimierer, indem er natürliche Sprache verwendet, um LLMs bei der Problemlösung anzuleiten. „Natürliche Sprache“ ist eine ausgefallene Art, alltägliche menschliche Sprache auszudrücken.

„Anstatt das Optimierungsproblem formal zu definieren und den Aktualisierungsschritt mit einem programmierten Löser abzuleiten“, schreiben die Forscher, „beschreiben wir das Optimierungsproblem in natürlicher Sprache und weisen dann das LLM an, iterativ neue Lösungen basierend auf der Problembeschreibung und den vorherigen zu generieren.“ Lösungen gefunden.“

Typischerweise fungieren beim maschinellen Lernen Techniken, die Algorithmen wie ableitungsbasierte Optimierer verwenden , als Leitfaden für die Verbesserung der Leistung eines KI-Modells. Stellen Sie sich die Leistung eines Modells als Kurve in einem Diagramm vor: Das Ziel besteht darin, den niedrigsten Punkt auf dieser Kurve zu finden, da das Modell dort die wenigsten Fehler macht. Indem der Optimierer die Steigung der Kurve nutzt, um Anpassungen vorzunehmen, hilft er dem Modell, diesem idealen Tiefpunkt immer näher zu kommen, wodurch es bei jeder Aufgabe, für die es entwickelt wurde, genauer und effizienter wird.

Anstatt sich bei der Ausführung dieser Aufgabe auf formale mathematische Definitionen zu verlassen, verwendet OPRO in natürlicher Sprache beschriebene „Meta-Eingabeaufforderungen“, um die Voraussetzungen für den Optimierungsprozess zu schaffen. Das LLM generiert dann mögliche Lösungen auf der Grundlage der Problembeschreibung und früherer Lösungen und testet sie, indem es ihnen jeweils einen Qualitätsfaktor zuweist.

In OPRO spielen zwei große Sprachmodelle unterschiedliche Rollen: Ein Scorer-LLM bewertet die Zielfunktion wie Genauigkeit, während ein Optimierer-LLM neue Lösungen basierend auf früheren Ergebnissen und einer Beschreibung in natürlicher Sprache generiert. Es werden verschiedene Paarungen von Scorer- und Optimierer-LLMs bewertet, darunter Modelle wie PaLM 2 und GPT- Varianten. OPRO kann Eingabeaufforderungen für den Scorer-LLM optimieren, indem der Optimierer iterativ Eingabeaufforderungen mit höherer Bewertung generiert. Diese Bewertungen helfen dem System, die besten Lösungen zu identifizieren, die dann für die nächste Optimierungsrunde wieder in die „Meta-Eingabeaufforderung“ eingefügt werden.

„Atmen Sie tief ein und arbeiten Sie Schritt für Schritt daran.“

Der vielleicht faszinierendste Teil der DeepMind-Studie ist der Einfluss bestimmter Phrasen auf die Ausgabe. Sätze wie „Lass uns Schritt für Schritt denken“ führten dazu, dass jedes KI-Modell genauere Ergebnisse lieferte, wenn es anhand von Datensätzen zu mathematischen Problemen getestet wurde. (Diese Technik wurde im Mai 2022 durch einen mittlerweile berühmten Artikel mit dem Titel „ Large Language Models are Zero-Shot Reasoners “ weithin bekannt .)

Stellen Sie sich eine einfache Wortaufgabe vor, wie zum Beispiel: „Beth backt in einer Woche vier, zwei Dutzend Portionen Kekse.“ Wenn diese Cookies gleichmäßig auf 16 Personen aufgeteilt werden, wie viele Cookies verbraucht dann jede Person?“ In der Studie aus dem Jahr 2022 wurde herausgefunden, dass man einem Chatbot nicht einfach nur eine Wortaufgabe wie diese allein zufüttern würde, sondern stattdessen „Lass uns Schritt für Schritt nachdenken.“ voranstellen würde Schritt“ und fügen Sie dann das Problem ein. Die Genauigkeit der Ergebnisse des KI-Modells verbessert sich fast immer und es funktioniert gut mit ChatGPT.

Interessanterweise stellten DeepMind-Forscher in dieser neuesten Studie fest, dass „Atmen Sie tief durch und arbeiten Sie Schritt für Schritt an diesem Problem“ die effektivste Aufforderung ist, wenn sie mit dem PaLM 2-Sprachmodell von Google verwendet wird. Der Satz erreichte in Tests mit GSM8K , einem Datensatz mit mathematischen Wortaufgaben für Grundschulkinder, den höchsten Genauigkeitswert von 80,2 Prozent . Im Vergleich dazu erzielte PaLM 2 ohne spezielle Eingabeaufforderung auf GSM8K nur eine Genauigkeit von 34 Prozent, und die klassische Eingabeaufforderung „Lass uns Schritt für Schritt denken“ erzielte eine Genauigkeit von 71,8 Prozent.

Warum funktioniert das also? Offensichtlich können große Sprachmodelle nicht tief durchatmen, weil sie weder Lungen noch Körper haben. Sie denken und argumentieren auch nicht wie Menschen. Was sie für „Argumentation“ tun (und „Argumentation“ ist unter manchen ein umstrittener Begriff, obwohl er in der KI gerne als Kunstbegriff verwendet wird), ist einem riesigen Datensatz von Sprachphrasen entlehnt, die aus Büchern und dem Internet stammen. Dazu gehören Dinge wie Frage-und-Antwort-Foren, die viele Beispiele für „ Lass uns tief durchatmen “ oder „ Schritt für Schritt denken “ enthalten, bevor wir sorgfältiger begründete Lösungen aufzeigen. Diese Formulierungen können dem LLM helfen, bessere Antworten zu finden oder aus dem Datensatz, den es während des Trainings in sein neuronales Netzwerk aufgenommen hat, bessere Beispiele für Argumentation oder Problemlösung zu liefern.

Auch wenn es für uns ein wenig rätselhaft ist, herauszufinden, wie man LLMs am besten menschenähnliche Ermutigung geben kann, stellt das für OPRO kein Problem dar, da die Technik große Sprachmodelle verwendet, um diese effektiveren Aufforderungsphrasen zu entdecken. DeepMind-Forscher glauben, dass der größte Vorteil von OPRO in seiner Fähigkeit liegt, viele mögliche Eingabeaufforderungen zu sichten, um diejenige zu finden, die für ein bestimmtes Problem die besten Ergebnisse liefert. Dies könnte es den Menschen in Zukunft ermöglichen, mit LLMs weitaus nützlichere und genauere Ergebnisse zu erzielen.


Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 79

Warning: Undefined variable $html5 in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 82

Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 82

Warning: Undefined variable $consent in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 86

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert


Warning: Undefined array key "url" in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/inc/template-functions.php on line 315