Wie ChatGPT generative KI in ein „Alles-Werkzeug“ verwandelte

Wie ChatGPT generative KI in ein „Alles-Werkzeug“ verwandelte

Der Chief Technology Officer eines Robotik-Startups sagte mir Anfang des Jahres: „Wir dachten, wir müssten viel Arbeit leisten, um ‚ChatGPT für Robotik‘ zu entwickeln.“ Stattdessen stellt sich heraus, dass ChatGPT in vielen Fällen ChatGPT für die Robotik ist.“

Bis vor Kurzem waren KI-Modelle spezialisierte Werkzeuge. Der Einsatz von KI in einem bestimmten Bereich wie der Robotik bedeutete, Zeit und Geld in die Erstellung von KI-Modellen speziell und nur für diesen Bereich zu investieren. Beispielsweise wurde AlphaFold von Google, ein KI-Modell zur Vorhersage der Proteinfaltung, anhand von Proteinstrukturdaten trainiert und ist nur für die Arbeit mit Proteinstrukturen nützlich.

Daher war dieser Gründer der Meinung, dass das Robotikunternehmen, um von der generativen KI zu profitieren, seine eigenen spezialisierten generativen KI-Modelle für die Robotik entwickeln müsste. Stattdessen stellte das Team fest, dass sie in vielen Fällen handelsübliches ChatGPT zur Steuerung ihrer Roboter verwenden konnten, ohne dass die KI jemals speziell dafür trainiert worden wäre.

Ähnliches habe ich von Technologen gehört, die in allen Bereichen arbeiten, von der Krankenversicherung bis zum Halbleiterdesign. Um ChatGPT zu erstellen, einen Chatbot, der es Menschen ermöglicht, generative KI zu nutzen, indem sie einfach ein Gespräch führen, musste OpenAI große Sprachmodelle (LLMs) wie GPT3 ändern, um besser auf menschliche Interaktion zu reagieren.

Aber vielleicht unbeabsichtigt ermöglichen dieselben Änderungen, dass die Nachfolger von GPT3, wie GPT3.5 und GPT4, als leistungsstarke, universelle Informationsverarbeitungswerkzeuge verwendet werden können – Werkzeuge, die nicht von dem Wissen abhängig sind, auf dem das KI-Modell ursprünglich trainiert wurde die Anwendungen, für die das Modell trainiert wurde. Dafür müssen die KI-Modelle ganz anders genutzt werden – Programmieren statt Chatten, neue Daten statt Training. Aber es ebnet den Weg dafür, dass KI eher für allgemeine Zwecke als für spezielle Zwecke eingesetzt wird und eher zu einem „Alles-Werkzeug“ wird.

Wie sind wir hierher gekommen?

Grundlagen: Wahrscheinlichkeit, Gradientenabstieg und Feinabstimmung

Nehmen wir uns einen Moment Zeit, um darauf einzugehen, wie die LLMs, die generative KI vorantreiben, funktionieren und wie sie trainiert werden.

LLMs wie GPT4 sind probabilistisch; Sie nehmen eine Eingabe und sagen die Wahrscheinlichkeit von Wörtern und Phrasen voraus, die sich auf diese Eingabe beziehen. Anschließend generieren sie eine Ausgabe, die angesichts der Eingabe am wahrscheinlichsten geeignet ist. Es ist wie eine sehr raffinierte automatische Vervollständigung: Nehmen Sie einen Text und sagen Sie mir, was als nächstes kommt. Im Grunde bedeutet es, dass generative KI nicht in einem Kontext von „richtig und falsch“ lebt, sondern eher in einem Kontext von „mehr und weniger wahrscheinlich“.

Probabilistisch zu sein hat Stärken und Schwächen. Die Schwächen sind bekannt: Generative KI kann unvorhersehbar und ungenau sein und dazu neigen, nicht nur schlechte Ergebnisse zu produzieren, sondern diese auch auf eine Art und Weise zu produzieren, die man nie erwarten würde. Es bedeutet aber auch, dass die KI in einer Weise unvorhersehbar leistungsfähig und flexibel sein kann, wie es bei herkömmlichen, regelbasierten Systemen nicht möglich ist. Wir müssen diese Zufälligkeit nur sinnvoll gestalten.

Hier ist eine Analogie. Vor der Quantenmechanik glaubten die Physiker, dass das Universum auf vorhersehbare, deterministische Weise funktionierte. Die Zufälligkeit der Quantenwelt war zunächst ein Schock, aber wir haben gelernt, die Quantenverrücktheit anzunehmen und sie dann praktisch anzuwenden. Quantentunneln ist grundsätzlich stochastisch, kann aber so gesteuert werden, dass Teilchen in vorhersehbaren Mustern springen. Dies führte dazu, dass Halbleiter und Chips das Gerät antreiben, über das Sie diesen Artikel lesen. Akzeptieren Sie nicht einfach, dass Gott mit dem Universum würfelt – lernen Sie, wie man die Würfel lädt.

Dasselbe gilt auch für KI. Wir trainieren die neuronalen Netze, aus denen LLMs bestehen, mithilfe einer Technik namens „Gradientenabstieg“. Der Gradientenabstieg untersucht die Ausgaben, die ein Modell erzeugt, vergleicht diese mit Trainingsdaten und berechnet dann eine „Richtung“, um die Parameter des neuronalen Netzwerks so anzupassen, dass die Ausgaben „korrekter“ werden – das heißt, sie ähneln eher den Trainingsdaten die KI ist gegeben. Im Fall unserer magischen automatischen Vervollständigung bedeutet eine korrektere Antwort, dass der Ausgabetext mit größerer Wahrscheinlichkeit der Eingabe folgt.

Wahrscheinlichkeitsmathematik ist eine großartige Möglichkeit für Computer, mit Wörtern umzugehen. Bei der Berechnung, wie wahrscheinlich es ist, dass einige Wörter anderen Wörtern folgen, zählt man nur, und mit „wie vielen“ kann ein Computer viel einfacher arbeiten als mit „mehr richtig oder mehr falsch“. Erstellen Sie eine Ausgabe, vergleichen Sie sie mit den Trainingsdaten und passen Sie sie an. Spülen und wiederholen Sie, nehmen Sie viele kleine, inkrementelle Verbesserungen vor, und schließlich verwandeln Sie ein neuronales Netzwerk, das Kauderwelsch ausspuckt, in etwas, das zusammenhängende Sätze produziert. Und diese Technik kann auch auf Bilder, DNA-Sequenzen und mehr angewendet werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert