Die generative KI-Revolution hat begonnen – wie sind wir dorthin gekommen?
Fortschritte bei Systemen der künstlichen Intelligenz scheinen oft zyklisch zu sein. Alle paar Jahre sind Computer plötzlich in der Lage, etwas zu tun, was sie vorher nie konnten. „Hier!“, verkünden wahre KI-Gläubige: „Das Zeitalter der künstlichen allgemeinen Intelligenz steht vor der Tür!“ „Unsinn!“, sagen Skeptiker. „Erinnern Sie sich an selbstfahrende Autos?“
Die Wahrheit liegt meist irgendwo in der Mitte.
Wir befinden uns in einem anderen Zyklus, dieses Mal mit generativer KI. Nachrichten über die Kunst der künstlichen Intelligenz dominieren die Schlagzeilen der Medien, doch auch in vielen völlig unterschiedlichen Bereichen gibt es beispiellose Fortschritte. In allen Bereichen, von Video über Biologie, Programmierung, Schreiben, Übersetzen und mehr, schreitet die KI im gleichen unglaublichen Tempo voran.
Warum passiert das alles jetzt?
Möglicherweise sind Sie mit den neuesten Entwicklungen in der Welt der KI vertraut. Sie haben preisgekrönte Arbeiten gesehen, Interviews von Toten gehört und über Durchbrüche bei der Proteinfaltung gelesen. Doch nicht nur in Forschungslaboren sorgen diese neuen KI-Systeme für coole Demos. Sie entwickeln sich schnell zu praktischen Werkzeugen und echten kommerziellen Produkten, die jeder nutzen kann.
Es gibt einen Grund, warum alles auf einmal passiert ist. Alle Errungenschaften basieren auf einer neuen Klasse von KI-Modellen, die flexibler und leistungsfähiger sind als alles, was es zuvor gab. Da sie ursprünglich für Sprachaufgaben wie das Beantworten von Fragen und das Schreiben von Aufsätzen verwendet wurden, werden sie oft als große Sprachmodelle (LLMs) bezeichnet. GPT3 von OpenAI, BERT von Google usw. sind allesamt LLMs.
Aber diese Modelle sind äußerst flexibel und anpassungsfähig. Dieselben mathematischen Strukturen haben sich in der Computervision, der Biologie und mehr als so nützlich erwiesen, dass einige Forscher sie „Mastermodelle“ nennen, um ihre Rolle in der modernen KI besser auszudrücken.
Woher kamen diese Grundmodelle und wie konnten sie aus der Sprache ausbrechen und das vorantreiben, was wir heute in der KI sehen?
Grundlage von Stiftungsmodellen
Beim maschinellen Lernen gibt es eine heilige Dreifaltigkeit: Modelle, Daten und Berechnungen. Modelle sind Algorithmen, die Eingaben entgegennehmen und Ausgaben erzeugen. Die Daten beziehen sich auf die Beispiele, an denen die Algorithmen trainiert werden. Um etwas zu lernen, müssen genügend Daten mit ausreichender Vollständigkeit vorliegen, damit die Algorithmen ein brauchbares Ergebnis liefern können. Modelle sollten flexibel genug sein, um die Komplexität der Daten widerzuspiegeln. Und schließlich muss genügend Rechenleistung vorhanden sein, um die Algorithmen auszuführen.
Die erste moderne KI-Revolution fand mit Deep Learning im Jahr 2012 statt, als mit der Lösung von Computer-Vision-Problemen mit Convolutional Neural Networks (CNNs) begonnen wurde. CNNs ähneln in ihrer Struktur dem visuellen Kortex. Sie gibt es schon seit den 1990er-Jahren, sind aber aufgrund der hohen Anforderungen an die Rechenleistung noch nicht praxistauglich.
Im Jahr 2006 veröffentlichte Nvidia jedoch CUDA, eine Programmiersprache, die es ermöglichte, GPUs als Allzweck-Supercomputer zu verwenden. Im Jahr 2009 führten KI-Forscher an der Stanford University Imagenet ein, eine Sammlung beschrifteter Bilder, die zum Trainieren von Computer-Vision-Algorithmen verwendet werden. Im Jahr 2012 kombinierte AlexNet GPU-trainierte CNNs mit Imagenet-Daten, um den besten visuellen Klassifikator zu erstellen, den die Welt je gesehen hat. Da brachen Deep Learning und künstliche Intelligenz hervor.
CNN, der ImageNet-Datensatz und GPUs waren die magische Kombination, die enorme Fortschritte in der Computer Vision ermöglichte. Das Jahr 2012 löste einen Boom des Interesses an Deep Learning aus und brachte ganze Branchen hervor, beispielsweise im Bereich des autonomen Fahrens. Wir erkannten jedoch schnell, dass dieser Generation des Deep Learning Grenzen gesetzt sind. CNNs waren gut für das Sehen, aber andere Bereiche hatten bei der Modellierung keinen Durchbruch. Eine große Lücke bestand in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), das heißt, Computer dazu zu bringen, normale menschliche Sprache statt Code zu verstehen und damit zu arbeiten.
Das Problem des Verstehens und Arbeitens mit Sprache unterscheidet sich grundlegend vom Problem des Arbeitens mit Bildern. Die Verarbeitungssprache erfordert die Arbeit mit Wortfolgen, bei denen die Reihenfolge wichtig ist. Eine Katze ist immer noch eine Katze, egal wo sie sich im Bild befindet, aber es gibt einen großen Unterschied zwischen „Dieser Leser wird etwas über KI erfahren“ und „KI wird etwas über diesen Leser erfahren“.
Bis vor Kurzem verließen sich Forscher auf Modelle wie rekurrente neuronale Netze (RNNs) und das Langzeit-Kurzzeitgedächtnis (LSTM), um Daten zeitnah zu verarbeiten und zu analysieren. Diese Modelle waren bei der Erkennung kurzer Sequenzen, etwa gesprochener Wörter aus kurzen Phrasen, effektiv, hatten jedoch Probleme mit längeren Sätzen und Absätzen. Es ist nur so, dass das Gedächtnis dieser Modelle nicht weit genug entwickelt ist, um die Komplexität und den Reichtum der Ideen und Konzepte zu erfassen, die beim Zusammenfügen von Sätzen zu Absätzen und Aufsätzen entstehen. Sie eigneten sich hervorragend für einfache Sprachassistenten im Stil von Siri und Alexa, mehr aber auch nicht.
Eine weitere Herausforderung war es, die richtigen Daten für das Training zu erhalten. Bei ImageNet handelte es sich um einen Satz von 100.000 beschrifteten Bildern, deren Erstellung erheblichen menschlichen Aufwand erforderte, hauptsächlich von Doktoranden und Mitarbeitern von Amazon Mechanical Turk. Und ImageNet wurde tatsächlich von einem älteren Projekt namens WordNet inspiriert und modelliert , das versuchte, einen beschrifteten Datensatz für den englischen Wortschatz zu erstellen. Während es im Internet keinen Mangel an Texten gibt, ist die Erstellung eines aussagekräftigen Datensatzes, um einem Computer beizubringen, mit menschlicher Sprache über einzelne Wörter hinaus umzugehen, unglaublich zeitaufwändig. Und Verknüpfungen, die Sie für eine Anwendung mit denselben Daten erstellen, gelten möglicherweise nicht für eine andere Aufgabe.
Schreibe einen Kommentar