Den generative AI-revolution er begyndt – hvordan nåede vi dertil?
Fremskridt inden for kunstig intelligens-systemer synes ofte at være cyklisk. Hvert par år er computere pludselig i stand til at gøre noget, de aldrig har været i stand til før. “Her!”, proklamerer de sande troende i AI: “Den kunstige generel intelligens er på vej!” “Pludder!” siger skeptikere. “Husker du selvkørende biler?”
Sandheden ligger normalt et sted i midten.
Vi er i en anden cyklus, denne gang med generativ AI. Mediernes overskrifter er domineret af nyheder om kunsten at kunstig intelligens, men der er også en hidtil uset fremgang på mange helt uensartede områder. Inden for alt fra video til biologi, programmering, skrivning, oversættelse og mere udvikler AI sig i samme utrolige tempo.
Hvorfor sker alt dette nu?
Du er måske bekendt med den seneste udvikling inden for kunstig intelligens. Du har set prisvindende arbejde, hørt interviews fra døde mennesker og læst om gennembrud inden for proteinfoldning. Men disse nye AI-systemer skaber ikke kun fede demoer i forskningslaboratorier. De udvikler sig hurtigt til praktiske værktøjer og ægte kommercielle produkter, som alle kan bruge.
Der er en grund til, at det hele skete på én gang. Alle præstationer er baseret på en ny klasse af AI-modeller, der er mere fleksible og kraftfulde end noget, der er kommet før. Fordi de først blev brugt til sproglige opgaver som at besvare spørgsmål og skrive essays, omtales de ofte som store sprogmodeller (LLM’er). GPT3 fra OpenAI, BERT fra Google osv. er alle LLM’er.
Men disse modeller er ekstremt fleksible og tilpasningsdygtige. De samme matematiske strukturer har vist sig at være så nyttige inden for computersyn, biologi og mere, at nogle forskere har taget til at kalde dem “mestermodeller” for bedre at formulere deres rolle i moderne kunstig intelligens.
Hvor kom disse grundlæggende modeller fra, og hvordan brød de ud af sproget for at drive det, vi ser i AI i dag?
Grundlag for funderingsmodeller
Der er en hellig treenighed i maskinlæring: modeller, data og beregninger. Modeller er algoritmer, der tager input og producerer output. Dataene refererer til de eksempler, som algoritmerne trænes på. For at lære noget, skal der være nok data med tilstrækkelig fuldstændighed, så algoritmerne kan give et brugbart resultat. Modeller bør være fleksible nok til at afspejle kompleksiteten af dataene. Og endelig skal der være nok computerkraft til at køre algoritmerne.
Den første moderne AI-revolution fandt sted med deep learning i 2012, da løsningen af computersynsproblemer med konvolutionelle neurale netværk (CNN’er) begyndte. CNN’er ligner i strukturen den visuelle cortex. De har eksisteret siden 1990’erne, men har endnu ikke været praktiske på grund af de høje krav til computerkraft.
Men i 2006 udgav Nvidia CUDA, et programmeringssprog, der tillod GPU’er at blive brugt som supercomputere til generelle formål. I 2009 introducerede AI-forskere ved Stanford Imagenet, en samling af mærkede billeder, der bruges til at træne computersynsalgoritmer. I 2012 kombinerede AlexNet GPU-trænede CNN’er med Imagenet-data for at skabe den bedste visuelle klassificering, verden nogensinde har set. Dyb læring og kunstig intelligens brager ud derfra.
CNN, ImageNet-datasættet og GPU’er var den magiske kombination, der åbnede op for store fremskridt inden for computervision. 2012 udløste et boom i interessen for dyb læring og affødte hele industrier, såsom dem, der er relateret til autonom kørsel. Men vi indså hurtigt, at der var grænser for denne generation af dyb læring. CNN’er var gode til synet, men andre områder fik ikke deres gennembrud inden for modellering. Et stort hul var i naturlig sprogbehandling (NLP), det vil sige at få computere til at forstå og arbejde med normalt menneskeligt sprog frem for kode.
Problemet med at forstå og arbejde med sprog er fundamentalt anderledes end problemet med at arbejde med billeder. Bearbejdningssproget kræver, at man arbejder med sekvenser af ord, hvor rækkefølge er vigtig. En kat er stadig en kat, uanset hvor den er på billedet, men der er stor forskel mellem “denne læser vil lære om AI” og “AI vil lære om denne læser”.
Indtil for nylig stolede forskere på modeller som tilbagevendende neurale netværk (RNN’er) og langtidskorttidshukommelse (LSTM) til at behandle og analysere data rettidigt. Disse modeller var effektive til at genkende korte sekvenser, såsom talte ord fra korte sætninger, men kæmpede med længere sætninger og afsnit. Det er bare, at hukommelsen om disse modeller ikke blev udviklet nok til at fange kompleksiteten og rigdommen af ideer og begreber, der opstår, når man kombinerer sætninger i afsnit og essays. De var gode til simple stemmeassistenter i stil med Siri og Alexa, men intet mere.
At få de rigtige data til træning var en anden udfordring. ImageNet var et sæt på 100.000 mærkede billeder, der krævede betydelig menneskelig indsats, for det meste kandidatstuderende og Amazon Mechanical Turk-arbejdere, for at skabe. Og ImageNet var faktisk inspireret og modelleret på et ældre projekt kaldet WordNet , der forsøgte at skabe et mærket datasæt til engelsk ordforråd. Selvom der ikke er mangel på tekst på internettet, er det utroligt tidskrævende at generere et meningsfuldt datasæt til at træne en computer til at håndtere menneskeligt sprog ud over individuelle ord. Og genveje, du opretter til én applikation på de samme data, gælder muligvis ikke for en anden opgave.
Skriv et svar