Den generativa AI-revolutionen har börjat – hur kom vi dit?
Framsteg inom artificiell intelligens verkar ofta vara cykliska. Med några års mellanrum kan datorer plötsligt göra något de aldrig har kunnat göra tidigare. ”Här!”, förkunnar sanna troende inom AI: ”Den artificiella allmänna intelligensens ålder är nära!” ”Nonsens!” säger skeptiker. ”Kommer du ihåg självkörande bilar?”
Sanningen brukar ligga någonstans i mitten.
Vi är inne i en annan cykel, den här gången med generativ AI. Medierubrikerna domineras av nyheter om konsten att artificiell intelligens, men det sker också oöverträffade framsteg på många helt olika områden. Inom allt från video till biologi, programmering, skrivande, översättning och mer, går AI framåt i samma otroliga takt.
Varför händer allt detta nu?
Du kanske är bekant med den senaste utvecklingen inom AI-världen. Du har sett prisbelönt arbete, hört intervjuer från döda människor och läst om genombrott inom proteinveckning. Men dessa nya AI-system skapar inte bara coola demos i forskningslabb. De utvecklas snabbt till praktiska verktyg och sanna kommersiella produkter som alla kan använda.
Det finns en anledning till att allt hände på en gång. Alla prestationer är baserade på en ny klass av AI-modeller som är mer flexibla och kraftfulla än något som har kommit tidigare. Eftersom de först användes för språkuppgifter som att svara på frågor och skriva uppsatser, kallas de ofta för stora språkmodeller (LLMs). GPT3 från OpenAI, BERT från Google, etc. är alla LLM.
Men dessa modeller är extremt flexibla och anpassningsbara. Samma matematiska strukturer har visat sig vara så användbara inom datorseende, biologi och mer att vissa forskare har börjat kalla dem ”mästarmodeller” för att bättre formulera sin roll i modern AI.
Var kom dessa grundmodeller ifrån och hur bröt de ur språket för att driva det vi ser inom AI idag?
Grund för grundmodeller
Det finns en helig treenighet i maskininlärning: modeller, data och beräkningar. Modeller är algoritmer som tar input och producerar output. Uppgifterna hänvisar till de exempel på vilka algoritmerna tränas. För att lära sig något måste det finnas tillräckligt med data med tillräcklig fullständighet så att algoritmerna kan ge ett användbart resultat. Modeller bör vara tillräckligt flexibla för att återspegla datas komplexitet. Och slutligen måste det finnas tillräckligt med datorkraft för att köra algoritmerna.
Den första moderna AI-revolutionen inträffade med djupinlärning 2012, när man började lösa datorseendeproblem med konvolutionella neurala nätverk (CNN). CNN:er liknar den visuella cortex strukturen. De har funnits sedan 1990-talet men har ännu inte varit praktiska på grund av de höga kraven på datorkraft.
Men 2006 släppte Nvidia CUDA, ett programmeringsspråk som gjorde att GPU:er kunde användas som superdatorer för allmänna ändamål. 2009 introducerade AI-forskare vid Stanford Imagenet, en samling märkta bilder som används för att träna datorseendealgoritmer. 2012 kombinerade AlexNet GPU-utbildade CNN:er med Imagenet-data för att skapa den bästa visuella klassificeraren världen någonsin har sett. Djup inlärning och artificiell intelligens brast ut därifrån.
CNN, ImageNet-datauppsättningen och GPU:er var den magiska kombinationen som öppnade för enorma framsteg inom datorseende. 2012 utlöste ett uppsving i intresset för djupinlärning och skapade hela branscher, till exempel de som rör autonom körning. Men vi insåg snabbt att det fanns gränser för denna generation av djupinlärning. CNN var bra för synen, men andra områden fick inte sitt genombrott inom modellering. En stor lucka var i naturlig språkbehandling (NLP), det vill säga att få datorer att förstå och arbeta med normalt mänskligt språk snarare än kod.
Problemet med att förstå och arbeta med språk skiljer sig i grunden från problemet med att arbeta med bilder. Bearbetningsspråket kräver att man arbetar med ordsekvenser där ordning är viktig. En katt är fortfarande en katt oavsett var den är i bilden, men det är stor skillnad mellan ”den här läsaren kommer att lära sig om AI” och ”AI kommer att lära sig om den här läsaren”.
Fram till nyligen förlitade sig forskare på modeller som återkommande neurala nätverk (RNN) och långtidskorttidsminne (LSTM) för att bearbeta och analysera data i tid. Dessa modeller var effektiva på att känna igen korta sekvenser, såsom talade ord från korta fraser, men kämpade med längre meningar och stycken. Det är bara det att minnet av dessa modeller inte utvecklades tillräckligt för att fånga komplexiteten och rikedomen av idéer och begrepp som uppstår när man kombinerar meningar till stycken och essäer. De var bra för enkla röstassistenter i stil med Siri och Alexa, men inget mer.
Att få rätt data för träning var en annan utmaning. ImageNet var en uppsättning av 100 000 märkta bilder som krävde betydande mänsklig ansträngning, mestadels doktorander och Amazon Mechanical Turk-arbetare, för att skapa. Och ImageNet var faktiskt inspirerad och modellerad på ett äldre projekt som heter WordNet som försökte skapa en märkt datauppsättning för engelska ordförråd. Även om det inte finns någon brist på text på Internet, är det otroligt tidskrävande att skapa en meningsfull datauppsättning för att träna en dator att hantera mänskligt språk bortom enskilda ord. Och genvägar du skapar för ett program på samma data kanske inte gäller för en annan uppgift.
Lämna ett svar