De generatieve AI-revolutie is begonnen – hoe zijn we daar gekomen?
Vooruitgang in kunstmatige-intelligentiesystemen lijkt vaak cyclisch te zijn. Om de paar jaar kunnen computers ineens iets doen wat ze nog nooit eerder hebben kunnen doen. “Hier!” Echte gelovigen in AI verkondigen: “Het tijdperk van kunstmatige algemene intelligentie is nabij!” “Onzin!” zeggen sceptici. “Herinner je je zelfrijdende auto’s?”
De waarheid ligt meestal ergens in het midden.
We zitten in een andere cyclus, deze keer met generatieve AI. De krantenkoppen worden gedomineerd door nieuws over de kunst van kunstmatige intelligentie, maar er is ook een ongekende vooruitgang op veel totaal verschillende gebieden. In alles, van video tot biologie, programmeren, schrijven, vertalen en meer, ontwikkelt AI zich in hetzelfde ongelooflijke tempo.
Waarom gebeurt dit nu allemaal?
Wellicht ben je bekend met de laatste ontwikkelingen in de wereld van AI. Je hebt bekroond werk gezien, interviews van dode mensen gehoord en gelezen over doorbraken in het vouwen van eiwitten. Maar deze nieuwe AI-systemen creëren niet alleen coole demo’s in onderzoekslaboratoria. Ze evolueren snel naar praktische tools en echte commerciële producten die iedereen kan gebruiken.
Er is een reden waarom het allemaal tegelijk gebeurde. Alle prestaties zijn gebaseerd op een nieuwe klasse AI-modellen die flexibeler en krachtiger zijn dan alles wat eerder is gemaakt. Omdat ze in eerste instantie werden gebruikt voor taaltaken zoals het beantwoorden van vragen en het schrijven van essays, worden ze vaak grote taalmodellen (LLM’s) genoemd. GPT3 van OpenAI, BERT van Google, etc. zijn allemaal LLM’s.
Maar deze modellen zijn uiterst flexibel en aanpasbaar. Dezelfde wiskundige structuren zijn zo nuttig gebleken in computervisie, biologie en meer dat sommige onderzoekers ze “meestermodellen” hebben genoemd om hun rol in moderne AI beter te verwoorden.
Waar kwamen deze basismodellen vandaan en hoe braken ze uit de taal om te leiden tot wat we tegenwoordig in AI zien?
Basis van funderingsmodellen
Er is een heilige drie-eenheid in machine learning: modellen, data en berekeningen. Modellen zijn algoritmen die input nemen en output produceren. De data verwijst naar de voorbeelden waarop de algoritmen zijn getraind. Om iets te leren, moeten er voldoende gegevens zijn met voldoende volledigheid zodat de algoritmen een bruikbaar resultaat kunnen opleveren. Modellen moeten flexibel genoeg zijn om de complexiteit van de gegevens te weerspiegelen. En tot slot moet er voldoende rekenkracht zijn om de algoritmen uit te voeren.
De eerste moderne AI-revolutie vond plaats met deep learning in 2012, toen het oplossen van computervisieproblemen met convolutionele neurale netwerken (CNN’s) begon. CNN’s zijn qua structuur vergelijkbaar met de visuele cortex. Ze bestaan al sinds de jaren negentig, maar waren nog niet praktisch vanwege de hoge eisen aan rekenkracht.
In 2006 bracht Nvidia echter CUDA uit, een programmeertaal waarmee GPU’s konden worden gebruikt als supercomputers voor algemeen gebruik. In 2009 introduceerden AI-onderzoekers van Stanford Imagenet, een verzameling gelabelde afbeeldingen die worden gebruikt om algoritmen voor computervisie te trainen. In 2012 combineerde AlexNet GPU-getrainde CNN’s met Imagenet-gegevens om de beste visuele classificatie te creëren die de wereld ooit heeft gezien. Diep leren en kunstmatige intelligentie barsten los.
CNN, de ImageNet-dataset en GPU’s waren de magische combinatie die enorme vooruitgang op het gebied van computervisie mogelijk maakte. In 2012 nam de belangstelling voor deep learning enorm toe en ontstonden hele industrieën, zoals die met betrekking tot autonoom rijden. Maar we realiseerden ons al snel dat er grenzen waren aan deze generatie van diep leren. CNN’s waren goed voor het gezichtsvermogen, maar andere gebieden bereikten geen doorbraak in modellering. Een enorm gat zat in natuurlijke taalverwerking (NLP), dat wil zeggen, computers ertoe brengen normale menselijke taal te begrijpen en ermee te werken in plaats van code.
Het probleem van het begrijpen van en werken met taal verschilt fundamenteel van het probleem van het werken met beelden. De verwerkingstaal vereist het werken met reeksen woorden waarbij volgorde belangrijk is. Een kat is nog steeds een kat, ongeacht waar hij zich in de afbeelding bevindt, maar er is een groot verschil tussen “deze lezer leert over AI” en “AI leert over deze lezer”.
Tot voor kort vertrouwden onderzoekers op modellen zoals terugkerende neurale netwerken (RNN’s) en langetermijngeheugen (LSTM) om gegevens tijdig te verwerken en te analyseren. Deze modellen waren effectief in het herkennen van korte reeksen, zoals gesproken woorden uit korte zinnen, maar hadden moeite met langere zinnen en paragrafen. Het geheugen van deze modellen was alleen niet voldoende ontwikkeld om de complexiteit en rijkdom van ideeën en concepten vast te leggen die ontstaan bij het combineren van zinnen in paragrafen en essays. Ze waren geweldig voor eenvoudige stemassistenten in de stijl van Siri en Alexa, maar meer ook niet.
Het verkrijgen van de juiste gegevens voor training was een andere uitdaging. ImageNet was een set van 100.000 gelabelde afbeeldingen die aanzienlijke menselijke inspanning vereisten, voornamelijk afgestudeerde studenten en Amazon Mechanical Turk-medewerkers, om te maken. En ImageNet was eigenlijk geïnspireerd en gemodelleerd naar een ouder project genaamd WordNet dat probeerde een gelabelde dataset voor Engelse woordenschat te creëren. Hoewel er geen gebrek is aan tekst op het internet, is het ongelooflijk tijdrovend om een zinvolle dataset te genereren om een computer te trainen om met menselijke taal om te gaan die verder gaat dan individuele woorden. En snelkoppelingen die u maakt voor één toepassing op dezelfde gegevens, zijn mogelijk niet van toepassing op een andere taak.
Geef een reactie