Tekoälyvallankumous on alkanut – miten pääsimme sinne?

Tekoälyvallankumous on alkanut – miten pääsimme sinne?

Tekoälyjärjestelmien kehitys näyttää usein olevan syklistä. Muutaman vuoden välein tietokoneet pystyvät yhtäkkiä tekemään jotain, mitä he eivät ole koskaan ennen kyenneet tekemään. ”Tässä!” todelliset tekoälyyn uskovat julistavat: ”Yleisen tekoälyn aika on käsillä!” ”Hölynpölyä!” skeptikot sanovat. ”Muistatko itse ajavat autot?”

Totuus on yleensä jossain puolivälissä.

Olemme toisessa syklissä, tällä kertaa generatiivisen tekoälyn kanssa. Mediaotsikoita hallitsevat uutiset tekoälyn taiteesta, mutta edistystä on tapahtunut myös ennennäkemättömällä tavalla monilla täysin erilaisilla aloilla. Kaikessa videosta biologiaan, ohjelmointiin, kirjoittamiseen, kääntämiseen ja muuhun, tekoäly etenee samaa uskomatonta vauhtia.

Miksi tämä kaikki tapahtuu nyt?

Saatat olla perehtynyt tekoälyn maailman uusimpiin tapahtumiin. Olet nähnyt palkittuja töitä, kuullut haastatteluja kuolleilta ihmisiltä ja lukenut läpimurroista proteiinien laskostuksessa. Mutta nämä uudet tekoälyjärjestelmät eivät luo vain hienoja demoja tutkimuslaboratorioissa. Ne kehittyvät nopeasti käytännöllisiksi työkaluiksi ja todellisiksi kaupallisiksi tuotteiksi, joita kuka tahansa voi käyttää.

On syy, miksi kaikki tapahtui kerralla. Kaikki saavutukset perustuvat uuteen tekoälymallien luokkaan, jotka ovat joustavampia ja tehokkaampia kuin mikään aiemmin. Koska niitä käytettiin ensin kielitehtäviin, kuten kysymyksiin vastaamiseen ja esseiden kirjoittamiseen, niitä kutsutaan usein suuriksi kielimalleiksi (LLM). OpenAI:n GPT3, Googlen BERT jne. ovat kaikki LLM:itä.

Mutta nämä mallit ovat erittäin joustavia ja mukautuvia. Samat matemaattiset rakenteet ovat osoittautuneet niin hyödyllisiksi tietokonenäössä, biologiassa ja muussa, että jotkut tutkijat ovat alkaneet kutsua niitä ”mestarimalleiksi” ilmaistakseen paremmin roolinsa nykyaikaisessa tekoälyssä.

Mistä nämä perusmallit tulivat ja miten ne irrottivat kielen ja vaikuttivat siihen, mitä näemme tekoälyssä nykyään?

Perustusmallien perusteet

Koneoppimisessa on pyhä kolminaisuus: mallit, data ja laskelmat. Mallit ovat algoritmeja, jotka ottavat syötteen ja tuottavat tulosteen. Tiedot viittaavat esimerkkeihin, joiden perusteella algoritmeja opetetaan. Jotta jotain voidaan oppia, dataa on oltava riittävästi ja riittävän täydellistä, jotta algoritmit voivat tuottaa hyödyllisen tuloksen. Mallien tulee olla riittävän joustavia heijastamaan tietojen monimutkaisuutta. Ja lopuksi, laskentatehoa on oltava tarpeeksi algoritmien suorittamiseen.

Ensimmäinen moderni tekoälyvallankumous tapahtui syvän oppimisen myötä vuonna 2012, kun tietokonenäköongelmia alettiin ratkaista konvoluutiohermoverkkojen (CNN) avulla. CNN:t ovat rakenteeltaan samanlaisia ​​kuin visuaalinen aivokuori. Ne ovat olleet käytössä 1990-luvulta lähtien, mutta ne eivät ole vielä olleet käytännöllisiä laskentatehon korkeiden vaatimusten vuoksi.

Vuonna 2006 Nvidia kuitenkin julkaisi CUDA:n, ohjelmointikielen, joka salli GPU:n käytön yleiskäyttöisinä supertietokoneina. Vuonna 2009 Stanfordin tekoälytutkijat esittelivät Imagenetin, kokoelman merkittyjä kuvia, joita käytetään tietokonenäköalgoritmien kouluttamiseen. Vuonna 2012 AlexNet yhdisti GPU-koulutetut CNN:t Imagenet-dataan luodakseen parhaan visuaalisen luokituksen, jonka maailma on koskaan nähnyt. Syväoppiminen ja tekoäly puhkesi sieltä.

CNN, ImageNet-tietojoukko ja GPU:t olivat maaginen yhdistelmä, joka avasi valtavan edistyksen tietokonenäön alalla. 2012 herätti kiinnostuksen syvään oppimiseen ja synnytti kokonaisia ​​toimialoja, kuten autonomiseen ajamiseen liittyviä. Mutta tajusimme nopeasti, että tällä syvällisen oppimisen sukupolvella oli rajansa. CNN:t olivat hyviä näön kannalta, mutta muilla aloilla ei ollut läpimurtoa mallintamisessa. Yksi valtava aukko oli luonnollisen kielen käsittelyssä (NLP), toisin sanoen tietokoneiden saamisessa ymmärtämään normaalia ihmiskieltä koodin sijaan ja toimimaan sen kanssa.

Kielen ymmärtämisen ja sen kanssa työskentelyn ongelma on pohjimmiltaan erilainen kuin kuvien kanssa työskentelyn ongelma. Käsittelykieli edellyttää työskentelyä sanajonojen kanssa, joissa järjestys on tärkeä. Kissa on edelleen kissa riippumatta siitä, missä se on kuvassa, mutta ”tämä lukija oppii tekoälystä” ja ”AI oppii tästä lukijasta” välillä on suuri ero.

Viime aikoihin asti tutkijat luottivat malleihin, kuten toistuviin hermoverkkoihin (RNN) ja pitkäaikaiseen lyhytaikaiseen muistiin (LSTM), prosessoidakseen ja analysoidakseen tietoja oikea-aikaisesti. Nämä mallit tunnistivat tehokkaasti lyhyitä jaksoja, kuten puhuttuja sanoja lyhyistä lauseista, mutta ne kamppailivat pitkien lauseiden ja kappaleiden kanssa. Kyse on vain siitä, että näiden mallien muistia ei ole kehitetty tarpeeksi vangitsemaan ideoiden ja käsitteiden monimutkaisuutta ja rikkautta, joka syntyy, kun lauseita yhdistetään kappaleiksi ja esseiksi. Ne olivat hyviä yksinkertaisille ääniavustajille Sirin ja Alexan tyyliin, mutta ei sen enempää.

Oikeiden tietojen saaminen harjoittelua varten oli toinen haaste. ImageNet oli joukko 100 000 merkittyä kuvaa, joiden luominen vaati merkittäviä inhimillisiä ponnistuksia, enimmäkseen jatko-opiskelijoita ja Amazon Mechanical Turk -työntekijöitä. Ja ImageNet oli itse asiassa inspiroitunut ja mallinnettu vanhemmasta WordNet- projektista , joka yritti luoda merkittyä tietojoukkoa englannin sanastolle. Vaikka Internetissä ei ole pulaa tekstistä, mielekkään tietojoukon luominen tietokoneen kouluttamiseksi käsittelemään ihmisten kieltä yksittäisten sanojen lisäksi on uskomattoman aikaa vievää. Ja yhdelle sovellukselle samoilla tiedoilla luomasi pikakuvakkeet eivät välttämättä koske toista tehtävää.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *