Generativní revoluce umělé inteligence začala – jak jsme se tam dostali?
Pokrok v systémech umělé inteligence se často zdá být cyklický. Každých pár let jsou počítače najednou schopné udělat něco, co nikdy předtím neuměly. „Tady!“ praví věřící v AI prohlašují: „Věk umělé obecné inteligence je na dosah!“ „Nesmysl!“ říkají skeptici. „Pamatujete na samořídící auta?“
Pravda je většinou někde uprostřed.
Jsme v dalším cyklu, tentokrát s generativní AI. Mediálním titulkům dominují zprávy o umění umělé inteligence, ale také dochází k nebývalému pokroku v mnoha zcela nesourodých oblastech. Ve všem, od videa po biologii, programování, psaní, překlady a další, AI postupuje stejně neuvěřitelným tempem.
Proč se to všechno děje teď?
Možná znáte nejnovější vývoj ve světě umělé inteligence. Viděli jste oceněné práce, slyšeli jste rozhovory s mrtvými lidmi a četli jste o průlomech ve skládání proteinů. Tyto nové systémy umělé inteligence však nevytvářejí pouze skvělá dema ve výzkumných laboratořích. Rychle se vyvíjejí v praktické nástroje a skutečné komerční produkty, které může používat každý.
Existuje důvod, proč se to všechno stalo najednou. Všechny úspěchy jsou založeny na nové třídě modelů umělé inteligence, které jsou flexibilnější a výkonnější než cokoli, co bylo předtím. Protože byly poprvé použity pro jazykové úkoly, jako je odpovídání na otázky a psaní esejí, jsou často označovány jako velké jazykové modely (LLM). GPT3 od OpenAI, BERT od Google atd. jsou všechny LLM.
Tyto modely jsou ale extrémně flexibilní a přizpůsobivé. Stejné matematické struktury se ukázaly tak užitečné v počítačovém vidění, biologii a dalších oblastech, že je někteří výzkumníci začali nazývat „hlavními modely“, aby lépe vyjádřili svou roli v moderní umělé inteligenci.
Odkud tyto základní modely pocházejí a jak se vymanily z jazyka, aby řídily to, co dnes vidíme v AI?
Základy modelů základů
Ve strojovém učení existuje svatá trojice: modely, data a výpočty. Modely jsou algoritmy, které přijímají vstup a vytvářejí výstup. Data se vztahují k příkladům, na kterých jsou algoritmy trénovány. Abychom se mohli něco naučit, musí existovat dostatek dat s dostatečnou úplností, aby algoritmy mohly přinést užitečný výsledek. Modely by měly být dostatečně flexibilní, aby odrážely složitost dat. A konečně musí být dostatek výpočetního výkonu pro spuštění algoritmů.
První moderní revoluce umělé inteligence nastala s hlubokým učením v roce 2012, kdy začalo řešení problémů s počítačovým viděním pomocí konvolučních neuronových sítí (CNN). CNN mají podobnou strukturu jako zraková kůra. Existují již od 90. let 20. století, ale dosud nebyly praktické kvůli vysokým nárokům na výpočetní výkon.
V roce 2006 však Nvidia vydala CUDA, programovací jazyk, který umožnil použití GPU jako superpočítačů pro všeobecné použití. V roce 2009 představili výzkumníci AI ze Stanfordu Imagenet, sbírku označených obrázků používaných k trénování algoritmů počítačového vidění. V roce 2012 AlexNet zkombinoval CNN trénované na GPU s daty Imagenet, aby vytvořil nejlepší vizuální klasifikátor, jaký kdy svět viděl. Vypuklo odtud hluboké učení a umělá inteligence.
CNN, datová sada ImageNet a GPU byly magickou kombinací, která otevřela obrovský pokrok v počítačovém vidění. Rok 2012 vyvolal boom zájmu o hluboké učení a zplodil celá průmyslová odvětví, například ta související s autonomním řízením. Ale rychle jsme si uvědomili, že tato generace hlubokého učení má své limity. CNN byly dobré pro vidění, ale jiné oblasti nezaznamenaly průlom v modelování. Jedna obrovská mezera byla ve zpracování přirozeného jazyka (NLP), tedy přimět počítače, aby rozuměly normálnímu lidskému jazyku a pracovaly s ním spíše než s kódem.
Problém porozumění a práce s jazykem se zásadně liší od problému práce s obrazy. Jazyk zpracování vyžaduje práci se sekvencemi slov, kde je důležité pořadí. Kočka je stále kočkou bez ohledu na to, kde je na obrázku, ale existuje velký rozdíl mezi „tento čtenář se dozví o AI“ a „AI se dozví o tomto čtenáři“.
Až donedávna se výzkumníci při včasném zpracování a analýze dat spoléhali na modely, jako jsou rekurentní neuronové sítě (RNN) a dlouhodobá krátkodobá paměť (LSTM). Tyto modely byly účinné při rozpoznávání krátkých sekvencí, jako jsou mluvená slova z krátkých frází, ale potýkaly se s delšími větami a odstavci. Jen paměť těchto modelů nebyla dostatečně rozvinutá, aby zachytila složitost a bohatost myšlenek a pojmů, které vznikají při spojování vět do odstavců a esejů. Byly skvělé pro jednoduché hlasové asistenty ve stylu Siri a Alexa, ale nic víc.
Další výzvou bylo získání správných dat pro školení. ImageNet byla sada 100 000 označených obrázků, jejichž vytvoření vyžadovalo značné lidské úsilí, většinou postgraduálních studentů a pracovníků Amazon Mechanical Turk. A ImageNet byl ve skutečnosti inspirován a modelován podle staršího projektu s názvem WordNet , který se pokoušel vytvořit označenou datovou sadu pro anglickou slovní zásobu. I když na internetu není nouze o text, generování smysluplné datové sady, která počítač naučí pracovat s lidským jazykem nad rámec jednotlivých slov, je neuvěřitelně časově náročné. A zkratky, které vytvoříte pro jednu aplikaci na stejných datech, se nemusí vztahovat na jinou úlohu.
Napsat komentář