Jak ChatGPT proměnil generativní AI na „nástroj na cokoliv“

Ředitel technologie jednoho startupu zabývajícího se robotizací mi začátkem tohoto roku řekl: „Mysleli jsme si, že budeme muset udělat hodně práce, abychom vytvořili ‚ChatGPT pro robotiku‘. Místo toho se ukazuje, že v mnoha případech je ChatGPT ChatGPT pro robotiku.“

Donedávna byly modely umělé inteligence specializovanými nástroji. Používání umělé inteligence v určité oblasti, jako je robotika, znamenalo trávit čas a peníze vytvářením modelů umělé inteligence speciálně a pouze pro tuto oblast. Například AlphaFold společnosti Google, model umělé inteligence pro predikci skládání proteinů, byl trénován pomocí dat o struktuře proteinů a je užitečný pouze pro práci s proteinovými strukturami.

Tento zakladatel si tedy myslel, že aby robotická společnost mohla těžit z generativní umělé inteligence, bude muset vytvořit své vlastní specializované generativní modely umělé inteligence pro robotiku. Místo toho tým zjistil, že v mnoha případech by mohli používat běžně dostupný ChatGPT pro ovládání svých robotů, aniž by na to byla AI kdy speciálně vycvičena.

Slyšel jsem podobné věci od technologů, kteří se zabývají vším možným od zdravotního pojištění po konstrukci polovodičů. K vytvoření ChatGPT, chatbota, který lidem umožňuje používat generativní umělou inteligenci pouhým konverzací, OpenAI potřebovala změnit velké jazykové modely (LLM), jako je GPT3, aby lépe reagovala na lidskou interakci.

Ale možná neúmyslně, tytéž změny umožňují nástupcům GPT3, jako jsou GPT3.5 a GPT4, používat jako výkonné nástroje pro všeobecné zpracování informací – nástroje, které nejsou závislé na znalostech, na kterých byl model umělé inteligence původně trénován nebo aplikace, pro které byl model trénován. To vyžaduje použití modelů umělé inteligence zcela jiným způsobem – programování místo chatování, nová data místo tréninku. Ale otevírá to cestu, aby se umělá inteligence stala spíše obecným než specializovaným, spíše „nástrojem na cokoliv“.

Jak jsme se sem dostali?

Základy: Pravděpodobnost, gradient klesání a jemné doladění

Pojďme se na chvíli dotknout toho, jak LLM, které pohání generativní AI, fungují a jak jsou trénovány.

LLM jako GPT4 jsou pravděpodobnostní; berou vstup a předpovídají pravděpodobnost slov a frází vztahujících se k tomuto vstupu. Poté generují výstup, který je s největší pravděpodobností vhodný vzhledem ke vstupu. Je to jako velmi sofistikované automatické dokončování: Vezměte si nějaký text a dejte mi, co bude následovat. V zásadě to znamená, že generativní AI nežije v kontextu „správného a špatného“, ale spíše „více a méně pravděpodobně“.

Být pravděpodobnostní má své silné a slabé stránky. Slabé stránky jsou dobře známé: Generativní umělá inteligence může být nepředvídatelná a nepřesná, náchylná nejen k produkci špatného výstupu, ale k jeho produkci způsobem, který byste nikdy nečekali. Ale také to znamená, že AI může být nepředvídatelně výkonná a flexibilní způsobem, jakým tradiční systémy založené na pravidlech být nemohou. Tuto náhodnost jen potřebujeme užitečným způsobem tvarovat.

Tady je analogie. Před kvantovou mechanikou si fyzici mysleli, že vesmír funguje předvídatelným, deterministickým způsobem. Náhodnost kvantového světa byla zpočátku šokující, ale naučili jsme se kvantovou podivnost přijmout a poté ji prakticky používat. Kvantové tunelování je v zásadě stochastické, ale může být řízeno tak, že částice přeskakují v předvídatelných vzorcích. To vedlo k tomu, že polovodiče a čipy napájejí zařízení, o kterém čtete tento článek. Nepřijměte jen to, že Bůh hraje kostky s vesmírem – naučte se, jak kostky nahrát.

Totéž platí pro AI. Trénujeme neuronové sítě, ze kterých jsou LLM vyrobeny, pomocí techniky zvané „gradientní sestup“. Gradient sestup se dívá na výstupy, které model produkuje, porovnává je s trénovacími daty a pak vypočítá „směr“ pro úpravu parametrů neuronové sítě tak, aby se výstupy staly „přesnější“ – to znamená, aby vypadaly více jako trénovací data. AI je dána. V případě našeho magického automatického doplňování znamená správnější odpověď výstupní text, který bude pravděpodobněji následovat zadaný.

Pravděpodobnostní matematika je pro počítače skvělý způsob, jak se vypořádat se slovy; spočítat, s jakou pravděpodobností budou některá slova následovat po jiných slovech, je jen počítání a „kolik“ je pro počítač mnohem snazší pracovat, než „více správné nebo nesprávné“. Vytvořte výstup, porovnejte s tréninkovými daty a upravte. Opláchněte a opakujte, udělejte mnoho malých, postupných vylepšení a nakonec proměníte neuronovou síť, která chrlí bláboly, v něco, co vytváří souvislé věty. A tato technika může být také přizpůsobena obrázkům, sekvencím DNA a dalším.

Posted on 23 srpna, 2023

News

admin

Jak ChatGPT proměnil generativní AI na „nástroj na cokoliv“

Základy: Pravděpodobnost, gradient klesání a jemné doladění

Napsat komentář Zrušit odpověď na komentář

Opravit chybu přihlášení DayZ 0x00040031 (WaitAuthPlayerLoginState)

Jak zkontrolovat počet cyklů nabití baterie iPhone