Rozpoczęła się generatywna rewolucja sztucznej inteligencji – jak do tego doszliśmy?
Postęp w systemach sztucznej inteligencji często wydaje się być cykliczny. Co kilka lat komputery nagle są w stanie zrobić coś, czego nigdy wcześniej nie były w stanie zrobić. „Tutaj!” Prawdziwi wyznawcy sztucznej inteligencji ogłaszają: „Era sztucznej inteligencji ogólnej jest blisko!” „Bzdura!” – mówią sceptycy. „Pamiętasz autonomiczne samochody?”
Prawda zwykle leży gdzieś pośrodku.
Jesteśmy w kolejnym cyklu, tym razem z generatywną sztuczną inteligencją. Nagłówki mediów są zdominowane przez wiadomości o sztuce sztucznej inteligencji, ale jest też bezprecedensowy postęp w wielu zupełnie odmiennych obszarach. We wszystkim, od wideo po biologię, programowanie, pisanie, tłumaczenie i nie tylko, sztuczna inteligencja rozwija się w tym samym niesamowitym tempie.
Dlaczego to wszystko dzieje się teraz?
Być może znasz najnowsze osiągnięcia w świecie sztucznej inteligencji. Widziałeś nagradzane prace, słyszałeś wywiady od zmarłych ludzi i czytałeś o przełomach w fałdowaniu białek. Ale te nowe systemy sztucznej inteligencji nie tylko tworzą fajne demonstracje w laboratoriach badawczych. Szybko ewoluują w kierunku praktycznych narzędzi i prawdziwie komercyjnych produktów, z których każdy może korzystać.
Jest powód, dla którego wszystko stało się naraz. Wszystkie osiągnięcia są oparte na nowej klasie modeli sztucznej inteligencji, które są bardziej elastyczne i wydajne niż wszystko, co było wcześniej. Ponieważ po raz pierwszy były używane do zadań językowych, takich jak odpowiadanie na pytania i pisanie esejów, są często określane jako duże modele językowe (LLM). GPT3 z OpenAI, BERT z Google itp. to wszystkie LLM.
Ale te modele są niezwykle elastyczne i można je dostosować. Te same struktury matematyczne okazały się tak przydatne w wizji komputerowej, biologii i nie tylko, że niektórzy badacze zaczęli nazywać je „modelami głównymi”, aby lepiej określić ich rolę we współczesnej sztucznej inteligencji.
Skąd wzięły się te podstawowe modele i jak wyrwały się z języka, aby kierować tym, co widzimy dzisiaj w sztucznej inteligencji?
Podstawy modeli fundamentów
W uczeniu maszynowym istnieje święta trójca: modele, dane i obliczenia. Modele to algorytmy, które pobierają dane wejściowe i generują dane wyjściowe. Dane odnoszą się do przykładów, na których szkolone są algorytmy. Aby się czegoś nauczyć, musi być wystarczająco dużo danych o wystarczającej kompletności, aby algorytmy mogły dać użyteczny wynik. Modele powinny być wystarczająco elastyczne, aby odzwierciedlały złożoność danych. I wreszcie, musi być wystarczająca moc obliczeniowa, aby uruchomić algorytmy.
Pierwsza nowoczesna rewolucja AI nastąpiła wraz z głębokim uczeniem się w 2012 r., kiedy rozpoczęto rozwiązywanie problemów związanych z wizją komputerową za pomocą konwolucyjnych sieci neuronowych (CNN). CNN mają podobną budowę do kory wzrokowej. Istnieją od lat 90., ale nie były jeszcze praktyczne ze względu na wysokie wymagania dotyczące mocy obliczeniowej.
Jednak w 2006 roku Nvidia wypuściła CUDA, język programowania, który umożliwił wykorzystanie procesorów graficznych jako superkomputerów ogólnego przeznaczenia. W 2009 roku badacze sztucznej inteligencji ze Stanford wprowadzili Imagenet, zbiór oznaczonych obrazów używanych do trenowania algorytmów widzenia komputerowego. W 2012 roku AlexNet połączył wyszkolone przez GPU CNN z danymi Imagenet, aby stworzyć najlepszy klasyfikator wizualny, jaki kiedykolwiek widział świat. Wybuchło głębokie uczenie się i sztuczna inteligencja.
CNN, zestaw danych ImageNet i procesory graficzne były magiczną kombinacją, która otworzyła ogromny postęp w wizji komputerowej. Rok 2012 wywołał boom zainteresowania głębokim uczeniem się i zrodził całe branże, takie jak te związane z jazdą autonomiczną. Ale szybko zdaliśmy sobie sprawę, że ta generacja głębokiego uczenia się ma ograniczenia. CNN były dobre dla wzroku, ale inne obszary nie miały przełomu w modelowaniu. Jedną z ogromnych luk było przetwarzanie języka naturalnego (NLP), czyli umożliwienie komputerom zrozumienia i pracy z normalnym ludzkim językiem, a nie z kodem.
Problem rozumienia i pracy z językiem zasadniczo różni się od problemu pracy z obrazami. Język przetwarzania wymaga pracy z sekwencjami słów, w których ważna jest kolejność. Kot jest nadal kotem, bez względu na to, gdzie się znajduje na obrazku, ale istnieje duża różnica między „ten czytelnik dowie się o AI” a „AI dowie się o tym czytelniku”.
Do niedawna naukowcy polegali na modelach, takich jak rekurencyjne sieci neuronowe (RNN) i długoterminowa pamięć krótkotrwała (LSTM), aby przetwarzać i analizować dane w odpowiednim czasie. Modele te były skuteczne w rozpoznawaniu krótkich sekwencji, takich jak wypowiadane słowa z krótkich fraz, ale miały problemy z dłuższymi zdaniami i akapitami. Po prostu pamięć tych modeli nie była wystarczająco rozwinięta, aby uchwycić złożoność i bogactwo pomysłów i koncepcji, które powstają podczas łączenia zdań w akapity i eseje. Były świetne dla prostych asystentów głosowych w stylu Siri i Alexy, ale nic więcej.
Kolejnym wyzwaniem było pozyskanie odpowiednich danych do treningu. ImageNet był zestawem 100 000 oznaczonych obrazów, których stworzenie wymagało znacznego wysiłku ludzkiego, głównie studentów i pracowników Amazon Mechanical Turk. A ImageNet został faktycznie zainspirowany i wzorowany na starszym projekcie o nazwie WordNet , który próbował stworzyć zestaw danych z etykietami dla słownictwa angielskiego. Chociaż w Internecie nie brakuje tekstu, wygenerowanie sensownego zestawu danych w celu nauczenia komputera radzenia sobie z ludzkim językiem poza pojedynczymi słowami jest niezwykle czasochłonne. A skróty utworzone dla jednej aplikacji na tych samych danych mogą nie mieć zastosowania do innego zadania.
Dodaj komentarz