Generatywna sztuczna inteligencja jest fajna, ale nie zapominajmy o kosztach ludzkich i środowiskowych.

Generatywna sztuczna inteligencja jest fajna, ale nie zapominajmy o kosztach ludzkich i środowiskowych.

W ciągu ostatnich kilku miesięcy dziedzina sztucznej inteligencji odnotowała szybki wzrost, a kolejne modele, takie jak Dall-E i GPT-4, pojawiały się jedna po drugiej. Co tydzień obiecujemy ekscytujące nowe modele, produkty i narzędzia. Łatwo dać się ponieść fali szumu, ale te wspaniałe możliwości mają swoją cenę dla społeczeństwa i planety.

Wady obejmują środowiskowy koszt wydobycia rzadkich minerałów, koszt ludzki związany z czasochłonnym procesem adnotacji danych oraz rosnące inwestycje finansowe wymagane do szkolenia modeli AI, ponieważ obejmują one więcej parametrów.

Przyjrzyjmy się innowacjom, które doprowadziły do ​​powstania najnowszych generacji tych modeli i spowodowały wzrost kosztów z nimi związanych.

Duże modele

Modele sztucznej inteligencji powiększyły się w ostatnich latach, a naukowcy mierzą teraz ich rozmiar w setkach miliardów parametrów. „Parametry” to wewnętrzne relacje używane w modelach do uczenia się wzorców na podstawie danych treningowych.

W przypadku dużych modeli językowych (LLM), takich jak ChatGPT, zwiększyliśmy liczbę parametrów ze 100 milionów w 2018 r. do 500 miliardów w 2023 r. dzięki modelowi Google PaLM. Teoria stojąca za tym wzrostem jest taka, że ​​modele z większą liczbą parametrów powinny mieć lepszą wydajność nawet w zadaniach, w których nie były pierwotnie szkolone, chociaż ta hipoteza pozostaje niesprawdzona .

Trenowanie dużych modeli zajmuje zwykle więcej czasu, co oznacza, że ​​wymagają one również większej liczby procesorów graficznych, które kosztują więcej pieniędzy, więc tylko kilka wybranych organizacji może je szkolić. Koszt szkolenia GPT-3, który ma 175 miliardów parametrów, szacuje się na 4,6 miliona dolarów, co jest poza zasięgiem większości firm i organizacji. (Warto zauważyć, że koszt szkolenia modeli jest w niektórych przypadkach obniżony , na przykład w przypadku LLaMA, najnowszego modelu trenowanego przez Meta.)

Tworzy to cyfrową przepaść w społeczności sztucznej inteligencji między tymi, którzy mogą uczyć najnowocześniejsze LLM (głównie duże firmy technologiczne i bogate instytucje na Globalnej Północy), a tymi, którzy nie mogą (organizacje non-profit, start-upy) i każdego, kto nie ma dostępu do superkomputera). lub miliony kredytów w chmurze). Budowa i wdrażanie tych gigantów wymaga wielu zasobów planetarnych: rzadkich metali do produkcji procesorów graficznych, wody do chłodzenia ogromnych centrów danych, energii do utrzymania tych centrów danych w trybie 24/7 na skalę planetarną… wszystko to jest często pomijane na rzecz skupienia się uwaga. o przyszłym potencjale powstałych modeli.

wpływy planetarne

Badanie przeprowadzone przez profesor Carnegie Mellon University, Emmę Strubell, dotyczące śladu węglowego szkolenia LLM wykazało, że szkolenie modelu 2019 o nazwie BERT, który ma tylko 213 milionów parametrów, emituje 280 ton metrycznych emisji dwutlenku węgla, co w przybliżeniu odpowiada pięciu samochodom. życie. Od tego czasu modele urosły, a sprzęt stał się bardziej wydajny, więc gdzie jesteśmy teraz?

W niedawnym artykule naukowym, który napisałem, aby zbadać emisję dwutlenku węgla spowodowaną szkoleniem BLOOM, model języka ze 176 miliardami parametrów, porównaliśmy zużycie energii i późniejszą emisję dwutlenku węgla przez kilka LLM, z których wszystkie pojawiły się w ciągu ostatnich kilku lat. Celem porównania było zorientowanie się, jaka jest skala emisji LLM o różnych rozmiarach i co na nie wpływa.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *