New York Times zabrania dostawcom AI kopiowania treści bez pozwolenia

New York Times zabrania dostawcom AI kopiowania treści bez pozwolenia

Jak donosi Adweek , na początku sierpnia The New York Times zaktualizował swoje warunki korzystania z usługi (TOS), aby zakazać kopiowania artykułów i obrazów do celów szkoleniowych w zakresie sztucznej inteligencji . Posunięcie to ma miejsce w czasie, gdy firmy technologiczne nadal zarabiają na aplikacjach językowych AI, takich jak ChatGPT i Google Bard , które zyskały swoje możliwości poprzez masowe nieautoryzowane wykradanie danych internetowych.

Nowe warunki zabraniają używania treści Timesa — w tym artykułów, filmów, obrazów i metadanych — do trenowania dowolnego modelu sztucznej inteligencji bez wyraźnej pisemnej zgody. W sekcji 2.1 TOS, NYT mówi, że jego treść jest przeznaczona do „osobistego, niekomercyjnego użytku” czytelnika i że niekomercyjne użycie nie obejmuje „rozwoju jakiegokolwiek oprogramowania, w tym między innymi szkolenia system uczenia maszynowego lub sztucznej inteligencji (AI).

Dalej, w sekcji 4.1, warunki mówią, że bez uprzedniej pisemnej zgody NYT nikt nie może „wykorzystywać Treści do tworzenia jakiegokolwiek oprogramowania, w tym między innymi do szkolenia systemu uczenia maszynowego lub sztucznej inteligencji (AI) ”.

NYT przedstawia również konsekwencje ignorowania ograniczeń: „Zaangażowanie w niedozwolone korzystanie z Usług może skutkować karami cywilnymi, karnymi i/lub administracyjnymi, grzywnami lub sankcjami wobec użytkownika i osób pomagających użytkownikowi”.

Choć brzmi to groźnie, restrykcyjne warunki użytkowania nie powstrzymały wcześniej hurtowego pożerania Internetu w zestawach danych uczenia maszynowego. Każdy dostępny obecnie duży model językowy — w tym GPT-4 firmy OpenAI, Claude 2 firmy Anthropic , Llama 2 firmy Meta i PaLM 2 firmy Google — został przeszkolony na dużych zbiorach danych pochodzących z materiałów zebranych z Internetu. Korzystając z procesu zwanego uczeniem bez nadzoru , dane internetowe zostały wprowadzone do sieci neuronowych, umożliwiając modelom AI uzyskanie konceptualnego poczucia języka poprzez analizę relacji między słowami.

Kontrowersyjny charakter wykorzystywania zeskrobanych danych do trenowania modeli sztucznej inteligencji, który nie został w pełni rozwiązany w sądach amerykańskich, doprowadził do co najmniej jednego procesu sądowego , który oskarża OpenAI o plagiat z powodu tej praktyki. W zeszłym tygodniu Associated Press i kilka innych organizacji prasowych opublikowało list otwarty, w którym stwierdziło, że „należy opracować ramy prawne w celu ochrony treści, które napędzają aplikacje AI”, między innymi.

OpenAI prawdopodobnie przewiduje dalsze wyzwania prawne i zaczął podejmować działania, które mogą mieć na celu wyprzedzenie części tej krytyki. Na przykład firma OpenAI niedawno wyszczególniła metodę , której strony internetowe mogą używać do blokowania robota indeksującego szkolącego sztuczną inteligencję za pomocą pliku robots.txt. Doprowadziło to do tego, że kilka witryn i autorów publicznie oświadczyło, że zablokuje robota.

Na razie to, co zostało już zeskrobane, jest upieczone w GPT-4, w tym treści New York Timesa. Być może będziemy musieli poczekać do GPT-5, aby zobaczyć, czy OpenAI lub inni dostawcy sztucznej inteligencji respektują życzenia właścicieli treści dotyczące ich pominięcia. Jeśli nie, na horyzoncie mogą pojawić się nowe procesy sądowe lub przepisy dotyczące sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *