The New York Times zakazuje prodejcům umělé inteligence škrábat její obsah bez povolení
Začátkem srpna The New York Times aktualizovaly své podmínky služby (TOS), aby zakázaly škrábání svých článků a obrázků pro školení AI, uvádí Adweek. Tento krok přichází v době, kdy technologické společnosti pokračovaly v monetizaci jazykových aplikací AI, jako je ChatGPT a Google Bard , které získaly své schopnosti díky masivním neautorizovaným odpisům internetových dat.
Nové podmínky zakazují použití obsahu Times – který zahrnuje články, videa, obrázky a metadata – pro trénování jakéhokoli modelu umělé inteligence bez výslovného písemného povolení. V oddíle 2.1 TOS NYT říká, že jeho obsah je určen pro „osobní, nekomerční použití“ čtenáře a že nekomerční použití nezahrnuje „vývoj jakéhokoli softwarového programu, včetně, ale nejen, školení. systém strojového učení nebo umělé inteligence (AI).
Dále, v části 4.1, podmínky říkají, že bez předchozího písemného souhlasu NYT nesmí nikdo „používat Obsah k vývoji jakéhokoli softwarového programu, včetně, ale nejen, školení systému strojového učení nebo umělé inteligence (AI). .“
NYT také nastiňuje důsledky ignorování omezení: „Zapojení do zakázaného používání Služeb může mít za následek občanskoprávní, trestní a/nebo správní sankce, pokuty nebo sankce vůči uživateli a osobám, které uživateli pomáhají.“
Jakkoli to zní hrozivě, omezující podmínky použití dříve nezastavily hromadné hltání internetu do datových sad strojového učení. Každý velký jazykový model, který je dnes k dispozici – včetně OpenAI GPT-4 , Anthropic’s Claude 2 , Meta’s Llama 2 a PaLM 2 od Googlu – byl trénován na velkých souborech dat materiálů získaných z internetu. Pomocí procesu zvaného učení bez dozoru byla webová data vložena do neuronových sítí, což umožnilo modelům umělé inteligence získat konceptuální smysl pro jazyk pomocí analýzy vztahů mezi slovy.
Kontroverzní povaha používání seškrábaných dat k trénování modelů AI, která nebyla u amerických soudů plně vyřešena, vedla k nejméně jedné žalobě , která kvůli této praxi obviňuje OpenAI z plagiátorství. Minulý týden Associated Press a několik dalších zpravodajských organizací zveřejnilo otevřený dopis , v němž se mimo jiné uvádí, že „musí být vytvořen právní rámec pro ochranu obsahu, který pohání aplikace AI“.
OpenAI pravděpodobně očekává pokračující právní výzvy a začala podnikat kroky, které mohou být navrženy tak, aby se dostaly před část této kritiky. Například OpenAI nedávno podrobně popsala metodu , kterou by webové stránky mohly použít k blokování svého webového prohledávače pro výcvik AI pomocí robots.txt. To vedlo k tomu, že několik webů a autorů veřejně prohlásilo, že prohledávač zablokují.
Prozatím je to, co již bylo seškrábáno, zapečeno do GPT-4, včetně obsahu New York Times. Možná budeme muset počkat na GPT-5, abychom zjistili, zda OpenAI nebo jiní dodavatelé AI respektují přání vlastníků obsahu, aby byli vynecháni. Pokud ne, mohou být na obzoru nové soudní spory – nebo nařízení – týkající se AI.
Napsat komentář