New York Times keelab tehisintellekti müüjatel selle sisu ilma loata kraapida
Augusti alguses värskendas The New York Times oma teenusetingimusi (TOS), et keelata oma artiklite ja piltide kraapimine tehisintellekti koolituse jaoks, teatab Adweek. See samm toimus ajal, mil tehnoloogiaettevõtted on jätkanud tehisintellektikeelsete rakenduste, nagu ChatGPT ja Google Bard , raha teenimist, mis said oma võimalused Interneti-andmete massilise volitamata kraapimise kaudu.
Uued tingimused keelavad kasutada Timesi sisu – mis hõlmab artikleid, videoid, pilte ja metaandmeid – mis tahes tehisintellekti mudeli treenimiseks ilma selgesõnalise kirjaliku loata. TOS-i jaotises 2.1 ütleb NYT, et selle sisu on mõeldud lugeja „isiklikuks, mitteäriliseks kasutamiseks” ja et mitteäriline kasutamine ei hõlma „mis tahes tarkvaraprogrammi arendamist, sealhulgas, kuid mitte ainult, koolitust. masinõppe või tehisintellekti (AI) süsteem.”
Jaotises 4.1 on tingimused öeldud, et ilma NYT eelneva kirjaliku nõusolekuta ei tohi keegi „kasutada sisu ühegi tarkvaraprogrammi arendamiseks, sealhulgas, kuid mitte ainult, masinõppe või tehisintellekti (AI) süsteemi koolitamiseks. .”
NYT toob välja ka piirangute eiramise tagajärjed: “Teenuste keelatud kasutamisega kaasamine võib kaasa tuua tsiviil-, kriminaal- ja/või halduskaristused, trahvid või sanktsioonid kasutajale ja kasutajat abistajatele.”
Nii ähvardavalt kui see ka ei kõla, pole piiravad kasutustingimused varem peatanud Interneti hulgimüüki masinõppe andmekogumiteks. Kõik tänapäeval saadaolevad suuremad keelemudelid – sealhulgas OpenAI GPT-4 , Anthropicu Claude 2 , Meta Llama 2 ja Google’i PaLM 2 – on koolitatud Internetist kogutud materjalide suurte andmekogumite põhjal. Kasutades protsessi, mida nimetatakse järelevalveta õppimiseks , suunati veebiandmed närvivõrkudesse, mis võimaldas AI-mudelitel sõnadevahelisi seoseid analüüsides omandada kontseptuaalne keeletaju.
AI mudelite koolitamiseks kraabitud andmete kasutamise vastuoluline olemus, mis pole USA kohtutes täielikult lahendatud, on viinud vähemalt ühe hagini , milles süüdistatakse OpenAI-d selle praktika tõttu plagiaadis. Eelmisel nädalal avaldasid Associated Press ja mitmed teised uudisteorganisatsioonid avaliku kirja , milles öeldi, et muude probleemide hulgas tuleb välja töötada õiguslik raamistik, et kaitsta tehisintellekti rakendusi toetavat sisu.
OpenAI eeldab tõenäoliselt jätkuvaid juriidilisi väljakutseid ja on alustanud samme, mis võivad olla kavandatud kriitikast ennetamiseks. Näiteks kirjeldas OpenAI hiljuti üksikasjalikult meetodit , mida veebisaidid saaksid kasutada oma AI-treeningu veebiroomiku blokeerimiseks faili robots.txt abil. See viis selleni, et mitmed saidid ja autorid teatasid avalikult, et blokeerivad roomaja.
Praeguseks on juba kraabitud GPT-4-sse küpsetatud, sealhulgas New York Timesi sisu. Peame võib-olla ootama GPT-5-ni, et näha, kas OpenAI või teised tehisintellekti müüjad austavad sisuomanike soove jääda kõrvale. Kui ei, siis võivad silmapiiril olla uued AI kohtuasjad või määrused.
Lisa kommentaar