I siti si affrettano a bloccare il web crawler ChatGPT dopo che emergono le istruzioni
Senza preavviso, OpenAI ha recentemente aggiunto dettagli sul suo web crawler, GPTBot , al suo sito di documentazione online. GPTBot è il nome dell’agente utente che l’azienda utilizza per recuperare le pagine Web per addestrare i modelli AI dietro ChatGPT , come GPT-4 . All’inizio di questa settimana, alcuni siti hanno rapidamente annunciato la loro intenzione di bloccare l’accesso di GPTBot ai loro contenuti.
Nella nuova documentazione, OpenAI afferma che le pagine Web sottoposte a scansione con GPTBot “potrebbero potenzialmente essere utilizzate per migliorare i modelli futuri” e che consentire a GPTBot di accedere al tuo sito “può aiutare i modelli AI a diventare più accurati e migliorare le loro capacità generali e sicurezza”.
OpenAI afferma di aver implementato filtri per garantire che le fonti dietro i paywall, coloro che raccolgono informazioni di identificazione personale o qualsiasi contenuto che viola le politiche di OpenAI non siano accessibili da GPTBot.
La notizia della possibilità di bloccare potenzialmente gli scrap di addestramento di OpenAI (se li onorano) arriva troppo tardi per influenzare gli attuali dati di addestramento di ChatGPT o GPT-4, che sono stati eliminati senza preavviso anni fa. OpenAI ha raccolto i dati fino a settembre 2021, che è l’attuale limite di “conoscenza” per i modelli linguistici di OpenAI.
Vale la pena notare che le nuove istruzioni potrebbero non impedire alle versioni di navigazione Web dei plug-in ChatGPT o ChatGPT di accedere ai siti Web correnti per trasmettere informazioni aggiornate all’utente. Quel punto non è stato specificato nella documentazione e abbiamo contattato OpenAI per chiarimenti.
La risposta sta in robots.txt
Secondo la documentazione di OpenAI, GPTBot sarà identificabile dal token dell’agente utente “GPTBot”, con la stringa completa “Mozilla/5.0 AppleWebKit/537.36 (KHTML, come Gecko; compatibile; GPTBot/1.0; +https://openai.com /gptbot)”.
I documenti OpenAI forniscono anche istruzioni su come impedire a GPTBot di eseguire la scansione dei siti Web utilizzando il file robots.txt standard del settore , che è un file di testo che si trova nella directory principale di un sito Web e istruisce i web crawler (come quelli utilizzati dai motori di ricerca ) per non indicizzare il sito.
È facile come aggiungere queste due righe al file robots.txt di un sito:
User-agent: GPTBot
Disallow: /
OpenAI afferma inoltre che gli amministratori possono limitare GPTBot da determinate parti del sito in robots.txt con token diversi:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Inoltre, OpenAI ha fornito i blocchi di indirizzi IP specifici da cui opererà GPTBot, che potrebbero essere bloccati anche dai firewall.
Nonostante questa opzione, il blocco di GPTBot non garantisce che i dati di un sito non finiscano per addestrare tutti i modelli di intelligenza artificiale del futuro. A parte i problemi degli scraper che ignorano i file robots.txt, ci sono altri grandi set di dati di siti web scraped (come The Pile ) che non sono affiliati a OpenAI. Questi set di dati sono comunemente usati per addestrare LLM open source (o disponibili in origine) come Meta’s Llama 2 .
Alcuni siti reagiscono con fretta
Sebbene abbia avuto un enorme successo dal punto di vista tecnologico, ChatGPT è stato anche controverso per il modo in cui ha raschiato i dati protetti da copyright senza autorizzazione e ha concentrato tale valore in un prodotto commerciale che elude il tipico modello di pubblicazione online. OpenAI è stato accusato di (e citato in giudizio per ) plagio in questo senso.
Di conseguenza, non sorprende vedere alcune persone reagire alla notizia di poter potenzialmente bloccare i propri contenuti dai futuri modelli GPT con una sorta di gusto represso . Ad esempio, martedì, VentureBeat ha notato che The Verge , lo scrittore di Substack Casey Newton e Neil Clarke di Clarkesworld, hanno tutti affermato che avrebbero bloccato GPTBot subito dopo la diffusione della notizia del bot.
Ma per i grandi gestori di siti web, la scelta di bloccare i crawler LLM (Large Language Model) non è così facile come potrebbe sembrare. Rendere ciechi alcuni LLM a determinati dati del sito Web lascerà lacune di conoscenza che potrebbero servire molto bene alcuni siti (come siti che non vogliono perdere visitatori se ChatGPT fornisce loro le loro informazioni), ma potrebbe anche danneggiare altri. Ad esempio, il blocco dei contenuti dai futuri modelli di intelligenza artificiale potrebbe ridurre l’impronta culturale di un sito o di un marchio se i chatbot di intelligenza artificiale diventeranno un’interfaccia utente primaria in futuro. Come esperimento mentale, immagina un’azienda online che dichiari di non volere che il suo sito web venga indicizzato da Google nel 2002, una mossa controproducente quando quella era la rampa di accesso più popolare per la ricerca di informazioni online.
È ancora all’inizio del gioco dell’IA generativa, e non importa in che direzione va la tecnologia, o quali singoli siti tentano di rinunciare alla formazione del modello AI, almeno OpenAI offre l’opzione.
Lascia un commento