Come ChatGPT ha trasformato l’intelligenza artificiale generativa in uno “strumento per qualsiasi cosa”

Il responsabile della tecnologia di una startup di robotica mi ha detto all’inizio di quest’anno: “Pensavamo che avremmo dovuto lavorare molto per creare ‘ChatGPT per la robotica.’ Invece, si scopre che, in molti casi, ChatGPT è ChatGPT per la robotica”.

Fino a poco tempo fa, i modelli di intelligenza artificiale erano strumenti specializzati. Utilizzare l’intelligenza artificiale in un’area particolare, come la robotica, significava spendere tempo e denaro per creare modelli di intelligenza artificiale specifici e solo per quell’area. Ad esempio, AlphaFold di Google, un modello AI per prevedere il ripiegamento delle proteine, è stato addestrato utilizzando dati sulla struttura delle proteine ed è utile solo per lavorare con le strutture delle proteine.

Quindi questo fondatore ha pensato che per trarre vantaggio dall’intelligenza artificiale generativa, l’azienda di robotica avrebbe dovuto creare i propri modelli di intelligenza artificiale generativa specializzati per la robotica. Invece, il team ha scoperto che in molti casi era possibile utilizzare ChatGPT standard per controllare i propri robot senza che l’intelligenza artificiale fosse mai stata specificamente addestrata per questo.

Ho sentito cose simili da tecnologi che lavorano su qualsiasi cosa, dall’assicurazione sanitaria alla progettazione di semiconduttori. Per creare ChatGPT, un chatbot che consente agli esseri umani di utilizzare l’intelligenza artificiale generativa semplicemente conversando, OpenAI doveva modificare modelli linguistici di grandi dimensioni (LLM) come GPT3 per diventare più reattivi all’interazione umana.

Ma forse inavvertitamente, questi stessi cambiamenti consentono ai successori di GPT3, come GPT3.5 e GPT4, di essere utilizzati come potenti strumenti di elaborazione delle informazioni per scopi generali, strumenti che non dipendono dalla conoscenza su cui il modello di intelligenza artificiale è stato originariamente addestrato o le applicazioni per le quali il modello è stato addestrato. Ciò richiede l’utilizzo dei modelli di intelligenza artificiale in un modo completamente diverso: programmazione invece di chat, nuovi dati invece di formazione. Ma sta aprendo la strada affinché l’intelligenza artificiale diventi uno scopo generale piuttosto che specializzato, più uno “strumento per qualsiasi cosa”.

Come siamo arrivati qui?

Fondamenti: probabilità, discesa del gradiente e messa a punto

Prendiamoci un momento per parlare di come funzionano gli LLM che alimentano l’intelligenza artificiale generativa e di come vengono formati.

Gli LLM come GPT4 sono probabilistici; prendono un input e prevedono la probabilità di parole e frasi relative a quell’input. Quindi generano un output che molto probabilmente sarà appropriato dato l’input. È come un completamento automatico molto sofisticato: prendi del testo e dammi quello che viene dopo. Fondamentalmente, ciò significa che l’intelligenza artificiale generativa non vive in un contesto di “giusto e sbagliato”, ma piuttosto “più e meno probabile”.

Essere probabilistici ha punti di forza e di debolezza. I punti deboli sono ben noti: l’intelligenza artificiale generativa può essere imprevedibile e inesatta, incline non solo a produrre risultati scadenti ma a produrli in modi che non ti aspetteresti mai. Ma significa anche che l’intelligenza artificiale può essere imprevedibilmente potente e flessibile in modi che i sistemi tradizionali basati su regole non possono essere. Dobbiamo solo dare forma a quella casualità in modo utile.

Ecco un’analogia. Prima della meccanica quantistica, i fisici pensavano che l’universo funzionasse in modi prevedibili e deterministici. All’inizio la casualità del mondo quantistico è stata uno shock, ma abbiamo imparato ad abbracciare la stranezza quantistica e poi a usarla nella pratica. Il tunneling quantistico è fondamentalmente stocastico, ma può essere guidato in modo che le particelle saltino secondo schemi prevedibili. Questo è ciò che ha portato alla nascita dei semiconduttori e dei chip che alimentano il dispositivo di cui stai leggendo questo articolo. Non limitarti ad accettare che Dio giochi a dadi con l’universo: impara a giocare a dadi.

La stessa cosa vale per l’IA. Addestriamo le reti neurali di cui sono costituiti gli LLM utilizzando una tecnica chiamata “discesa del gradiente”. La discesa del gradiente esamina gli output che un modello sta producendo, li confronta con i dati di addestramento e quindi calcola una “direzione” per regolare i parametri della rete neurale in modo che gli output diventino “più” corretti, ovvero assomiglino di più ai dati di addestramento viene data l’IA. Nel caso del nostro magico completamento automatico, una risposta più corretta significa che il testo di output è più probabile che segua l’input.

La matematica probabilistica è un ottimo modo per i computer di gestire le parole; calcolare la probabilità che alcune parole seguano altre parole significa solo contare, e “quanti” è molto più facile per un computer con cui lavorare rispetto a “più giusto o più sbagliato”. Produrre output, confrontare con i dati di training e apportare modifiche. Risciacqua e ripeti, apportando molti piccoli miglioramenti incrementali, e alla fine trasformerai una rete neurale che sputa parole senza senso in qualcosa che produce frasi coerenti. E questa tecnica può essere adattata anche a immagini, sequenze di DNA e altro ancora.

Posted on Agosto 23, 2023

News

admin

Come ChatGPT ha trasformato l’intelligenza artificiale generativa in uno “strumento per qualsiasi cosa”

Fondamenti: probabilità, discesa del gradiente e messa a punto

Lascia un commento Annulla risposta

Correggi l'errore di accesso DayZ 0x00040031 (WaitAuthPlayerLoginState)

Come controllare il conteggio dei cicli di ricarica della batteria dell'iPhone