La rivoluzione dell’IA generativa è iniziata: come ci siamo arrivati?

La rivoluzione dell’IA generativa è iniziata: come ci siamo arrivati?

I progressi nei sistemi di intelligenza artificiale spesso sembrano essere ciclici. Ogni pochi anni, i computer sono improvvisamente in grado di fare qualcosa che non erano mai stati in grado di fare prima. “Qui!” proclamano i veri credenti nell’IA: “L’era dell’intelligenza artificiale generale è vicina!” “Sciocchezze!” Dicono gli scettici. “Ricordi le auto a guida autonoma?”

La verità di solito sta nel mezzo.

Siamo in un altro ciclo, questa volta con l’IA generativa. I titoli dei media sono dominati dalle notizie sull’arte dell’intelligenza artificiale, ma ci sono anche progressi senza precedenti in molte aree completamente disparate. In tutto, dai video alla biologia, alla programmazione, alla scrittura, alla traduzione e altro ancora, l’intelligenza artificiale sta avanzando allo stesso incredibile ritmo.

Perché tutto questo sta accadendo adesso?

Potresti avere familiarità con gli ultimi sviluppi nel mondo dell’IA. Hai visto lavori premiati, ascoltato interviste di persone morte e letto di scoperte nel ripiegamento delle proteine. Ma questi nuovi sistemi di intelligenza artificiale non si limitano a creare fantastiche demo nei laboratori di ricerca. Si stanno rapidamente evolvendo in strumenti pratici e veri e propri prodotti commerciali utilizzabili da chiunque.

C’è un motivo per cui è successo tutto in una volta. Tutti i risultati si basano su una nuova classe di modelli di intelligenza artificiale che sono più flessibili e potenti di qualsiasi cosa sia mai esistita prima. Poiché sono stati utilizzati per la prima volta per attività linguistiche come rispondere a domande e scrivere saggi, vengono spesso definiti modelli linguistici di grandi dimensioni (LLM). GPT3 di OpenAI, BERT di Google, ecc. sono tutti LLM.

Ma questi modelli sono estremamente flessibili e adattabili. Le stesse strutture matematiche si sono dimostrate così utili nella visione artificiale, nella biologia e altro ancora che alcuni ricercatori hanno iniziato a chiamarle “modelli principali” per articolare meglio il loro ruolo nell’IA moderna.

Da dove vengono questi modelli di base e come sono usciti dal linguaggio per guidare ciò che vediamo oggi nell’IA?

Basi dei modelli di fondazione

C’è una santa trinità nell’apprendimento automatico: modelli, dati e calcoli. I modelli sono algoritmi che accettano input e producono output. I dati si riferiscono agli esempi su cui vengono addestrati gli algoritmi. Per apprendere qualcosa, devono esserci dati sufficienti con sufficiente completezza in modo che gli algoritmi possano produrre un risultato utile. I modelli dovrebbero essere sufficientemente flessibili da riflettere la complessità dei dati. E infine, ci deve essere abbastanza potenza di calcolo per eseguire gli algoritmi.

La prima rivoluzione moderna dell’IA è avvenuta con il deep learning nel 2012, quando è iniziata la risoluzione dei problemi di visione artificiale con le reti neurali convoluzionali (CNN). Le CNN sono simili nella struttura alla corteccia visiva. Sono in circolazione dagli anni ’90 ma non sono ancora stati pratici a causa delle elevate esigenze di potenza di calcolo.

Tuttavia, nel 2006, Nvidia ha rilasciato CUDA, un linguaggio di programmazione che ha consentito di utilizzare le GPU come supercomputer generici. Nel 2009, i ricercatori di intelligenza artificiale di Stanford hanno introdotto Imagenet, una raccolta di immagini etichettate utilizzate per addestrare algoritmi di visione artificiale. Nel 2012, AlexNet ha combinato le CNN addestrate dalla GPU con i dati di Imagenet per creare il miglior classificatore visivo che il mondo abbia mai visto. Il deep learning e l’intelligenza artificiale sono esplosi da lì.

La CNN, il set di dati ImageNet e le GPU sono state la combinazione magica che ha aperto enormi progressi nella visione artificiale. Il 2012 ha innescato un boom di interesse per il deep learning e ha generato interi settori, come quelli legati alla guida autonoma. Ma ci siamo presto resi conto che c’erano dei limiti a questa generazione di deep learning. Le CNN erano buone per la visione, ma altre aree non hanno avuto la loro svolta nella modellazione. Un’enorme lacuna era nell’elaborazione del linguaggio naturale (NLP), ovvero nel far sì che i computer capissero e lavorassero con il normale linguaggio umano piuttosto che con il codice.

Il problema della comprensione e del lavoro con il linguaggio è fondamentalmente diverso dal problema del lavoro con le immagini. Il linguaggio di elaborazione richiede di lavorare con sequenze di parole in cui l’ordine è importante. Un gatto è ancora un gatto, non importa dove si trovi nell’immagine, ma c’è una grande differenza tra “questo lettore imparerà a conoscere l’IA” e “l’IA imparerà a conoscere questo lettore”.

Fino a poco tempo fa, i ricercatori si affidavano a modelli come le reti neurali ricorrenti (RNN) e la memoria a breve termine a lungo termine (LSTM) per elaborare e analizzare i dati in modo tempestivo. Questi modelli erano efficaci nel riconoscere brevi sequenze, come parole pronunciate da frasi brevi, ma faticavano con frasi e paragrafi più lunghi. È solo che la memoria di questi modelli non è stata sviluppata abbastanza per catturare la complessità e la ricchezza di idee e concetti che sorgono combinando frasi in paragrafi e saggi. Erano fantastici per semplici assistenti vocali nello stile di Siri e Alexa, ma niente di più.

Ottenere i dati giusti per la formazione è stata un’altra sfida. ImageNet era un insieme di 100.000 immagini etichettate che richiedevano uno sforzo umano significativo, per lo più studenti laureati e lavoratori di Amazon Mechanical Turk, per essere create. E ImageNet è stato effettivamente ispirato e modellato su un vecchio progetto chiamato WordNet che stava cercando di creare un set di dati etichettato per il vocabolario inglese. Anche se non c’è carenza di testo su Internet, la generazione di un set di dati significativo per addestrare un computer a gestire il linguaggio umano al di là delle singole parole richiede molto tempo. E le scorciatoie che crei per un’applicazione sugli stessi dati potrebbero non essere applicabili a un’altra attività.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *