Comment ChatGPT a transformé l’IA générative en un « outil pour tout »

Le directeur technologique d’une startup de robotique m’a dit plus tôt cette année : « Nous pensions que nous devions faire beaucoup de travail pour créer « ChatGPT pour la robotique ». Au lieu de cela, il s’avère que, dans de nombreux cas, ChatGPT est ChatGPT pour la robotique.
Jusqu’à récemment, les modèles d’IA étaient des outils spécialisés. Utiliser l’IA dans un domaine particulier, comme la robotique, impliquait de consacrer du temps et de l’argent à la création de modèles d’IA spécifiquement et uniquement pour ce domaine. Par exemple, AlphaFold de Google, un modèle d’IA permettant de prédire le repliement des protéines, a été formé à l’aide de données sur la structure des protéines et n’est utile que pour travailler avec des structures protéiques.
Ce fondateur pensait donc que pour bénéficier de l’IA générative, l’entreprise de robotique devrait créer ses propres modèles d’IA générative spécialisés pour la robotique. Au lieu de cela, l’équipe a découvert que dans de nombreux cas, elle pouvait utiliser ChatGPT disponible dans le commerce pour contrôler ses robots sans que l’IA n’ait jamais été spécifiquement formée pour cela.
J’ai entendu des propos similaires de la part de technologues travaillant sur tout, de l’assurance maladie à la conception de semi-conducteurs. Pour créer ChatGPT, un chatbot qui permet aux humains d’utiliser l’IA générative simplement en ayant une conversation, OpenAI devait modifier les grands modèles de langage (LLM) comme GPT3 pour devenir plus réactif à l’interaction humaine.
Mais peut-être par inadvertance, ces mêmes changements permettent aux successeurs de GPT3, comme GPT3.5 et GPT4, d’être utilisés comme de puissants outils de traitement de l’information à usage général, des outils qui ne dépendent pas des connaissances sur lesquelles le modèle d’IA a été initialement formé ou les applications pour lesquelles le modèle a été formé. Cela nécessite d’utiliser les modèles d’IA d’une manière complètement différente : programmer au lieu de discuter, de nouvelles données au lieu de formation. Mais cela ouvre la voie à l’IA pour qu’elle devienne un usage général plutôt que spécialisé, davantage un « outil pour tout ».
Comment est-ce qu’on est arrivés ici?
Fondamentaux : probabilités, descente de gradient et réglage fin
Prenons un moment pour expliquer comment fonctionnent les LLM qui alimentent l’IA générative et comment ils sont formés.
Les LLM comme GPT4 sont probabilistes ; ils prennent une entrée et prédisent la probabilité de mots et d’expressions liés à cette entrée. Ils génèrent ensuite un résultat qui est le plus susceptible d’être approprié compte tenu de l’entrée. C’est comme une saisie semi-automatique très sophistiquée : prenez du texte et donnez-moi la suite. Fondamentalement, cela signifie que l’IA générative ne vit pas dans un contexte de « bien et de mal », mais plutôt de « plus et moins probable ».
Être probabiliste a des forces et des faiblesses. Les faiblesses sont bien connues : l’IA générative peut être imprévisible et inexacte, susceptible non seulement de produire de mauvais résultats, mais aussi de les produire d’une manière à laquelle on ne s’attendrait jamais. Mais cela signifie également que l’IA peut être imprévisiblement puissante et flexible, d’une manière que les systèmes traditionnels basés sur des règles ne peuvent pas l’être. Nous devons simplement façonner ce caractère aléatoire de manière utile.
Voici une analogie. Avant la mécanique quantique, les physiciens pensaient que l’univers fonctionnait de manière prévisible et déterministe. Le caractère aléatoire du monde quantique a d’abord été un choc, mais nous avons appris à accepter l’étrangeté quantique et à l’utiliser ensuite de manière pratique. L’effet tunnel quantique est fondamentalement stochastique, mais il peut être guidé de manière à ce que les particules sautent selon des schémas prévisibles. C’est ce qui a conduit aux semi-conducteurs et aux puces qui alimentent l’appareil sur lequel vous lisez cet article. N’acceptez pas simplement que Dieu joue aux dés avec l’univers : apprenez à charger les dés.
La même chose s’applique à l’IA. Nous entraînons les réseaux neuronaux qui composent les LLM en utilisant une technique appelée « descente de gradient ». La descente de gradient examine les sorties produites par un modèle, les compare aux données d’entraînement, puis calcule une « direction » pour ajuster les paramètres du réseau neuronal afin que les sorties deviennent « plus » correctes, c’est-à-dire qu’elles ressemblent davantage aux données d’entraînement. l’IA est donnée. Dans le cas de notre saisie semi-automatique magique, une réponse plus correcte signifie un texte de sortie qui est plus susceptible de suivre la saisie.
Les mathématiques probabilistes sont un excellent moyen pour les ordinateurs de traiter les mots ; calculer la probabilité que certains mots suivent d’autres mots ne fait que compter, et « combien » est beaucoup plus facile à utiliser pour un ordinateur que « plus de bien ou plus de mal ». Produisez un résultat, comparez-le avec les données de formation et ajustez. Rincez et répétez, en apportant de nombreuses petites améliorations progressives, et vous finirez par transformer un réseau neuronal qui crache du charabia en quelque chose qui produit des phrases cohérentes. Et cette technique peut également être adaptée aux images, aux séquences d’ADN, etc.
Laisser un commentaire