Des scènes géométriques de rêve générées par l’IA hypnotisent les utilisateurs des médias sociaux
Dimanche, un utilisateur de Reddit nommé « Ugleh » a publié une image générée par l’IA d’un village médiéval en forme de spirale qui a rapidement attiré l’attention sur les réseaux sociaux pour ses remarquables qualités géométriques. Les publications de suivi ont suscité encore plus d’éloges, notamment un tweet avec plus de 145 000 likes. Ugleh a créé les images en utilisant la diffusion stable et une technique de guidage appelée ControlNet.
Les réactions face à l’œuvre d’art en ligne allaient de l’émerveillement et de l’étonnement au respect pour le développement de quelque chose de nouveau dans l’art de l’IA générative. «Je n’ai jamais vu de photos comme celle-ci. Quelque chose de nouveau dans le monde de l’art », a écrit un utilisateur de X. « Tbh, j’ai vu BEAUCOUP d’art IA, je suis dans cet espace depuis très très longtemps, et c’est l’une des œuvres les plus impressionnantes que j’ai jamais vues. Vous avez si bien fait », a écrit l’artiste IA Kali Yuga sur X.
Peut-être plus particulièrement, Paul Graham, co-fondateur de Y-Combinator et commentateur fréquent des technologies des médias sociaux, a écrit : « C’est à ce moment-là que l’art généré par l’IA a réussi le test de Turing pour moi. »
Bien sûr, tout le monde n’a pas été impressionné par la tentative de certains utilisateurs de X de séparer les éléments de composition du village en spirale généré par l’IA. «C’est bien, mais il y a beaucoup de décisions qu’un humain ne prendrait pas», a écrit un graphiste nommé Trent. « Beaucoup d’ombres ne sont pas correctes et placer des cheminées juste au-dessus des fenêtres n’a aucun sens. En zoomant, on y voit également les modèles de bruit révélateurs de l’art de l’IA.
En juin, nous avons abordé une technique utilisant le modèle de synthèse d’images IA Stable Diffusion et ControlNet pour créer des codes QR qui ressemblent à de riches œuvres d’art, notamment des œuvres d’art inspirées des dessins animés. Ugleh a utilisé le même réseau neuronal optimisé pour créer ces codes QR (qui sont eux-mêmes des formes géométriques) et y a introduit des images simples de spirales et de motifs en damier.
Lorsqu’il est guidé par l’invite « Scène de village médiéval avec des rues animées et un château au loin (chef-d’œuvre : 1.4), (meilleure qualité), (détaillé) », ControlNet a rendu des scènes où les éléments artistiques des images correspondent aux formes perceptuelles des spirales et des damiers. Sur une image, les nuages se dessinent au-dessus de notre tête et les gens se tiennent dans une courbe douce pour suivre le guidage en spirale. Dans une autre, des carrés de nuages, des haies, des façades de bâtiments et un chariot composent une scène en forme de damier.
La magie de ControlNet
Alors, comment ça marche? Nous avons souvent abordé la question de la diffusion stable auparavant . Il s’agit d’un modèle de réseau neuronal formé sur des millions d’images récupérées sur Internet. Mais la clé ici est ControlNet, qui est apparu pour la première fois dans un document de recherche intitulé « Adding Conditional Control to Text-to-Image Diffusion Models » par Lvmin Zhang, Anyi Rao et Maneesh Agrawala en février 2023, et est rapidement devenu populaire dans le domaine de la diffusion stable. communauté.
En règle générale, une image à diffusion stable est créée à l’aide d’une invite de texte (appelée text2image) ou d’une invite d’image (img2img). ControlNet introduit des conseils supplémentaires qui peuvent prendre la forme d’informations extraites d’une image source, notamment la détection de pose, le mappage de profondeur, le mappage normal, la détection de contours et bien plus encore. Grâce à ControlNet, quelqu’un qui génère des illustrations d’IA peut reproduire de manière beaucoup plus fidèle la forme ou la pose d’un sujet dans une image.
En utilisant ControlNet et des invites similaires, il est facile de reproduire le travail d’Ugleh, et d’autres l’ont fait avec un effet amusant, y compris des personnages d’anime en damier , une animation , une « chèvre » de village médiéval (étonnamment sûre pour le travail) et une version de village médiéval de « Girl » . avec une boucle d’oreille en perle .
Malgré l’attention massive et les nombreuses offres visant à transformer les œuvres d’art en NFT, Ugleh a choisi de faire profil bas pour le moment. Sur X, il a déclaré : « J’apprécie tous les retours positifs sur l’art de l’IA, je n’ai pas l’intention de gagner de l’argent avec mes dernières générations et je ne ferai aucune interview officielle. Je ne suis qu’un nerd normal en IA, féru de technologie, qui a expérimenté une nouvelle technique ControlNet.
Si vous souhaitez expérimenter ControlNet, ce site propose un bon didacticiel. Ugleh a également publié un flux de travail étape par étape , comprenant les fichiers de modèles en spirale et en damier, sur Imgur.
Bien que l’œuvre d’art soit remarquable, la politique américaine actuelle en matière de droits d’auteur stipule que les images ne répondent pas aux normes pour bénéficier de la protection par le droit d’auteur et qu’elles relèvent donc techniquement du domaine public. Alors que les œuvres d’art générées par l’IA restent un sujet controversé pour beaucoup sur des bases éthiques et juridiques, les passionnés continuent de repousser les limites de ce qui est possible pour un praticien non qualifié ou non formé utilisant ces nouveaux outils.
Laisser un commentaire