Verträumte, von der KI generierte geometrische Szenen faszinieren Social-Media-Nutzer
Am Sonntag veröffentlichte ein Reddit-Benutzer namens „Ugleh“ ein KI-generiertes Bild eines spiralförmigen mittelalterlichen Dorfes, das aufgrund seiner bemerkenswerten geometrischen Eigenschaften in den sozialen Medien schnell Aufmerksamkeit erregte . Folgebeiträge erhielten noch mehr Lob, darunter ein Tweet mit über 145.000 Likes. Ugleh erstellte die Bilder mithilfe von Stable Diffusion und einer Führungstechnik namens ControlNet.
Die Reaktionen auf das Kunstwerk im Internet reichten von Staunen und Erstaunen bis hin zu Respekt für die Entwicklung von etwas Neuem in der generativen KI-Kunst. „Solche Bilder habe ich noch nie gesehen. Etwas Neues in der Welt der Kunst“, schrieb ein X-Benutzer. „Ehrlich gesagt, ich habe eine Menge KI-Kunst gesehen, war schon lange in diesem Bereich und dies ist eines der großartigsten Stücke, die ich je gesehen habe. Das hast du so gut gemacht“, schrieb die KI-Künstlerin Kali Yuga auf X.
Am bemerkenswertesten ist vielleicht der Mitbegründer von Y-Combinator und häufige Kommentator für soziale Medien, Paul Graham, der schrieb : „Das war für mich der Punkt, an dem KI-generierte Kunst den Turing-Test bestand.“
Natürlich waren nicht alle beeindruckt, als einige X-Benutzer versuchten, die kompositorischen Elemente des KI-generierten Spiraldorfes auseinanderzunehmen . „Es ist schön, aber es gibt viele Entscheidungen, die ein Mensch nicht treffen würde“, schrieb ein Grafikdesigner namens Trent. „Viele Schatten stimmen nicht und es macht keinen Sinn, Schornsteine direkt über den Fenstern zu platzieren. Wenn man hineinzoomt, erkennt man auch die verräterischen Geräuschmuster der KI-Kunst.“
Im Juni haben wir über eine Technik berichtet , die das KI-Bildsynthesemodell Stable Diffusion und ControlNet nutzt, um QR-Codes zu erstellen, die wie reichhaltige Kunstwerke aussehen, einschließlich Anime-inspirierter Kunst. Ugleh nutzte dasselbe neuronale Netzwerk, das für die Erstellung dieser QR-Codes (die selbst geometrische Formen sind) optimiert war , und speiste stattdessen einfache Bilder von Spiralen und Schachbrettmustern ein.
Geleitet von der Eingabeaufforderung „Mittelalterliche Dorfszene mit belebten Straßen und Burg in der Ferne (Meisterwerk: 1,4), (beste Qualität), (detailliert) “ renderte ControlNet Szenen, in denen künstlerische Elemente der Bilder mit den Wahrnehmungsformen von Spiralen und übereinstimmen Schachbrettmuster. Auf einem Bild wölben sich die Wolken über ihnen und die Menschen stehen in einer sanften Kurve, um der spiralförmigen Führung zu entsprechen. In einem anderen Bild bilden Quadrate aus Wolken, Hecken, Gebäudefassaden und ein Karren eine schachbrettförmige Szene.
Die Magie von ControlNet
Wie funktioniert es also? Wir haben uns schon oft mit der stabilen Diffusion befasst . Es handelt sich um ein neuronales Netzwerkmodell, das auf Millionen von Bildern aus dem Internet trainiert wurde. Aber der Schlüssel hier ist ControlNet, das erstmals im Februar 2023 in einem Forschungspapier mit dem Titel „ Adding Conditional Control to Text-to-Image Diffusion Models “ von Lvmin Zhang, Anyi Rao und Maneesh Agrawala erschien und schnell in der Stable Diffusion populär wurde Gemeinschaft.
Normalerweise wird ein Stable Diffusion-Bild mithilfe einer Textaufforderung (text2image genannt) oder einer Bildaufforderung (img2img) erstellt. ControlNet führt zusätzliche Anleitungen ein, die in Form von extrahierten Informationen aus einem Quellbild erfolgen können, einschließlich Posenerkennung, Tiefenkartierung, Normalkartierung, Kantenerkennung und vieles mehr. Mit ControlNet kann jemand, der KI-Kunstwerke erstellt, die Form oder Pose eines Motivs in einem Bild viel genauer nachbilden.
Mit ControlNet und ähnlichen Eingabeaufforderungen ist es einfach, Uglehs Arbeit zu reproduzieren, und andere haben dies mit amüsantem Effekt getan, darunter Schachbrett-Anime-Charaktere , eine Animation , ein mittelalterliches Dorf „Ziegen “ (überraschend sicher für die Arbeit) und eine mittelalterliche Dorfversion von „ Girl “. mit einem Perlenohrring .
Trotz der großen Aufmerksamkeit und der vielen Angebote, die Kunstwerke in NFTs umzuwandeln, hat sich Ugleh dazu entschieden, vorerst unauffällig zu bleiben. Zu X sagte er: „Ich schätze all das positive Feedback zur KI-Kunst, ich habe nicht vor, mit meinen jüngsten Generationen Geld zu verdienen, und ich werde keine offiziellen Interviews geben.“ Ich bin nur ein normaler technisch versierter KI-Nerd, der mit einer neuen ControlNet-Technik experimentiert hat.“
Wenn Sie mit ControlNet experimentieren möchten, finden Sie auf dieser Website ein gutes Tutorial. Außerdem hat Ugleh auf Imgur einen Schritt-für-Schritt-Workflow veröffentlicht , einschließlich der Spiral- und Schachbrett-Vorlagendateien.
Obwohl das Kunstwerk bemerkenswert ist, besagen die aktuellen US-amerikanischen Urheberrechtsbestimmungen , dass die Bilder nicht den Standards für den Urheberrechtsschutz entsprechen, sodass sie technisch gesehen gemeinfrei sind. Während KI-generierte Kunstwerke für viele aus ethischen und rechtlichen Gründen immer noch ein umstrittenes Thema sind , verschieben Enthusiasten weiterhin die Grenzen dessen, was für einen ungeübten oder ungeschulten Praktiker mit diesen neuen Werkzeugen möglich ist.
Schreibe einen Kommentar