Marzycielskie sceny geometryczne generowane przez sztuczną inteligencję hipnotyzują użytkowników mediów społecznościowych

Marzycielskie sceny geometryczne generowane przez sztuczną inteligencję hipnotyzują użytkowników mediów społecznościowych

W niedzielę użytkownik Reddita o imieniu „Ugleh” opublikował wygenerowany przez sztuczną inteligencję obraz średniowiecznej wioski w kształcie spirali, która szybko zyskała uwagę w mediach społecznościowych ze względu na swoje niezwykłe właściwości geometryczne. Kolejne posty zebrały jeszcze więcej pochwał, w tym tweet z ponad 145 000 polubień. Ugleh stworzył obrazy, korzystając ze stabilnej dyfuzji i techniki naprowadzania zwanej ControlNet.

Reakcje na grafikę w Internecie wahały się od zachwytu i zdumienia po szacunek dla opracowania czegoś nowatorskiego w sztuce generatywnej sztucznej inteligencji. „Nigdy nie widziałem takich zdjęć. Coś nowego w świecie sztuki” – napisał jeden z użytkowników X. „Tbh, widziałem DUŻO sztucznej inteligencji, przebywałem w tym miejscu przez długi, długi czas, a to jest jedno z najbardziej niesamowitych dzieł, jakie kiedykolwiek widziałem. Świetnie się spisałeś” – napisał artysta AI Kali Yuga na X.

Być może co najważniejsze, współzałożyciel Y-Combinator i częsty komentator technologii mediów społecznościowych Paul Graham napisał : „To był moment, w którym sztuka wygenerowana przez sztuczną inteligencję zdała dla mnie test Turinga”.

Nic
Nic
Nic
Nic
Nic

Oczywiście nie na wszystkich zrobiło to wrażenie, gdy niektórzy użytkownicy X próbowali rozebrać elementy kompozycyjne spiralnej wioski generowanej przez sztuczną inteligencję. „To miłe, ale jest wiele decyzji, których człowiek by nie podjął” – napisał grafik o imieniu Trent. „Wiele cieni jest nieodpowiednich, a umieszczanie kominów tuż nad oknami nie ma sensu. Po powiększeniu widać także charakterystyczne wzorce dźwiękowe sztuki sztucznej inteligencji.

W czerwcu omówiliśmy technikę wykorzystującą model syntezy obrazu AI Stable Diffusion i ControlNet do tworzenia kodów QR wyglądających jak bogate dzieła sztuki, w tym dzieła inspirowane anime. Ugleh wykorzystał tę samą sieć neuronową zoptymalizowaną do tworzenia kodów QR (które same w sobie są kształtami geometrycznymi) i zamiast tego wprowadził do niej proste obrazy spiral i wzorów szachownicy.

Kierując się podpowiedzią „Średniowieczna scena wioskowa z ruchliwymi ulicami i zamkiem w oddali (arcydzieło: 1.4), (najwyższa jakość), (szczegóły) ”, ControlNet renderował sceny, w których artystyczne elementy obrazów pasują do percepcyjnych kształtów spiral i szachownice. Na jednym zdjęciu chmury tworzą łuk nad głową, a ludzie stoją w delikatnym łuku, pasującym do spiralnego prowadzenia. Na innym kwadraty chmur, żywopłoty, ściany budynków i wóz tworzą scenę w kształcie szachownicy.

Magia ControlNet

Jak to działa? Często już omawialiśmy kwestię stabilnego rozproszenia . To model sieci neuronowej wytrenowany na milionach obrazów pobranych z Internetu. Jednak kluczem jest tu ControlNet, który po raz pierwszy pojawił się w artykule badawczym zatytułowanym „ Dodawanie kontroli warunkowej do modeli dyfuzji tekstu na obraz ” autorstwa Lvmina Zhanga, Anyi Rao i Maneesha Agrawali w lutym 2023 r. i szybko zyskał popularność w obszarze Stable Diffusion wspólnota.

Zazwyczaj obraz o stabilnym rozproszeniu jest tworzony przy użyciu podpowiedzi tekstowej (zwanej tekstem2image) lub podpowiedzi obrazowej (img2img). ControlNet wprowadza dodatkowe wskazówki, które mogą przybrać formę informacji wyodrębnionych z obrazu źródłowego, w tym wykrywanie ułożenia, mapowanie głębi, mapowanie normalnych, wykrywanie krawędzi i wiele innych. Korzystając z ControlNet, osoba tworząca grafikę AI może znacznie dokładniej odtworzyć kształt lub pozę obiektu na obrazie.

Nic
Nic
Nic

Korzystając z ControlNet i podobnych podpowiedzi, łatwo jest odtworzyć pracę Ugleha, a innym udało się to z zabawnym efektem, włączając w to postacie z anime w szachownicę , animację , średniowieczną wioskę „kozę ” (zaskakująco bezpieczną do pracy) i średniowieczną wiejską wersję „ Dziewczyny z perłą .

Pomimo ogromnego zainteresowania i wielu ofert przekształcenia grafiki w NFT, Ugleh zdecydował się na razie zachować dyskrecję. W programie X powiedział : „Doceniam wszystkie pozytywne opinie na temat sztuki sztucznej inteligencji, nie planuję zarabiać na moich najnowszych pokoleniach i nie będę udzielał żadnych oficjalnych wywiadów. Jestem zwykłym, znającym się na technologii kujonem AI, który eksperymentował z nową techniką ControlNet.

Jeśli chcesz poeksperymentować z ControlNet, na tej stronie znajdziesz dobry samouczek. Ponadto Ugleh opublikował w serwisie Imgur szczegółowy opis przebiegu pracy , w tym pliki szablonów spirali i szachownicy.

Choć grafika jest niezwykła, obecna polityka praw autorskich Stanów Zjednoczonych stanowi, że obrazy nie spełniają standardów ochrony praw autorskich, więc technicznie rzecz biorąc, należą do domeny publicznej. Choć dzieła sztuki generowane przez sztuczną inteligencję są dla wielu nadal przedmiotem sporów ze względów etycznych i prawnych, entuzjaści w dalszym ciągu przesuwają granice tego, co jest możliwe dla niewykwalifikowanych lub nieprzeszkolonych praktyków korzystających z tych nowych narzędzi.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *