Snové geometrické scény generované umělou inteligencí hypnotizují uživatele sociálních sítí

V neděli uživatel Redditu jménem „Ugleh“ zveřejnil obrázek středověké vesnice ve tvaru spirály vytvořený umělou inteligencí, který si rychle získal pozornost na sociálních sítích pro své pozoruhodné geometrické vlastnosti. Následné příspěvky sklidily ještě více chvály, včetně tweetu s více než 145 000 lajky. Ugleh vytvořil obrázky pomocí Stable Diffusion a naváděcí techniky zvané ControlNet.
Reakce na umělecká díla online se pohybovaly od úžasu a úžasu až po respekt k vývoji něčeho nového v generativním umění umělé inteligence. „Takové obrázky jsem ještě neviděl.“ Něco nového ve světě umění,“ napsal jeden uživatel X. „Tbh, viděl jsem HODNĚ leteckého umění, byl jsem v tomto prostoru dlouho a tohle je jeden z nejúžasnějších kousků, jaké jsem kdy viděl. Udělali jste tak dobře,“ napsal umělec AI Kali Yuga na X.
Snad nejpozoruhodnější je, že spoluzakladatel Y-Combinator a častý technický komentátor sociálních médií Paul Graham napsal : „Toto byl bod, kdy pro mě umění generované umělou inteligencí prošlo Turingovým testem.“





Ne všichni byli samozřejmě ohromeni, když se někteří uživatelé X pokoušeli rozebrat kompoziční prvky spirálovité vesnice vygenerované umělou inteligencí. „Je to hezké, ale existuje spousta rozhodnutí, která by člověk neudělal,“ napsal grafický designér Trent. „Mnoho stínů není správných a umístění komínů přímo nad okna nedává smysl. Při přiblížení jsou také vypovídací vzory šumu umění umělé inteligence.“
V červnu jsme se zabývali technikou, která používala model syntézy obrazu AI Stable Diffusion a ControlNet k vytváření QR kódů, které vypadají jako bohatá umělecká díla, včetně umění inspirovaného anime. Ugleh vzal stejnou neuronovou síť optimalizovanou pro vytváření těchto QR kódů (které samy jsou geometrickými tvary) a místo toho do ní vložil jednoduché obrázky spirál a šachovnicových vzorů.
Když se ControlNet řídí výzvou: „Scéna středověké vesnice s rušnými ulicemi a hradem v dálce (mistrovské dílo: 1,4), (nejlepší kvalita), (podrobné) “, vykreslil ControlNet scény, kde umělecké prvky obrázků odpovídají vjemovým tvarům spirál a šachovnice. Na jednom snímku se mraky klenou nad hlavou a lidé stojí v mírné křivce, aby odpovídaly spirálovému vedení. V jiném čtverce mraků, živých plotů, stěn budov a vozíku tvoří šachovnicovou scénu.
Kouzlo ControlNet
Jak to tedy funguje? Stabilní difúze jsme se již často zabývali . Je to model neuronové sítě trénovaný na milionech obrázků seškrábaných z internetu. Klíčem je zde však ControlNet, který se poprvé objevil ve výzkumném dokumentu s názvem „ Přidání podmíněného řízení k modelům šíření textu na obrázek “ od Lvmin Zhang, Anyi Rao a Maneesh Agrawala v únoru 2023 a rychle se stal populárním ve Stable Diffusion. společenství.
Obraz Stable Diffusion se obvykle vytváří pomocí textové výzvy (nazývané text2image) nebo obrázkové výzvy (img2img). ControlNet zavádí další pokyny, které mohou mít formu extrahovaných informací ze zdrojového obrázku, včetně detekce pozice, mapování hloubky, normálního mapování, detekce hran a mnoha dalších. Pomocí ControlNet může někdo, kdo vytváří umělecká díla AI, mnohem přesněji replikovat tvar nebo pózu předmětu na obrázku.



Pomocí ControlNet a podobných výzev je snadné replikovat Uglehovu práci a jiní tak učinili se zábavným efektem, včetně šachovnicových anime postav , animace , středověké vesnice „koza “ (překvapivě bezpečná pro práci) a verze středověké vesnice „ Dívka s perlovou náušnicí .“
Navzdory obrovské pozornosti a mnoha nabídkám na přeměnu uměleckého díla na NFT se Ugleh rozhodl prozatím držet nízký profil. Na X řekl : „Vážím si všech pozitivních ohlasů na umění AI, neplánuji vydělávat peníze na svých nejnovějších generacích a nebudu dělat žádné oficiální rozhovory. Jsem jen normální technicky zdatný AI blbeček, který experimentoval s novou technikou ControlNet.“
Pokud chcete experimentovat s ControlNet, tato stránka má dobrý návod. Ugleh také zveřejnil na Imguru pracovní postup krok za krokem , včetně souborů šablon spirály a šachovnice.
I když je umělecká díla pozoruhodná, současná americká politika ochrany autorských práv říká, že obrázky nesplňují standardy pro ochranu autorských práv, takže technicky jsou ve veřejné doméně. Zatímco umělecká díla generovaná umělou inteligencí jsou pro mnohé z etických a právních důvodů stále sporným tématem , nadšenci nadále posouvají hranice toho, co je možné pro nekvalifikovaného nebo neškoleného odborníka pomocí těchto nových nástrojů.
Napsat komentář