OpenAI:n uusi tekoälykuvageneraattori ylittää rajoja yksityiskohdissa ja nopeassa tarkkuudessa

OpenAI:n uusi tekoälykuvageneraattori ylittää rajoja yksityiskohdissa ja nopeassa tarkkuudessa

Keskiviikkona OpenAI julkisti DALL-E 3:n, uusimman version tekoälykuvasynteesimallistaan, jossa on täysi integraatio ChatGPT:n kanssa . DALL-E 3 renderöi kuvia seuraamalla tarkasti monimutkaisia ​​kuvauksia ja käsittelemällä kuvan sisäistä tekstin luomista (kuten tarroja ja kylttejä), mikä haastaa aikaisemmat mallit. Tällä hetkellä tutkimuksen esikatselussa se on ChatGPT Plus- ja Enterprise-asiakkaiden saatavilla lokakuun alussa.

Kuten edeltäjänsä , DALLE-3 on tekstistä kuvaksi generaattori, joka luo uusia kuvia kirjoitettujen kuvausten perusteella, joita kutsutaan kehotteiksi. Vaikka OpenAI ei julkaissut teknisiä yksityiskohtia DALL-E 3:sta, DALL-E:n aiempien versioiden ytimessä oleva tekoälymalli on koulutettu miljooniin ihmistaiteilijoiden ja valokuvaajien luomiin kuviin, joista osa on lisensoitu varastosivustoilta, kuten Shutterstock . Todennäköisesti DALL-E 3 noudattaa samaa kaavaa, mutta uusilla harjoitustekniikoilla ja enemmän laskennallista harjoitusaikaa.

OpenAI:n promootioblogissaan toimittamien näytteiden perusteella DALL-E 3 näyttää olevan radikaalisti tehokkaampi kuvasynteesimalli kuin mikään muu saatavilla oleva seuraavien kehotteiden suhteen. Vaikka OpenAI:n esimerkit on poimittu niiden tehokkuuden vuoksi, ne näyttävät noudattavan ohjeita uskollisesti ja vakuuttavasti renderöivän esineitä minimaalisilla muodonmuutoksilla. Verrattuna DALL-E 2:een , OpenAI sanoo, että DALL-E 3 jalostaa pienet yksityiskohdat, kuten kädet, tehokkaammin ja luovat oletusarvoisesti kiinnostavia kuvia ilman, että ”hakkerointia tai nopeaa suunnittelua tarvitaan”.

Ei mitään
Ei mitään
Ei mitään
Ei mitään
Ei mitään
Ei mitään
Ei mitään
Ei mitään
Ei mitään

Vertailun vuoksi, Midjourney , kilpaileva tekoälykuvan synteesimalli toiselta toimittajalta, näyttää fotorealistiset yksityiskohdat hyvin, mutta vaatii silti paljon intuitiivista puuhailua kehotteiden kanssa saadakseen minkäänlaista hallintaa kuvan tuotosta.

DALL-E 3 näyttää myös käsittelevän kuvien tekstiä tavalla, jota sen edeltäjä ei pystynyt (jotkut kilpailevat mallit, kuten Stable Diffusion XL ja DeepFloyd , ovat paranemassa). Esimerkiksi kehote, joka sisälsi sanat ”Kuvaus avokadosta, joka istuu terapeutin tuolissa ja sanoo: ”Tunnen oloni niin tyhjältä sisältä”, jonka keskellä on kuopan kokoinen reikä”, loi sarjakuvaavokadon hahmolainauksella täydellisesti. koteloitu puhekuplaan.

Erityisesti OpenAI sanoo, että DALL-E 3 on ”rakennettu natiivisti” ChatGPT:lle ja se saapuu ChatGPT Plus:n integroituna ominaisuutena, mikä mahdollistaa kuvien keskustelun tarkentamisen tavalla, joka käyttää tekoälyavustajaa aivoriihikumppanina. Se tarkoittaa myös, että ChatGPT pystyy luomaan kuvia nykyisen keskustelun kontekstin perusteella, mikä voi johtaa uusiin uusiin ominaisuuksiin. Microsoftin Bing Chat AI -avustaja, joka on myös rakennettu OpenAI:n teknologiaan, on pystynyt luomaan kuvia keskusteluissa maaliskuusta lähtien.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *