Nowy generator obrazów AI OpenAI przesuwa granice szczegółowości i natychmiastowej wierności
W środę OpenAI ogłosiło DALL-E 3, najnowszą wersję swojego modelu syntezy obrazu AI, która oferuje pełną integrację z ChatGPT . DALL-E 3 renderuje obrazy, ściśle śledząc złożone opisy i obsługując generowanie tekstu w obrazie (takiego jak etykiety i znaki), co stanowiło wyzwanie dla wcześniejszych modeli. Obecnie znajduje się w wersji zapoznawczej i będzie dostępna dla klientów ChatGPT Plus i Enterprise na początku października.
Podobnie jak jego poprzednik , DALLE-3 jest generatorem zamiany tekstu na obraz, który tworzy nowatorskie obrazy na podstawie pisemnych opisów zwanych podpowiedziami. Chociaż OpenAI nie ujawniło żadnych szczegółów technicznych na temat DALL-E 3, model sztucznej inteligencji będący sercem poprzednich wersji DALL-E został przeszkolony na milionach obrazów stworzonych przez artystów i fotografów, z których część była licencjonowana w witrynach stockowych, takich jak Shutterstock . Prawdopodobnie DALL-E 3 działa według tego samego wzoru, ale z nowymi technikami szkoleniowymi i dłuższym czasem szkolenia obliczeniowego.
Sądząc po próbkach dostarczonych przez OpenAI na swoim blogu promocyjnym, DALL-E 3 wydaje się być radykalnie wydajniejszym modelem syntezy obrazu niż jakikolwiek inny dostępny pod względem następujących podpowiedzi. Chociaż przykłady OpenAI zostały wybrane ze względu na ich skuteczność, wydają się postępować zgodnie z instrukcjami wyświetlanymi na ekranie, wiernie i przekonująco renderując obiekty z minimalnymi deformacjami. W porównaniu do DALL-E 2 , OpenAI twierdzi, że DALL-E 3 skuteczniej udoskonala drobne szczegóły, takie jak dłonie, domyślnie tworząc atrakcyjne obrazy „bez konieczności stosowania hacków i szybkiej inżynierii”.
Dla porównania Midjourney , konkurencyjny model syntezy obrazu AI od innego dostawcy, dobrze renderuje fotorealistyczne szczegóły, ale nadal wymaga wiele sprzecznego z intuicją majsterkowania przy monitach, aby uzyskać jakąkolwiek kontrolę nad wyjściowym obrazem.
Wydaje się również, że DALL-E 3 radzi sobie z tekstem w obrazach w sposób, w jaki nie był w stanie tego zrobić jego poprzednik (niektóre konkurencyjne modele, takie jak Stable Diffusion XL i DeepFloyd , radzą sobie z tym coraz lepiej). Na przykład podpowiedź zawierająca słowa: „Ilustracja przedstawiająca awokado siedzące na fotelu terapeuty i mówiące: „Czuję się taka pusta w środku” z dziurą wielkości pestki pośrodku” stworzyło idealnie kreskówkowe awokado z cytatem postaci zamknięte w dymku.
Warto zauważyć, że OpenAI twierdzi, że DALL-E 3 został „zbudowany natywnie” na ChatGPT i pojawi się jako zintegrowana funkcja ChatGPT Plus, umożliwiając konwersacyjne udoskonalanie obrazów w sposób, który pozwoli wykorzystać asystenta AI jako partnera do burzy mózgów. Oznacza to również, że ChatGPT będzie w stanie generować obrazy w oparciu o kontekst bieżącej rozmowy, co może prowadzić do nowych, nowatorskich możliwości. Asystent AI Bing Chat firmy Microsoft, również zbudowany w oparciu o technologię OpenAI, jest w stanie od marca generować obrazy podczas rozmów .
Dodaj komentarz