OpenAI 的全新 AI 影像產生器突破了細節和提示保真度的極限

OpenAI 的全新 AI 影像產生器突破了細節和提示保真度的極限

週三,OpenAI發布了DALL-E 3,這是其 AI 影像合成模型的最新版本,其功能與ChatGPT完全整合。DALL-E 3 透過嚴格遵循複雜的描述並處理圖像內文字生成(例如標籤和標誌)來渲染圖像,這對早期模型提出了挑戰。目前處於研究預覽階段,將於 10 月初向 ChatGPT Plus 和企業客戶提供。

與其前身一樣,DALLE-3 是一個文字到圖像生成器,可以根據稱為提示的書面描述創建新穎的圖像。儘管OpenAI 沒有發布有關DALL-E 3 的技術細節,但DALL-E 早期版本的核心AI 模型接受了人類藝術家和攝影師創作的數百萬張圖像的訓練,其中一些圖像是從Shutterstock 等股票網站獲得許可。DALL-E 3 很可能遵循相同的公式,但採用了新的訓練技術和更多的計算訓練時間。

從 OpenAI 在其宣傳部落格上提供的範例來看,DALL-E 3 似乎是一個比任何其他可用的圖像合成模型更強大的圖像合成模型。雖然 OpenAI 的範例因其有效性而被精心挑選,但它們似乎忠實地遵循提示指令,令人信服地以最小的變形渲染物件。OpenAI 表示,與DALL-E 2相比,DALL-E 3 更有效地完善了手等小細節,默認創建引人入勝的圖像,「無需黑客或快速工程」。

沒有任何
沒有任何
沒有任何
沒有任何
沒有任何
沒有任何
沒有任何
沒有任何
沒有任何

相較之下,來自另一家供應商的競爭性人工智慧影像合成模型Midjourney可以很好地呈現照片級真實感細節,但它仍然需要大量反直覺的修改提示才能獲得對影像輸出的任何控制。

DALL-E 3 似乎還可以以其前身無法做到的方式處理圖像中的文字(一些競爭模型,如Stable Diffusion XLDeepFloyd在這方面做得越來越好)。例如,包含以下文字的提示:“牛油果坐在治療師的椅子上,說’我感覺內心很空虛’,中心有一個坑大小的洞”,完美地創建了一個卡通牛油果,並完美地引用了角色名言封裝在一個對話氣泡中。

值得注意的是,OpenAI 表示,DALL-E 3 是在 ChatGPT 上「原生建構」的,並將作為 ChatGPT Plus 的整合功能出現,允許以 AI 助理作為腦力激盪合作夥伴的方式對影像進行對話式改進。這也意味著 ChatGPT 將能夠根據當前對話的上下文生成圖像,這可能會帶來新穎的新功能。微軟的 Bing Chat AI 助理也是基於 OpenAI 的技術構建的,自 3 月以來已經能夠在對話中生成圖像

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *