OpenAI의 새로운 AI 이미지 생성기는 한계를 뛰어넘어 세부적이고 신속한 충실도를 제공합니다.

OpenAI의 새로운 AI 이미지 생성기는 한계를 뛰어넘어 세부적이고 신속한 충실도를 제공합니다.

수요일, OpenAI는 ChatGPT 와 완전히 통합되는 AI 이미지 합성 모델의 최신 버전인 DALL-E 3를 발표했습니다 . DALL-E 3는 이전 모델에서는 어려웠던 복잡한 설명을 면밀히 따르고 이미지 내 텍스트 생성(예: 라벨 및 기호)을 처리하여 이미지를 렌더링합니다. 현재 연구 미리 보기 단계이며, 10월 초 ChatGPT Plus 및 Enterprise 고객에게 제공될 예정입니다.

이전 버전 과 마찬가지로 DALLE-3은 프롬프트라는 서면 설명을 기반으로 새로운 이미지를 생성하는 텍스트-이미지 생성기입니다. OpenAI는 DALL-E 3에 대한 기술적 세부 정보를 공개하지 않았지만 이전 버전의 DALL-E의 핵심인 AI 모델은 인간 예술가와 사진작가가 만든 수백만 개의 이미지를 대상으로 훈련되었으며, 그 중 일부는 Shutterstock과 같은 스톡 웹사이트에서 라이선스를 받았습니다 . DALL-E 3는 이와 동일한 공식을 따르지만 새로운 훈련 기술과 더 많은 계산 훈련 시간을 사용합니다.

OpenAI가 홍보 블로그에서 제공한 샘플로 판단하면 DALL-E 3는 다음 프롬프트 측면에서 사용할 수 있는 다른 어떤 것보다 근본적으로 더 유능한 이미지 합성 모델인 것으로 보입니다. OpenAI의 예제는 효율성을 위해 선별되었지만 프롬프트 지침을 충실히 따르고 최소한의 변형으로 개체를 설득력 있게 렌더링하는 것으로 보입니다. OpenAI는 DALL-E 2 와 비교하여 DALL-E 3가 손과 같은 작은 세부 사항을 보다 효과적으로 개선하여 “해킹이나 신속한 엔지니어링이 필요하지 않음”으로 기본적으로 매력적인 이미지를 생성한다고 말합니다.

없음
없음
없음
없음
없음
없음
없음
없음
없음

이에 비해 다른 공급업체의 경쟁 AI 이미지 합성 모델인 Midjourney는 사실적인 세부 정보를 잘 렌더링하지만 이미지 출력을 제어하려면 프롬프트가 포함된 반직관적인 수정 작업이 여전히 많이 필요합니다.

DALL-E 3는 또한 이전 제품이 할 수 없었던 방식으로 이미지 내의 텍스트를 처리하는 것으로 보입니다( Stable Diffusion XLDeepFloyd 와 같은 일부 경쟁 모델은 점점 더 발전하고 있습니다). 예를 들어, “치료사의 의자에 앉아 ‘내 마음이 너무 공허해’라고 말하는 아보카도의 그림 중앙에 구멍만 뚫린 그림”이라는 단어가 포함된 프롬프트는 문자 인용문이 완벽하게 포함된 만화 아보카도를 만들었습니다. 말풍선에 담겨 있습니다.

특히 OpenAI는 DALL-E 3가 ChatGPT에서 “기본적으로 구축”되었으며 ChatGPT Plus의 통합 기능으로 출시되어 AI 보조자를 브레인스토밍 파트너로 사용하는 방식으로 이미지에 대한 대화 개선이 가능하다고 밝혔습니다. 이는 또한 ChatGPT가 현재 대화의 맥락을 기반으로 이미지를 생성할 수 있다는 것을 의미하며, 이는 새로운 기능으로 이어질 수 있습니다. OpenAI의 기술을 기반으로 구축된 Microsoft의 Bing Chat AI 도우미는 3월부터 대화에서 이미지를 생성 할 수 있게 되었습니다 .

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다