Google의 Genie 모델은 단일 이미지에서 대화형 2D 세계를 만듭니다.

Google의 Genie 모델은 단일 이미지에서 대화형 2D 세계를 만듭니다.

텍스트 이미지 비디오 오디오 최근 공개된 지니 모델

DeepMind의 Genie 발표 페이지에는 정적 시작 이미지(어린이 스케치, 실제 사진 등) 또는 ImageGen2를 통해 전달된 텍스트 프롬프트에서 생성된 간단한 플랫폼 스타일 게임의 샘플 GIF가 많이 표시됩니다 . 매끄럽게 보이는 GIF가 전체 연구 논문에서 논의된 일부 주요 현재 제한 사항을 얼버무리는 반면 , AI 연구자들은 Genie의 일반화 가능한 “기본 세계 모델링”이 앞으로 기계 학습을 강화하는 데 어떻게 도움이 될 수 있는지에 대해 여전히 기대하고 있습니다.

후드

Genie의 출력은 기본 2D 게임 엔진에서 나오는 출력과 얼핏 비슷해 보이지만, 이 모델은 실제로 인간 게임 개발자와 같은 방식으로 스프라이트를 그리고 플레이 가능한 플랫폼 게임을 코딩하지 않습니다. 대신 시스템은 시작 이미지(또는 이미지)를 비디오의 프레임으로 처리하고 특정 입력이 주어졌을 때 전체 다음 프레임(또는 프레임)이 어떻게 보일지에 대한 최상의 추측을 생성합니다.

해당 모델을 확립하기 위해 Genie는 200,000시간의 공개 인터넷 게임 비디오로 시작했으며, 이는 “수백 개의 2D 게임”에서 30,000시간의 표준화된 비디오로 필터링되었습니다. 그런 다음 해당 비디오의 개별 프레임은 2억 매개변수로 토큰화되었습니다. 기계 학습 알고리즘이 쉽게 작동할 수 있는 모델입니다.

이미지 생성기에 대한 텍스트 프롬프트를 통해 생성된 이와 같은 이미지는 Genie의 세계 구축을 위한 출발점이 될 수 있습니다.
위의 시작 이미지에서 Genie가 활성화한 대화형 움직임의 샘플(클릭

잠재 동작 모델이 확립되면 Genie는 임의의 수의 임의 프레임과 잠재 동작을 취하고 잠재적인 입력이 주어지면 다음 프레임이 어떤 모습이어야 하는지에 대한 교육적인 추측을 생성할 수 있는 “동적 모델”을 생성합니다. 이 최종 모델은 9,420억 개의 토큰에 대해 훈련된 107억 개의 매개변수로 끝나지만 Genie의 결과는 더 큰 모델이 더 나은 결과를 생성할 수 있음을 시사합니다.

생성 AI를 사용하여 유사한 대화형 모델을 생성하는 이전 작업에서는 기계 학습 알고리즘을 안내하는 데 도움이 되는 훈련 데이터의 “실측 조치 레이블” 또는 텍스트 설명을 사용하는 데 의존했습니다. Genie는 몇 시간의 토큰화된 비디오 프레임만을 사용하여 비디오 뒤에 숨어 있는 동작을 추론하는 “동작이나 텍스트 주석 없이 훈련”하는 능력에서 해당 작업과 차별화됩니다.

Genie 팀은 “이러한 [배포 외] 입력을 일반화할 수 있는 능력은 우리 접근 방식의 견고성과 대규모 데이터에 대한 교육의 가치를 강조합니다. 이는 실제 작업을 입력으로 사용하면 실현 가능하지 않았을 것입니다.”라고 Genie 팀은 썼습니다. 연구 논문에서.

Posted on
News

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다