먼저, GAIA-1은 모든 입력을 각 모달리티(비디오, 텍스트, 행동)에 대한 전문화된 인코더를 통해 인코딩합니다. 이 인코더들은 다양한 입력 소스를 공유된 표현으로 투영합니다. 텍스트와 비디오 인코더는 입력을 이산화하고 임베딩하는 반면, 행동을 나타내는 스칼라들은 독립적으로 공유된 표현으로 투영됩니다. 이러한 인코딩된 표현은 일관된 타임라인을 공유하도록 시간적으로 정렬됩니다.
이 정렬을 따라, 모델의 핵심 구성 요소인 세계 모델이 등장합니다. 세계 모델은 자기회귀 변환기입니다. 이 변환기는 시퀀스에서 다음 세트의 이미지 토큰을 예측합니다. 이를 달성하기 위해, 변환기는 과거의 이미지 토큰뿐만 아니라 텍스트와 행동 토큰이 제공하는 문맥 정보를 고려합니다. 이 전체적인 접근 방식은 모델이 시각적으로 일관되면서도 의도한 텍스트와 행동 기반의 지침과 일치하는 이미지 토큰을 생성할 수 있게 합니다. GAIA-1의 세계 모델은 65억 개의 파라미터를 가지고 있으며, 64개의 NVIDIA A100에서 15일 동안 훈련되었습니다.
마지막으로, 비디오 디코더인 비디오 확산 모델이 사용됩니다. 이 모델은 예측된 이미지 토큰을 다시 픽셀 공간으로 변환하는 역할을 합니다. 비디오 확산 모델은 생성된 비디오가 의미 있고, 시각적으로 정확하며, 시간적으로 일관되게 유지되도록 하는 중요한 역할을 담당합니다, 전반적인 생성 콘텐츠의 품질을 향상시킵니다. GAIA-1의 비디오 디코더는 26억 개의 파라미터를 가지고 있으며, 32개의 NVIDIA A100에서 15일 동안 훈련되었습니다.
GAIA-1은 9억 개 이상의 훈련 가능한 파라미터를 가지고 있으며(6월 버전의 GAIA-1에 비해 1B 파라미터에서 증가함), 2019년부터 2023년 사이에 영국 런던에서 수집된 4,700시간의 독점적인 운전 데이터로 구성된 훈련 데이터셋을 가지고 있습니다.