[논문] MotionGPT: Human Motion as a Foreign Language

eric9687·2025년 2월 16일

Motion Generation 논문 리뷰

목록 보기

5/11

https://motion-gpt.github.io/
https://arxiv.org/pdf/2306.14795
https://github.com/OpenMotionLab/MotionGPT

Introduction

LLM은 방대한 양의 데이터를 사용하여, 포괄적인 언어 표현에 대해 학습하고, 이를 통해서 번역, 요약, 질의 응답과 같은 다양한 작업을 수행합니다. 다른 연구들은 이 LLM을 활용해서 vision, audio, robotics 영역에도 활용하고 있고, 저자들은 모션에 대해서도 이를 적용하려고 했습니다. 저자들이 사용한 핵심 개념은 "인간의 모션은 또 다른 언어"로, LLM에 적용하여 motion 설명, 생성, 그리고 예측이 가능하게 하였습니다. 특히, 단일 방향 (motion to text, text to motion)이 아닌 양방향이 한번에 가능하도록 하는 MotionGPT를 개발하였습니다.
Motion GPT는 모션 시퀀스를 token으로 인코딩했고, 사전 학습된 언어 모델을 이용하여 모션과 텍스트가 함께 있는 공간을 만들어 모션과 language가 상호적으로 추론될 수 있도록 하였습니다. 이 모델의 학습 단계는 motion tokenization, motion-language pre-training, instruction tuning으로 구성돕니다.

Method

: 인코더와 디코더로 구성된 Motion Tokenizer를 이용하는데, 인코더는 모션 데이터를 모션 토큰으로, 디코더로 모션 토큰을 다시 모션 데이터로 복원합니다. 이후, Motion GPT는 모션 관련 N길이의 문장이 주어지면 L길이의 모션 또는 텍스트 토큰으로 변환합니다.

Motion Tokenizer

: motion을 discrete tokens로 변환. 인간 모션 $m^{1:M}$ 을 모션 토큰 시퀀스 $z^{1:L}$ 로 매핑 -> 모델에서 사용하는 vocabulary embedding을 이용한 joint representation가능.

모델 V (VQ-VAE, Vector Quantized Variational Autoencoders) 사전 학습
- V 는 인코더 $\mathcal{E}$ 와 디코더 $\mathcal{D}$ 로 구성.
- 인코더 $\mathcal{E}$ :
  - $m^{1:M}$ 에 1D 컨볼루션(1D convolutions)을 적용하여, latent vectors $\hat{z}^{1:L} = \mathcal{E}(m^{1:M})$ 를 생성
  - 학습 가능한 코드북(learnable codebook) $Z={z^i}_{i=1}^{K}\subset \mathbb{R}^d$ 는 $d$ 차원의 $K$ 개의 잠재 임베딩 벡터(latent embedding vectors)로 구성
  - 양자화 과정(quantization) $Q(\cdot)$ 는 각 행 벡터(row vector) $b$ 를 코드북 $Z$ 내에서 가장 가까운 코드북 항목 $b_k$ 로 대체
- 디코더 $\mathcal{D}$
  - $z^{1:L} = {z^i}_{i=1}^{L}$ 을 다시 원래의 모션 공간(raw motion space)으로 변환하여 $M$ 프레임을 가지는 모션 $\hat{m}^{1:M}$ 을 생성
- Loss
  - $\mathcal{L}_r$ , reconstruction Loss
  - $\mathcal{L}_e$ : embedding loss
  - $\mathcal{L}_c$ : commitment loss

Motion-aware Language Model

: motion과 text를 한번에 학습하는 방식

기존의 언어 모델은 $V_t$ 만 있었다면, Motion GPT는 $V = {V_t, V_m}$ 를 활용.
T5와 같은 Transformer 사용
- input: sequence of tokens $X_s = {x_s^i}_{i=1}^{N}$ , $x_s$ 는 어휘집 $V$ 에 속하는 토큰, $N$ 은 입력 시퀀스의 길이
- output: $X_t = {x_t^i}_{i=1}^{L}$ , $x_t$ 는 어휘집 $V$ 에 속하는 토큰, $L$ 은 출력 시퀀스의 길이
- 입력 토큰(source tokens)은 Transformer 인코더로 전달되며, 이후 디코더는 단계별로 다음 토큰의 probability distribution를 autoregressive manner로 예측.
- Loss (objective)
  - $\mathcal{L}_{LM} = - \sum_{i=0}^{L-1} \log p_{\theta} (x_t^i | x_t^{<i}, x_s )$
추론 과정: 목표 토큰(target tokens)이 예측된 확률 분포 $p_{\theta} (x_t^i | x_t^{<i}, x_s )$ 에서 재귀적으로 샘플링(sampled recursively)되며,
종료 토큰(예: $</s>$ )이 나올 때까지 반복
- 예를 들어, "점프 하는 모션을 보여줘"라고 하면, 처음에는 랜덤한 토큰을 선택 -> 이후 점점 자연스러운 모션 예측 -> 마지막 $</s>$ 나놀때까지 반복.