BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
Abstract
BEDLAM은 3D 인간 포즈와 형태 추정(HPS) 작업에 대한 알고리즘을 훈련하고 테스트하기 위해 설계된 대규모 합성 비디오 데이터셋임.
이전 데이터셋에서는 dataset이 작거나 비현실적이거나 현실적인 의상이 부족하였지만, BEDLEM dataset에서는 기존 단점들을 해결하며 SMPL-X 형식의 3D 몸체와 함께 단일 RGB video로 데이터를 생성함.
BEDLAM은 SMPL-X 형식의 3D 몸체와 함께 제공되며, 다양한 신체 형태, 피부 톤, 동작, 머리카락, 연령, 의상 등을 포함함.
이 데이터를 통해서 real training image 없이도 real image dataset에서 SOTA를 달성
기존 연구에서는 SMPL 및 HMR(End-to-end recovery of human shape and pose) 의 도입으로 연구가 급속도로 발전하여 3D HPS의 정확도가 향상함. 하지만 여전히 모델 구조 개선과 training dataset 개선이라는 문제점이 남아있음.
이는 모든 이미지, 3D 의류, 몸체 등 연구 목적으로 제공됨.
1. Introduction
이 논문은 3D 인간 포즈와 형태 추정(HPS) 문제에 대한 신경망 기반의 새로운 접근 방식을 소개함.
BEDLAM은 현실적인 3D 인간 움직임을 포함하는 대규모 합성 데이터셋으로, 실제 데이터에 대한 3D 인간 포즈와 형태 추정을 위한 훈련에 매우 효과적임.
3D 의류 모델링과 동작 인식 학습에도 활용될 수 있음.
2. Related work
이 부분에서는 3D 포즈와 형태(HPS) 추정을 위한 훈련 데이터 유형에 대해 4가지 주요 데이터 유형에 대해 설명함.
Real Images
움직임 캡처를 사용하여 고품질의 실제 데이터를 생성함.
이러한 데이터는 정확하지만, 옷, 동작의 종류, 장면 등에서 변화가 제한적임.
Real Images in the wild with 2D ground truth
이미지는 다양하고 복잡하지만, 인간 주석자에 의존하며 3D 몸체 형태에 대한 정보가 없음.
Real Images in the wild with 3D pseudo ground truth
2D 데이터 or 추가 센서에서 추청된 3D 몸체 모델을 이용하여 생성된 데이터임.
Synthetic Images with perfect ground truth
합성 이미지는 실제 이미지의 한계를 해결하기 위한 것
그러나 이전의 합성 데이터셋은 너무 작거나 현실적이지 않아 문제점이 있었음.
📌 요약하면!
이전의 연구는 몸체 형태, 텍스처, 포즈, 동작, 배경, 옷 종류, 물리적 현실성, 카메라 등 하나 이상의 측면에서 제한적이었음.
그래서 이전의 데이터셋은 실제 이미지에서 작동하는 HPS 방법을 훈련하기에 충분하지 않았음.
BEDLAM 데이터셋은 이러한 한계를 극복함.
3. Dataset
BEDLAM은 다양한 데이터를 생성하기 위해 271개의 body shape(남자 109명, 여자 162명)을 지원함.
다양한 skin tone을 지원하기 위해 Meshcapade 방법의 100가지 skin texture를 사용함.
SMPL-X의 머리에 27가지 hair(Reallusion)를 추가함.
디자인 된 texture를 이용하여 옷에 texture를 입히고, body는 AMASS에서 샘플링한 2311개의 동작을 사용하여 애니메이션화 진행
위의 그림은 데이터를 만드는 과정임.
다양한 Skin tone 지원
다양한 clothing and texture 지원
BMI 지수에 따라 texture mapping
다양한 27 헤어스타일 지원
4. Experiments
BEDLAM-CLIFF를 사용하여 학습한 결과는 아래 3개 도표와 같음.
5. Limitations and Future Work
이 연구는 합성 인간 데이터가 실제 이미 데이터를 대체할 수 있음을 보여줌.
새롭고 더 나은 합성 데이터셋을 만들기 위한 제한 사항 및 개선 방향에 대한 논의
6. Discussion and Conclusions
이 연구는 "합성 데이터셋만으로 충분한가?"라는 질문에 대한 답을 시도함.
BEDLAM 데이터셋은 실제 장면에 대한 일반화를 위한 충분한 사실성을 가지며, 다양한 실제 이미지 도메인(예: SSP-3D, HBW, 3DPW, RICH)에 적용될 수 있음을 보여줌.
BEDLAM은 3D 의류 모델링 및 3D 아바타 학습에도 사용될 수 있음.
🎯 Summary
저자가 뭘 해내고 싶어 했는가?
BEDLAM이라는 신규의 대규모 합성 비디오 데이터셋을 개발하고, 이 데이터셋을 사용하여 다양한 HPS 추정 방법들을 훈련하고 평가함.
목적은 실제 이미지 데이터셋에서의 일반화 성능을 검증하고, 합성 데이터의 현실성과 다양성이 HPS 추정 정확도에 미치는 영향을 분석하고자 함.
이 연구의 접근 방식에서 중요한 요소는 무엇인가?
합성 데이터셋 BEDLAM 개발
다양한 스킨 톤, 몸매, 동작, 헤어 스타일 그리고 의류를 포함하는 매우 사실적인 합성 인간 모델 제공
다양한 아키텍처와 훈련 데이터의 평가
참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?
SMPL-X
CLIFF: Carrying Location Information in Full
Frames into Human Pose and Shape Estimation
느낀점은?
BEDLAM 논문이 합성 데이터셋을 만들기 위한 논문이라는 점이였다는 것에서 놀랐다...
BEDLAM-CLIFF demo와 BEDLAM-CLIFF-X demo를 먼저 진행하고, 이 논문을 읽었었기에 내가 생각했던 것과 많이 달랐구나 느꼈다.
정리하면, BEDLAM은 합성 데이터셋 자체를 말하고, BEDLAM-CLIFF는 이 데이터셋을 활용한 연구였다. Supplementary Materia와 CLIFF를 읽으러 레츠고...!