[논문리뷰 | CV] NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same Action (2023) Summary

9e0na·2024년 1월 10일
1

[논문리뷰]

목록 보기
33/41
post-thumbnail

Title

  • NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same Action


Abstract

  • VIBE와 비교(위의 그림) 해볼 때, 야구 피치 동작에서는 크게 걸음을 걸을 때 포착하는 데 실패하였고, 테니스 서브 동작에서는 팔의 위치를 바꾸는 등 문제가 있었음.
  • 이 연구는 HMR(Human Mesh Recovery)방법과 모션 캡처(Mocap) 시스템 사이의 격차를 해소하는 것을 목표로 함.
  • 기존 HMR 방법들은 역동적인 동작을 포함하는 비디오에서 성능이 저하되는 경향이 있었음.

  • 이러한 문제점을 해결하기 위해서, 같은 동작의 다수의 비디오 인스턴스에서 공유되는 정보를 활용하여 global 3D 동작을 학습하는 Neural Motion (NEMO)를 제안함.

  • Penn Action 데이터셋의 비디오를 사용하여 스포츠에서 3D 동작을 복구할 수 있음을 보여주며, NeMo는 2D keypoint detection 측면에서 SOTA 달성
  • 또한, 3D reconstruction에 좋은 성능을 보여줌.

1. Introduction

  • 이 연구는 3D 인간 동작 재구성은 애니메이션 제작, 인간 동작 합성, 생체역학적 동작 분석 등 광범위한 응용 분야를 가지고 있음을 설명함.
  • 이 연구는 다양한 비디오 인스턴스를 공동으로 분석함으로써 3D 인간 메쉬 복구(HMR) 결과를 개선하는 NeMo 필드와 최적화 프레임워크를 제안함.
  • Penn Action 데이터셋에서 선택한 스포츠 동작에 대해 NeMo 필드를 최적화 진행
  • 여러 기준 HMR 방법에 비해 3D metric을 사용한 개선된 3D 동작 재구성을 보여주며, Penn Action dataset에서도 2D metric을 사용한 결과를 향상시킴.

2. Related Work

2.1. HMR Methods

  • NeMo는 단안 HMR 방법들의 예측을 미세 조정하는 test-time 최적화 (TTO) 확장으로 볼 수 있으며, TTO 알고리즘인 SMPLify와 유사함.
  • SMPLify와 비교하여 NeMo는 같은 동작의 다수 비디오 인스턴스에 걸쳐 정보를 활용하여 더 나은 3D 재구성을 가능함.

TTO algorithm

  • 테스트-타임 최적화(Test-Time Optimization, TTO) 알고리즘은 특정 입력 데이터(ex. image or video)에 대한 모델의 예측을 실시간으로 개선하는 것임.
  • 아래와 같은 방식으로 작동 됨.
  1. 먼저, 모델은 입력 이미지에서 인체의 3D 자세와 모양에 대한 초기 예측을 수행함

  2. 최적화 진행 -> 2D key point와 3D model 간의 불일치를 최소화하는 방향으로 진행

  • 이를 위해 3D model의 파라미터 (자세, 모양, 카메라 설정 등) 조정
  1. 최적화 과정을 거친 후, 모델은 더 정확한 3D 자세와 모양을 예측 가능함.

SMPLify

  • CNN 활용해서(Deepcut) 2D 관절 위치 예측 후, SMPL 활용해 3D 메쉬 형태로 만드는 방법
  • 2D key point와 SMPL model parameter 간의 불일치를 최소화하는 방향으로 모델 파라미터를 조정함.

2.2.Multi-view 3D Human Modeling

  • NeMo는 수행하는 동일한 동작의 다른 인스턴스들을 사용하여 스포츠 동작의 3D 모션을 캡처 진행
  • NeMo를 Penn Action 데이터 세트에 적용

3. Neural Motion (NeMo) Fields

  • "야구 투구"의 3D 인체 동작을 추출하는 문제에 집중하고, 동일한 동작에 대해 다른 비디오들 간에 기본적인 3D 인체 동작이 유사하다고 가정함.
  • 모든 비디오의 정보를 하나의 동작으로 결합하여 변화를 가미함으로써 3D 복원 작업을 더 쉽게 할 수 있음.
  • 위의 그림은 신경망, 인스턴스별 단계 네트워크 및 latent vectors에 의해 매개변수화 된 공유된 기본 동작을 학습함.
  • 단계 네트워크는 단조롭게 증가하는 warping function으로서, 비디오 간의 다양한 진행을 동기화 하는 데 도움을 줌.
  • warped phased와 함게 학습 가능한 instance embedding이 주어지면, NeMo는 동작의 관절 각도와 루트 이동을 출력하고, 이는 SMPL 모델을 사용하여 렌더링 됨.

3.1. Problem Formulation

  • 문제 정의
    -> 같은 동작의 다수 비디오 인스턴스가 주어졌을 때, 3D global 동작을 복구하는 것
  • 동작의 모든 비디오 인스턴스에서 2D & 3D 초기 예측을 사용하여 동작을 함께 최적화 시도
    -> SMPLify와 같은 3D 동작을 개선하기 위해 TTO algorithm으로 볼 수 있음.
  • 대부분의 HMR 방법들은 자세/관절만 출력하고, global 루트 이동은 출력하지 않음.
    -> 하지만 이 연구는 3D global 루트 이동을 복구하고자 함.

3.2. Neural Motion Field

  • 3D 동작 시퀀스를 MLP를 사용하여 표현하고, 이를 NeMo라고 부름.
  • instance vector도 NeMo와 함께 최적화되는 학습 가능한 매개변수임.
  • MLP는 23개의 관절 각도, 루트 방향 θ, 그리고 3D 글로벌 이동 x를 출력함.
  • 관절은 (On the Continuity of Rotation Representations in Neural Networks)에서 제안된 6D 회전 표현을 사용하여 각도 최적화를 진행함.
    -> 이는 HMR 네트워크에서 일반적으로 사용됨.
  • NeMo의 출력, 관절 각도, 루트 이동을 사용하여 인체 3D mesh를 나타내기 위해 SMPL 모델 사용
  • 각 관절은 mesh 정점의 선형 조합임.
  • 입력 단계가 주어진 경우, Nemo와 SMPL의 조합을 사용하여 3D 신체 관절을 얻음.


3.3. Phase Networks

  • 비디오가 동기화되어 있지 않고, 다양한 동작 인스턴스가 다른 속도로 진행될 수 있기 때문에, 이 부분에서는 다른 시퀀스의 단계들이 변화할 수 있도록 함.

  • 단계0에서 시작하여 1에서 끝나도록 하기 위해 정규화

  • ReLU 함수는 시그모이드 함수들이 증가하도록 보장함.

  • T : 주어진 동작 시퀀스의 총 길이

  • φ : output

  • σ : 로지스틱 함수
  • ReLU: ReLU 활성화 함수
  • ak,bkk=1K{a_{k}, b_{k}}^K_{k=1} : 학습 가능한 이동 및 축척 매개변수

3.4. NeMo Optimization

업로드중..

  • 최적화는 두 단계를 거치게 됨.
  • 두 단계 모두에서 모든 비디오에 대해 함께 최적화됨.

1번째 단계

  • fθf_{\theta} 가 초기 3D pose estimation와 관련하여 최적화되어 3D pose estimation 예측을 모방함.

2번째 단계

  • warmed-up된 NeMo 필드와 다른 모든 매개변수들이 함께 2D reprojection loss을 사용하여 최적화 됨.
  • NeMo 필드, instance vectors, phase networks 외에도 카메라를 조정함.
  • 각 카레마는 회전 행렬 RR, 이동 벡터 tt, 내부 매개변수를 포함한 자체 외부 매개변수를 가지고 있음.
  • 내부 매개변수를 고정하고 외부 매개변수를 학습 진행함
    -> 즉, 카메라가 3D 세계에서 어떻게 배치되는지에 대해 학습함.
  • PP : perspective projection(원근 투영)
  • p(.)p(.) : error function for 2D points (2D점에 대한 오류 함수)
  • T(n)T(n) : n번째 비디오의 길이
  • Geman-McClure error function을 사용하는 데 , 이는 평균 제곱 오차보다 이상치에 대해 더 강건함.

4. Experiments

  • 생략

5. Limitations & Future Directions

  • 한계점은 고정된 카메라에 대한 가정임.
  • 이동 카메라를 고려하여 NeMo를 확장할 필요가 있음.
  • 회귀 기반 HMR 방법을 향상시키기 위한 데이터 증강 도구롤 학습된 NeMo 필드를 사용하면 좋을 듯
  • NeMo는 TTO을 사용하며, 기존의 HMR 방법보다 더 정확한 3D 결과를 생성하지만 속도가 느리고 반복 가능한 동작으로 제한됨.

6. Conclusion

  • 이 연구는 같은 스포츠 동작의 다양한 비디오 인스턴스 세트를 주어 3D 동작을 추출하기 위해 NeMo 라는 신경 운동 표현 및 최적화 프레임워크를 제안함.
  • 이를 검증하기 위해 Penn Action dataset을 모방하는 MoCap dataset을 수집했고, 다양한 분야에서 좋은 성능을 보임.

🎯 Summary

  1. 저자가 뭘 해내고 싶어 했는가?
  • 같은 동작의 다수의 비디오 인스턴스에서 공유되는 정보를 활용하여 global 3D 동작을 학습하는 Neural Motion (NEMO)를 제안
  1. 이 연구의 접근 방식에서 중요한 요소는 무엇인가?
  • 다중 비디오 인스턴스 활용
  • 신용망 기반 모션 표현
  • 2D keypoint 및 3D motion estimation 결합
  • TTO 알고리즘
  1. 참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?
  • SMPLify
  • On the Continuity of Rotation Representations in Neural Networks
  1. 느낀점은?
  • 기존 HMR 방법론들의 한계를 다수의 비디오 인스터에서 공유되는 정보를 통해 극복한 점이 인상적이었음.
  • TTO 알고리즘에 대해서 공부할 수 있어서 good

📚 References

논문

profile
데이터사이언티스트가 되기 위해 [a-zA-Z]까지 정리하는 거나입니다 😊

0개의 댓글