[논문리뷰 | CV] NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same Action (2023) Summary

9e0na·2024년 1월 10일

3D Computer Vision DeepLearning paper-review

1

[논문리뷰]

목록 보기

33/42

Title

NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same Action

Abstract

VIBE와 비교(위의 그림) 해볼 때, 야구 피치 동작에서는 크게 걸음을 걸을 때 포착하는 데 실패하였고, 테니스 서브 동작에서는 팔의 위치를 바꾸는 등 문제가 있었음.

이 연구는 HMR(Human Mesh Recovery)방법과 모션 캡처(Mocap) 시스템 사이의 격차를 해소하는 것을 목표로 함.

기존 HMR 방법들은 역동적인 동작을 포함하는 비디오에서 성능이 저하되는 경향이 있었음.
이러한 문제점을 해결하기 위해서, 같은 동작의 다수의 비디오 인스턴스에서 공유되는 정보를 활용하여 global 3D 동작을 학습하는 Neural Motion (NEMO)를 제안함.

Penn Action 데이터셋의 비디오를 사용하여 스포츠에서 3D 동작을 복구할 수 있음을 보여주며, NeMo는 2D keypoint detection 측면에서 SOTA 달성

또한, 3D reconstruction에 좋은 성능을 보여줌.

1. Introduction

이 연구는 3D 인간 동작 재구성은 애니메이션 제작, 인간 동작 합성, 생체역학적 동작 분석 등 광범위한 응용 분야를 가지고 있음을 설명함.

이 연구는 다양한 비디오 인스턴스를 공동으로 분석함으로써 3D 인간 메쉬 복구(HMR) 결과를 개선하는 NeMo 필드와 최적화 프레임워크를 제안함.

Penn Action 데이터셋에서 선택한 스포츠 동작에 대해 NeMo 필드를 최적화 진행

여러 기준 HMR 방법에 비해 3D metric을 사용한 개선된 3D 동작 재구성을 보여주며, Penn Action dataset에서도 2D metric을 사용한 결과를 향상시킴.

2.1. HMR Methods

NeMo는 단안 HMR 방법들의 예측을 미세 조정하는 test-time 최적화 (TTO) 확장으로 볼 수 있으며, TTO 알고리즘인 SMPLify와 유사함.

SMPLify와 비교하여 NeMo는 같은 동작의 다수 비디오 인스턴스에 걸쳐 정보를 활용하여 더 나은 3D 재구성을 가능함.

TTO algorithm

테스트-타임 최적화(Test-Time Optimization, TTO) 알고리즘은 특정 입력 데이터(ex. image or video)에 대한 모델의 예측을 실시간으로 개선하는 것임.

아래와 같은 방식으로 작동 됨.

먼저, 모델은 입력 이미지에서 인체의 3D 자세와 모양에 대한 초기 예측을 수행함
최적화 진행 -> 2D key point와 3D model 간의 불일치를 최소화하는 방향으로 진행

이를 위해 3D model의 파라미터 (자세, 모양, 카메라 설정 등) 조정

최적화 과정을 거친 후, 모델은 더 정확한 3D 자세와 모양을 예측 가능함.

SMPLify

CNN 활용해서(Deepcut) 2D 관절 위치 예측 후, SMPL 활용해 3D 메쉬 형태로 만드는 방법

2D key point와 SMPL model parameter 간의 불일치를 최소화하는 방향으로 모델 파라미터를 조정함.

2.2.Multi-view 3D Human Modeling

NeMo는 수행하는 동일한 동작의 다른 인스턴스들을 사용하여 스포츠 동작의 3D 모션을 캡처 진행

NeMo를 Penn Action 데이터 세트에 적용

3. Neural Motion (NeMo) Fields

"야구 투구"의 3D 인체 동작을 추출하는 문제에 집중하고, 동일한 동작에 대해 다른 비디오들 간에 기본적인 3D 인체 동작이 유사하다고 가정함.

모든 비디오의 정보를 하나의 동작으로 결합하여 변화를 가미함으로써 3D 복원 작업을 더 쉽게 할 수 있음.

위의 그림은 신경망, 인스턴스별 단계 네트워크 및 latent vectors에 의해 매개변수화 된 공유된 기본 동작을 학습함.

단계 네트워크는 단조롭게 증가하는 warping function으로서, 비디오 간의 다양한 진행을 동기화 하는 데 도움을 줌.

warped phased와 함게 학습 가능한 instance embedding이 주어지면, NeMo는 동작의 관절 각도와 루트 이동을 출력하고, 이는 SMPL 모델을 사용하여 렌더링 됨.

3.1. Problem Formulation

문제 정의
-> 같은 동작의 다수 비디오 인스턴스가 주어졌을 때, 3D global 동작을 복구하는 것

동작의 모든 비디오 인스턴스에서 2D & 3D 초기 예측을 사용하여 동작을 함께 최적화 시도
-> SMPLify와 같은 3D 동작을 개선하기 위해 TTO algorithm으로 볼 수 있음.

대부분의 HMR 방법들은 자세/관절만 출력하고, global 루트 이동은 출력하지 않음.
-> 하지만 이 연구는 3D global 루트 이동을 복구하고자 함.

3.2. Neural Motion Field

3D 동작 시퀀스를 MLP를 사용하여 표현하고, 이를 NeMo라고 부름.

instance vector도 NeMo와 함께 최적화되는 학습 가능한 매개변수임.

MLP는 23개의 관절 각도, 루트 방향 θ, 그리고 3D 글로벌 이동 x를 출력함.

관절은 (On the Continuity of Rotation Representations in Neural Networks)에서 제안된 6D 회전 표현을 사용하여 각도 최적화를 진행함.
-> 이는 HMR 네트워크에서 일반적으로 사용됨.

NeMo의 출력, 관절 각도, 루트 이동을 사용하여 인체 3D mesh를 나타내기 위해 SMPL 모델 사용

각 관절은 mesh 정점의 선형 조합임.

입력 단계가 주어진 경우, Nemo와 SMPL의 조합을 사용하여 3D 신체 관절을 얻음.

3.3. Phase Networks

비디오가 동기화되어 있지 않고, 다양한 동작 인스턴스가 다른 속도로 진행될 수 있기 때문에, 이 부분에서는 다른 시퀀스의 단계들이 변화할 수 있도록 함.

단계0에서 시작하여 1에서 끝나도록 하기 위해 정규화

ReLU 함수는 시그모이드 함수들이 증가하도록 보장함.
T : 주어진 동작 시퀀스의 총 길이
φ : output

σ : 로지스틱 함수

ReLU: ReLU 활성화 함수

${a_{k}, b_{k}}^K_{k=1}$ : 학습 가능한 이동 및 축척 매개변수

3.4. NeMo Optimization

업로드중..

최적화는 두 단계를 거치게 됨.

두 단계 모두에서 모든 비디오에 대해 함께 최적화됨.

1번째 단계

$f_{\theta}$ 가 초기 3D pose estimation와 관련하여 최적화되어 3D pose estimation 예측을 모방함.

2번째 단계

warmed-up된 NeMo 필드와 다른 모든 매개변수들이 함께 2D reprojection loss을 사용하여 최적화 됨.

NeMo 필드, instance vectors, phase networks 외에도 카메라를 조정함.

각 카레마는 회전 행렬 $R$ , 이동 벡터 $t$ , 내부 매개변수를 포함한 자체 외부 매개변수를 가지고 있음.

내부 매개변수를 고정하고 외부 매개변수를 학습 진행함
-> 즉, 카메라가 3D 세계에서 어떻게 배치되는지에 대해 학습함.

$P$ : perspective projection(원근 투영)
$p(.)$ : error function for 2D points (2D점에 대한 오류 함수)
$T(n)$ : n번째 비디오의 길이
Geman-McClure error function을 사용하는 데 , 이는 평균 제곱 오차보다 이상치에 대해 더 강건함.

4. Experiments

생략

5. Limitations & Future Directions

한계점은 고정된 카메라에 대한 가정임.

이동 카메라를 고려하여 NeMo를 확장할 필요가 있음.

회귀 기반 HMR 방법을 향상시키기 위한 데이터 증강 도구롤 학습된 NeMo 필드를 사용하면 좋을 듯

NeMo는 TTO을 사용하며, 기존의 HMR 방법보다 더 정확한 3D 결과를 생성하지만 속도가 느리고 반복 가능한 동작으로 제한됨.

6. Conclusion

이 연구는 같은 스포츠 동작의 다양한 비디오 인스턴스 세트를 주어 3D 동작을 추출하기 위해 NeMo 라는 신경 운동 표현 및 최적화 프레임워크를 제안함.

이를 검증하기 위해 Penn Action dataset을 모방하는 MoCap dataset을 수집했고, 다양한 분야에서 좋은 성능을 보임.

🎯 Summary

저자가 뭘 해내고 싶어 했는가?

같은 동작의 다수의 비디오 인스턴스에서 공유되는 정보를 활용하여 global 3D 동작을 학습하는 Neural Motion (NEMO)를 제안

이 연구의 접근 방식에서 중요한 요소는 무엇인가?

다중 비디오 인스턴스 활용

신용망 기반 모션 표현

2D keypoint 및 3D motion estimation 결합

TTO 알고리즘

참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?

SMPLify

On the Continuity of Rotation Representations in Neural Networks

느낀점은?

기존 HMR 방법론들의 한계를 다수의 비디오 인스터에서 공유되는 정보를 통해 극복한 점이 인상적이었음.

TTO 알고리즘에 대해서 공부할 수 있어서 good

📚 References

논문

https://arxiv.org/abs/2212.13660

디지털 마케터가 되기 위해 [a-zA-Z]까지 정리하는 거나입니다 😊

이전 포스트

[논문리뷰 | CV] BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion Supplementary Material (2023) Summary

다음 포스트

[논문리뷰 | Anomaly] Graph-based Anomaly Detection and Description: A Survey (2014) Summary

0개의 댓글