[논문] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image[ICCV 2019]

eric9687·2022년 7월 14일
0
post-thumbnail

Gyeongsik Moon, Ju Yong Chang, Kyoung Mu Lee, ECE & ASRI, Seoul National University, Korea, ECE, Kwangwoon University, Korea

Abstract

  • 카메라 거리를 아는 상태에서의 top-down방식을 통한 3D single RGB 이미지로 부터 3D "multi" person pose estimation
  • pipeline modules
    • human detection
    • absolute 3D human root localization
    • root relative 3D single-person pose estimation

Introduction

  • 본 연구는 세 개의 모듈을 사용한다.
    • Input 이미지로부터 bbox를 찾는 DetectNet
    • 카메라 중점의 사람의 중심(root) 좌표를 찾아 내는 RootNet
    • 각각의 detect된 사람의 Root-relative 3D pose를 찾는 PoseNet
  • 2D Multi-person Pose Estimation
    • Top-down: 추론된 offset vector와 heatmap을 통해서 joint의 위치를 찾아내는 방식.
    • Bottom-up:각각의 joint를 찾고, 그후 각각의 사람단위로 집합을 만드는 방식.
  • 3D Single-person Pose Estimation
    • single-stage approach: Input 이미지로부터 바로 3d pose를 찾아내는 방식
    • two-stage approach: 2D좌표를 먼저 찾고 3D로 변환하는 방식
  • 3D Multi-person Pose Estimation
    • LCRNet(top-down): 사람 찾고, 사람의 anchor pose(2D pose와 root-relative pose쌍) 찾고, anchor pose를 걸러내는 방식
    • bottom-up방식: 잘린부분, 보이지 않는 부분에 좋은 방식
  • 3D Human Root Localization in 3D Multi-person Pose Estimation

Overview of the Proposed Model

  • DetectNet: Input이미지로부터 사람의 bounding box를 찾고
  • RootNet: cropped된 이미지로부터 사람의 중심 R=(xR,yR,ZR)R=(x_R,y_R,Z_R)을 찾고(xR,yRx_R,y_R은 pixel coordinates, ZRZ_R은 depth value)
  • PoseNet: cropped된 이미지로부터 root-relative 3D pose Pjrel=(xj,yj,Zjrel)P^{rel}_j=(x_j,y_j,Z^{rel}_j)을 찾아,
  • ZRZ_R을 더함으로써 ZjrelZ^{rel}_jZjabsZ^{abs}_j로 변환하고, xjx_jyjy_j를 원래 이미지공간으로 변환시킨 후, simple back-projection을 통해 마지막 3D pose {Pjabs}j=1J\{P^{abs}_j\}^J_{j=1}를 얻는다

DetectNet

  • MaskRCNN
    • ResNet: feature map 추출
    • Region Proposal Network: bbox 후보 추출
    • HeadNet: bbox 정제

RootNet

  • human depth를 구하기 위한 k=αxαyArealAimgk=\sqrt{\alpha_x\alpha_y\frac{A_{real}}{A_{img}}}
    • αx,αy\alpha_x,\alpha_y: focal lengths divided by the per-pixel distance factors (pixel) of x- and y-axes
    • ArealA_{real}:실제 공간(mm2mm^2)에서의 사람 면적
    • AimgA_{img}: image 공간(pixel2pixel^2)
  • Camera Normalization
    • correction factor γ\gamma를 출력 -> αx,αy\alpha_x,\alpha_y를 학습에 사용
  • 모델 구조
    • ResNet을 통한 feature 추출
    • BN과 ReLU을 포함한 Deconv 연속 3회를 통한 2D이미지 coordinate 추출
      • 1-by-1 conv를 통한 중심(root)의 heatmap추출
      • soft-argmax로 2D heatmap에서 αx,αy\alpha_x,\alpha_y추출
    • feature을 pooling과 1-by-1 conv를 통한 γ\gamma 추출
    • k와 1γ\frac{1}{\sqrt{\gamma}}를 통한 ZRZ_R 계산
  • loss: L1

PoseNet

  • ResNet을 이용한 cropped 이미지의 global feature map 추출
  • feature map을 BN과 ReLU를 포함한 연속적인 3번의 deconv를 통해 upsample하고 1-by-1 conv해서 3D heatmap추출
  • loss: L1
profile
그러나 먼저 된 자로서 나중되고 나중 된 자로서 먼저될 자가 많으니라(마:19:30)

0개의 댓글