(작성중)[survey 논문 정리] Image-based 3D object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era

leehyuna·2022년 3월 31일
2

논문 리뷰

목록 보기
2/3

Image-based 3D object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era

2. Problem statement and Taxonomy

  • 본 paper에서 사용되는 용어, 수식 정리

    • I={Ik,k=1,...,n}, n1I = \{ I_k,k=1,..., n \}, \ n ≥ 1
      : 하나 또는 그 이상의 객체 X 의 RGB 이미지
    • fθf_θ
      : shape XX'을 추론하는 predictor
      : reconstruction objective L(I)=d(fθ(I),X)L(I)=d(f_θ(I), X)를 최소화 하는 함수
    • θθ
      : a set of parameter of ff
    • d(,)d(•,•)
      : target shape XX와 reconstructed shape f(I)f(I) 의 차이를 측정하는 함수
    • LL
      : reconstruction objective == loss funtion in the deep learning literature

이 서베이는 최신 방법들을 아래 다섯 카테고리로 나누고 설명한다.

  1. the nature of input I (입력 I의 성질)
  2. the representation of the output (출력 표현)
  3. the deep learning network architecture used during training and testing to approximate the predictor f (학습과 평가에 사용하는 딥러닝 네트워크 구조)
  4. the training procedure (학습 과정)
  5. the degree of supervision

  • 1. Input
    • a single image
    • multiple images
      • captured using RGB cameras whose intrinsic and extrinsic parameters can be known or unknown
    • a video stream
      • i.e., a sequence of images with temporal correlation
  • 2. Representation of the output
    - 출력 표현은 네트워크 구조를 선택하는 데에 중요하다.
    또한, 계산 효율성과 reconstruction quality에 영향을 미친다.

    • Volumetric representations
      • 초기 딥러닝 기반 3D reconstruction 기술에 채택되어 널리 사용되었다.
      • regular voxel grids를 사용하는 표현 방식이다.
      • 이미지 분석에 사용되는 2D convolutions은 3D로 쉽게 확장될 수 있다.
      • 하지만, memory 사용량이 많고, 적은 기술만이 sub-voxel accuracy를 달성했다.
    • Surface-based representations
      • meshes, point clouds 표현이 여기에 속한다.
      • 이 표현 방식은 메모리 효율적이지만, 이러한 표현은 규칙적인 구조가 아니어서 딥러닝 구조에 잘 들어맞지 않는다.
    • Intermediation
      • 몇몇 3D reconstruction 알고리즘은 RGB이미지로부터 바로 물체의 3D geometry를 예측한다.
      • 다른 몇몇은 순차적인 단계로 문제를 나누어 해결한다. 각 단계는 중간 표현을 예측한다.
  • 3. Network architecture

    Predictor ff를 구현하기 위해 다양한 network 구조가 사용되었다. Backbone 구조는 encoder hh와 그 뒤를 따르는 decoder gg로 구성된다.

    f=hgf = h•g

3. The encoding stage

3.1 Discrete latent spaces

3.2 Continuous latent spaces

3.3 Hierarchical latent spaces

3.4 Disentangled representation

4. Volumetric Decoding

4.1 Volumetric representations of 3D shapes

4.2 Low resolution 3D volume reconstruction

4.3 High resolution 3D volume reconstruction

4.4 Deep marching cubes

5. 3D Surface Decoding

5.1 Parameterization-based 3D reconstruction

5.2 Deformation-based 3D reconstruction

5.2 Point-based techniques

6. Leveraging Other Cues

6.1 Intermediating

6.2 Exploiting spatio-temporal correlations

7. Training

7.1 Degree of supervision

7.2 Training with video supervision

7.3 Training procedure

8. Application and Special cases

8.1 3D human body reconstruction

8.2 3D face reconstruction

8.3 3D scene parsing

9. Datasets

10. Performance comparision

11. Future research directions

12. Summary and Concluding remarks
profile

0개의 댓글