[Point Review] SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans

김경준·2022년 5월 2일

Point Review

목록 보기

11/26

3D reconstruction은 occlusion이나 센서의 영향으로 불완전하기 때문에 application에 어려움이 있다.
-> RGB-D scan, objects with CAD model을 받아 그래프를 활용하여 scene을 CAD 모델로 나타낸다.

Encoder-decoder 구조의 네트워크에서 voxel-wise binary cross-entropy를 통해 corner에 대한 heatmap을 만들어 예측한다.
모든 corner를 연결하는 엣지를 만든 후 graph neural network를 통해 pruning 한다.
DFS cycle detection 알고리즘을 통해 4-cycle을 가지는 edges $q_{ijkl}=\{e_{ij},e_{jk},e_{kl},e_{li}\}$ 를 candidate layout quads로 두고 MLP와 BCE loss를 통해 quad 여부를 예측한다.

3D object detection을 통해 feature를 뽑은 후 CAD model에 alignment 한다.
Scanned objects의 descriptor와 CAD의 L1 distance를 최소화시키도록 학습하며 이후 explicit voxel-wise L1 regression loss를 통해 dense correspondence를 학습한다.
Procrutes를 통해 rotation matrix를 추정하며 L1 loss로 correspondence의 quality를 높인다.

Layout quads와 aligned CAD model을 얻은 후 scene graph를 활용하여 globally consistent하게 학습한다.
Objects와 quads는 노드로 표현되며 message passing을 통해 edge에 대한 feature를 얻는다.
Object-layout edge는 cross entropy loss를 통해 'horizontal support', 'vertical support', 'no support'로 classification 된다.
Object-objec edge는 180도를 6분할 하여 각도에 대한 classification을 수행한다.
Relationship prediction에 proxy loss를 추가하여 implicit하게 CAD model alignment와 layout quad estimation이 더 globally consistent하게 만든다.