우리가 3D 세상에 살고 있기 때문에 3D 기술은 중요하다.
다음은 어떻게 3D 데이터가 저장되는지 그 방법들을 나태낸 그림이다.
Shape NET: Large scale synthetic objects (51300개)
Part NET: Fine grained dataset, useful for segmentation (573,585 part instances in 26,671 3D models)
Scene NET: 5million RGB-depth synthetic indoor images
SCAN NET: 2.5million RGB depth view real data
outdoor 3D scene dataset
1) KITTI: LiDAR data labeld by 3D b.boxes
2) semantic KITTI: LiDAR data, labeled per point
3) Waymo open dataset: LiDar dataset labeld by 3D b.boxes
2D 와 마찬가지로 3D역시 3D Model을 거쳐 고양이라고 예측을 하게 된다.
Mesh R-CNN
- Mask R-CNN과 비슷하다. input은 2D, output은 3D
- Mask R-CNN의 head를 mesh형태로 modification함으로써 구현할 수 있다.
- input 이미지가 들어오면 detection하고 그 후에 3D Voxels나 Meshes로 바꾼다.
Mask R-CNN vs Mesh R-CNN
Mask R-CNN의 branch는 BBox와 classes, mask를 예측하는것으로 구성되어있다. output을 낼 때마다 하나의 ROI를 공유하여 각각의 feature로부터 출력을 prediction한다.
Mesh R-CNN은 이 구조에 3D branch를 추가하여 3D mesh를 생성하는 구조이다.
더 복잡한 3D reconstruction model들도 존재한다.