본 논문에서는 object의 Center point에 기반하여 anchors를 정의하지 않는 앵커 프리 방식의 network를 제안한다.
(NMS와 같은 post-processing을 사용하지 않기 때문에 좀 더 빠른 학습속도를 갖는다.)
CNN backbone이 object boundaries에 더 집중하여 학습할 수 있도록 한다.
predict된 bounding box들을 confidence에 따라 정렬한다.
본 논문에서 학습데이터로 사용한 LiDAR 데이터 셋의 특징은 다음과 같다.
이러한 문제를 해결하기 위해 Sparse한 point cloud를 다음과 같이 변환하여 학습하고자 하는 method들이 제안되어왔다.
2D/3D voxelization -> VoxelNet [11], SECOND [12], SA-SSD, PointPillar [13]
2D/3D pseudo image -> PointPillar [13]
논문 아래 링크 참고
위 method들은 모두 anchor기반의 detector이다.
hyperparameter setting, tuning 에 대한 부담
여기서 말하는 hyperparameter란 anchor ratio, scales, range, size, orientations등이다.
IOU matching threshold 설정의 어려움
IOU matching threshold는 Object detection에서 적절한 positive samples과 negative samples을 얻기 위해 세밀하게 조정되어야 한다 (모델의 performance가 이에 민감함).
Non-Maximum Suppression (NMS) 필요
NMS는 anchor-based methods에서 overlap된 바운딩 박스를 suppress하는 데 필요하다. 이는 막대한 computational cost를 초래한다.
anchor-free methods는 FPN [16], Focal loss [17], [18]-[21], [22]등장 이후에 더욱 발전되었다.
anchor를 정의하는 방법에는 다음 두가지 방법이 있다.
작성중......
[20] Cornernet: Detecting objects as paired keypoints, Proc. Eur. Conf. Comput., 2018.
[22] Objects as points, 2019.
논문 참고 링크:
Related Work에서는 3D detector에 point cloud 데이터를 학습데이터로 representation하는 방식들을 소개한다.
point cloud detector의 경우, 첫번째로, Input data가 detector에 입력되는 형태에 따라 총 3가지 방식(point-based, voxel-based, Mixture), 두번째로, feature 추출과 RPN 단계에 따른 총 2가지 detect 방식(one-stage방식, two-stage방식 = 본 논문리뷰에서는 설명을 생략하였다.)으로 구분된다.
마지막으로 CenterNet3D의 가장 중요한 특징 중 하나인 Anchor free 3D Detection방식에 대해 소개한다.
CenterNet 3D의 경우 voxel-based respresentation방식과 one-stage방식을 사용하였다.
raw한 point cloud 데이터에 bounding box가 별다른 전처리 과정없이 그대로 적용된다.
point cloud 데이터가 Voxellizatio을 거쳐 더 compact한 방식으로 변환된다.
[12] SECOND: Sparsely embedded convolutional detection, Sensors, 2018.
[13] PointPillars: Fast encoders for object detection from point clouds, IEEE Conf. Comput. Vis. Pattern Recognit, 2019.
[28] PIXOR: Real-time 3D object detection from point clouds, IEEE Conf. Comput. Vis. Pattern
Recognit, 2018.
[29] Complex-YOLO: An euler-regionproposal for real-time 3D object detection on point clouds, Eur. Conf. Comput. Vis, 2018.
C. Anchor-Free 3D Detection
CenterNet3D는 Anchor를 사용하지 않는 Anchor-Free 3D Detection 방법을 사용하였다.
기존의 3D one-stage, two-stage detector의 경우 미리 정의된 anchors및 object sizes를 사용하여 학습 연산량이 많다는 특징이 있었다.
따라서 본 논문에서는 Lidar를 기반으로 한 point cloud데이터에 anchor-free 3d Detector를 적용하여 학습하였다.
관련된 논문은 중요하지 않아 넘어가겠다.
CenterNet3D Network의 전반적인 Architecture는 위 그림 Fig1과 같다.
주요 architecture는 다음과 같이 구성된다.
첫번째로, point cloud는 volelization을 거쳐 Sparse한 point에서 voxel로 표현이 된다.
3D Convs including sparse convolution and submanifold convolution
-> [12].(SECOND: Sparsely embedded convolutional detection, 2018) 논문에서 제안된 conv net 과 같다.
-> 출력 레이저 펄스를 발사해 레이저가 목표물에 맞고 되돌아오는 시간을 측정(이 때문에 비행시간거리측정; ToF·Time of Flight 기술이라고도 함.)하고, 이에 사물간 거리 및 형태를 파악하여 얻어지는 데이터
-> 라이다와 동일한 방식으로 작동하지만 레이저 대신 전파를 이용한다는 점에서 다르다
이런 유용한 정보를 나눠주셔서 감사합니다.