[원문 번역]
(직접 번역한 내용이며 부족한 배경지식으로인한 오역 등이 있을 수 있음)
자율 주행 차량과 로봇 공학에서 Point Cloud 관련 프로그램이 개발되면서 Point Cloud 학습에 대한 관심이 높아졌다.
LiDar(Light Detection and Ranging) 장비가 활용되며 도로 환경에 대한 3D Point Cloud 데이터셋들을 생겨났다.
자율 주행에서 가장 많이 활용되는 오픈소스 데이터셋은 아래와 같다.
해당 논문(Deep Learning for 3D Point Clouds: A Survey)에서는 3D Point Cloud가 사용된 3가지 프로그램(3D Shape Classification, 3D Object Detection and Tracking, 3D Point Cloud Segmentation)을 소개하고 있다. 이 중 3D Object Detection에서 사용된 기술들은 자율 주행 연구에서도 널리 쓰이는 방식이다. 이것이 바로 이번 기사에서 다루고자 하는 것이다.
이미지 출처: Deep learning for 3D point clouds, Yulan Guo et. al.
Region Proposal based methods: 이런 방식은 포인트 클라우드 내 여러 구역을 우선 나누고 구역마다 라벨링을 위한 특징을 추출한다. 이를 다시 아래와 같이 4가지 유형으로 나뉜다.
Single Shot Methods: single-stage network을 이용해 곧바로 물체 가능성을 예측해내는 방식. 이는 아래와 같이 다시 3가지 방식으로 나뉜다.
Average Precision of Various methods on the Kitti Dataset
Multi-View based methods가 느리다고 소개되어 있는데 Kitti Dataset에서의 성능표를 보면 함께 소개된 다른 methods에 비해 그다지 느리지 않을 것으로 나온다. 다만, 해당 표의 하단을 보면 이 글에서 소개되지 않은 다른 방식이 훨씬 빠른 속도를 보여준다는 것을 고려할 때, Multi-View based methods뿐 아니라 이 글에서 소개된 Region Proposal based methods 전부가 느리다는 것을 말하려던 것을 아닐까 추측해본다.
자율 주행과 같은 목적으로 사용하기에는 약 10 fps 이하의 속도는 실용성이 현저히 떨어지는 것 같다.