LaserNet — 3D Point Clouds Bounding Box Detection and Tracking (PointNet, PointNet++, LaserNet, Point Pillars and Complex Yolo) — Series 5 (Part 4) 리뷰

Sam Kim·2022년 9월 19일

[원문 번역]

(직접 번역한 내용이며 부족한 배경지식으로인한 오역 등이 있을 수 있음)

LaserNet: An efficient probabilistic 3D Object Detection model for Autonomous Driving
[이미지 출처]

이번 글에서는 LaserNet (by Gregory P. Meyer et. al. and his team at Uber.)에 대해 다룬다. 3D bounding box object detection분야에서 다른 기술들과 비교해볼때 LaserNet은 유일한 확률 모델이라 할 수 있다. 바운딩 박스의 정확한 크기를 예측하는 다른 모델들과는 달리 크기들의 가능성을 예측함으로써 보다 높은 탐지 성과를 보여준다.

Snippets from the LaserNet paper.
[이미지 출처]

Built for LiDARs and Self Driving Cars

일부 자율 주행 차량은 도로 주행 중에 실시간으로 3D 포인트 클라우드를 생성하는 LiDAR (Light Detection and Ranging) 센서를 장착하고 있다. 이러한 3D 포인트 클라우드는 카메라만으로는 하기 힘든 교통량 측정에 용이하다. LaserNet은 LiDAR가 생성하는 포인트 클라우드에서 바운딩 박스를 빠르게(논문에 따르면 최대 83 fps) 도출해내기 위해 설계된 모델이다.

Leveraging the power of CNNs

CNN은 이미지 추론에서 좋은 성능을 보인다. LaserNet은 이런 CNN의 능력을 포인트 클라우드에 적용해냈다. 그러나 일반적으로 3 channel(RGB) 벡터로 이루어진 이미지와는 달리, LaserNet은 포인트 클라우드를 5 Channel 벡터로 변환한다. 이 변환 과정은 우선 the laser ID (64 in Velodyne LiDARs)를 통해 행 값으로, 각 레이저에 방위각을 이용해 열 값으로 하여 포인트 클라우드의 2차원 행렬값을 구한다. 라이다 장비가 레이저 광선을 수직으로 분할하여 보내고 각 레이저 광선은 수평 영역을 훑는다.

A 2D image is created using a laser id and the azimuth angle corresponding to each laser id obtained from the LiDAR device.
[이미지 출처]

이렇게 얻은 2차원 행렬의 각 원소는 LaserNet의 입력값으로 쓰이는 5가지 정보(높이, 빛의 세기, 범위, 방위각, isPointContained)를 가지고 있다. 주목해야 할 것은 이 2차원 행렬의 각 원소가 라이다 장비로 얻은 actual sweeper point라는 것과 간혹 각 원소에 swept point가 없는 경우에는 지시 변수인 isPointContained를 가지고 있다는 점이다.

Architecture

LaserNet Architecture.
[이미지 출처]

LaserNet에서 활용하는 CNN은 입력받은 다양한 척도의 이미지에서 특성을 추출하여 효과적으로 다층적인 특징을 혼합해낸다. 이 망(네트워크)은 3개의 계층으로 이루어져 있다. 각 계층은 특성 추출기와 특성 집계기로 구성되어 있다. 또한 이미지의 수평 해상도가 수직 해상도보다 상당히 높기 때문에 다운 샘플링(큰 영상을 작게 하는 것)은 수평 차원에서만 진행된다.

CNN feature extractors and aggregators in LaserNet.
[이미지 출처]

Predictions

LaserNet은 다음 각각을 예측한다.

분류를 위한 클래스 가능성
각 클래스의 바운딩 박스 변수값
각 바운딩 박스의 표준 편차. 각 바운딩 박스 변수값의 공분산을 추정하기 때문에 바운딩 박스 당 단 하나의 표준 편차만 예측한다.
혼합 값의 가중치. 자세한 설명은 Gaussian Mixture Models 을 참고할 것.

Snippet from the LaserNet paper.
[이미지 출처]

Mean Shift Clustering(평균 이동 군집 분석): LaserNet가 각 점에서 클래스 가능성을 예측하기 때문에 이 가능성 수치들을 결합하여 각 클래스 객체에 대한 가능성과 표준 편차를 구할 수 있다. Mean Shift Clustering은 이러한 개별 예측값을 객체 수준의 예측으로 끌어올리는데 사용되는 기법이다. 또한 점 당 예측의 noise를 감소시키는 역할도 한다.

Adaptive Non-Maximum Suppression: 탑다운 시각으로 보자면 바운딩 박스들은 겹치면 안 된다. 그러나 예측의 불확실성으로 인해 일부 겹칠 수 있다는 점을 감안해야 한다. Adaptive (NMS)는 겹치는 바운딩 박스가 개별 정보를 갖고 있는지 여부를 판단하는데 사용된다. 아래의 그림을 이 기술의 대한 예시로 참고할 것.

Non Maximum Supression used in LaserNet.
[이미지 출처]

Results

LaserNet results.
[이미지 출처]

Kitti 데이터셋에서의 성능이 높지 않은 이유에 대해서는 Kitti처럼 작은 데이터셋에서 다층 분포 학습이 어렵기 때문이라고 설명하고 있다. 아무튼 ATG4D와 같은 대규모 데이터셋에서는 이 기술이 훌륭한 성능을 보여준다.

Sam Kim

이전 포스트

PointNet++ — 3D point clouds bounding box detection and tracking (PointNet, PointNet++, LaserNet, Point Pillars and Complex Yolo) — Series 5 (Part 3) 리뷰

다음 포스트