RCNN계열 Object Detecter(RCNN) - 정리

Hwangbo Gyeom·2023년 4월 29일
0

[Study] Object Detection

목록 보기
3/5
post-thumbnail

RCNN은 Region Proposal과 CNN Detection이 분리되어있는 2 stage detector이다.
Stage 1에서는 Selective Search를 사용하여 2000개의 region 영역을 proposal받는다. 즉, 2000개의 object가 있을만한 위치를 받는 것이다.
Stage 2에서는 pretrained된 AlexNet을 사용하여 통일된 size의 이미지들을 input으로 받아 feature을 추출하고, 이를 1차원으로 만든다. 그 후, SVM classifier으로 이미지 분류와 bounding box regression으로 regression을 진행한다.

AlexNet에 이미지가 입력될 때 이미지들의 크기가 동일해야하는 이유는 Classification Dense Layer이 SVM Classification 전에 사용되기 때문이다. 이로 인해 2000개의 region proposal으로 예측된 영역의 이미지 사이즈를 동일하게 가진다. 그러나 이미지를 동일한 사이즈로 조정하는 과정에서 이미지의 ratio가 찌그러진다. 그래서 원본과는 다른 모습을 가진 object가 된다는 문제가 있다.

RCNN Training - Classification
먼저, ImageNet으로 pretrain된 feature extractor을 불러온다.
그 후, ground truth와 selective search predicted된 영역 IOU가 0.5 이상인 경우만 해당 클래스로, 나머지는 Bacground로 fine-tuning한다.
세번째로, Ground Truth로만 학습하되, 0.3 IOU 이하는 Background로 설정하고, 0.3 이상이지만 Ground Truth가 아닌 경우는 무시한다.

Bounding Box Regression

Selective Search를 통해 찾은 박스의 위치는 정확하지 않다. 그래서 Bounding Box Regression을 통해 Predicted Box와 Selective Search Proposal의 차이를 줄여주어야 한다.

               x = x좌표, y = y좌표, w = width, h = height

모델은 Selective Search Proposal과 Ground Truth Box의 중심점의 거리를 최소로 만드는 것을 목표로 해야한다. 즉, P를 G로 transform하려고 하는 것이다.

P의 요소들을 G로 transform시키는 함수들은 아래와 같다.

위의 함수들을 학습시킨 이후, P에 대해 transformation을 수행한다.

d(P)는 transformation 함수이며, 아래 수식과 같다.

Φ : 학습한 CNN layer 중 pool5에서 구한 feature vector
w : 학습 가능한 weight vector

Regression Targets는 아래와 같이 정의된다.

RCNN의 장단점

장점:
1) 높은 Detection 정확도
동시대의 다른 알고리즘 대비 매우 높은 detection 정확도를 보인다.

단점:
1) 너무 느린 Detection 시간과 복잡한 아키텍처 및 학습 프로세스

  • 하나의 이미지마다 selective search를 수행하여 2000개의 region 영역 이미지들을 도출
  • 개별 이미지별로 2000개씩 생성된 region 이미지로 CNN Feature Map 생성
  • 각기 따로 노는 구성 요소들: selective search, CNN Feature Extractor, SVM, Bounding Box Regressor으로 구성되어 복잡한 프로세서를 거쳐서 학습 및 object detection이 되어야함.
    --> 한장의 이미지를 object detection하는 데 약 50초 소요된다.

RCNN 이후 Object Detection 연구 방향성
RCNN으로 Deep Learning 기반 Object Detection의 성능이 입증되었고, Region Proposal 기반 성능도 입증되었다.
RCNN 이후에는 Detection 수행 시간을 줄이고, 복잡하게 분리된 개별 아키텍쳐를 통합할 수 있는 방안에 대해 연구를 매진했다.

0개의 댓글