RCNN Object Detector(SPP Net) - 정리

Hwangbo Gyeom·2023년 4월 29일

Computer Vision Deep Learning Object Detection study

[Study] Object Detection

목록 보기

4/5

RCNN의 주요 문제점

1) 2000개의 Region 영역 이미지가 CNN으로 입력 되면서 Object Detection 수행 시간이 오래걸림.

2) Region 영역 이미지가 Crop/Warp되어 원본과는 다른 형태를 가지게 됨.

RCNN 개선 방안

2000개의 Region Proposal 이미지를 CNN으로 Feature Extraction하지 않고 원본 이미지만 CNN으로 Feature Map을 생성한 뒤에 이미지의 Selective Search로 추천된 영역의 이미지만 Feature Map으로 매핑하여 별도 추출하는 방법 고안.

문제점:
CNN은 서로 다른 사이즈의 이미지를 수용하지 않는데, 가장 큰 이유는 Flatten Fully Connection Input의 크기가 고정되어야하기 때문이다.
Selective Search로 추천된 영역이 feature map에 매핑된 것을 각각 1D Flattened로 만들어야하는데, 서로 사이즈가 달라서 고정이 불가능한 문제가 발생한다.

서로 다른 크기의 Region Proposal 이미지 개선 방안

Feature Map으로 투영된 서로 다른 크기를 가진 Region Proposal 이미지를 SPP Net의 고정된 크기 벡터로 변환하여 FC에 1D Flattened된 input 제공.

SPP (Spatial Pyramid Pooling)

SPP는 CNN Image Classification에서 서로 다른 이미지의 크기를 고정된 크기로 변환하는 기법으로 소개되었다. 즉, input 이미지의 사이즈를 고정시키지 않는 것이다.

Spatial Pyramid Matching

SPP는 오래전부터 컴퓨터 비전 영역에서 활용된 Spatial Pyramid Matching 기법에 근간을 둔다.

Bag of Visual Words

Bag of Visual Words란, 원본 이미지를 새로운 mapping 정보로 바꾸어주는 것이다.

문제점:
위치적인 것으로 이미지가 무엇인지 파악을 해야하는데, 특정 object가 많다고 이미지를 특정 class로 분류하는 것이 문제임. 그래서 위치 특성이 들어가야함.

SPM은 위치를 감안하기 위해 분면으로 쪼갠다.

SPM으로 서로 다른 크기의 Feature Map을 균일한 크기의 Vector으로 표현

이런 방식으로 다른 크기의 feature map을 균일한 크기의 벡터로 표현이 가능하다.

SPP Net을 RCNN에 적용

SPPNet을 RCNN에 적용하지 않았을 때는 이미지 한 개에 2000번 CNN을 통과해야했다면, SPP Net을 적용한 RCNN은 한번만 CNN을 통과하면 된다.

Q. SPP를 사용함으로써 얻는 손실이 있지 않나?
손실이 있다. 그러나 SPP를 사용함으로써 얻는 손실 대비 이미지 크기 고정 + warp/crop으로 얻는 손실이 더 크다.

Hwangbo Gyeom

이전 포스트

RCNN계열 Object Detecter(RCNN) - 정리

다음 포스트