Mask R-CNN 논문 리뷰

김상현·2021년 12월 14일

논문 제목: Mask R-CNN

개요

Mask R-CNN은 object detection을 위한 기존의 Faster R-CNN에 각각의 RoI(Region of Interest)의 segmentation masks를 예측하는 branch를 추가한 방법이다. Mask branch는 pixel-to-pixel 방법으로 masks를 예측하기 위해 작은 FCN(Fully Convolution Network)로 되어있고, 약간의 연산 overhead만 추가된다. Mask R-CNN은 주어진 Faster R-CNN 프레임워크를 통해 쉽게 구현하고 학습가능하다.

Mask R-CNN은 Faster R-CNN의 확장이지만, 좋은 성능을 위해 mask branch를 적절하게 구성해야 한다. 먼저, Faster R-CNN은 RoIPool을 사용하므로 pixel-to-pixel alignment에 적당하지 않다. 이러한 misalignment를 Mask R-CNN에서 해결하기 위해 논문의 저자들은 정확한 공간적 위치를 보존하는 RoIAlign을 제안한다. 또한, 각각의 class에 따라 독립적으로 binary mask를 예측하는 것 즉 mask와 class 예측을 분리하는 것이 중요하다는 것을 발견했다.

Mask R-CNN은 매력적인 부가기능 없이, COCO instance segmentation과 object detection benchmark에서 기존의 sota 모델의 성능을 능가했다. 또한 pose estimation과 같은 다른 task에서의 좋은 성능으로 일반화 능력을 보여줬다.

Mask R-CNN

사진 1. Framework

Faster R-CNN

Faster R-CNN은 2-stage로 구성되있다. 첫번째 stage는 RPN(Region Proposal Network)로 객체 bounding box들의 후보를 제안한다. 두번째 stage는 Fast R-CNN으로 RoIPooling을 적용해 각각의 후보 box별로 classification과 bounding-box regression을 수행한다. 두 stage에서는 공유된 feature를 사용한다.

Mask R-CNN

Mask R-CNN은 Faster R-CNN과 같은 두 단계 구조를 갖으며 첫번째 단계(RPN)는 동일하다. 두번째 단계에서는 기존의 class와 box offset예측과 함께 추가로 각각 RoI에 대해 binary mask를 출력한다.

각각의 RoI sample에 대해 multi-task loss를 다음과 같이 정의한다.

L = L_{cls} + L_{box} + L_{mask}

classification loss $L_{cls}$ 와 bounding-box loss $L_{box}$ 는 Fast R-CNN과 동일하다. Mask branch는 각각의 RoI에 대해 $Km^2$ -dimensional 출력으로 $K$ 개의 $m \times m$ resolution의 mask를 갖는다. 여기서 $K$ 는 class의 개수이다. 해당 출력에 pixel별 sigmoid를 적용하고, $L_{mask}$ 를 average binary cross-entropy loss로 정의한다. 이와 같이 정의된 $L_{mask}$ 를 통해 네트워크는 모든 class에 대해 masks를 생성하고, mask와 class 예측을 분리한다. Pixel별 softmax와 multinomial cross-entropy loss를 사용한 기존의 방법들과 다르며, 실험을 통해 저자들이 제안한 방법이 더 좋은 성능을 보여준다.

Mask Representation

Mask는 입력 객체의 공간적 개요를 담고(encode) 있다. 따라서, class labels와 box offsets과 같이 vector로 불가피하게 collapsed되는 것과 다르게, 마스크의 공간적인 구조를 추출하는 것은 convolution을 통해 자연스럽게 가능하다. Mask 예측을 위해 FCN을 사용해서 mask branch의 layer들은 명시적인 $m \times m$ 의 객체의 공간적인 개요를 유지할 수 있다. Mask 예측을 위해 vector 표현을 사용하는 경우 공간적 정보의 부족이 생기고, fully-connected layer를 사용하므로 학습 가중치의 개수가 늘어난다. 따라서 FCN을 통해 mask를 예측하는 경우 더 적은 학습 가중치로 더 좋은 성능을 얻을 수 있다.

RoIAlign

RoIPool은 각각의 RoI로 부터 작은 크기의 feature map(e.g., $7 \times 7$ )를 추출하는 연산이다. Feature map을 이산적으로 세분하기 위해 실수로 되어 있는 RoI는 먼저 quantize(양자화)된다. 양자화된 후 각각의 영역이 미리 지정된 크기에 맞게 영역이 나눠지고 각각에 영역에 pooling 연산을 수행한다. Quantization(양자화)은 예를 들자면 연속적인 좌표 $x$ 에 대해 $[x/16]$ 적용한다. 이때, $[\cdot]$ 은 반올림 연산이다. 이러한 양자화는 RoI와 추출된 특징(features)의 misalignment를 야기한다. 이러한 misalignment는 translation invariant한 classification에서는 robust하지만, 픽셀별 정확성이 필요한 경우 큰 부정적인 영향을 미친다.

이러한 문제를 해결하기 위해 저자들은 RoIAlign을 제안한다. 이는 harsh quantization을 없애고, bilinear interpolation을 사용해 추출된 특징에 적절하게 align되게 한다.

RoIPool: $[x/16]$
RoIAlign: $x/16$

다음 사진 2,3 (출처)을 통해 RoIPool과 RoIAlign의 차이를 쉽게 이해할 수 있다.

사진 2. RoIPool

사진 3. RoIAlign

Network Architecture

사진 4. Architecture

Backbone network로 50 또는 101 layers의 ResNet과 ResNext를 사용했다. Faster R-CNN의 원래 구현과 같이 ResNet의 4번째 단계의 마지막 convolution layer로 추출된 feature를 사용한다. 또한 FPN(Feature Pyramid Network)의 구조를 사용해서 다른 단계들에서 크기에 따른 RoI features를 추출해서 사용한다. FPN 여부에 따라 head 부분의 구조에서 차이가 존재하며 위의 사진 4를 통해 확인할 수 있다.

Implementation Details

Training

RoI는 ground-truth box와 0.5 IoU(Intersction over Union) 이상인 경우 positive이고, 이외는 negative이다.
Mask loss $L_{mask}$ 는 positive RoIs에서만 정의된다.
GPU별 mini-batch로 이미지 2장을 사용했고, 각각의 이미지는 N개의 RoIs를 갖는다. 이때, N개 RoI에서 positive와 negative sample의 비율은 1:3이다. C4-backbone(Faster R-CNN과 같은 경우) N=64, FPN을 사용한 경우 N=512 이다.

Inference

C4-backbone(Faster R-CNN과 같은 경우)에서 region proposal의 개수는 300이고, FPN에서 region proposal의 개수는 1000이다.
Detection box들 중 높은 점수의 100개에 대해 mask branch를 적용한다. 이는 training때와는 다르지만, inference 속도를 높이고, 성능을 향상시킨다.
Mask branch는 RoI별로 K개의 mask를 예측하지만, 논문의 저자들은 classification branch를 통해 분류된 k class의 mask만 사용한다.
$m \times m$ 실수값의 masks는 RoI size로 resize되고, 0.5의 threshold에 따라 binarized(이진화)된다.