Instance Segmentation

개체들까지 구분한 segmentation을 말한다.
Instance Segmenters

- 기존 Faster R-CNN에서 Mask Branch가 추가된 형태이다.
- 기존 7x7x2048에서 14x14로 upsampling함과 동시에 채널 수를 낮추고, 최종적으로 Class의 수(80) 만큼의 binary mask를 생성한다.
- class단에서 나눈 정보를 참조하여 각 채널에서의 mask를 분류한다.

YOLACT

- Real-time으로 instance segmentation이 가능한 single-stage backbone network
- Feature pyramid의 구조
- mask의 prototpye들을 추출한다.
- prediction head에서 prototpye들을 잘 합성하기 위한 coefficient들을 출력한다.
- 선형결합을 통해 response map을 만든다.
YolactEdge

- YOLACT가 Real-time으로 동작하긴 해도 소형화하기에는 부족한 점이 많다.
- 이전 frame의 keyframe에 해당하는 frame을 다음 frame에 전달함으로써 feature map의 연산을 줄임
- 기존 성능은 유지한 채로 연산속도를 향상시켰다.
Panoptic Segmentation

- Semantic Segmentation은 배경을 구분할 수 있지만 instance를 구분할 수 없음
- Instance Segmentation은 반대로 instance를 구분할 수 있고 배경을 구분 못함
- 위의 두 가지를 합친 형태가 panoptic segmentation
UPSNet

- Semantic Head, Instance Head를 합쳐서 Panoptic head를 만들었다.

- Semantic head의 Xstuff 배경은 최종출력으로 들어간다.
- Semantic head의 Xthing 물체 부분은 masking을 수행하여 Instance Response와 결합한다.
- Unknown class를 만들어서 출력으로 넣었다.
VPSNet

- 시간차를 두고 feature map을 뽑아 tracking 하는 구조이다.
- 이전 시점의 영상의 feature가 다음 영상의 대응점이 어디로 가는지 motion map을 만든다.
- 현재 시점의 feature map과 이전 시점의 feature map을 활용하면서 더욱 높은 detection이 가능하고 시간적으로도 smooth하다.
- 이전 ROI와 ROI feature들을 비교하는 track head가 존재하고 각 ROI들의 index를 매칭시킨다
- 나머지 BBOX head, Mask Head, Semantic Head를 하나의 Panoptic Map으로 만들어준다.
Landmark Localization

Coordinate Regression vs Heatmap Classification

coordinate regression : 각 point의 x,y좌표를 2-D로 regression
heatmap classification : 각 keypoint마다 한 채널씩 쌓아 classification하는 형태
Landmark Location to Gaussian Heatmap

- x,y좌표가 score가 존재할 때 gaussian heatmap 생성하는 방법이다.
Hourglass Network

- 영상전체를 작게 만들어서 receptive field를 크게 만들어서 큰 영역을 보고 landmark를 찾는다
- skip connection이 있어서 low level feature를 정확하게 측정하게끔 유도한다.
- UNet과 다르게 Concatination 대신 Add해준다.
- skip connection을 할 때 Conv layer를 거친다.
Extensions
DensePose

- 3D map을 UV map으로 표현 가능하다.
- UV map과 3D mesh의 관계가 변하지 않는다.
RetinaFase

- 다양한 task(classification, box regression, landmarks regression)를 한번에 수행한다.
- task가 많아서 gradient가 많아 좀 더 강력한 학습효과가 있다.
- FPN + Target-task branches가 가능하다.
Detecting object as keypoints
CornerNet

- backbone에서 나온 feature map의 네가지 헤드를 통해 heatmap을 통한 각각의 점들을 detection
- Enbedding head를 둬서 각각의 point들을 표현함으로써 학습시킨다.
- heatmap에서 point들을 추출을 하고, Embedding에서 corner matching을 수행한다.