부스트캠프 9주차 Instance/Panoptic Segmentation and Landmark Localization 정리

kimkihoon·2022년 3월 20일

9주차 CV Instance/Panoptic Segmentation and Landmark Localization 부스트캠프 Ai

부스트캠프 AI

목록 보기

29/49

Instance Segmentation

개체들까지 구분한 segmentation을 말한다.

Instance Segmenters

기존 Faster R-CNN에서 Mask Branch가 추가된 형태이다.
기존 7x7x2048에서 14x14로 upsampling함과 동시에 채널 수를 낮추고, 최종적으로 Class의 수(80) 만큼의 binary mask를 생성한다.
class단에서 나눈 정보를 참조하여 각 채널에서의 mask를 분류한다.

YOLACT

Real-time으로 instance segmentation이 가능한 single-stage backbone network

Feature pyramid의 구조

mask의 prototpye들을 추출한다.

prediction head에서 prototpye들을 잘 합성하기 위한 coefficient들을 출력한다.

선형결합을 통해 response map을 만든다.

YolactEdge

YOLACT가 Real-time으로 동작하긴 해도 소형화하기에는 부족한 점이 많다.

이전 frame의 keyframe에 해당하는 frame을 다음 frame에 전달함으로써 feature map의 연산을 줄임

기존 성능은 유지한 채로 연산속도를 향상시켰다.

Panoptic Segmentation

Semantic Segmentation은 배경을 구분할 수 있지만 instance를 구분할 수 없음
Instance Segmentation은 반대로 instance를 구분할 수 있고 배경을 구분 못함
위의 두 가지를 합친 형태가 panoptic segmentation

UPSNet

Semantic Head, Instance Head를 합쳐서 Panoptic head를 만들었다.
Semantic head의 Xstuff 배경은 최종출력으로 들어간다.
Semantic head의 Xthing 물체 부분은 masking을 수행하여 Instance Response와 결합한다.
Unknown class를 만들어서 출력으로 넣었다.

VPSNet

시간차를 두고 feature map을 뽑아 tracking 하는 구조이다.
이전 시점의 영상의 feature가 다음 영상의 대응점이 어디로 가는지 motion map을 만든다.
현재 시점의 feature map과 이전 시점의 feature map을 활용하면서 더욱 높은 detection이 가능하고 시간적으로도 smooth하다.
이전 ROI와 ROI feature들을 비교하는 track head가 존재하고 각 ROI들의 index를 매칭시킨다
나머지 BBOX head, Mask Head, Semantic Head를 하나의 Panoptic Map으로 만들어준다.

Landmark Localization

Coordinate Regression vs Heatmap Classification

coordinate regression : 각 point의 x,y좌표를 2-D로 regression

heatmap classification : 각 keypoint마다 한 채널씩 쌓아 classification하는 형태

Landmark Location to Gaussian Heatmap

x,y좌표가 score가 존재할 때 gaussian heatmap 생성하는 방법이다.

Hourglass Network

영상전체를 작게 만들어서 receptive field를 크게 만들어서 큰 영역을 보고 landmark를 찾는다
skip connection이 있어서 low level feature를 정확하게 측정하게끔 유도한다.
UNet과 다르게 Concatination 대신 Add해준다.
skip connection을 할 때 Conv layer를 거친다.

Extensions

DensePose

3D map을 UV map으로 표현 가능하다.

UV map과 3D mesh의 관계가 변하지 않는다.

RetinaFase

다양한 task(classification, box regression, landmarks regression)를 한번에 수행한다.

task가 많아서 gradient가 많아 좀 더 강력한 학습효과가 있다.

FPN + Target-task branches가 가능하다.