부스트캠프 9주차 Instance/Panoptic Segmentation and Landmark Localization 정리

kimkihoon·2022년 3월 20일
0

부스트캠프 AI

목록 보기
29/49

Instance Segmentation


개체들까지 구분한 segmentation을 말한다.

Instance Segmenters

  • 기존 Faster R-CNN에서 Mask Branch가 추가된 형태이다.
  • 기존 7x7x2048에서 14x14로 upsampling함과 동시에 채널 수를 낮추고, 최종적으로 Class의 수(80) 만큼의 binary mask를 생성한다.
  • class단에서 나눈 정보를 참조하여 각 채널에서의 mask를 분류한다.

YOLACT

  • Real-time으로 instance segmentation이 가능한 single-stage backbone network
  • Feature pyramid의 구조
  • mask의 prototpye들을 추출한다.
  • prediction head에서 prototpye들을 잘 합성하기 위한 coefficient들을 출력한다.
  • 선형결합을 통해 response map을 만든다.

YolactEdge

  • YOLACT가 Real-time으로 동작하긴 해도 소형화하기에는 부족한 점이 많다.
  • 이전 frame의 keyframe에 해당하는 frame을 다음 frame에 전달함으로써 feature map의 연산을 줄임
  • 기존 성능은 유지한 채로 연산속도를 향상시켰다.

Panoptic Segmentation

  • Semantic Segmentation은 배경을 구분할 수 있지만 instance를 구분할 수 없음
  • Instance Segmentation은 반대로 instance를 구분할 수 있고 배경을 구분 못함
  • 위의 두 가지를 합친 형태가 panoptic segmentation

UPSNet

  • Semantic Head, Instance Head를 합쳐서 Panoptic head를 만들었다.
  • Semantic head의 Xstuff 배경은 최종출력으로 들어간다.
  • Semantic head의 Xthing 물체 부분은 masking을 수행하여 Instance Response와 결합한다.
  • Unknown class를 만들어서 출력으로 넣었다.

VPSNet

  • 시간차를 두고 feature map을 뽑아 tracking 하는 구조이다.
  • 이전 시점의 영상의 feature가 다음 영상의 대응점이 어디로 가는지 motion map을 만든다.
  • 현재 시점의 feature map과 이전 시점의 feature map을 활용하면서 더욱 높은 detection이 가능하고 시간적으로도 smooth하다.
  • 이전 ROI와 ROI feature들을 비교하는 track head가 존재하고 각 ROI들의 index를 매칭시킨다
  • 나머지 BBOX head, Mask Head, Semantic Head를 하나의 Panoptic Map으로 만들어준다.

Landmark Localization

Coordinate Regression vs Heatmap Classification

coordinate regression : 각 point의 x,y좌표를 2-D로 regression

heatmap classification : 각 keypoint마다 한 채널씩 쌓아 classification하는 형태

Landmark Location to Gaussian Heatmap

  • x,y좌표가 score가 존재할 때 gaussian heatmap 생성하는 방법이다.

Hourglass Network

  • 영상전체를 작게 만들어서 receptive field를 크게 만들어서 큰 영역을 보고 landmark를 찾는다
  • skip connection이 있어서 low level feature를 정확하게 측정하게끔 유도한다.
  • UNet과 다르게 Concatination 대신 Add해준다.
  • skip connection을 할 때 Conv layer를 거친다.

Extensions

DensePose

  • 3D map을 UV map으로 표현 가능하다.
  • UV map과 3D mesh의 관계가 변하지 않는다.

RetinaFase

  • 다양한 task(classification, box regression, landmarks regression)를 한번에 수행한다.
  • task가 많아서 gradient가 많아 좀 더 강력한 학습효과가 있다.
  • FPN + Target-task branches가 가능하다.

Detecting object as keypoints

CornerNet

  • backbone에서 나온 feature map의 네가지 헤드를 통해 heatmap을 통한 각각의 점들을 detection
  • Enbedding head를 둬서 각각의 point들을 표현함으로써 학습시킨다.
  • heatmap에서 point들을 추출을 하고, Embedding에서 corner matching을 수행한다.

0개의 댓글