Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling, CVPR 2024

YJ·2025년 4월 5일
0

(세미나 0502)

Previous works

  • 기존 연구에서는 이를 위해 STEGO 기법을 주로 사용했는데, 해당 기법은 3D 공간 정보를 반영하지 않고, Random Sampling을 기반으로 하기에 Feature들의 맥락을 고려하지 않았음.
  • 본 논문은 3D 공간 상에서 Farthest Point Sampling 기법을 도입하여 Depth map 없는 3D 정보를 2D Segmentation에 적용한 최초의 논문임. Depth Map은 FPS를 계산하기 위해서만 사용됨.

Main Contribution

  • 본 논문은 Unsupervised Semantic Segmentation을 위해 3D 공간 정보(Depth)를 반영함 (이를 Depth-Feature Correlation Loss에 반영함)
  • 또한, 기존 Depth Estimation 기반의 Semantic Segmentation 기법에 FPS(farthest point sampling)을 추가한 DepthG 알고리즘을 제안함 (샘플링 편향성 제거)

Proposed Algorithm

  • Input으로 원본 이미지를 5개로 crop하고, 각 crop된 영역들은 DINO-pretrained 모델인 ViT (F)를 사용하여 Feature Map을 추출함
  • Input 이미지의 Depth를 계산하고, 이를 기반으로 한 FPS를 통해 3D 공간에서의 샘플링 수행
  • F에서 추출된 feature 중, FPS로 선택된 위치의 feature vector 들만 샘플링하여 활용함
    • 위 그림의 f_i에서 파란색 영역이 선택된 위치임
  • Feature vector들을 Segmentation Head(S)로 변환하여 Feature Correlation Tensor로 변환됨
  • 그리고 앞서 FPS를 통해 추출된 Depth 값을 이용해 Depth Correlation Tensor를 계산함
  • FPS를 통해 정제된 Feature Map, Feature Correlation Tensor, Depth Correlation Tensor를 Aggregate 하여 손실 함수인 Depth-Feature Correlation loss를 계산함
    • 이 중 L_STEGO는 STEGO 방식의 feature 간 유사도 loss로, 동일 이미지의 crop, k-NN으로 유사한 이미지, 무작위 이미지 간 feature를 비교하여 학습에 사용됨 (여기는 Depth 정보가 없음)
    • L_DepthG는 동일 이미지에서 crop된 두 영역 간의 feature 관계를, depth map을 이용해 3D 구조 기준으로 얼마나 가까운지/먼지를 반영하여 계산한 loss임 (학습 과정에서만 사용됨)
  • 최종적으로 2D Semantic Segmentation 결과가 추출됨
profile
💻귀찮으니 필요할 때만 쓰는 Computer Vision 일지 ㅇㅇ💻

0개의 댓글