Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling, CVPR 2024

YJ·2025년 4월 5일

(세미나 0502)

기존 연구에서는 이를 위해 STEGO 기법을 주로 사용했는데, 해당 기법은 3D 공간 정보를 반영하지 않고, Random Sampling을 기반으로 하기에 Feature들의 맥락을 고려하지 않았음.
본 논문은 3D 공간 상에서 Farthest Point Sampling 기법을 도입하여 Depth map 없는 3D 정보를 2D Segmentation에 적용한 최초의 논문임. Depth Map은 FPS를 계산하기 위해서만 사용됨.

본 논문은 Unsupervised Semantic Segmentation을 위해 3D 공간 정보(Depth)를 반영함 (이를 Depth-Feature Correlation Loss에 반영함)
또한, 기존 Depth Estimation 기반의 Semantic Segmentation 기법에 FPS(farthest point sampling)을 추가한 DepthG 알고리즘을 제안함 (샘플링 편향성 제거)

Input으로 원본 이미지를 5개로 crop하고, 각 crop된 영역들은 DINO-pretrained 모델인 ViT (F)를 사용하여 Feature Map을 추출함
Input 이미지의 Depth를 계산하고, 이를 기반으로 한 FPS를 통해 3D 공간에서의 샘플링 수행
F에서 추출된 feature 중, FPS로 선택된 위치의 feature vector 들만 샘플링하여 활용함
- 위 그림의 f_i에서 파란색 영역이 선택된 위치임
Feature vector들을 Segmentation Head(S)로 변환하여 Feature Correlation Tensor로 변환됨
그리고 앞서 FPS를 통해 추출된 Depth 값을 이용해 Depth Correlation Tensor를 계산함
FPS를 통해 정제된 Feature Map, Feature Correlation Tensor, Depth Correlation Tensor를 Aggregate 하여 손실 함수인 Depth-Feature Correlation loss를 계산함
- 이 중 L_STEGO는 STEGO 방식의 feature 간 유사도 loss로, 동일 이미지의 crop, k-NN으로 유사한 이미지, 무작위 이미지 간 feature를 비교하여 학습에 사용됨 (여기는 Depth 정보가 없음)
- L_DepthG는 동일 이미지에서 crop된 두 영역 간의 feature 관계를, depth map을 이용해 3D 구조 기준으로 얼마나 가까운지/먼지를 반영하여 계산한 loss임 (학습 과정에서만 사용됨)
최종적으로 2D Semantic Segmentation 결과가 추출됨

💻귀찮으니 필요할 때만 쓰는 Computer Vision 일지 ㅇㅇ💻