본 논문의 제안 방법은 동일한 coarse class 내의 모든 sample에 동일한 가중치를 부여하는 대신, 동일한 fine label을 가진 sample을 강조하고 다른 sample의 중요도를 낮추는 것을 목표로 한다. 이를 위해 sample간의 관계를 직접 활용하는 MaskCon 기법을 도입한다.
위 수식에서 Zij는 다른 sample에 대한 sample간 관계를 나타내는 것으로 자기 자신에 대한 key view projection hk와 자신을 제외한 전체 Dataset의 {h1, ..., hN}을 활용하여 해당 값을 계산한다. 이때, 자신과 다른 coarse label을 가진 sample j를 제외하는 Mask를 사용한다.
동일한 coarse label의 모든 sample들을 positive로 간주하는 것은 정보가 왜곡될 여지가 있지만, 동일한 coarse label이 없는 sample은 negative로 확실하게 식별할 수 있고 Zij에 대한 noise가 줄어드는 효과를 가진다.
이후, Zsupcon과 비교하여 feature space의 유사성에 따라 동일한 coarse label의 sampledp weight를 재조정한다. Masked contrastive loss를 Lmaskcon으로 표시하며 Grafit과 CoIns 방법론과 같이 각 Loss에 가중치를 부여하는 방식을 적용한다.
Coarse labelling과정으로 CIFAR10 Dataset에서 장난감 Dataset을 수동으로 생성한다. 10개의 원래 Class에서 8개의 하위 집합을 선택한다. 실험에서는 잘 분류한 coarse label이 존재하는 goodsplit과 잘못 분류한 coarse label이 존재하는 badsplit 두가지 경우로 실험을 진행하였다.
위 표에서 볼 수 있듯이 본 논문의 제안방법이 두 가지 경우 모두 최고의 성능을 달성하였다.
위 그림은 goodsplit Dataset에서 모든 Test sample의 학습된 Representation을 시각화한 것이다. Supervised Contrastive learning과 Self-supervised Contrastive learning으로 학습된 Representation은 각각 sample을 under-clustering하고 over-clustering하는 경향이 있다. 이와 대조적으로 MaskCon은 Fine label만으로 학습한 4번째 결과와 일치하는 더 작고 선명한 Cluster를 얻었다.