- 기존의
semantic segmentation
모델들은contextual information in high-level feature
에 집중했다.
:high-level layer
만을 사용하는 것은 edge 등의중요한 detail
을 놓칠 수 있어skip-connection
등의 기법이 활용된다.- 해당 논문에서는
low-level texture feature
가local structure
뿐 아니라global statistical knowledge
도 가지고 있다고 주장한다.low-level information
의distribution
을 분석하기 위해STLNet
(Statistical Texture Learning Network
)을 고안했다고 한다.image texture
는 단순boundary
,smoothness
,coarseness
등의local structural property
일 뿐 아니라global statistical property
라고 주장한다.low-level information
을 통해histogram of intensity
를 추출하는 일종의spectral domain analysis
라고 주장한다.
- 모델의 크게 3가지 구조를 가진다.
2.1 QCO(Quantization and Counting Operator)
- 크게
quntize
와count
두가지 연산을 수행하고1-d QCO
와2-d QCO
로 구분된다.
1) quantize inpute feature into multiple layer
2) count the number of features2.1.1 1-d QCO
Quanitzation
1)
input map
에Global Average Pooling
을 한 결과를 다시input map
과Cosine similarity
를 구해준다
2) 임의의N
개의 level로 나누어 준후quantization encoding vector
를 얻는다.
- 이때 얻어지는 는 의
quantization level
을 나타낸다argmax
나one-hot encoding
방법보다smoother way
를 사용함으로써gradient vanishing
문제를 피할 수 있다고 한다.
Counting
- 벡터 과 의
channel-wise mean
을Concat
한다.Average Feature Encoding
- 위의 과정을 통해 얻은 와 앞서
global average pooling
을 통해 얻었던 를concat
하여output
을 얻는다2.1.2 2-d QCO
2-d QCO
에서는1-d
와 유사하지만 인접pixel
간 관계를 통해 공간정보에 주목한다.
2.2 TEM
enhance texture details
1-d QCO
를 통해 얻은 값을q
,k
,v
로 나누어 학습한다.
2.3 PTFEM
exploit texutre-related information
multi-scale feature
사용을 위해 다양한 크기의2-d QCO
를 사용하고 논문에서는[1, 2, 3, 6]
크기의 scale을 사용하여 이미지를 축소하였다.
2.4 Loss
- 원활한 학습을 위해
auxilary layer
를 사용하였다.auxiliary output
에는cross entropy
를,main ouput
에는 OHEM(online hard examples mining)을 사용하였다고 한다(focal loss
와 유사한 목적인듯?)
TEM
모듈 적용 전, 후를 비교했을 때 더 뚜렷한texture detail
에 대해 얻을 수 있었다고 한다.
PASCAL
,ADE20K
,Cityscapes
등의 데이터셋에서 기존SOTA
모델 보다 좋은 성능을 보였다고한다.(ResNet-101
기준)FLOPS
github
에 올라와있는 코드를backbone
없이 사용했을 때에도 다른 모델 보다 상당히 무거워졌다.--> 확인해볼 필요가 있는듯
DeepLapV3
와의 비교시 조금더detail
한 부분을 잡는 것을 확인할 수 있다.