InternImage

안민기·2023년 6월 23일

Image Detection

목록 보기

2/3

특이사항

[Core operator 비교]

long-range dependence : 멀리 떨어진 정보를 반영할 수 있는가?
adaptive spatial aggregation : 결과를 도출할 때 적절한 지역의 정보를 사용하는가?
Global Attention : Vit
- patch의 global한 attention연산 수행
- 지나친 computing 리소스 사용
Local Attention : Swin Transformer
- 특정 영역을 나누고 해당 영역내에서 attention사용
- (?)layer마다 특정 영역이 달라지고 블럭(stage)마다 patch merge가 있음
Large Kernel : ConvNeXt , RepLKNet , SLaK
- 위으 모델 순으로 큰 사이즈 커널 , 큰사이즈 커널 + 작은 사이즈 커널 , 듬성듬성하게 랜덤한 위치에 커널 적용(연산량 줄이기)
Dynamic sparse Kernel(ours)
- deformable convolution(DCN)의 개선 버전 : 3x3커널을 적용한다 하면 9개의 픽셀에 기존 처럼 적용하는 것이 아닌 그 주변의 픽셀에 cnn 적용
- 장점 : 모델이 물체의 다양한 scale을 탐지할 수 있음(커널의 offset이 학습가능)

[모델 구조]
크게 왼쪽의 전체적인 모델구조 / 오른쪽의 DCN구조로 나눌 수 있음

DCN(Deformable Convolution Layer)
~~(이해하면 지우기)~~

Trendy AI Developer