PoolFormer : MetaFormer Is Actually What You Need for Vision

Mollang·2023년 3월 26일

이번에 진행하는 이미지 분류 프로젝트를 위해 PoolFormer -s12 모델 기초 성능 테스트 진행해보았습니다.
PoolFormer모델은 SeaAILab에서 발표한 MetaFormer Is Actually What You Need for Vision(2022 CVPR ORAL)에서 제시된 모델입니다.

PoolFormer -s12

파라미터가 가장 작은 S12 모델을 선택하여 테스트 진행했습니다.
비교할 다른 모델과 동일 환경으로 세팅하였습니다(옵티마이저, lr, 데이터 등).

모델 설명

MetaFormer 구조는 Token mixer 부분을 지정하지 않은 구조입니다.
빨간색 박스 영역이 각 모델의 Token Mixer입니다.
Token Mixer부분에 다양한 모듈을 지정할 수 있는데요, 무엇으로 지정하느냐에 따라 분류됩니다.

ref. https://sy00n.tistory.com/16

PoolFormer 구조

token mixer를 non-parametric operator인 Pooling으로 지정하였으나, 다른 MLP,Transfomer로 지정한 타 모델들과 견주었을 때 경쟁력있는 성능을 달성하였습니다.

테스트 결과

이전 포스트

모델 변이 테스트(Model Mutation Testing)

다음 포스트

[Pytorch] Knowledge Distillation with DeiT small

0개의 댓글