Sound Classification 정리 3. AST: Audio Spectrogram Transformer

Yechan Yu·2022년 12월 31일
0

Sound Classification

목록 보기
4/8
post-thumbnail

소개

  • 이 글은 논문을 읽고 정리하기 위한 글입니다.

  • 내용에 오류가 있는 부분이 있다면 조언 및 지적 언제든 환영입니다!

  • 간단한 개념 위주로 정리할 예정입니다.

  • 개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리해보았습니다.


AST: Audio Spectrogram Transformer

Main Proposal

  • Computer Vision의 ViT 모델을 채용하여 Audio Pattern Recognition에서도 Pure Attention 기반 모델의 사용 가능성을 보임

모델

  • PSLA와 동일한 Acoustic Feature 사용 (Log-Mel 128-d)
  • Patch Embedding 이후 CLS Token 을 이용하여 Classification 진행
  • 기존 ViT와는 다르게 Overlapped Patch Split 사용
  • PSLT와 동일하게 ImageNet Weight Initialization 사용
    • Patch Embedding Layer
      • Log-Mel은 3-channel 이미지와 다르게 1-channel 이므로 첫번째 Layer의 Weight의 평균 값을 사용
      • Input Normalize (0, 0.5) 사용
    • Positional Embedding
      • ImageNet 학습시 사용된 Token 개수가 달라짐. 이를 해결하기 위해 ViT에서 Downstream시 사용했던 Bi-linear interpolation 동일하게 사용
Parameter
  - Input size: 1000 x 128
  - Patch Size: 16 x 16
  - Stride Size: 10 (Overlaped Patch)
  - Embedding Size: 768, Layer: 12, Head: 12 (ViT-Base)
  • 결론
    • 수정된 ViT 모델을 통해서 기존 CNN+Attention 모델 PSLA를 제치고 SOTA 달성

profile
Audio & Speech AI Researcher 입니다! Speaker Diarization & Speaker Verification 연구 경험을 가지고 있고, 전반적인 Speech Representation 에 대해서 관심을 가지고 있습니다!

2개의 댓글

comment-user-thumbnail
2023년 3월 10일

audio spectrogram transformer가 low resource에도 사용이 가능한가요?
예를들면, voice disorder classification 같은 문제입니다.

1개의 답글