Chapter 2-5: 멘토링

박해극·2024년 4월 20일

audio classification transformer 아기 울음소리 분류

멘토님의 처방전

YAMNet 이후 우리 팀은 뭔가 Turning Point가 필요했다. 뭔가 더 이상 진전할 수 있는 방법을 생각하기 어려운 나머지 멘토링을 받기로 했다.

멘토님을 간단히 소개하면 모두의 연구소에서 Rubato Lab 랩 장을 맡고 계시다. 루바토 랩은 생성형 AI를 통해 음원제작에 연구하는 팀이라고 보면 될 것 같다.

Rubato Lab

Rubato LAB

우선 오디오 분야에 전문가이시기 때문에 왠지 멘토링 이후 막혔던 부분이 뻥~ 뚫릴 것 같은 느낌이 들었다.

여기 처방전이요~

아니다 다를까 멘토링은 나름 만족스러웠다. 우선 우리가 해온 과정에 대해 잘못된 점을 짚어주셨다. 특히, input type에 대해서 말이다.

우리는 줄곳 MFCC를 써왔지만 멘토님께서 MFCC 는 음색을 나타내는 Feature가 아니기 때문에 Mel Spectrogram의 Input으로 바꿔보라고 제안하셨다.

그리고 더 나아가 YAMnet은 SOTA 모델이 아니기 때문에 그래도 최신 모델인 Transformer 기반의 Encoder를 써서 classification task에 적용해 보라고 알려주셨다.

추천해 주신 모델은 다음과 같다.

CLAP: https://huggingface.co/docs/transformers/model_doc/clap
AST(Audio Spectrogram Transformer): https://huggingface.co/docs/transformers/model_doc/audio-spectrogram-transformer

솔직히 Transformer에 대해 이해가 잘 되어 있지는 않았지만 성능을 높여보기 위해 팀원들과 공부하고 적용하는 방향으로 결정을 하게 됐다.

마지막으로 멘토님께서 unlabeled data를 Autoencoder 에 Unsupervised 방식으로 학습시킨 후 Encoder를 떼와서 classification을 진행해 보는 방법도 제시해 주었다. 개인적으론 dataset 사이즈가 작은 상황을 고려하면 제시해 주신 Autoencoder 아이디어가 제일 흡족스러웠다.

👉👉 다음 챕터 읽으러 가기

박해극

안뇽하세요

이전 포스트

Chapter 2-4: 모델링 Pt.2

다음 포스트

Chapter 2-5: 멘토링

멘토님의 처방전

여기 처방전이요~

Chapter 2-4: 모델링 Pt.2

Chapter 3: 프로젝트 후반부

0개의 댓글