소리는 파동이다. - 진동방향과 진행방향이 서로 직각인 횡파이미지는 R,G,B의 세가지 요소로 이루어져 있다면소리는 크기 , 높낮이 , 음색의 3요소로 이루어져 있다.Image 출처크기단위는 DB(데시벨) , 폰(phon) , 손(sone)파동의 진폭의 크기에 따라
2023년 6월 인용수 302회기존의 audio를 represent하는 모델은 CNN+ Attention 메커니즘이었다.해당 논문에선 CNN을 쓰지 않고 오로지 Attention만 사용한 최초의 Audio Transformer를 제시한다.CNN을 사용하지 않는 장점성
2023년 6월 인용수 9회CAV-MAE효과적인 self-supervised 두 기법 contrastive multi modal + Masking data를 결합한 모델을 제시두 방법이 서로 보완함대조와 재구성재구성의 단점은 데이터가 부족함둘다 대상에 대해 repres