profile
Trendy AI Developer
post-thumbnail

CAV-MAE : Contrastive Audio-Visual Masked AutoEncoder (2022.08)

2023년 6월 인용수 9회CAV-MAE효과적인 self-supervised 두 기법 contrastive multi modal + Masking data를 결합한 모델을 제시두 방법이 서로 보완함대조와 재구성재구성의 단점은 데이터가 부족함둘다 대상에 대해 repres

2023년 6월 17일
·
0개의 댓글
·
post-thumbnail

AST : Audio Spectrogram Transformer (2021)

2023년 6월 인용수 302회기존의 audio를 represent하는 모델은 CNN+ Attention 메커니즘이었다.해당 논문에선 CNN을 쓰지 않고 오로지 Attention만 사용한 최초의 Audio Transformer를 제시한다.CNN을 사용하지 않는 장점성

2023년 6월 16일
·
0개의 댓글
·
post-thumbnail

Audio data 특성

소리는 파동이다. - 진동방향과 진행방향이 서로 직각인 횡파이미지는 R,G,B의 세가지 요소로 이루어져 있다면소리는 크기 , 높낮이 , 음색의 3요소로 이루어져 있다.Image 출처크기단위는 DB(데시벨) , 폰(phon) , 손(sone)파동의 진폭의 크기에 따라

2023년 6월 16일
·
0개의 댓글
·