Hidden-Unit BERT (HuBERT)
방법을 제안함.웃음, 기침, 입 끝말이기, 배경 소음
등과 같은 구조적인 잡음을 모델링해야 함.배경
- 전통적인 음향 모델은 텍스트와 음성 쌍에 대해 학습되며 강제 정렬을 통해 각 프레임에 대한 의사-음성 레이블을 제공합니다. 반면, 자기 지도 학습 설정은 음성 데이터만을 사용합니다
Hidden Units
- 간단한 이산 잠재 변수 모델들 ex) k-means
와 가우시안 혼합 모델 (GMMs)
은 기본 음향 유닛과 무시할 수 없는 상관 관계를 보이는 Hidden Units를 추론함.
다음 다섯 가지 파티션 사용
다른 연구와의 비교를 확인해보면,
960시간 Librispeech 데이터에서의 HuBERT 모델 미세 조정 결과
목적
특징 고려
k-평균 클러스터링 상세
결과
- 저자가 뭘 해내고 싶어 했는가?
- 이 연구의 접근 방식에서 중요한 요소는 무엇인가?
- 어느 프로젝트에 적용할 수 있는가?
- 참고하고 싶은 다른 레퍼런스에는 어떤 것이 있는가?
- 느낀점은?
- corpur는 무엇을 썼는지?
- 특화 도메인은?
- 임베딩 방식은?
논문