화자 인식voice agent wake음성을 input으로 받아 디바이스 제어명령을 실행한 결과 음성 합성을 통해 출력TaskSoundSpeech ClassificationAuto-taggingSpeechSpeech-to-Text(음성 인식; STT) = ASR(Aut
오디오 신호에서 발생하는 이벤트 종류를 찾는 문제아기의 웃음 소리나 기타 소리가 동시에 있는 소리는 즉시 인식전기 톱 소리와 믹서기 소리는 유사해 인식하기 어려움여러 이벤트를 tagging하는 multi-label classificationIR(Information R