[Speech] Acoustic Phonetics

누렁이·2024년 1월 17일

Speech (ASR/TTS)

목록 보기

2/15

Reference: [재작성] https://ratsgo.github.io/speechbook/docs/phonetics/acoustic

웨이브(wave, 파동): 반복적으로 진동(oscillate)하는 신호(singal)
- According to 푸리에 정리(Fourier Theorem), 아무리 복잡해보이는 웨이브도 삼각함수인 사인(sine)이나 코사인(cosine)의 합으로 나타낼 수 있음
알아둬야할 용어!
- x축: 시간 (second)
- y축: 음압 (sound pressure)
  - 음압: 공기 입자가 인접 공기 입자를 진동으로 미는 힘
    
    사람 말소리가 음성 마이크에 달린 진동판을 울리게 하는 방식으로 녹음하게 된다고 하는데요. 이 진동판의 떨림이 전기 신호를 얼마나 강하게 혹은 약하게 하는지 정도가 y 축을 구성한다 보면 될 것 같습니다.
- 진폭(amplitude): 웨이브 최대값(초록)
- 사이클(cycle): 패턴 반복 (파랑, 사이클 1회)
- 주기(period 혹은 wavelength): 한 사이클 도는 데 걸리는 시간(빨강)
- 주파수(frequency): 1초에 몇 번 주기 반복되는지(cycles per second)
- cycles per second = 헤르츠(hertz, Hz)
- $T=\frac { 1 }{ f }$ (주기 T, 주파수 f)

모음 iy 발음할 때의 wave viz

continuous -> digital 변환

sampling rate:
일정한 시간 간격마다 음성 신호를 샘플해서 연속 신호(continous signal)을 이산 신호(discrete signal)로 변환.이때 1초에 몇 번 샘플하는지 나타내는 지표
- 1초에 4만4100번 샘플한다면
  - sampling rate fs = 44100, or 44.1KHz
  - 1초에 44100개 실수(real number)로 구성
샘플링된 신호 복원:
- 나이퀴스트 정리(Nyquist Theorem): 원래 신호가 가진 최대 주파수의 2배 이상으로 샘플링하면 원래 신호를 충분히 재생 가능
  
  보통 인간의 가청 주파수 영역대는 20~20000Hz로 알려져 있는데요. 40000Hz 이상의 sample rate로 샘플링을 실시하면 사람이 들을 수 있는 거의 모든 소리를 복원할 수 있다는 것
- 나이퀴스트 주파수: 목표 음성 신호의 최대 주파수(20000Hz)
Anti-Aliasing:
- alias frequency (or ghost frequency): 원래는 나이퀴스트 주파수보다 높았던 고주파 성분이 샘플링 때문에 저주파로 왜곡된 경우
- Anti-aliasing filter: 나이퀴스트 주파수보다 낮은 주파수 영역대만 통과시키는 bandpass filter를 써서 나이퀴스트 주파수보다 높은 주파수 영역대를 샘플링 하기 전에 미리 없애놓는 것

quantization: 실수 범위의 이산 신호를 정수(integer) 이산 신호로 변환
- 8비트 양자화: 실수 범위 이산 신호 -128~127의 정수로
- 16비트 양자화: 실수 범위 이산 신호 -32768~32767 정수
- 양자화 비트 수(Quantization Bit Depth)가 커질 수록 원래 음성 신호의 정보 손실을 줄일 수 있지만 그만큼 저장 공간이 늘어나는 단점
comapnding (압신):
- 양자화 noise 줄이기 위해 사용
- 정보 압축과 해제와 관련해 특정 룰 약속
- 어떻게 companding하냐에 따라서 자연스러운 음성 신호 뽑을 수 있는 것이군

정보 소스를 디지털 형식으로 변환, 압축, 저장하는 일련의 과정
지금까지 처리한 입력 신호를 전송 혹은 처리가 가능한 형태의 파일로 변환
- wav (압축하지 않은 오디오 포맷),
- flac (무손실 압축)
- mp3 (손실 압축)

말소리의 높낮이
멜 스케일(mel scale):
- 사람이 인식할 수 있는 피치 단계로 주파수 영역대 구분
- 사람이 분간을 잘하는 1000Hz 이하 저주파 영역대는 멜 스케일이 거의 선형에 가깝도록 세밀하게, 분간을 덜 잘하는 고주파 영역대는 멜 스케일이 듬성듬성하게 변화 (뒤에 mfcc에서도 나오는데!)

opensmile
https://audeering.github.io/opensmile-python/api/opensmile.Smile.html

모음(vowel)이 자음(consonant)보다 진폭이 크고 패턴 규칙적
- “She just had a baby”
Formant: 펙트럼에서 음향 에너지가 몰려있는 각각의 봉우리
- 사람의 말소리 인식에 중요한 포만트 정보를 얼마나 잘 처리하느냐가 음성 인식 모델의 성능을 좌우
- 각 봉우리를 F1, F2헉헉 open smile에서 나온 feature 잖아!