음성 feature의 종류 및 측정 방법과 기준

0

음성처리

목록 보기
2/3
post-thumbnail

1. 포먼트 formant

  • praat의 formant 분석 방식은 burg, sl, LPC 총 3가지가 있으며 일반적으로 burg 방식을 따르는 것으로 보임.
  • burg의 처리 과정은 최대 포먼트 값의 두 배에 해당하는 표본추출속도로 변경한 뒤 고주파 대역 강조를 적용하고 가우시안창을 적용하여 LPC 계수를 Brug 방식으로 계산한다(양병곤 2008).
  • sl 방식은 지정한 주파수 범위에 강제로 일정한 개수의 포먼트를 찾아내도록 해주는 방식이다.
  • LPC 방식은 자기상관방식으로 처리한 뒤 선형예측계수를 지정한 시간마다 구하여 포만트 정점값을 차례대로 나타내주는데, 차수가 낮으면 '우, 오' 같은 포먼트 값이 가까운 경우 하나의 포먼트로 처리하는 오류가 생길 수 있다.
  • 현재 praat의 표준 방식은 burg 방식을 따른다.
  • 분석 방법: burg 방식으로 시간 간격(time step), 분석창의 길이(window length), 최대 포먼트 수(max number of formants), 고주파수 증폭 시작 주파수(pre-emphasis) 표준 값이 있으며, 포먼트 분석 최대 주파수(maximum formants Hz)는 여성의 경우 5,500Hz, 남성의 경우 5,000Hz 이내로 조정할 필요가 있다.
  • 분석 범위:
    • 포먼트의 경우 목표 음소 단위에서 측정
    • 측정하고자 하는 해당 음소의 모음 전체 구간을 10등분하여, 각 구간의 중간 지점 9곳의 값을 측정 - 다중 지점의 측정값을 평균으로 제시하는 것이 보다 정확할 수 있다(하영우, 오재혁 2017).
    • 포먼트의 안정 구간에서 중앙 지점의 포먼트 값을 자동으로 측정 - 안정 구간에 대한 기준이 연구자들마다 상이할 수 있다. 일반적으로 연구자가 육안으로 판단하는 경우인 것 같다.
    • 모음 발성 전체 구간의 값을 평균하여 측정 - 자음 뒤, 이중 모음 뒤 모음의 경우 음소간 포만트 전이 구간이 발생하여 정확하지 않는 방법
    • 사분위수 관측값 측정
    reference
    • 하영우 오재혁(2017), 아나운서의 단모음 실현 양상과 특징, 음성음운형태론연구 23(1), 한국음운론학회, 55-94
    • 양병곤(2008), 복합음과 대학생이 발음한 모음 포먼트 측정, 음성과학 15(3), 한국음성학회

2. jitter, shimmer, HNR

  • jitter(주파수 변동률): 진동의 주기가 얼마나 일정한지 보여주는 수치.

  • shimmer(진폭 변동률): 진동의 진폭이 얼마나 일정한지 보여주는 수치, 불규칙할수록 값이 커진다.

  • HNR(배음대소음비): 70~4,500Hz 사이에 존재하는 배음과 1,500~4,500Hz사이에 존재하는 비정상 배음 간의 비율 평균치, 값이 클수록 소음의 비율이 높다.

  • 측정대상: 해당 모음

  • 측정 범위:

    • 장모음 발성 구간의 시작, 중간, 끝 3군데에서 측정 (신유정 2017)
    • 모음의 안정 구간 2초 측정 (한지은, 성철재 2012)
    • 처음과 마지막 25ms 제외하구 안정된 3초 구간을 분석(김선우 외 2010, kent et al 2003)
  • 해당 feature는 장모음을 일정한 길이만큼 발화하여 그 값의 변화량을 비교하는 것이므로 길이 정보가 중요할 것으로 예상됩니다. 따라서 추출하려는 모음의 길이를 일정하게 맞추는 것이 중요한 것으로 보입니다. 그리고 측정값이 변화를 보일만큼의 길이가 있어야 되는 것으로 보아 1.5초 정도가 적당해 보입니다.(심상용 외 2010)

  • 대부분 언어 병리학, 딥러닝 관련 연구에서 음성 feature를 추출할 때 MDVP(가격이 비싸고, 병원이나 연구소에서 주로 사용됨)라는 프로그램을 사용하여 자동으로 추출했다고만 나오고 어떤 기준으로 추출했는지는 나와있지 않다.

    reference
    • 신유정(2017), 모음연장 음성 샘플의 분석구간에 따른 음향학적 파라미터 비교,한국산학기술학회논문지 18-7, 한국산학기술학회.
    • 한지은,성철재(2018), 성대접촉이완훈련이 성대결절아동의 음성개선에 미치는 효과, 말소리와 음성과학 4-4, 한국음성학회.
    • 심상용 외(2014), 성대결절 음성 중증도에 따른 MDVP와 Praat 프로그램 별 파라미터 차이, 말소리와 음성과학 6-2, 한국음성학회.
    • 김선우 외(2010), 노령화에 따른 건강한 정상 성인의 음향음성학적 특성 비교, 말소리와 음성과학 2-4, 한국음성학회.
    • Kent et al.(2003). Voice dysfunction in dysarthria: application of the Multi-Dimensional Voice Program™. Journal of Communication Disorders, 36(4), 281–306
profile
나 응애👶 개발자, 딥린이👨‍💻, 언어 연구자 👨‍🎓

0개의 댓글