딥러닝 팀스터디 3주차

윤태호·2023년 9월 27일
0

각 Features의 의미들

스펙트럼 특징

chroma_stft_mean 및 chroma_stft_var

  • Chroma STFT 또는 chromagram은 오디오 신호의 주파수 내용을 음계 클래스로 변환하는 프로세스를 나타낸다
    이것은 음악에서 음계 정보에 중점을 두고 오디오 신호를 표현한다
    Chroma STFT는 음악적 음계의 에너지 분포를 계산하며, 주파수 대신 음계 클래스로 표현된다
    일반적으로 12개의 음계 클래스 (C, C#, D, D#, E, F, F#, G, G#, A, A#, B)를 사용한다
    <chroma 특징의 평균과 분산이 계산된다>
    Chroma STFT 특징의 평균은 오디오 데이터 전체에서 음계 분포의 평균값을 나타낸다
    이것은 전체 오디오에서 음계의 평균적인 에너지 분포를 나타내며, 음악적 특성에 대한 정보를 제공한다
    Chroma STFT 특징의 분산은 에너지 분포의 변동성을 나타내며, 음악적 음계의 에너지가 어떻게 다를 수 있는지를 나타낸다

spectral_centroid_mean 및 spectral_centroid_var

  • Spectral Centroid는 스펙트럼의 중심 위치를 나타낸다
    주파수 스펙트럼을 고려할 때, 스펙트럼 센트로이드는 주파수 성분의 가중평균 중심으로 생각할 수 있다
    스펙트럼 센트로이드가 높을수록 주파수 성분이 높은 주파수 영역에 집중되어 있으며, 낮을수록 주파수 성분이 낮은 주파수 영역에 집중되어 있다
    <스펙트럼 중심의 평균과 분산이 계산된다>
    스펙트럼 센트로이드의 평균은 오디오 데이터 전체에서 스펙트럼 센트로이드의 평균 위치를 나타낸다
    즉, 전체 오디오의 스펙트럼 밝기의 중심을 나타내며, 소리의 밝기를 측정하는 데 사용될 수 있다
    스펙트럼 센트로이드의 분산은 중심 위치의 변동성을 나타내며, 소리의 밝기가 어떻게 다를 수 있는지를 나타낸다

spectral_bandwidth_mean 및 spectral_bandwidth_var

  • 스펙트럼 대역폭(spectral_bandwidth)은 주파수 스펙트럼에서 주파수 성분의 분포를 나타낸다
    이것은 주파수 영역의 넓이를 나타내며, 스펙트럼에서 주파수 성분이 어떻게 퍼져 있는지를 측정한다
    스펙트럼 대역폭이 높을수록 주파수 성분이 넓게 분포되어 있고, 낮을수록 주파수 성분이 좁게 집중되어 있다
    <스펙트럼 대역폭의 평균과 분산이 계산된다>
    스펙트럼 대역폭의 평균은 오디오 데이터 전체에서 스펙트럼 대역폭의 평균값을 나타낸다
    이것은 전체 오디오의 스펙트럼 콘텐츠의 평균적인 분포를 나타내며, 음색 특성에 대한 정보를 제공한다
    스펙트럼 대역폭의 분산은 분포의 변동성을 나타내며, 음색 특성이 어떻게 다를 수 있는지를 나타낸다

rolloff_mean 및 rolloff_var

  • Spectral Rolloff는 주어진 스펙트럼에서 어떤 백분율 아래에 있는 주파수를 나타낸다
    일반적으로 85% 또는 95%의 스펙트럼 에너지가 이 주파수 이하에 집중되는지를 측정하는 데 사용된다
    이것은 스펙트럼의 밝기나 에너지 분포를 나타내는 중요한 특징 중 하나이다
    <스펙트럼 롤오프의 평균과 분산이 계산된다>
    스펙트럼 롤오프의 평균은 오디오 데이터 전체에서 주파수 롤오프의 평균 위치를 나타낸다
    즉, 전체 오디오에서 스펙트럼의 밝기나 에너지 분포의 중심을 나타내며, 소리의 밝기를 측정하는 데 사용될 수 있다
    스펙트럼 롤오프의 분산은 주파수 롤오프의 변동성을 나타내며, 오디오 데이터의 스펙트럼 밝기가 어떻게 다를 수 있는지를 나타낸다

소리의 특성 및 에너지

rms_mean 및 rms_var

  • Root Mean Square (RMS)은 오디오 신호의 크기를 나타내며 소리의 진폭을 표시한다
    <RMS 값의 평균과 분산이 계산된다>
    RMS 값의 평균은 오디오 데이터 전체에서 진폭의 평균 크기를 나타낸다
    이것은 오디오 신호의 전체적인 음량을 측정하는 데 사용될 수 있다
    RMS 값의 분산은 진폭의 변동성을 나타내며, 오디오 데이터의 음량이 얼마나 다를 수 있는지를 나타낸다
    분산이 낮으면 음량이 일정하게 유지되는 것을 의미하며, 분산이 높으면 음량이 크게 변하는 것을 나타낸다

zero_crossing_rate_mean 및 zero_crossing_rate_var

  • Zero Crossing Rate는 오디오 신호가 부호를 바꾸는 속도를 나타낸다
    이것은 오디오 파형에서 양(+)과 음(-)을 크로스하는 지점의 수를 측정한다
    예를 들어, 소리 파형이 양극성과 음극성을 번갈아가며 크로스하는 경우, Zero Crossing Rate가 높아진다
    <제로 크로싱 비율의 평균과 분산이 계산된다>
    높은 평균 값은 오디오 신호가 자주 부호를 바꾼다는 것을 의미하며, 이는 더 많은 변화나 고주파수 구성 요소가 있는 소리를 나타낸다
    소리의 소음 정도와 관련이 있다
    zero_crossing_rate은 오디오의 소음이 있는 정도 또는 소음이 없는 정도에 대한 정보를 제공한다

음악적 특징 및 템포

harmony_mean 및 harmony_var

  • Harmonic-to-percussive ratio (HPR)는 오디오 내의 고음과 타악기 구성 요소 사이의 균형을 측정한다
    HPR은 보통 오디오 신호 내에서 고음 성분이 얼마나 강한지를 나타내며, 이것은 음악의 음색을 결정하는 데 중요한 역할을 한다
    높은 HPR 값은 고음(하모닉) 성분이 더 강하게 드러나는 것을 의미하며, 이것은 음성이나 악기의 멜로디를 나타낼 수 있다
    낮은 HPR 값은 타악기(퍼커시브) 성분이 강조되는 것을 의미하며, 이것은 리듬 및 퍼커시브 요소를 나타낼 수 있다
    <HPR의 평균과 분산이 계산된다>
    HPR의 평균은 오디오 신호 내에서 고음과 타악기 성분의 평균 균형을 나타냅니다. 즉, 전체 오디오에서 고음과 타악기가 어떻게 분포되어 있는지를 나타내며, 이것은 음악의 음색에 대한 정보를 제공합니다. HPR의 분산은 균형의 변동성을 나타냅니다. 즉, 오디오의 다양한 부분에서 고음과 타악기의 균형이 얼마나 다를 수 있는지를 나타냅니다

perceptr_mean 및 perceptr_var

  • 주파수 영역을 측정하는 방법 중 하나로, Bark 스케일에서 대역폭을 측정합니다
    Bark 스케일은 인간의 청각 시스템에 더욱 부합하도록 설계된 스케일로, 인간의 청각 지각을 모방합니다
    인지 대역폭은 오디오 신호에서 어떤 주파수 대역이 중요하게 느껴지는지를 나타내며, 이것은 음성 또는 음악의 "음색" 또는 "톤"과 관련있다
    <인지 대역폭의 평균과 분산이 계산된다>
    평균값은 오디오의 "음색" 또는 주요 주파수 대역을 추정하는 데 사용될 수 있다
    분산이 낮으면 인지 대역폭이 일정하게 유지되는 것을 의미하며, 이는 오디오의 음색이 일관되거나 안정적이라는 것을 나타낼 수 있다
    반면, 분산이 높으면 인지 대역폭이 크게 변동하며, 오디오의 음색이 다양하게 변화하는 것을 나타낼 수 있다

tempo

  • Tempo는 오디오 신호의 예상된 템포 (분당 비트 수)를 나타낸다

MFCC (Mel-Frequency Cepstral Coefficients)

mfcc1_mean에서 mfcc20_var까지

  • Mel-Frequency Cepstral Coefficients (MFCCs)는 오디오 신호의 짧은 시간 파워 스펙트럼을 나타내는 계수 집합이다
    오디오 신호의 시간-주파수 도메인에서 추출된 특징 벡터이며 이 특징 벡터는 음성 및 오디오 처리 분야에서 널리 사용된다
    오디오 신호의 특성을 파악하고 음성 및 음악 관련 작업에 활용된다
    <20개의 MFCC가 있으며 각각에 대해 평균과 분산이 계산된다>

MFCC 과정

  • MFCCs를 계산하기 위한 첫 번째 단계는 오디오 신호를 작은 시간 프레임(일반적으로 20-30 밀리초)으로 나눈다
    이렇게 나눈 각 프레임에 대해 파워 스펙트럼을 계산한다
    파워 스펙트럼은 주파수 영역에서 각 주파수 성분의 에너지를 나타내는 함수이다
  • 이어서 주파수 스펙트럼은 Mel 스케일로 변환된다
    Mel 스케일은 인간의 청각 시스템에 더 적합한 주파수 척도로 변환하는 역할을 한다
    이것은 음성 신호의 특징을 더 효과적으로 표현할 수 있도록 도와준다
  • 변환된 Mel 스케일 주파수 스펙트럼은 로그 스케일로 변환된다
    이는 주파수 성분의 크기를 로그 스케일로 표현하여 작은 값의 변화도 중요하게 고려할 수 있도록 도와준다
  • 마지막으로, 로그 스케일된 Mel 스펙트럼은 Discrete Cosine Transform (DCT)를 통해 주파수 도메인에서 시간 도메인으로 변환된다
    이 변환은 주파수 성분 간의 상관 관계를 고려하고 가장 중요한 주파수 성분을 추출한다
  • DCT를 거친 결과로 얻은 벡터가 MFCCs입니다. 이 벡터는 주로 13개의 값으로 구성되지만 때로는 20개의 값까지 사용된다
    이 값들은 각각 주파수 성분에 대한 음성 신호의 특성을 나타낸다

레이블

label

  • <label은 오디오 파일의 레이블 또는 클래스를 나타낸다>
    이것은 데이터 세트 내에서 오디오를 다른 클래스 또는 장르로 분류하는 데 사용된다
profile
데이터 부트캠프 참여중

0개의 댓글