🎹 전문 작곡가들이 제작한 4,422개의 MIDI 샘플로 구성된 데이터셋.
📊 각 샘플은 음악 메타데이터와 CC#1(모듈레이션 휠 값) 정보를 포함.
🤖 토큰 기반 인코딩 방법론을 통해 딥러닝 모델에 적용 가능성 확인.
음악 샘플 별 "메타정보(악기, 트랙분류 ,분위기) + (음표, 셈여림을 의미하는 시계열 곡선(Fine Level))쌍"이 하나의 데이터를 이룬다고 생각하면 이해가 빠를 것!
-> 한 샘플에 담긴 음표와 셈여림(시계열)곡선 쌍을 표현한 것!
-> 이러한 기존 연구의 문제는
-> 우리 데이터셋 미드필드는
metadata에 따른 데이터 분포를 파악함
명료한 분석을 위해 추가적인 grouping
track role: 그대로
mood: Russel's 4Q model 로 매핑(19개-> 4개)
Russel's 4Q model: 여러 mood를 이차원 공간의 4 사분면에 표현.
valence : 긍정도 (양의 감정인지, 음의 감정인지)
arousal : 상승도 (상승하는 감정인지, 하강하는 감정인지)
instrument: Western Instrument Category(18개 -> 3개)
각 샘플의 CC#1값을 평균 내고, 메타데이터 그룹 별 CC#1값 평균의 분포를 violinplot으로 표현
"3개 항목의 각 메타데이터 그룹간 유의미한 분포 차이가 있다"는 가설을 검정함.
Welch's ANOVA and Games-Howell Test(post-hoc pairwise comparison)
MOOD
- 유의미한 차이 보임 (p < 0.01)
Instrument
- 더욱 유의미한 차이( p<0.0001)
Track Role
- 유의미한 차이 p<0.05
main melody VS accompaniment
) p > 0.1riff VS accompaniment
) p > 0.1bass VS pad
) p > 0.1Relatasionships among metadata
메타데이터 간 관계분석
3항목의 메타데이터 간 aggregated mean 을 체크(mean은 [0,1]로 normalize)
- 예를 들어, mood class Q1 과 string 으로 분류되는 영역의 평균은 0.6이다.
메타데이터가 음악 생성의 controllability에 영향을 줄수 있다는 걸 충분히 보여줌
Q2(약기와 상관없이) 와 brass 에서(mood 와 상관없이) 평균이 가장 큼
WoodWind 는 평균이 가장 작음(track role과 mood에 관계없이)
bass랑 pad는 다른 필드와 관계없이 낮음
accompaniment & Q4 는 제일 높고, accompaniment & Q3는 제일 낮다
-> Mood가 accompaniment보다 영향력이 크다는 것을 의미
각각의 메타데이터가 CC#1 value와 상호작용한다는 사실은 자명함
기타 경향성으로 controllability 입증
메타데이터를 하나씩 빼가면서 생성 성능이 어떻게 달라지는지 확인
-> 메타정보의 유의성 입증 및 Encoding 방법론 공개를 통한 딥러닝 모델 적용 가능성 확인.