취미로 만드는 팬AI가수_2

베오·2023년 2월 19일
0

Singing Voice Conversion 분야에서는 다양한 딥러닝 알고리즘이 활용됩니다. 이번에는 대표적인 알고리즘들에 대해 종류와 예를 들어 설명해보겠습니다.

  1. GAN (Generative Adversarial Networks)

    · GAN은 생성자와 판별자라는 두 개의 인공신경망을 이용하여 데이터를 생성하는 생성 모델 중 하나입니다.
    · 생성자는 입력 데이터로부터 새로운 목소리를 생성하고, 판별자는 생성된 목소리와 실제 목소리를 구별하여 이를 평가합니다.
    · 이 과정에서 생성자는 판별자의 평가를 통해 생성한 목소리의 질을 개선하며, 판별자는 생성된 목소리와 실제 목소리를 구분하는 능력을 향상시킵니다.
    · 예를 들어, 입력 음성을 생성자에 넣어 새로운 목소리를 생성하고, 이를 판별자가 평가하여 질을 개선합니다.

  2. VAE (Variational Autoencoder)

    · VAE는 생성자와 인코더, 디코더라는 세 개의 인공신경망을 이용하여 데이터를 생성하는 생성 모델 중 하나입니다.
    · 인코더는 입력 데이터를 저차원의 잠재 공간으로 매핑하고, 디코더는 잠재 공간의 벡터를 새로운 목소리로 디코딩합니다.
    · 이 과정에서 VAE는 잠재 공간에서 샘플링한 벡터를 디코더에 입력하여 새로운 목소리를 생성합니다.
    · 예를 들어, 입력 음성을 인코더에 넣어 잠재 공간으로 매핑하고, 이를 디코더에 입력하여 새로운 목소리를 생성합니다.

  3. Diffusion

    · Diffusion은 데이터 분포를 모델링하는 생성 모델 중 하나입니다.
    이 알고리즘은 시간에 따라 불규칙적으로 변하는 잡음을 적용하여 입력 데이터를 다양한 목소리로 변환합니다.
    · 이 과정에서 Diffusion은 노이즈를 입력으로 받아, 이를 스무딩(smoothing)하는 과정을 통해 새로운 목소리를 생성합니다.
    · 예를 들어, 입력 음성에 잡음을 적용하여 이를 스무딩하는 방법으로 새로운 목소리를 생성합니다.

    이러한 딥러닝 알고리즘들은 입력 음성과 출력 음성 간의 매핑을 학습하고, 새로운 목소리를 생성하는 데 활용됩니다.

    이 외에 다른 모델도 있으며, 우리는 Diffusion 모델을 활용해보겠습니다.

profile
꿈을 현실로

0개의 댓글