# DIFF-SVC

10개의 포스트
post-thumbnail

AI로 목소리를 학습하여 노래를 부르게 하자! #6

발단 플라스크로 웹 페이지를 만들고, 그 전에 만들었던 (유튜브 url -> 음성 추출 -> 음성 설정 -> 목소리 추출) 코드를 플라스크에 이식했다. 그리고 테스트를 위해 실행하는데 오류가 발생했다. 전개 오류 코드를 확인했을 때, click, typer 에서 문제가 발생했다. 플라스크에서 요구하는 click 버전(8.0 이상)이 맞지 않아서 생긴 문제였고, 그래서 click 패키지를 업그레이드 했다. 하지만, click을 업그레이드 하니, typer의 버전이 맞지 않았고, 그래서 typer를 업그레이드 했다. 그러나, typer를 업그레이드 하니, 목소리 추출 패키지인 spleeter와의 버전이 충돌이 일어났다. 지금 생각해 보면 차라리 Flas

2023년 7월 25일
·
0개의 댓글
·

AI로 목소리를 학습하여 노래를 부르게 하자! #5

새로운 목소리 결과 준비해둔 목소리로 똑같은 방법으로 학습을 진행했다. 이번에는 강승윤 - 본능적으로를 불러보게 하였다. <div style="font-size: 10px; color: #cccccc;line-break: anywhere;word-break: normal;overflow: hidden;white-s

2023년 7월 25일
·
0개의 댓글
·

AI로 목소리를 학습하여 노래를 부르게 하자! #4

데이터 준비 저 모델을 사용하기 전에 먼저 학습시킬 데이터들을 준비해야 한다. 나는 이쪽에서 참고를 했는데 이 게시글의 말에 따르면 학습시킬 모델들은 반주와 화음이 없는 노래음성, 잡음과 배경음이 없는 말하기 음성이 있어야 한다고 한다. 그리고 음성 데이터 파일의 크기는 3 ~ 15초 사이면 된다고 한다. 한 마디로 딱 목소리만 있으면 된다. 학습시킬 때는 반주와 배경음은 필요가 없다. 따로 목소리 추출이 귀찮다면 이쪽으로 가보자. 유튜브 영상에서 음원 추출 유튜브에서 노래 데이터, 인터뷰 데이터들을 다운로드해서 거기서 목소리를 추출해볼 생각이다. 유튜브에서 영상을 다운로드 하는 방법은 여러가지가 있지만, 많은 영상을 다운로드 해야 하기 때문에, 파이썬 코드로 구현해 보았다. 유튜브 다운로드 패

2023년 7월 25일
·
0개의 댓글
·
post-thumbnail

AI로 목소리를 학습하여 노래를 부르게 하자! #3

목소리 변환하기 이제 가지고 있는 목소리로 변환해 보자 modelpath와 configpath에 파일을 넣어주고 실행하면 모델을 불러올 수 있다. 그 다음도 그대로 진행하면 목소리가 변환된 파일이 반환된다. 결과 확인 <iframe width="100%" height="300" scrolling="no" frameborder="no" allow="autoplay" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/15

2023년 7월 25일
·
0개의 댓글
·
post-thumbnail

diff-svc 음성파일 (전처리)만드는 법

아래는 PyDub 라이브러리를 사용하여 음성 파일을 자동으로 분리하고 무음을 제거하는 Python 코드입니다. diff-svc 음성파일을 더 쉽게 만들기 위해 제작하였습니다. PyDub을 사용한 음성 파일 분리 및 무음 제거 개요 이번 포스트에서는 Python 라이브러리인 PyDub을 사용하여 음성 파일을 전처리하는 방법을 알아보겠습니다. PyDub은 오디오 파일의 다양한 처리 작업을 수행할 수 있는 라이브러리로, 간단한 API와 함께 사용하기 쉽습니다. 이번 포스트에서는 PyDub을 사용하여 음성 파일을 무음 구간을 기준으로 분리하고, 분리된 오디오 조각들을 최대 15초까지만 선택하여 WAV 파일로 저장하고, 마지막으로 무음을 제거하는 작업을 수행하는 코드를 살펴보겠습니다. 들어가기

2023년 4월 21일
·
0개의 댓글
·
post-thumbnail

AI로 목소리를 학습하여 노래를 부르게 하자! #2

모델 다운받기 먼저 이 모델을 사용하기에 앞서, 이 모델 제작자가 이미 코렙으로 만들어 놓았다. 모델.ipynb에 들어가보면 제작자가 만들어놓은 코랩 노트북이 있다. 처음을 보면 모델을 다운로드하게 되어있다. 신기하게 마크다운으로 GUI를 구현했다. 여기서 우리가 건드릴 것은 없다. 다만 이 모델은 항상 44.1khz sr과 모노형식의 wav 파일의 음성 데이터만 받으니 주의하자. 이제 실행 버튼을 누르면 폴더에 diff-svc라는 폴더가 생긴다. 모델 설정하기 ![](https://velog.velcdn.co

2023년 4월 6일
·
5개의 댓글
·
post-thumbnail

AI로 목소리를 학습하여 노래를 부르게 하자! #1

추진 이유 유튜브를 보다가 어떤 영상을 보게 되었다. !youtube[NxQSxM0OkkY] 이미 돌아가신 故김광석님의 목소리로 김범수의 '보고싶다'를 부르는 장면이다. 이걸 보면서 생각했다. > 그럼, 목소리를 학습시키면 내가 원하는 가수의 목소리로 원하는 곡을 리메이크를 할 수 있겠네? 그리고 이런 기사도 발견했다. 오잉? 여기서부터 개발이 시작된다. 개발 일정 이 프로젝트는 2주간 진행되었다. 음성 합성하기? 음성 합성에 대해서는 여러가지 자료들을 찾아볼 수 있다. 가장 유명한건 보코더(vocoder)와 [타코트론(tarcotron)](https://chldkat

2023년 4월 6일
·
0개의 댓글
·

취미로 만드는 팬AI가수_3(실제 해보기)

https://colab.research.google.com/drive/1kiUvz1TrNJa_MOfOld7DHanv4gZsl7MN 구글 코렙에서 해당 노트북을 사용하려면 다음 단계를 따르면 됩니다: 먼저 노트북을 엽니다. 상단 메뉴에서 "런타임"을 클릭하고 "런타임 유형 변경"을 선택합니다. "하드웨어 가속기"를 "GPU"로 변경합니다. "저장" 버튼을 클릭합니다. 다시 상단 메뉴에서 "런타임"을 클릭하고 "모두 실행"을 선택합니다. 노트북이 실행되면, 코드 셀들을 순서대로 실행하면 됩니다. 코드 셀의 실행 버튼은 셀 왼쪽에 위치하며, 플레이 버튼과 같은 모양입니다. 노트북에는 각 코드 셀마다 주석이 달려 있어서 어떤 작업을 수행하는지 이해하기 쉽습니다. 노트북을 처음 사용해 보는 경우, 코드 셀을 하나씩 실행하면서 결과를 확인하고, 코드의 동작 방식을 이해하는 것이 좋습니다. 자세한 내용은 다음에...

2023년 2월 21일
·
0개의 댓글
·

취미로 만드는 팬AI가수_2

Singing Voice Conversion 분야에서는 다양한 딥러닝 알고리즘이 활용됩니다. 이번에는 대표적인 알고리즘들에 대해 종류와 예를 들어 설명해보겠습니다. GAN (Generative Adversarial Networks) · GAN은 생성자와 판별자라는 두 개의 인공신경망을 이용하여 데이터를 생성하는 생성 모델 중 하나입니다. · 생성자는 입력 데이터로부터 새로운 목소리를 생성하고, 판별자는 생성된 목소리와 실제 목소리를 구별하여 이를 평가합니다. · 이 과정에서 생성자는 판별자의 평가를 통해 생성한 목소리의 질을 개선하며, 판별자는 생성된 목소리와 실제 목소리를 구분하는 능력을 향상시킵니다. · 예를 들어, 입력 음성을 생성자에 넣어 새로운 목소리를 생성하고, 이를 판별자가 평가하여 질을 개선합니다. VAE (Variational Autoencoder) · VAE는 생성자와 인코더, 디코더라는 세 개의 인공신경망을 이용하여 데이터를 생성하는

2023년 2월 19일
·
0개의 댓글
·

취미로 만드는 팬AI가수_1

Singing Voice Conversion은 음악 분야에서 사용되는 기술 중 하나로, 한 사람의 노래하는 목소리를 다른 사람의 목소리로 변환하는 것을 말합니다. 이 기술은 주로 음악 제작자들이 다양한 목소리를 생성하고 조합할 수 있는 유용한 도구로 활용됩니다. 여러 가지 Singing Voice Conversion 기술이 있지만, 그 중 일부는 다음과 같습니다. Spectral Conversion · Spectral Conversion은 입력 음성의 주파수 스펙트럼을 변환하여 원하는 목소리로 출력하는 기술입니다. · 예를 들어, 입력 음성을 소프라노 목소리에서 베이스 목소리로 변환할 수 있습니다. Statistical Model-based Conversion · Statistical Model-based Conversion은 주어진 입력 음성의 특징을 분석하여 모델링한 다음, 해당 모델을 이용해 원하는 목소리로 변환하는 기술입니다. · 이 방법은 입력

2023년 2월 19일
·
0개의 댓글
·