- 제24회 충북컴퓨터꿈나무축제 고등학교 공모전(SW제작) 대상 수상작
- 이 서비스는 Diff-SVC 프로젝트를 기반으로 제작되었습니다.
- 직접 자신의 목소리를 학습시켜 인공지능 모델을 제작하고, 그 모델로 TTS 기능을 이용할 수 있도록 하는 서비스입니다.
- Streamlit 패키지로 사용자 친화적 인터페이스를 구현하여 누구나 쉽게 모델 제작 및 음성 생성을 할 수 있는 환경을 제공합니다.
최소사양 | 권장사양 | |
---|---|---|
RAM | 8GB | 16GB |
GPU | GeForce GTX 1050 Ti | GeForce RTX 2070 |
VRAM | 4GB | 8GB |
- https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-essentials.7z
- 압축 해제 후 bin 폴더를 환경 변수에 추가
sudo apt update
sudo apt install ffmpeg
sudo apt install git
git clone https://github.com/k-yumin/echo.git
- Hubert 체크포인트 다운로드
- 압축 해제 후 checkpoints 폴더를 diff-svc 폴더 안으로 이동
- NSF-HiFiGAN 체크포인트 다운로드
- 압축 해제 후 nsf_hifigan 폴더를 checkpoints 폴더 안으로 이동
setup.py
실행
run.bat
실행
./run.sh
Traceback (most recent call last):
(...)
File "(...)/torch/functional.py", line 641, in stft
return _VF.stft(input, n_fft, hop_length, win_length, window, # type: ignore[attr-defined]
RuntimeError: stft requires the return_complex parameter be given for real inputs, and will further require that return_complex=True in a future PyTorch release.
- 모델 학습 중 다음과 같은 런타임 에러가 발생했을 경우, 프롬포트에 출력된 경로 (...)/torch/functional.py 파일의 641번째 줄에 다음 코드를 추가한다.
if not return_complex:
return torch.view_as_real(_VF.stft(input, n_fft, hop_length, win_length, window, # type: ignore[attr-defined]
normalized, onesided, return_complex=True))