Este proyecto presenta una aplicación en Python diseñada para clonar voces utilizando la potencia de PyTorch. Con soporte para los idiomas inglés y español, la aplicación emplea una variedad de modelos para codificar, sintetizar y vocodear el audio.
- Clonación de Voces: La aplicación permite al usuario clonar voces utilizando técnicas avanzadas de procesamiento de señales de audio.
- Entrada de Texto y Audio: Los usuarios pueden ingresar un texto junto con un fragmento de audio de aproximadamente 5 segundos, y la aplicación generará un audio clonado con el texto proporcionado.
- Python 3.9
- FFmpeg
- PyTorch
Descarga la carpeta aquí que contiene los modelos.
Para instalar los requerimientos, ejecuta el siguiente comando:
pip install -r requerimientos.txt
python main.py --text "<text>" --audio "<audio_de_referencia>"
En el archivo main.py colocar las rutas de los modelos
model_path = "/models/spanish/pretrained_spanish/"
encoder_path = model_path + "encoder/saved_models/pretrained.pt"
syn_path = model_path + "synthesizer/saved_models/pretrained/pretrained.pt"
voc_path = model_path + "vocoder/saved_models/pretrained/pretrained.pt"