cover image
< Inicio
Miscelánea

Del texto al habla: Análisis de alternativas TTS de código abierto

Todos los grandes proveedores de la nube, como AWS y Azure, disponen de una API para la síntesis de texto en palabra hablada. Pero también hay jóvenes startups como ElevenLabs que ofrecen sus soluciones innovadoras en este espacio. Una tercera opción es el software de código abierto para quienes no quieren pagar por el servicio de TTS (texto a voz) o necesitan TTS en el dispositivo. Por eso, en este artículo quiero ofrecer una visión general de las alternativas TTS de código abierto más importantes.

Piper

Piper es un proyecto de la Open Home Foundation. Quieren crear una tecnología que preserve la privacidad en los hogares. Las voces se entrenan utilizando un proyecto llamado VITS que se basa en el artículo "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" de Jaehyeon Kim, Jungil Kong y Juhee Son.

La novedad de este método es que no utilizan un codificador de voz independiente para producir la forma de onda de audio, sino que lo han empaquetado todo en una red neuronal. Afirman que esto mejora la calidad de la voz hablada. El proyecto VITS utiliza PyTorch para el entrenamiento y la inferencia.

Piper es fácil de instalar, basta con ejecutar:

pip install piper-tts 

Antes de ejecutarlo, debe descargar el modelo ONNX correspondiente a su idioma y voz. Puedes encontrar las instrucciones aquí. Piper soporta varios idiomas. He probado algunos de ellos y suenan naturales y es genial escucharlos.

Coqui

Coqui era un proyecto de la ya desaparecida startup del mismo nombre. Como el código fuente es abierto, sigue siendo accesible y de uso libre. También es fácil de instalar usando Python:

pip install TTS 

Puedes listar todas las combinaciones de lenguaje y voz soportadas con el siguiente comando:

tts --list_models 

Luego, para generar un archivo de audio a partir de texto, necesitas seleccionar el modelo apropiado de la salida del comando anterior.

Por ejemplo:

tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav 

Si el modelo especificado no está disponible localmente, descargará el modelo automáticamente y luego generará el archivo WAV de salida. Probé Coqui con varios idiomas y la calidad era aceptable y en algunos idiomas sonaba natural. Para obtener mejores resultados utilice los modelos VITS.

Whisper Speech

Whisper Speech es un proyecto de código abierto que aprovecha otro modelo de voz-a-texto de código abierto de OpenAI, Whisper. Actualmente, el proyecto Whisper Speech sólo admite un número limitado de idiomas y voces. No está realmente listo para ser utilizado, pero las muestras ofrecidas en las páginas de GitHub son alentadoras, aunque no suenan 100% naturales. El futuro mostrará cómo evoluciona este proyecto, pero las ideas que hay detrás son prometedoras.

Espeak-ng

El sintetizador de voz espeak-ng es un proyecto de código abierto con la historia más larga de esta lista. Soporta un gran número de idiomas, más de 100.

Utiliza un método de síntesis especial, por lo que consume pocos recursos del sistema. Es fácil de instalar, por ejemplo en Linux se puede instalar con un gestor de paquetes. Desgraciadamente, produce un habla que suena muy robótica. Sin embargo, es inteligible. Por lo tanto, se utiliza, por ejemplo, en algunos sistemas embebidos en los que el sonido natural del habla no es tan importante.

Conclusión

De las cuatro aplicaciones de texto a voz de código abierto probadas, mi favorita es claramente Piper. Tiene el sonido de voz más natural. Whisper Speech tiene potencial, pero sólo el tiempo demostrará cómo evoluciona. Con el principal patrocinador de Coqui fuera del negocio, su futuro es incierto y depende del apoyo de la comunidad. Espeak-ng suena claramente robótico, pero debido a su gran soporte de idiomas y a sus bajas necesidades de recursos puede ser una buena opción para ciertas aplicaciones de nicho.

Así que con eso, espero que hayas aprendido algo en este artículo, y estoy feliz por cualquier comentario.

Referencias

Imagen de portada por BroneArtUlm de Pixabay

Publicado el

9 nov. 2024


Creative Commons License

Este trabajo está licenciado bajo una Creative Commons Attribution 4.0 International License.
Thomas Derflinger

Escrito por Thomas Derflinger

Soy un empresario visionario y desarrollador de software. En este blog escribo principalmente sobre programación web y temas relacionados como el IoT.