cover image
< Accueil
Divers

Du texte à la parole : Analyse des alternatives Open Source TTS

Tous les grands fournisseurs de services en nuage comme AWS et Azure disposent d'une API pour la synthèse de texte en mots parlés. Mais il y a aussi de jeunes entreprises comme ElevenLabs qui proposent leurs solutions innovantes dans ce domaine. Une troisième option est le logiciel libre pour ceux qui ne veulent pas payer pour le service de TTS (text-to-speech) ou qui ont besoin d'un TTS sur l'appareil. C'est pourquoi, dans cet article, je souhaite donner un aperçu des principales alternatives TTS open source.

Piper

Piper est un projet de la Open Home Foundation. Il vise à créer une technologie de préservation de la vie privée pour les foyers. Les voix sont formées à l'aide d'un projet appelé VITS qui est basé sur l'article "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" de Jaehyeon Kim, Jungil Kong et Juhee Son. La nouveauté de cette approche réside dans le fait qu'elle n'utilise pas de vocodeur séparé pour produire la forme d'onde audio, mais qu'elle intègre le tout dans un seul réseau neuronal. Ils affirment que cela améliore la qualité de la voix parlée. Le projet VITS utilise PyTorch pour l'entraînement et l'inférence.

Piper est simple à installer, il suffit de lancer :

pip install piper-tts 

Avant de lancer le projet, vous devez télécharger le modèle ONNX correspondant à votre langue et à votre voix. Vous pouvez trouver les instructions ici. Piper supporte un certain nombre de langues. J'ai essayé quelques-unes d'entre elles et elles sonnent naturellement et sont agréables à écouter.

Coqui

Coqui était un projet de la startup du même nom, aujourd'hui disparue. Comme le code source est ouvert, il est toujours accessible et utilisable. Il est également facile à installer en utilisant Python :

pip install TTS 

Vous pouvez lister toutes les combinaisons de langues et de voix supportées avec la commande suivante :

tts --list_models 

Ensuite, pour générer un fichier audio à partir d'un texte, vous devez sélectionner le modèle approprié à partir de la sortie de la commande ci-dessus.

Par exemple :

tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav 

Si le modèle spécifié n'est pas disponible localement, il le téléchargera automatiquement et générera ensuite le fichier WAV de sortie. J'ai essayé Coqui avec plusieurs langues et la qualité était correcte et, dans certaines langues, le son était naturel. Pour de meilleurs résultats, utilisez les modèles VITS.

Whisper Speech

Whisper Speech est un projet open source qui s'appuie sur un autre modèle de synthèse vocale open source d'OpenAI, Whisper. Le projet Whisper Speech ne prend actuellement en charge qu'un nombre limité de langues et de voix. Il n'est pas vraiment prêt à être utilisé, mais les échantillons proposés sur les pages GitHub sont encourageants, même s'ils ne semblent pas 100% naturels. L'avenir montrera comment ce projet évoluera, mais les idées qui le sous-tendent sont prometteuses.

Espeak-ng

Le synthétiseur vocal espeak-ng est le projet open source qui a la plus longue histoire de cette liste. Il prend en charge un grand nombre de langues, plus de 100.

Il utilise une méthode de synthèse spéciale et consomme donc peu de ressources système. Il est facile à installer, par exemple sous Linux avec un gestionnaire de paquets. Malheureusement, il produit une parole à la sonorité très robotique. Mais il est néanmoins intelligible. C'est pourquoi il peut être utilisé, par exemple, sur certains systèmes embarqués où le son naturel de la parole n'est pas très important.

De même, lorsque la prise en charge de langues moins courantes est nécessaire, il peut s'agir de la seule option open source disponible.

Conclusion

Parmi les quatre applications de synthèse vocale open source testées, ma préférée est clairement Piper. C'est l'application qui a la sonorité la plus naturelle. Whisper Speech a du potentiel, mais seul le temps montrera comment il évolue. L'avenir de Coqui, dont le principal bailleur de fonds a cessé ses activités, est incertain et dépend du soutien de la communauté. Espeak-ng semble clairement robotique, mais grâce à son grand nombre de langues supportées et à ses faibles besoins en ressources, il peut s'avérer intéressant pour certaines applications de niche.

Sur ce, j'espère que vous avez appris quelque chose dans cet article, et je suis heureux de recevoir vos commentaires. Cliquez simplement sur le bouton de contact ci-dessous.

Références

Image de couverture par BroneArtUlm de Pixabay

Publié le

9 nov. 2024


Creative Commons License

Cette œuvre est soumise à une licence Creative Commons Attribution 4.0 International License.
Thomas Derflinger

Écrit par Thomas Derflinger

Je suis un entrepreneur visionnaire et un développeur de logiciels. Dans ce blog, j'écris principalement sur la programmation web et des sujets connexes comme l'IdO.