cover image
< 主页
Miscellany

从文本到对话: 分析开源 TTS 替代方案

所有大型云提供商,如 AWS 和 Azure,都有将文本合成为口语的 API。但也有像 ElevenLabs 这样的年轻初创公司在这一领域提供创新解决方案。第三种选择是开源软件,适用于不想为 TTS(文本到语音)服务付费或需要设备上 TTS 的用户。此外,隐私原因也会在其中发挥作用。 这就是为什么我想在本文中概述最重要的开源 TTS 替代方案。

Piper

PiperOpen Home Foundation的一个项目。他们希望为家庭创造保护隐私的技术。该项目基于 Jaehyeon Kim、Jungil Kong 和 Juhee Son 的论文 "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech",使用名为VITS的项目对语音进行训练。这种方法的新颖之处在于,他们没有使用单独的声码器来生成音频波形,而是将一切都打包到一个神经网络中。他们声称这样可以提高语音质量。 VITS 项目使用 PyTorch 进行训练和推理。

Piper 的安装很简单,只需运行:

pip install piper-tts 

在运行之前,你需要为你的语言和语音下载相应的 ONNX 模型。你可以在 这里 找到相关说明。Piper 支持多种语言。

Coqui

Coqui 是现已解散的同名初创公司的一个项目。由于源代码是开放源代码,因此仍然可以访问和使用。使用 Python 也很容易安装:

pip install TTS 

您可以使用以下命令列出所有支持的语言和语音组合:

tts --list_models 

然后,要从文本生成音频文件,您需要从上述命令的输出中选择适当的模型。

例如:

tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav 

如果指定的模型在本地不可用,它会自动下载模型,然后生成输出的 WAV 文件。 我用几种语言试过 Coqui,质量还可以,有些语言听起来很自然。要获得最佳效果,请使用 VITS 模型。

Whisper Speech

Whisper Speech 是一个开源项目,利用了 OpenAI 的另一个开源语音到文本模型 Whisper。Whisper Speech 项目目前只支持数量有限的语言和语音。它还不能真正投入使用,但 GitHub 页面上提供的样本令人鼓舞,虽然听起来不是 100% 自然。 未来将显示这个项目如何发展,但其背后的想法很有前途。

Espeak-ng

语音合成器 espeak-ng 是本列表中历史最悠久的开源项目。它支持大量语言,超过 100 种。 它使用一种特殊的合成方法,因此占用的系统资源很少。遗憾的是,它生成的语音听起来非常机械。尽管如此,它还是可以理解的。因此,在某些嵌入式系统中,自然语音并不那么重要。此外,在需要支持非主流语言的情况下,它可能是唯一可用的开源选择。

结论

从测试的四款开源文本到语音应用程序来看,我最喜欢的显然是 Piper。它的语音听起来最自然。Whisper Speech 很有潜力,但只有时间才能证明它的发展。Espeak-ng 显然听起来像机器人,但由于其强大的语言支持和低资源需求,它很适合某些小众应用。

综上所述,我希望您能从本文中学到一些东西,我也很高兴收到任何反馈意见。请点击下面的联系按钮。

参考文献

封面图片由BroneArtUlmPixabay获取

已出版

22 12月 2024

Thomas Derflinger

作者:托马斯-德弗林格

我是一名富有远见的企业家和软件开发人员。在这个博客中,我主要写网络编程和物联网等相关主题