十二月 2024Miscellany

从文本到对话：分析开源 TTS 替代方案

所有大型云提供商，如 AWS 和 Azure，都有将文本合成为口语的 API。但也有像 ElevenLabs 这样的年轻初创公司在这一领域提供创新解决方案。第三种选择是开源软件，适用于不想为 TTS（文本到语音）服务付费或需要设备上 TTS 的用户。此外，隐私原因也会在其中发挥作用。这就是为什么我想在本文中概述最重要的开源 TTS 替代方案。

Piper

Piper是Open Home Foundation的一个项目。他们希望为家庭创造保护隐私的技术。该项目基于 Jaehyeon Kim、Jungil Kong 和 Juhee Son 的论文 "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech"，使用名为VITS的项目对语音进行训练。这种方法的新颖之处在于，他们没有使用单独的声码器来生成音频波形，而是将一切都打包到一个神经网络中。他们声称这样可以提高语音质量。 VITS 项目使用 PyTorch 进行训练和推理。

Piper 的安装很简单，只需运行：

pip install piper-tts

在运行之前，你需要为你的语言和语音下载相应的 ONNX 模型。你可以在这里找到相关说明。Piper 支持多种语言。

Coqui

Coqui 是现已解散的同名初创公司的一个项目。由于源代码是开放源代码，因此仍然可以访问和使用。使用 Python 也很容易安装：

pip install TTS

您可以使用以下命令列出所有支持的语言和语音组合：

tts --list_models

然后，要从文本生成音频文件，您需要从上述命令的输出中选择适当的模型。

例如：

tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

如果指定的模型在本地不可用，它会自动下载模型，然后生成输出的 WAV 文件。我用几种语言试过 Coqui，质量还可以，有些语言听起来很自然。要获得最佳效果，请使用 VITS 模型。

Whisper Speech

Whisper Speech 是一个开源项目，利用了 OpenAI 的另一个开源语音到文本模型 Whisper。Whisper Speech 项目目前只支持数量有限的语言和语音。它还不能真正投入使用，但 GitHub 页面上提供的样本令人鼓舞，虽然听起来不是 100% 自然。未来将显示这个项目如何发展，但其背后的想法很有前途。

Espeak-ng

语音合成器 espeak-ng 是本列表中历史最悠久的开源项目。它支持大量语言，超过 100 种。它使用一种特殊的合成方法，因此占用的系统资源很少。遗憾的是，它生成的语音听起来非常机械。尽管如此，它还是可以理解的。因此，在某些嵌入式系统中，自然语音并不那么重要。此外，在需要支持非主流语言的情况下，它可能是唯一可用的开源选择。

结论

从测试的四款开源文本到语音应用程序来看，我最喜欢的显然是 Piper。它的语音听起来最自然。Whisper Speech 很有潜力，但只有时间才能证明它的发展。Espeak-ng 显然听起来像机器人，但由于其强大的语言支持和低资源需求，它很适合某些小众应用。

综上所述，我希望您能从本文中学到一些东西，我也很高兴收到任何反馈意见。请点击下面的联系按钮。

参考文献

Piper: https://github.com/rhasspy/piper
Coqui：Coqui
Whisper Speech：Whisper Speech
Espeak-ng：espeak-ng

封面图片由BroneArtUlm从Pixabay获取

已出版
22 12月 2024

本作品采用 Creative Commons Attribution 4.0 International License.

作者：托马斯-德弗林格

我是一名富有远见的企业家和软件开发人员。在这个博客中，我主要写网络编程和物联网等相关主题

从文本到对话： 分析开源 TTS 替代方案