5个最流行的开源TTS模型

文本转语音 (TTS) 技术在无障碍、教育和虚拟助手等行业中应用广泛，因此过去一年对它的需求猛增。就像 LLM 和图像生成模型的进步一样，TTS 模型也不断发展，能够从文本输入生成更逼真、更像人类的语音。

如果你希望将 TTS 集成到你的系统中，开源模型是一个绝佳的选择。与专有替代方案相比，它们提供了更大的灵活性、控制力和定制性。在这篇文章中，我们将探讨当今一些最流行的开源 TTS 模型。我们将深入研究它们的优点和缺点，帮助您选择最适合您需求的模型。最后，我们将提供一些常见问题的答案。

1、XTTS-v2

XTTS 是最流行的语音生成模型之一。其最新版本 XTTS-v2 能够仅通过 6 秒的快速音频样本将声音克隆成不同的语言。这种效率消除了对大量训练数据的需求，使其成为语音克隆和多语言语音生成的有吸引力的解决方案。

坏消息是，XTTS 背后的公司于 2024 年初关闭，将该项目留给了开源社区。但是，源代码仍然在 GitHub 上可用，XTTS-v2 仍然是 Hugging Face 上下载次数最多的 TTS 模型之一。

主要特点：

以最少的输入进行语音克隆：XTTS-v2 允许你仅使用 6 秒的音频片段克隆多种语言的语音，大大简化了语音克隆过程。
多语言支持：该模型支持 17 种语言，使其成为全球多语言应用的理想选择。
情感和风格转移：XTTS-v2 不仅可以复制声音，还可以复制情感语调和说话风格，从而实现更真实、更富有表现力的语音合成。
低延迟性能：该模型在消费级GPU上采用纯PyTorch实现，可实现小于150ms的流式传输延迟。

注意事项：

仅限非商业用途：XTTS-v2根据Coqui公共模型许可获得许可，该许可将其限制在非商业用途。除非协商特定的许可条款，否则这限制了其在商业产品中的应用。
项目关闭：由于原公司关闭，该模型的未来发展完全依赖于开源社区。

2、ChatTTS

ChatTTS是一种语音生成模型，专为对话应用而设计，特别适用于LLM助手中的对话任务。它也是对话音频、视频介绍和其他交互式任务的理想选择。经过大约10万小时的中英文数据训练，ChatTTS能够以两种语言生成自然且高质量的语音。

主要特点：

高质量合成：经过大量训练，它可以提供自然流畅且清晰的语音。
对话专用：ChatTTS 针对对话任务进行了优化，是 LLM 助手和对话系统的绝佳选择。
标记级控制：它提供有限但有用的标记级控制，用于控制笑声和停顿等元素，从而为对话传递提供一定的灵活性。

注意事项：

语言支持有限：与其他 TTS 模型相比，ChatTTS 目前仅支持英语和中文，这可能会限制其在其他语言应用程序中的使用。
情绪控制有限：目前，该模型仅支持基本的标记级控制，如笑声和停顿。未来版本有望提供更细致入微的情绪控制，但目前尚不可用。
稳定性问题：ChatTTS 有时会遇到稳定性问题，例如生成多扬声器输出或产生不一致的音频质量。这些问题在自回归模型中很常见，您可能需要生成多个样本才能获得所需的结果。

3、MeloTTS

MeloTTS 是由 MyShell.ai 开发的高质量、多语言 TTS 库。它支持多种语言和口音，包括多种英语方言（美式、英式、印度式和澳大利亚式）。MeloTTS 针对实时推理进行了优化，即使在 CPU 上也可以使用。

目前，其英语版本（MeloTTS-English）是 Hugging Face 上下载次数最多的 TTS 模型。

主要特点：

多语言支持：MeloTTS 提供多种语言和口音。一个关键亮点是中文使用者能够处理中英文混合语音。这使得该模型在需要两种语言的场景中特别有用，例如国际业务或多语言媒体内容。
实时推理：它针对快速性能进行了优化，即使在 CPU 上也可以使用，使其适用于需要低延迟响应的应用程序。
免费用于商业用途：根据 MIT 许可证，MeloTTS 可用于商业和非商业用途。

需要注意的事项：

不支持语音克隆：MeloTTS 不支持语音克隆，这对于需要个性化语音复制的应用程序来说，这可能是一个限制。

4、OpenVoice v2

同样由 MyShell.ai 开发的 OpenVoice v2 是一种即时语音克隆模型，只需一段简短的音频片段即可复制说话者的声音。它支持多种语言的语音生成，提供对各种语音属性（如情感、口音、节奏、停顿和语调）的精细控制。

主要特点：

准确的音色克隆：OpenVoice v2 准确复制参考说话者的音色，允许克隆的语音用于多种语言和口音。
灵活的语音风格控制：用户可以控制语音输出的精细细节，例如情感、口音、节奏、停顿和语调，提供比许多其他 TTS 模型更多的定制。
零样本跨语言语音克隆：该模型可以克隆参考语音或训练数据中不存在的语言的语音。换句话说，为 OpenVoice v2 提供的样本语音音频可以是任何语言。
免费用于商业用途：OpenVoice v2 遵循 MIT 许可，可用于商业和非商业项目。

需要注意的几点：

与 MeloTTS 的区别：据 OpenVoice 维护者之一 Zengyi Qin 介绍，OpenVoice 支持的语言较少，听起来自然度不如 MeloTTS。但是，MeloTTS 不支持语音克隆，因此两者之间的选择取决于你对自然度和语音克隆功能的特定需求。

5、Parler-TTS

Parler-TTS 是由 Hugging Face 开发的轻量级 TTS 模型集合，旨在生成高质量、自然的语音。它允许用户控制各种语音特征，例如性别、音调、说话风格甚至背景噪音。Parler-TTS 是完全开源的版本，在宽松的许可下公开提供所有训练代码、数据集和模型权重，使社区能够构建和定制自己的 TTS 模型。

主要功能：

语音风格控制：Parler-TTS 使用简单的文本提示对语音特征（例如情绪、语速、音调和混响）进行精细控制。
说话人克隆：模型可以复制 34 位预定义说话人的风格，这对于需要一致说话人身份的应用程序非常有用。
效率优化：Parler-TTS 支持快速生成技术，包括 SDPA 和 Flash Attention 2，使其具有计算效率。默认情况下使用 SDPA，与 Eager Attention 相比，生成时间最多可加快 1.4 倍。

注意事项：

模型大小：Parler-TTS 有两个版本 - Mini（880M 参数）和 Large（2.3B 参数）。Mini 版本是一种轻量级模型，非常适合快速高效地生成语音。但是，如果您需要更多的表现力和对语音细节的控制，Large 版本提供了更高级的功能，但它需要更多的计算资源。

原文链接：Exploring the World of Open-Source Text-to-Speech Models

汇智网翻译整理，转载请标明出处