5个最流行的开源TTS模型

文本转语音 (TTS) 技术在无障碍、教育和虚拟助手等行业中应用广泛,因此过去一年对它的需求猛增。就像 LLM 和图像生成模型的进步一样,TTS 模型也不断发展,能够从文本输入生成更逼真、更像人类的语音。

如果你希望将 TTS 集成到你的系统中,开源模型是一个绝佳的选择。与专有替代方案相比,它们提供了更大的灵活性、控制力和定制性。在这篇文章中,我们将探讨当今一些最流行的开源 TTS 模型。我们将深入研究它们的优点和缺点,帮助您选择最适合您需求的模型。最后,我们将提供一些常见问题的答案。

1、XTTS-v2

XTTS 是最流行的语音生成模型之一。其最新版本 XTTS-v2 能够仅通过 6 秒的快速音频样本将声音克隆成不同的语言。这种效率消除了对大量训练数据的需求,使其成为语音克隆和多语言语音生成的有吸引力的解决方案。

坏消息是,XTTS 背后的公司于 2024 年初关闭,将该项目留给了开源社区。 但是,源代码仍然在 GitHub 上可用,XTTS-v2 仍然是 Hugging Face 上下载次数最多的 TTS 模型之一

主要特点:

  • 以最少的输入进行语音克隆:XTTS-v2 允许你仅使用 6 秒的音频片段克隆多种语言的语音,大大简化了语音克隆过程。
  • 多语言支持:该模型支持 17 种语言,使其成为全球多语言应用的理想选择。
  • 情感和风格转移:XTTS-v2 不仅可以复制声音,还可以复制情感语调和说话风格,从而实现更真实、更富有表现力的语音合成。
  • 低延迟性能:该模型在消费级GPU上采用纯PyTorch实现,可实现小于150ms的流式传输延迟。

注意事项:

  • 仅限非商业用途:XTTS-v2根据Coqui公共模型许可获得许可,该许可将其限制在非商业用途。除非协商特定的许可条款,否则这限制了其在商业产品中的应用。
  • 项目关闭:由于原公司关闭,该模型的未来发展完全依赖于开源社区。

2、ChatTTS

ChatTTS是一种语音生成模型,专为对话应用而设计,特别适用于LLM助手中的对话任务。它也是对话音频、视频介绍和其他交互式任务的理想选择。经过大约10万小时的中英文数据训练,ChatTTS能够以两种语言生成自然且高质量的语音。

主要特点:

  • 高质量合成:经过大量训练,它可以提供自然流畅且清晰的语音。
  • 对话专用:ChatTTS 针对对话任务进行了优化,是 LLM 助手和对话系统的绝佳选择。
  • 标记级控制:它提供有限但有用的标记级控制,用于控制笑声和停顿等元素,从而为对话传递提供一定的灵活性。

注意事项:

  • 语言支持有限:与其他 TTS 模型相比,ChatTTS 目前仅支持英语和中文,这可能会限制其在其他语言应用程序中的使用。
  • 情绪控制有限:目前,该模型仅支持基本的标记级控制,如笑声和停顿。未来版本有望提供更细致入微的情绪控制,但目前尚不可用。
  • 稳定性问题:ChatTTS 有时会遇到稳定性问题,例如生成多扬声器输出或产生不一致的音频质量。这些问题在自回归模型中很常见,您可能需要生成多个样本才能获得所需的结果。

3、MeloTTS

MeloTTS 是由 MyShell.ai 开发的高质量、多语言 TTS 库。它支持多种语言和口音,包括多种英语方言(美式、英式、印度式和澳大利亚式)。MeloTTS 针对实时推理进行了优化,即使在 CPU 上也可以使用。

目前,其英语版本(MeloTTS-English)是 Hugging Face 上下载次数最多的 TTS 模型

主要特点:

  • 多语言支持:MeloTTS 提供多种语言和口音。一个关键亮点是中文使用者能够处理中英文混合语音。这使得该模型在需要两种语言的场景中特别有用,例如国际业务或多语言媒体内容。
  • 实时推理:它针对快速性能进行了优化,即使在 CPU 上也可以使用,使其适用于需要低延迟响应的应用程序。
  • 免费用于商业用途:根据 MIT 许可证,MeloTTS 可用于商业和非商业用途。

需要注意的事项:

  • 不支持语音克隆:MeloTTS 不支持语音克隆,这对于需要个性化语音复制的应用程序来说,这可能是一个限制。

4、OpenVoice v2

同样由 MyShell.ai 开发的 OpenVoice v2 是一种即时语音克隆模型,只需一段简短的音频片段即可复制说话者的声音。它支持多种语言的语音生成,提供对各种语音属性(如情感、口音、节奏、停顿和语调)的精细控制。

主要特点:

  • 准确的音色克隆:OpenVoice v2 准确复制参考说话者的音色,允许克隆的语音用于多种语言和口音。
  • 灵活的语音风格控制:用户可以控制语音输出的精细细节,例如情感、口音、节奏、停顿和语调,提供比许多其他 TTS 模型更多的定制。
  • 零样本跨语言语音克隆:该模型可以克隆参考语音或训练数据中不存在的语言的语音。换句话说,为 OpenVoice v2 提供的样本语音音频可以是任何语言。
  • 免费用于商业用途:OpenVoice v2 遵循 MIT 许可,可用于商业和非商业项目。

需要注意的几点:

5、Parler-TTS

Parler-TTS 是由 Hugging Face 开发的轻量级 TTS 模型集合,旨在生成高质量、自然的语音。它允许用户控制各种语音特征,例如性别、音调、说话风格甚至背景噪音。Parler-TTS 是完全开源的版本,在宽松的许可下公开提供所有训练代码、数据集和模型权重,使社区能够构建和定制自己的 TTS 模型。

主要功能:

  • 语音风格控制:Parler-TTS 使用简单的文本提示对语音特征(例如情绪、语速、音调和混响)进行精细控制。
  • 说话人克隆:模型可以复制 34 位预定义说话人的风格,这对于需要一致说话人身份的应用程序非常有用。
  • 效率优化:Parler-TTS 支持快速生成技术,包括 SDPA 和 Flash Attention 2,使其具有计算效率。默认情况下使用 SDPA,与 Eager Attention 相比,生成时间最多可加快 1.4 倍。

注意事项:

  • 模型大小:Parler-TTS 有两个版本 - Mini(880M 参数)和 Large(2.3B 参数)。Mini 版本是一种轻量级模型,非常适合快速高效地生成语音。但是,如果您需要更多的表现力和对语音细节的控制,Large 版本提供了更高级的功能,但它需要更多的计算资源。

原文链接:Exploring the World of Open-Source Text-to-Speech Models

汇智网翻译整理,转载请标明出处