ElevenLabs vs. 自托管TTS

TTS,即文本转语音,已经存在了一段时间。但直到最近,其质量和准确性才变得与真人语音相似。在线 TTS 服务 ElevenLabs 因用于以惊人的准确性复制知名人物的声音而闻名。在本文中,我们将它与两个流行的自托管 TTS 程序 Applio 和 Alltalk 进行对比。

⚠️警告⚠️:我在本文中使用的示例书《了不起的盖茨比》包含一些有争议的话题。我不支持或纵容其中任何一个,只是因为它是我图书馆中唯一一本属于公共领域的书而选择了这本书。

要运行自托管 TTS 应用程序,我将使用配备 8GB VRAM 的笔记本电脑 RTX 4060。

1、ElevenLabs

我们将从 ElevenLabs 开始,为什么是高质量设定标准。对于设置,我只需要注册即可。创建帐户后,我获得了 10000 个字符的试用信用额度,经过一些测试后,我选择了 Rachel 的声音,稳定性为 50%,相似度为 75%,风格夸张为 20%,没有扬声器增强。

没有足够的信用额度来处理整本书,所以我只选择了第一章的一部分(大约 5000 个字符)。处理速度很快,大约 5-7 秒,声音听起来像是用中端麦克风录制的。

可以从这里下载试听生成结果:ElevenLabs-The-Great-Gatsby.mp3

2、Applio

虽然我们在本文中仅将其用于 TTS,但 Applio 可以做的远不止这些。它还支持语音更改预先录制的音频和在新声音上训练模型。

Applio 的设置花费了更长的时间,因为它需要在本地运行。运行安装脚本后,启动大约需要 30 秒,然后才会在我的浏览器中打开 Web 界面。我需要下载一个模型才能开始使用 TTS。

一旦我在 Applio 网站上选择了预先训练好的模型之一,下载就很简单了,只需将链接放入界面即可。在 TTS 页面上,我得到了 2 个语音选项。第一个是我刚刚获得的 RVC 模型,第二个是要使用的基本 TTS 语音。我相信发生的事情是,Applio 首先使用基本 TTS 生成语音记录,然后通过 RVC 模型运行它以提高质量。

然后我花了大约 30 分钟调整高级设置,直到得到我满意的结果。然而,当我给它《了不起的盖茨比》时,程序崩溃了。为了解决这个问题,我不得不将文本分成大约 15000 个字符块,然后再发送每个块进行处理。

Applio 花了大约 1798 秒来处理所有块(总共约 260000 个字符)。这大约需要 30 分钟。音质还行,几乎就像是通过笔记本电脑麦克风录制的一样。

可以从这里下载试听生成结果:Applio-The-Great-Gatsby.wav

3、Alltalk

Alltalk 的设置与 Applio 类似。我运行了脚本,等待了一会儿后,网页界面打开了。Alltalk 旨在用作 API 而不是独立应用程序,并包含与文本生成 WebUI 集成的选项。网页界面用于更改设置,但包含一个用于测试的部分。我启用了 deepspeed 并禁用了低 vram,以充分发挥它的优势。

Alltalk 花了 5719 秒来处理文本,大约 95 分钟。值得庆幸的是,该应用程序自动将书分成几块,因此没有达到内存限制。音频质量明显比其他应用程序差,听起来像是用一副廉价耳机的内置麦克风录制的。这可能是由于 Alltalk 缺乏 RVC 支持,该支持将在版本 2 中推出。

可以从这里下载试听生成结果:Alltalk-The-Great-Gatsby.wav

4、结束语

自从那些机器人屏幕阅读器出现以来,TTS 程序已经取得了长足的进步。如果你需要 TTS 用于离线项目或不想为云解决方案付费,我建议你使用 Applio,因为它的质量相对较好。否则,Elevenlabs 在真实性和速度方面仍然是王者。


原文链接:ElevenLabs vs Self Hosted TTS

汇智网翻译整理,转载请标明出处