TOOL

实测4个语音克隆AI工具

在实验中，我测试了四种不同的工具，看看它们的设置是否简单，以及它们在文本转语音功能中模仿我的声音的效果如何。

admin

Dec 3, 2024 • 13 min read

现在人工智能几乎可以做任何事情，我尝试用它来做所有我不太喜欢的事情。而我不太喜欢的事情之一就是录下自己的声音。我觉得这很耗时，而且作为一个内向的人，这有点累人。

所以当 Descript 让我测试一些语音克隆工具时，我很兴奋。

在实验中，我测试了四种不同的工具，看看它们的设置是否简单，以及它们在文本转语音功能中模仿我的声音的效果如何。作为测试文本，我使用了我最近在生成式AI上发表的主题演讲的摘录。这个链接是我读这段话时的真实声音。

要训练这些工具，通常需要上传录制的音频或阅读示例脚本。我尝试了两个不同的剪辑：

语音 1：用 iPhone 录制了我与一位好朋友的对话。在这段对话中，我说话非常随意。
语音 2：我教授的一门课程的音频录音，在课程中我故意放慢了讲技术话题的速度。

这些工具能通过最终测试吗：妈妈测试？我妈妈会认为我的声音听起来像我吗？

这是我的结果。

1、Descript

Descript 的 AI 语音功能是一套更大的工具的一部分。要训练它，你需要实时录制特定的语句，或者你可以在另一台设备上录制并上传。我尝试了第二种选择，但由于我的录音是不支持的文件类型，我遇到了一些问题，但最终还是成功了。

我尝试了语音生成器，它使用我读的语句来生成语音，以及根据项目生成语音。对于第二种选择，创建语音的工作流程与其他工具有很大不同，正如你所看到的。你不能像其他选项一样单击“创建语音”并上传所有文件；你必须在项目本身内创建语音。一旦掌握了窍门，生成 AI 语音就很容易了，但我还是去了 Descript 的帮助网站，试图弄清楚。

它们听起来是这样的：链接。

用这两个选项生成的声音非常相似——如此相似以至于我不得不将它们加载到 Audition 中的不同音轨中，看看它们是否完全相同（它们并不完全相同）。所以我不确定添加额外的音频对声音的影响有多大。

但是一旦我让它运行起来，Descript 的 AI 语音生成器就很容易使用了。它是所有声音中听起来最像机器人的，没有任何直接控制来改变节奏或表现力。为此，Descript 建议创建具有不同传递风格的多个声音——我可以制作第二个声音，让我读得更快，或者更有表现力。但对于这个测试，我坚持使用普通的声音。

尽管对输出的控制较少，但 Descript 在妈妈测试中表现良好。我妈妈说这些声音听起来不错，尽管与其他声音相比，它们的表现力较差，也不太像我。

妈妈测试：✅ 通过

优点：

处理速度快
无需切换程序即可编辑录音
属于一套更大的音频和视频编辑工具
通过了妈妈测试

缺点：

创建我的第一个声音需要学习曲线
没有直接的风格控制；必须录制具有不同交付风格的多个声音

2、ElevenLabs

为了创建我的声音，ElevenLabs 允许我上传最多 25 个样本，但每个样本都必须小于 10MB。我使用的是未压缩的音频，所以我不得不在 Audition 中剪切样本。这是一个非常耗时的过程，但我可以使用 MP3 等压缩格式来节省一些剪切工作。

该工具允许你更改许多设置来影响语音的声音，包括稳定性、清晰度 + 相似度和风格夸张。然后输入文本，瞧！它会生成音频样本，你可以收听和下载。

我使用不同的设置生成了几个音频样本，这些样本让我有点震惊。它们听起来是这样的：链接。

该工具给演讲添加了一些不良效果，比如笑声、呼吸声，甚至一度给我一个“嗯”的声音！速度也不对，在极快的段落之间添加了奇怪的停顿。基本上，与声音太机械化相反的问题，它太随意了。我使用更稳定的音频样本生成了第二个声音，它给了我一种新的鼻音和奇怪的口音。调整设置会改变它添加到乐段中的各种伪像，但它始终将它们添加到所有样本中。

默认设置效果最好，所以我建议不要偏离这些设置太远。我妈妈说这个很好，但她认为它有点“太单调了”。更具表现力的设置没有

通过妈妈测试。她称各种版本“令人恼火”、“生硬”且“难以理解”。

妈妈测试：⚠️ 2 个声音中 1 个通过

优点：

包括风格设置，如稳定性、清晰度 + 相似性和风格夸张
允许你上传最多 25 个音频样本

缺点：

更具表现力的风格听起来不切实际
在演讲中添加了不良效果，如笑声、呼吸和填充词

3、Play.ht

Play.ht 允许你创建一个“即时”语音克隆使用至少 30 秒的音频（最多 50MB），或“高保真”克隆使用更多音频。我都试过了。高保真克隆建议使用 2-3 小时或更长时间的音频，因此你需要比我更高效才能利用更大的潜在训练文件。

克隆语音后，你可以输入文本。它还为你提供三种设置来控制语音：稳定性、相似性和强度。

Play.ht 允许你生成多个剪辑并将它们拼接在一起，而不是像 ElevenLabs 那样一次性生成所有内容。我真的很喜欢这个功能。你可以单独重新生成每个剪辑，以便更好地控制输出，然后将其下载为单个文件或多个部分。你还可以按段落而不是整体更改设置，以便为特定句子增加强度。

听起来是这样的：链接。

高保真语音绝对更好。但是，它发出了一些需要重新生成的错误发音。为了纠正发音，你必须为这些特定的单词添加语音拼写。

更改语音设置的选项也较少，而且有些输出的节奏确实不对。

克隆人在妈妈测试中表现不佳：她认为默认设置听起来不像我，而且觉得太单调了。和我一样，她也觉得有些地方太快了。然而，即使声音听起来不像我，她也觉得声音清晰而富有表现力。

妈妈测试：✅ 通过，有注释

优点：

能够生成多个剪辑并拼接在一起以获得更多控制
能够按段落更改设置以增加某些短语的强度

缺点：

有些词发音错误
更改语音设置的选项很少
节奏不对

4、Resemble AI

我注册了 Resemble AI 来测试快速语音克隆和专业克隆，但快速语音克隆不可用，所以我创建了专业语音克隆。

与 Descript 一样，Resemble AI 会让你录制一个特定的句子，确认你有权克隆您正在上传的语音。虽然我知道这是为了安全起见，但这真的很麻烦。

Resemble AI 还需要上传单个文件，并且必须是 WAV/AIFF/FLAC 格式。生成语音大约需要一个小时，是所有工具中最耗时的。

听起来是这样的：链接。

运行后，我注意到 Resemble AI 有几个理想的功能。它将生成的音频分成更小的块，这样你就可以重新生成某些部分，而不是整个部分。你还可以指定单词的词性。例如，对于在其他几代中发音错误的单词“live”，它允许我指定我指的是形容词还是动词。

Resemble AI 还有一个其他工具都没有的有趣功能：本地化。我是加拿大人，大多数人无法区分我们的口音和美国太平洋西北地区的口音。但确实存在差异。这意味着我可以将我的文本“翻译”成加拿大英语。当我使用此功能时，它确实将几个听起来像美国元音的元音改成了加拿大元音。

不幸的是，它有点问题。有时它会跳过单词，单词之间的间距很奇怪。

妈妈的结论：她认为这听起来不像我，称它太“单调”，而且“说话者听起来很无聊”。

妈妈测试：🛑 失败

优点：

将音频分成几块，以便更好地控制再生
指定词性，发音更准确
本地化，口音准确

缺点：

问题；跳过一些单词，节奏奇怪
所有工具中生成时间最长
没有通过妈妈测试

5、AI 语音克隆工具的缺点与有点

虽然我并不是那种听到自己的录音时会讨厌自己的声音的人，但当我使用这些工具时，我确实很讨厌它。它就像一个声音游乐场镜子：有些工具添加了我没有的奇怪举止，给我的声音添加了我不喜欢的特定品质，或者犯了我不会犯的发音错误。它们的范围从太机械化到完全不正常，无法做出我想要的改变让我对输出感到沮丧。

节奏也几乎总是不对——停顿似乎几乎是随机产生的。它们必须经过编辑才能听起来自然。此外，发音也是许多代人的问题，用语音拼写编辑文本会很耗时。

这些工具还让我对它们训练声音的要求多种多样且相互冲突感到沮丧，有些要求特定的文件类型、文件大小限制或要求所有音频都在一个文件中。

不过，也有一些好的观点，这就是我看到未来一些可能性的地方。我很欣赏这些工具，它们让我可以尝试不同的情绪和语调设置，这样我至少可以尝试重新校准我听到的内容。我也喜欢能够将其分成几部分并只重新生成一段音频。一些人工智能语音克隆工具甚至让我至少可以部分控制发音。

但很难看出它们中的任何一个如何融入工作流程。即使是我最喜欢的那些，我也花了大约一个小时的时间才真正重新生成音频，以找到一个我喜欢的例子——必须一遍又一遍地听这段话才能知道它是否正确，这很耗时，而且每次重新生成也需要处理时间。

与仅仅录制相比：当我自己录制时，我没有做任何花哨的事情，而是在我的 iPhone 上做了一次，大约花了 2 分钟阅读，包括重做几个段落。然后我上传并放入 Descript，在那里我必须等待一分钟左右才能转录，然后我必须再听一次才能进行编辑。总的来说，录制和编辑的过程只花了我不到十分钟的时间，听起来比任何人工智能生成的选项都好，即使它确实有一些我没有纠正的明显音频问题。我偷偷地把它和人工智能语音克隆工具的样本放在一起，我妈妈最喜欢它（但她在录音中确实把我的嘶嘶声也加进去了）。

6、结束语

我认为在进行特别繁重的编辑时，我会使用AI语音克隆工具作为第二种可能性。但即使是我喜欢的工具，也比我录制六段并将它们编辑在一起所花的时间要长得多。此外，对于一些更高质量的选项，你需要相当多的已经录制好的音频才能制作出可行的声音。

如果我在编辑别人的音频，不能要求他们重新录制，我可以看到自己使用人工智能语音克隆工具来生成一些段落并编辑它们（当然是在他们允许的情况下）。仅从语音克隆中生成较长的段落效果并不好，至少就工具目前的状况而言是这样。

但我们才刚刚开始，所以我认为这些工具最终可能会派上用场。毕竟，它们一直在变得越来越好。

原文链接：Best AI voice cloning tools: Which tools pass the mom test?

汇智网翻译整理，转载请标明出处