6个语音生成必备AI工具

录制画外音已经够有挑战性了。你需要录制很多次才能达到你想要的效果。你没有足够的时间排练并达到你的语调和意图目标。你需要阅读无数的音频编辑软件指南以确保你的声音听起来不错。即使你做到了所有这些，如果你没有录音棚，你完美的表演也会充斥着背景噪音。

那么你应该放弃并聘请配音演员吗？还没有：人工智能语音生成器可以提供令人印象深刻的结果。这些人工智能文本转语音应用程序一直在提高质量、真实感和控制力，帮助你创建自然的文本再现，甚至无需将麦克风插入计算机。

我花了几周时间测试我能接触到的所有人工智能语音生成器工具，根据我的经验，这六个是最好的。

什么是最佳 AI 语音生成器？

最佳 AI 语音生成器非常容易识别：生成的语音听起来自然逼真，几乎（几乎！）就像真人在说话一样。

除了这种直观的检查之外，每个平台都提供一系列设置来帮助你控制生成，例如发音、音调、音量或节奏。如果你打算使用完整的 AI 语音，可以学习语音合成标记语言 (SSML) 并标记每个单词应如何以最高级别的控制执行。但是，不要过度使用它们：它会降低输出的质量和真实感。

考虑到这一点，以下是我在测试最佳 AI 语音生成器时寻找的东西：

真实感。这些文本转语音应用程序提供逼真的语音，具有变化、自然的音调变化和适当的停顿。
可用控制。音调、音量、语速和发音控件等可让你根据需要调整生成。
音频质量。我寻找尽可能高的导出音频质量，以便你可以在任何项目中使用这些声音。
语音库。多种声音可以适合更广泛的项目（包括其他语言的声音），因此你在工作时可以拥有更大的灵活性。
附加功能。如果任何应用程序有任何有用的额外语音生成工具，例如音频转音频或 AI 模型训练，我会考虑这一点。但我没有考虑将任何 AI 视频生成应用程序列入此列表，即使有些应用程序确实提供文本转语音作为附加功能。

我还走得更远。在成为一名作家之前，我当了十年的演员，当时我参加了一个为期一个月的配音和配音研讨会。我利用这些经验，根据其他参数来判断这些声音：

叙述节奏。人类的阅读速度会有所不同，这对于强调或增加参与度很有用。糟糕的人工智能通常会使一切变得均衡，所以我关注了引入最佳变化的模型。
语调。语调涉及整个句子的音调变化。最差的人工智能模型会让一切都变得可预测、机械和毫无生气——许多模型因此被排除在外。
情感表现。有些应用程序让你选择悲伤、兴奋或低声细语的文本演绎。我排除了那些不够微妙、过度或不足剧本的演绎。不过，人工智能很难在这里给出准确的表现，所以如果你需要一些细微差别，你可以考虑与专业配音演员合作。

我花了三个多星期注册了我能找到的每一种AI语音生成器。我在每个生成器中使用了相同的文本，以便更好地了解差异。我尝试了各种控制来衡量它们的威力，看看它们是否能帮助我改善最终结果。我保存了每个应用程序的样本：下面有一个链接可以收听每个应用程序的简短摘录。

在判断最适合你目的的 AI 语音生成器时，请记住，你的观众可能也会关注您内容的其他细节。这里或那里的一些瑕疵是完全可以原谅的。考虑到所有这些，以下是今年的最佳选择。

1、ElevenLabs：数百种逼真的声音

听听结果：ElevenLabs 示例输出

ElevenLabs 的语音库领先群雄，拥有超过 300 种声音，包括可授权的 AI 驱动的真实人物版本，如电视女演员 Christy Carlson Romano 和迪士尼的 Kim Possible。

有这么多声音可供选择，很高兴看到好的搜索和过滤工具。点击左侧菜单上的“声音”，然后点击屏幕顶部的“声音库”选项卡。如果朋友或同事给你推荐了好声音，你可以按名字搜索。如果你想浏览，可以使用类别根据风格或目的过滤声音：从对话式声音到广告导向的声音，应有尽有，适合任何类型的项目。在这些类别的右侧，您可以单击以根据四个属性进行排序，从热门声音到生成大量输出的声音。紧接着，你可以使用高级过滤器，这些过滤器非常适合根据类别、性别、年龄、语言和口音进一步显示声音。

当你听到喜欢的声音时，将它们添加到语音实验室。这将允许你在语音生成工具中选择它们，你可以通过单击语音来访问该工具。粘贴你的文本或上传音轨，单击语音名称下拉菜单以选择你的声音，然后点击生成。如果你对第一个镜头不满意，有两种主要方法可以进行调整：

第一个是选择不同的AI模型。每个模型都有不同的设置范围，例如，一个更适合多语言生成，另一个更适合低延迟。
然后，根据你选择的模型，可以控制稳定性（低设置意味着更多的情绪变化）、相似性（低设置意味着与样本声音的差异更大）、风格夸张（高设置通常会放大变化）和扬声器增强（进一步将输出置于原始 AI 训练数据中）。

ElevenLabs 目前估值 10 亿美元，有足够的资金发展成为更强大的 AI 语音生成平台。它绝对具有灵活性和质量，即使控制功能不如此列表中的其他平台强大。

ElevenLabs 价格：每月约 10 分钟的音频免费；付费计划起价为每月 5 美元（或每年 50 美元），可获得约 30 分钟的音频和语音克隆等额外功能

2、Speechify：类似真人的说话节奏

听听结果：Speechify 示例输出

阅读文本时的节奏、单词之间的空格和整体速度。Speechify 领先于竞争对手，一次性生成令人愉悦的输出，听起来像一个富有创意、经验丰富的配音演员。平静、节奏好，在变化和一致性之间取得良好平衡。

该网站的主页可能会令人困惑，因为 Speechify 将自己标榜为大声朗读文本的平台，主要用于提高生产力的用例。你可以在开车时或在外面散步时使用它。而且，有了 Snoop Dogg 和 Gwyneth Paltrow 等可用的声音，用 D-O-double-G 的传奇风格聆听你最喜欢的数字营销博客列表会很有趣。

如果你想为你的项目生成和下载声音，请单击屏幕顶部的按钮转到 Speechify Studio。虽然不能使用著名的声音 - 嘘 - 但你会发现现有的选项是一流的。当你粘贴脚本并开始生成时，可以增加或减少速度，控制音调，更改音量，添加自定义发音，并在文本的不同部分设置暂停。

这里有两个很好的附加功能。如果你通常创建基于幻灯片的视频，Speechify 有一个可以组合简单演示文稿的工具。只需生成声音，添加背景音乐曲目，然后导出。第二个将允许你将你的声音添加到平台，以便你可以使用自己的声音生成声音。

Speechify 价格：免费，无下载选项；付费计划起价为每位用户每月 24 美元（按年计费）或每位用户每月 69 美元（按月计费）

3、WellSaid：逐字控制

听听结果：WellSaid Labs 示例输出

其他平台都只是泛泛而谈，而 WellSaid Labs 可以完全控制脚本的各个部分，必要时甚至可以逐字控制。

它是如何工作的？打开编辑器，然后粘贴脚本。在右侧选项卡上，单击“提示”以打开控件。屏幕上的单词会变成轮廓：单击要选择的单词或单词组合，然后调整音量或节奏。如果你选择逗号或句号，则可以调整暂停时间。

编辑完成后，在编辑一个部分时，单击屏幕中央的任意位置以取消选择它。你会注意到，刚刚编辑的内容现在带有颜色下划线：如果你改变了速度，则为绿色；如果你编辑了响度，则为蓝色；对于标点符号停顿，则为紫色。如果你想返回并进行调整，这是一个很好的指南。一句忠告：不要做出太大的改变——这里最大的变化会降低整体的真实感。

发音控件不存在于生成编辑器中。相反，请查看左侧菜单，单击发音，然后添加替换词。首先添加原始单词，然后输入它应该如何发音——即使拼写错误。这有一个学习曲线和实验过程，因此请务必查看拼写指南。

为了充分利用这里的工具，有一个资源部分，其中包含文档中最重要主题的入口点。有分步指南可帮助你入门、改进语音生成工作流程或处理发音。如果你正在与他人合作，可以快速分享项目链接以收集反馈。

WellSaid Labs 价格：提供免费试用；付费计划起价为每月 44 美元（按年计费）或每月 49 美元（按月计费）

4、Respeecher：引人入胜的语音变化

听听结果：Respeecher 示例输出

厌倦了听到听起来像长而无聊的直线的机器人语音？Respeecher 引入了变化，使叙述听起来更有趣，增加了每个声音的自然度和真实度。

最好的部分是你根本不需要设计它。输入文本时，您可以尝试使用不同的声音或叙述风格生成它。每一代都将归入剧本的相应部分，并具有自然的声音变化。

用户界面不直观，因此发现生成控件隐藏在主编辑器屏幕之外令人感到惊讶。单击左侧的“设置”选项卡，调整音高校准、情绪范围和一般音频属性。更改这些内容时，它会更改所有未来的输出，因此如果你需要不同的东西，请记住回到这里。

除了粘贴文本或上传音频文件外，你还可以使用麦克风进行实时录制。在这种情况下，应用程序所做的就是更改你的声音以匹配模板的声音，让你完全控制文本的表现。如果你有一些表演经验或天赋，请务必尝试一下。

你可以使用自己的声音或他人的声音训练 AI 模型，这样你就可以使用键盘扮演整个角色阵容。由于这可能会使深度伪造更容易制作，Respeecher 会进行安全检查以了解您是谁，同时大幅提高每月订阅价格。

我尝试了多种声音来表达相同的文本，与此列表中的其他声音相比，这里的氛围更具创意。这种发音和声音风格非常适合卡通和更古怪的项目。这并不意味着它不适合严肃的商业用途，但它可能会让那些寻找更专业头像的人望而却步。这是缺点还是与竞争对手区分开来的机会？由你来判断。

Respeecher 价格：每月 4 美元起

5、Altered：多样的叙述风格

听听结果：Altered 示例输出

叙述风格充当一般音调和节奏变化，以传达生成的文本的独特感觉。这里拥有最广泛选项的应用程序是 Altered。除了风格之外，该平台比此列表中的其他平台拥有更多可能性，因此你需要花更长的时间来熟悉各个方面。让我们来看看你可以在这里做的所有事情。

实时变形功能可启用 Altered Virtual Microphone，实时将你的原始声音更改为 AI 头像的声音。当你 14 岁并与游戏玩家朋友在线聊天时，这是件有趣的事情，但以业务为导向的成年人可以使用它来将此声音直接录制到另一个音频编辑应用程序中，从而简化工作流程。

后期制作变形是音频到音频生成的花哨名称。添加文本录音，选择目标语音，然后点击生成。下载结果，并将其插入你的项目中。

快速语音创建可让你将干净的 4 到 8 秒语音片段添加到平台，以便你可以克隆它并将其用于生成。

文本转语音会打开预期的编辑器以输入你的脚本并选择你的声音。叙述风格取决于您选择的风格，因此单击每个风格以查看主要差异。这里的可能性从“略低于中性”到“积极，大声喊叫”不等。

或强调和能量。请注意，根据你选择的脚本和语气，结果可能不一致、奇怪、有趣或以上所有。

最后，Altered 还包含一个音频编辑器，其中包含大量控件。你可以上传你的音频（任何类型的音频），并访问转录、语音生成或噪音消除等许多其他可能性。这里的学习曲线有点陡峭，因为这个屏幕具有真正的音频编辑器氛围：一定要打开文档并将其用作伴侣。

Altered 价格：有限的免费计划可用；付费计划从每月 6 美元起

6、Murf：强调控制

听听结果：Murf AI 示例输出

尝试这个简单的初学者表演练习：从这篇文章中选择一个句子，大声朗读。然后重复它，每次强调一个不同的单词。当你这样做时，注意整个句子的含义和感觉是如何变化的。 Murf 可让你为 AI 生成的声音执行此操作。

强调控制按钮很容易被忽略。在处理项目时，开始向第一个块添加文本。在此过程中，请查看播放按钮左侧的图标（看起来像评论图标），然后单击它。弹出窗口会显示该块中所有单词的序列，具有高中低刻度：单击任意位置即可添加点。单击的位置很重要，因此请尝试在左/右和上/下轴上添加点。

除了这些控件之外，你还可以调整一般速度和音调，添加暂停或添加自定义发音。如果你选择 Ken 的声音，还可以访问最广泛的叙事风格，总共九种，从讲故事到悲伤。我尝试了呜咽设置，以为效果不好，但对微妙的表演感到惊讶。很好，Ken。

当看向屏幕底部时，你可以展开时间线以显示更多功能。你可以直接将视频和音乐添加到平台中以制作内容，并直接从 Murf AI 导出，随时可以分享。随着内容策略的推进，你可以邀请队友并合作完成语音生成项目：任何人都可以对每个脚本块发表评论，因此你可以不断调整，直到达到最佳效果。

最后一句建议：付费计划中的声音听起来比免费套餐中的声音好得多。如果你对语音生成很认真，并且喜欢 Murf AI 的控件，请考虑尽早投资。

Murf 价格：10 分钟语音生成和 2 个项目免费；付费计划起价为每月 23 美元（按年计费）或每月 29 美元（按月计费）

7、OpenAI 有 AI 语音生成模型吗？

是的，ChatGPT 的创建者参与了游戏。使用 OpenAI 文本转语音的唯一方法是通过 API，需要一点技术知识才能进行设置。

他们还有一个 AI 语音克隆模型，据说该模型非常强大，无法供一般使用。目前尚不清楚何时会出现商业版本。有关合成语音的挑战和机遇，请参阅官方博客文章。

8、AI 生成的声音合法吗？

此列表中的所有平台都提供了一组声音，这些声音是通过微调训练数据或在征得真人同意的情况下对其声音进行建模而创建的。使用这些声音是合法的，只要你遵守所用应用程序的服务和许可条款。

主要问题在于 AI 语音克隆。只需几个真人声音样本，任何人都可以调整 AI 模型，使其像任何人一样说话——包括名人。也包括你。创建和使用这些深度伪造可能会导致身份盗窃、操纵、误导、勒索或侵犯版权法（谈论艺术家及其作品时）。

根据你所在的国家或地区，可能会有立法来控制这些类型的使用，这意味着如果未获得同意或语音被用于犯罪意图（或以可以被解释为犯罪的方式），则会产生法律后果。如果你克隆了其他人的声音并将其用于 AI 生成，请务必在使用输出之前获得他们的同意（最好是书面同意）。

9、结束语

使用 AI 语音生成器，你可以将脚本变成流畅的叙述，随时可以作为视频的画外音添加，而无需数十次拍摄，也无需聘请制作团队。

此列表中的所有平台都提供了尝试功能和声音的方法，因此请选择其中一个脚本并运行测试。找到一个对你有意义的控件也很重要，因此请花一些时间来感受每个控件的工作原理。现在可以只使用键盘说话，接下来你要创作什么？

原文链接：The 6 best AI voice generators in 2024

汇智网翻译整理，转载请标明出处