Chatterbox TTS开源语音克隆

Chatterbox由Resemble AI构建,并且以MIT许可证授权。它已经被与付费工具如ElevenLabs进行了基准测试,结果令人惊讶——在盲测中,人们更喜欢Chatterbox。

Chatterbox TTS开源语音克隆

厌倦了平淡无奇、机械般的声音? 想让你的梗图、游戏或AI代理说话像奥斯卡获奖演员一样吗?欢迎来到Chatterbox——这个最新推出的开源文本转语音(TTS)模型,已经引起了不小的轰动。

由Resemble AI构建,并且以MIT许可证授权(意思是:你可以免费使用和修改),Chatterbox是生产级语音克隆,而且玩起来真的很有趣。它已经被与付费工具如ElevenLabs进行了基准测试,结果令人惊讶——在盲测中,人们更喜欢Chatterbox。

所以,这确实是个大事。

1、Chatterbox有什么特别之处?

让我们深入探讨一下——我是说真的深入。

1.1 你可以控制情绪

大多数语音工具只是像机器人读购物清单一样读东西。但Chatterbox允许你调整声音听起来有多情绪化或多有表现力。

想让声音听起来超级兴奋吗?或者像电影反派一样戏剧性?只要改变一个简单的设置,立刻就能实现。

这个功能叫做夸张控制。简单来说就是:“让声音更有表现力。”

1.2 使用简单

你可以直接通过浏览器试用Chatterbox。你不需要安装任何东西。只需输入一些文字,就能听到它们被朗读出来。

1.3 听起来很棒

在测试中,当人们听到来自Chatterbox的声音和其他流行付费工具如ElevenLabs的声音时,人们更喜欢选择Chatterbox。这说明了很多问题。

1.4 细心打造

幕后,Chatterbox是由一种智能类型的AI模型构建的,这种模型经过训练可以理解人类如何说话——包括情感、语气和节奏。它使用了超过50万小时的真实语音音频(没错,很多)来学习如何像人一样说话。

此外,它会在每个生成的音频文件中添加一个特殊的隐形标记(称为水印),以防止人们用它伪造有害的声音。

2、快速指南:获得最佳语音输出

如果你正在玩Chatterbox并希望调整声音效果,这里有两个重要的设置:

2.1 夸张

把它想象成声音的表现力。

  • 0.5 是默认值——自然的声音
  • 更高的值(比如0.7)会让声音更加戏剧化
  • 更低的值(比如0.3)听起来更平静或中性

2.2 CFG(即置信因子)

这会影响声音读取单词的自信程度和速度。

  • 较低的CFG(如0.3) 会放慢速度,适合戏剧性或严肃的演讲
  • 较高的CFG(如0.5或更高) 读得更快更流畅

3、如何免费使用Chatterbox TTS?

这里测试模型。

此外,模型权重是开源的。

4、Chatterbox vs ElevenLabs

ElevenLabs一直是高质量AI语音克隆的首选。但Chatterbox是开源的富有表现力的,并且(最棒的是)免费的。而在盲测中?听众实际上更喜欢Chatterbox的输出。这简直是一个震撼全场的时刻。

Chatterbox不仅仅是一款AI语音模型——它是一个创作者的游乐场。无论你是要构建一个虚拟助手、为YouTube视频配音,还是只是让你的NPC像喝了红牛的中世纪吟游诗人在咆哮,Chatterbox都能满足你。

它富有表现力。它聪明。它是免费的。

所以,赶紧给你的项目一个值得倾听的声音吧。

原文链接:Chatterbox TTS : Best AI Voice Cloning , beats ElevenLabs

汇智网翻译整理,转载请标明出处