Chatterbox TTS开源语音克隆
Chatterbox由Resemble AI构建,并且以MIT许可证授权。它已经被与付费工具如ElevenLabs进行了基准测试,结果令人惊讶——在盲测中,人们更喜欢Chatterbox。

厌倦了平淡无奇、机械般的声音? 想让你的梗图、游戏或AI代理说话像奥斯卡获奖演员一样吗?欢迎来到Chatterbox——这个最新推出的开源文本转语音(TTS)模型,已经引起了不小的轰动。
由Resemble AI构建,并且以MIT许可证授权(意思是:你可以免费使用和修改),Chatterbox是生产级语音克隆,而且玩起来真的很有趣。它已经被与付费工具如ElevenLabs进行了基准测试,结果令人惊讶——在盲测中,人们更喜欢Chatterbox。
所以,这确实是个大事。
1、Chatterbox有什么特别之处?
让我们深入探讨一下——我是说真的深入。
1.1 你可以控制情绪
大多数语音工具只是像机器人读购物清单一样读东西。但Chatterbox允许你调整声音听起来有多情绪化或多有表现力。
想让声音听起来超级兴奋吗?或者像电影反派一样戏剧性?只要改变一个简单的设置,立刻就能实现。
这个功能叫做夸张控制。简单来说就是:“让声音更有表现力。”
1.2 使用简单
你可以直接通过浏览器试用Chatterbox。你不需要安装任何东西。只需输入一些文字,就能听到它们被朗读出来。
1.3 听起来很棒
在测试中,当人们听到来自Chatterbox的声音和其他流行付费工具如ElevenLabs的声音时,人们更喜欢选择Chatterbox。这说明了很多问题。
1.4 细心打造
幕后,Chatterbox是由一种智能类型的AI模型构建的,这种模型经过训练可以理解人类如何说话——包括情感、语气和节奏。它使用了超过50万小时的真实语音音频(没错,很多)来学习如何像人一样说话。
此外,它会在每个生成的音频文件中添加一个特殊的隐形标记(称为水印),以防止人们用它伪造有害的声音。

2、快速指南:获得最佳语音输出
如果你正在玩Chatterbox并希望调整声音效果,这里有两个重要的设置:
2.1 夸张
把它想象成声音的表现力。
- 0.5 是默认值——自然的声音
- 更高的值(比如0.7)会让声音更加戏剧化
- 更低的值(比如0.3)听起来更平静或中性
2.2 CFG(即置信因子)
这会影响声音读取单词的自信程度和速度。
- 较低的CFG(如0.3) 会放慢速度,适合戏剧性或严肃的演讲
- 较高的CFG(如0.5或更高) 读得更快更流畅
3、如何免费使用Chatterbox TTS?
在这里测试模型。
此外,模型权重是开源的。
4、Chatterbox vs ElevenLabs
ElevenLabs一直是高质量AI语音克隆的首选。但Chatterbox是开源的、富有表现力的,并且(最棒的是)免费的。而在盲测中?听众实际上更喜欢Chatterbox的输出。这简直是一个震撼全场的时刻。
Chatterbox不仅仅是一款AI语音模型——它是一个创作者的游乐场。无论你是要构建一个虚拟助手、为YouTube视频配音,还是只是让你的NPC像喝了红牛的中世纪吟游诗人在咆哮,Chatterbox都能满足你。
它富有表现力。它聪明。它是免费的。
所以,赶紧给你的项目一个值得倾听的声音吧。
原文链接:Chatterbox TTS : Best AI Voice Cloning , beats ElevenLabs
汇智网翻译整理,转载请标明出处
