MODEL-ZOO

Meta MoCha：电影级角色AI

想象一下，AI生成的电影角色不仅会说话，还会像真人演员一样做手势、表达情感并进行对话。有了Meta的MoCha，这样的未来已经到来。

Apr 4, 2025 • 5 min read

想象一下，AI生成的电影角色不仅会说话，还会像真人演员一样做手势、表达情感并进行对话。有了Meta的MoCha，这样的未来已经到来。

自2024年底以来，生成式领域见证了显著的进步，尤其是在音频、视频和图像生成方面。中国在这方面率先取得了进展，发布了用于视频生成的开源模型，如Hunyuan Video和Wan 2.1。此外，ChatGPT发布的GPT-4o对整个吉卜力世界产生了深远影响。

Meta现在发布了MoCha，这是一个专门用于电影中会说话角色的视频生成模型。

Meta MoCha是由Meta（GenAI）和滑铁卢大学的研究人员开发的先进AI模型，旨在从语音音频和文本提示直接生成电影级会说话角色的视频。

它通过生产全身、富有表现力且上下文一致的角色动画，超越了传统的“会说话头”合成，达到了电影级别的质量。

1、MoCha的主要特点

端到端会说话角色生成：

输入灵活性：

技术创新：

语音-视频窗口注意力：

联合训练策略：

多角色对话：

无需辅助条件：

高质量输出：

架构：

训练：

多阶段方法：

从特写镜头开始（强语音相关性）。

逐渐引入更复杂的任务，如全身运动。

评估：

唇同步准确性

面部表情真实性

动作自然性

整体视觉质量（人类评分 ≈ 4/4）

MoCha通过：

MoCha不仅仅是一个AI模型——它是数字电影制作中的游戏规则改变者。通过仅凭语音和文本实现无缝的全身角色动画，Meta重新定义了我们对AI生成内容的看法。无论是电影、虚拟影响者还是互动叙事，MoCha为一个AI驱动的角色与真实演员无法区分的未来铺平了道路。

虽然该模型尚未开源，但其潜力是不可否认的。随着AI的不断发展，像MoCha这样的工具将成为创意行业不可或缺的一部分。在那之前，我们热切期待它的下一个突破——也许是对全世界开放发布？

汇智网翻译整理，转载请标明出处