打造自己的虚拟网红
当我看到 Pieter Levels 的 AI网红演示时,我对自己说—我也想创建一个!几天后,我得到了结果,我想和你分享整个过程👇
要查看本教程的结果,你可以查看 Jen 的 Instagram 页面或她的 TikTok——一位虚拟网红教大家如何使用 AI 创建虚拟网红 :) 我个人打赌技术只会越来越好,结果也是如此。
1、角色和情况
我们将从 FLUX 开始,它是最新的图像生成模型,类似于更知名的 Midjourney 或 Stability。整体体验非常简单——写下你想要生成的内容并玩转结果:
关于如何编写完美提示的指南有很多,但你能做的最好的事情是提供参考图像并要求 AI 生成类似的图像:
2、角色一致性
如你所见,所有照片中的面孔都不同,但我想要的是 Jen 无处不在!有两种方法可以解决这个问题。第一种也是最简单的方法是应用换脸。
第二种更复杂,但可以提供更好的结果——模型微调。有一项服务叫 Photo AI,你只需要上传 20-30 张照片,它就会创建一个模型,可以在所有可能的情况下生成你的人像,但在我们的例子中,我们没有 20 张照片可以开始,所以换脸是我们的方法!Runway 也有类似的功能,但效果不太逼真。
3、视频生成
当今两种主要的视频生成产品是 Kling AI 和 Runaway。我们将重点介绍第一个,下面是第二个的一些分析。同样,体验非常简单:
- 选择“图像转视频”选项并上传你的图像
- 写一个提示。没什么疯狂的,在我的情况下,它很简单,就像“一个女性影响者在城市街道上慢慢地、平静地行走并讲述一个故事”。
- 选择专业模式和 10 秒的生成长度
按“生成”!在大多数情况下,结果实际上看起来已经足够好了,无需调整
点击这里查看生成的视频。
4、文本生成
这是最简单的部分——你可以自己写,也可以向你最喜欢的聊天机器人寻求帮助。对于更高级的场景,请查看我关于 AI 代理的文章。在 Jen 的案例中,我自己写了文本片段。
5、音频生成
我认为这是第二简单的部分。你只需要复制文本并将其粘贴到 ElevenLabs 窗口中,如下所示,然后从下拉菜单中选择一个声音,按“生成语音”并下载语音样本。我们将使用 2 个带有“Laura”声音的演讲来完成我们上面生成的影响者视频(垂直视频)。还有自定义语音创建甚至语音克隆的机会。
6、嘴唇同步
毫不奇怪,存在一种将面部与语音匹配的工具。一种简单快捷的方法是使用 SyncLabs。只需上传您的视频和音频,其他一切都将自动完成!我将特定的口型同步模型保留为默认设置。质量需要改进,但我将把它留到下一篇文章和与客户的工作中。
7、编辑、字幕等
你可以使用你选择的任何视频编辑器,但我看到最近 Captions 和 CapCut 在博主中非常流行,所以我也尝试了前者。没什么特别的,它会自动生成字幕,这对于简短的视频来说是必须的,并且还允许进行一些原始编辑。
8、商业案例
所有这些极客的东西都很酷,但钱在哪里呢?
8.1 宏观分析
AI 网红并非新鲜事——几年来,他们已经积累了数百万粉丝,每月收入超过数万美元,并与 Prada、Dior、Calvin、BMV 等品牌合作。行业报告还分享了疯狂的增长预测:2023 年至 2030 年的复合年增长率为 38.9% + 2030 年的收入预测为 458.2 亿美元。此外,与北美和欧洲相比,亚太地区和拉丁美洲对虚拟网红的兴趣更高。
8.2 微观分析
我想在这里参考 Pieter 的 tweets [1, 2] 提供了很好但经过精心挑选的例子:
我在这里的 10 美分是关于:
- 实际成本 - 它包括额外的工具(FLUX、11Labs、SyncLabs),它们都很便宜,但不要忘记从一个工具切换到另一个工具所需的手动工作 - 这里还没有自动化。尽管如此,还是有机会创建自己的技术(我们在 Neurons Lab 提供帮助),并将 OPEX 转化为 CAPEX,最终为您降低成本。此外,我们可以打赌这项技术只会变得更便宜。
- 人力劳动力基准 - 我不会指望世界上大多数国家,尤其是快速增长的亚洲国家,像 Pieter 的例子那样,为每部短视频支付 150 美元。但即使我们将人力成本降低 10 倍(是的,很激进),并将 AI 价格保持在每部视频 5 美元(按照 Pieter 的估计),投资回报率仍然只有价格的 3 倍。
此外,你还应该考虑到 AI 内容生成的速度和 AI 影响者解锁的规模,大致估计的差异变得越来越不重要。
9、下一步是什么?
如果你按照教程操作或至少查看了 Jen 的 Insta 或她的 TikTok,你应该已经发现了问题:
- 换脸的一致性。潜在的解决方案是模型微调,但你需要更多照片。
- 无法将 Jen 放在真实的物理空间中。简单的实验和背景移除、将 Jen 复制到某个酒吧以及运行 Kling 均不起作用。
- 单调的机器人语音和缺乏自然声音。可能可以通过 ElevenLabs 中更深层次的语音设计和更好的视频编辑来解决。
- 嘴唇同步不是很好,面部表情完全不同步。这里需要使用更好的技术。
- 自动化。目前,整个过程都是手动的,而 Kling API 及其 API 的缺失将成为流程自动化的主要障碍。
- 安全和 GenAI 法规怎么样?开放式问题 :)
原文链接:7 steps for AI-generated influencer creation — a complete hands-on tutorial
汇智网翻译整理,转载请标明出处