MODEL-ZOO

字节跳动GOKU视频生成模型

字节跳动推出了 Goku，这是一种专为高质量视频生成而设计的高级 AI 模型。通过利用文本到视频和图像到视频的合成，Goku 重新定义了 AI 驱动的内容创作并突破了创意界限。

admin

Feb 13, 2025 • 4 min read

1、Goku 的工作原理

Goku 是一种基于流的视频生成模型，由 Rectified Flow Transformer (RFT) 提供支持，可提高质量和效率。它逐步细化图像和视频帧，确保流畅的运动过渡和高视觉保真度。该过程从以文本或图像形式输入开始，然后将其转换为结构化表示。通过整流流动力学，帧插值得到增强，从而降低噪音并确保连续性。最后，AI 合成具有无缝过渡的连贯视频序列。

2、Goku 背后的技术

Goku 的核心是一套尖端的 AI 技术。整流流变换器 (RFT) 在保持质量的同时最大限度地减少了计算开销，神经渲染确保了帧之间的逼真运动和流畅过渡。借助基于变换器的架构，Goku 可以有效地对视频序列中的时间依赖性进行建模，而其多模态 AI 功能可实现无缝的文本到视频和图像到视频的合成。

3、在 GPU 机器上运行 Goku

为了实现最佳性能，Goku 需要高性能 GPU。云端的 Akamai GPU 实例提供了高效处理深度学习工作负载所需的计算能力。

其可扩展的基础设施允许无缝扩展 AI 模型，同时优化推理、减少延迟并提高吞吐量。在 GPU 实例上部署 Goku 涉及配置支持 CUDA 的实例、安装 PyTorch 和 CUDA 依赖项以及运行推理任务。使用混合精度训练可以进一步提高性能。

要安装和运行 Goku，请按照以下步骤操作。

安装最新版本的 Python 和 Pytorch
从 Goku 的官方 GitHub 存储库克隆源代码
在项目目录中安装 Python 包
下载各种 Goku 模型并运行代码。你可以在 Hugging Face中找到示例模型

from huggingface_hub import hf_hub_download

required_files = [
    "config.json",
    "generation_config.json",
    "model-00001-of-00002.safetensors",  # recommend using the *.safetensors files for safety reasons.
    "model-00002-of-00002.safetensors",
    "model.safetensors.index.json",
    "special_tokens_map.json",
    "spiece.model",
    "tokenizer.json",
    "tokenizer_config.json",
]

local_dir = "/root/goku/tools/downloads"  # directory if you want to download the files to a specific location

for filename in required_files:
    hf_hub_downl

//Clone the source code
git clone https://github.com/Saiyan-World/goku.git
cd goku

//Install Python packages
pip install -r requirements.txt

//Download models
~/goku/tools# python3 download_flan_t5.py

4、Goku 为何重要

在视频生成中引入了新的质量水平，确保了无缝运动过渡和高分辨率输出。
它的效率减少了对大量采样的需求，使其既实用又快速。Goku 的应用非常广泛，从用于营销和媒体的 AI 生成内容到游戏和动画中的增强资产创建。它在电影和 VFX 制作中也证明了其价值，同时为生成 AI 研究的进步做出了贡献。

5、结束语

字节跳动的 Goku AI 代表了生成视频技术的重大飞跃。凭借其整流流模型、基于 Transformer 的架构和高效的计算方法，它为 AI 驱动的视频合成树立了新的标杆。GPU 基础架构的集成进一步增强了其性能，使其非常适合创意和研究领域的大规模 AI 应用。

原文链接：Bytedance’s Goku - Advanced AI for Video Generation

汇智网翻译整理，转载请标明出处