Oasis:AI生成游戏的新范式

APPLICATION Nov 7, 2024

大约 2 个月前,我们见证了 GameNGen 的发布,它能够在收到用户输入时逐帧生成 DOOM(1993)。现在,就在 2 天前,Decart Etched 刚刚发布了一个名为“Oasis”的新开源模型,该模型以每秒 20 帧的速度生成 Minecraft。不仅如此,他们还提供了一个网站,人们可以使用他们的模型玩 Minecraft,每次运行近 3 分钟。

Oasis 生成的游戏快照

在这篇短文中,我们将讨论有关 Oasis 的详细信息,包括它的功能、工作原理、局限性、公司的未来计划以及它对 AI 生成的游戏和游戏开发的影响。所以,事不宜迟,让我们开始吧。

1、什么是 Oasis?

Oasis 是第一个可玩的实时开放世界 AI 模型。它经过训练可以生成一个开放的世界 Minecraft 世界,包括 UI 以及与物品和方块的交互。据作者介绍,这是一款视频游戏,但完全由人工智能生成。

与 GameNGen 类似,Oasis 接受用户键盘和鼠标输入并生成实时游戏,包括游戏规则、物理和图形。

作者采用的方法类似于视频生成模型使用扩散transformer的工作方式。当然,这里的关键是能够实时生成的快速推理。Decart.ai 是负责软件方面的公司,Etched.ai 通过他们的 Sohu transformer加速器 ASIC 提供硬件支持。Sohu 尚未发布,但该公司计划使用这些芯片作为硬件支持,以实现更快、更高质量的推理。

目前,作者已经发布了模型的权重和代码。当前权重是 500M 参数模型,可以在本地运行。

2、功能

到目前为止,从 GitHub 页面上分享的内容来看,在 Minecraft 的背景下,Oasis 了解游戏机制,如建筑、照明、物理、库存管理、移动、对象交互和理解。不仅如此,Oasis 还能够在 Minecraft 宇宙中生成多个生物群落和位置。人们可以打开箱子并与里面的物品互动,生成并与其他生物和动物互动。用户可以吃食物来补充饥饿和健康。用户在 Minecraft 中执行的许多日常任务都可以由当前模型处理。以下视频展示了此模型可能的一些用例:

由 Oasis 生成的游戏玩法
由 Oasis 生成的可能任务

3、Oasis是如何工作的

现在让我们进入这个模型的核心部分。作者已经发布了代码和模型权重以及他们遵循的架构和方法。在本节中,我将总结他们的工作。

3.1 架构

基本架构类似于视频生成模型,其中下一帧是自动回归生成的(基于前一个上下文窗口)。该架构是一个自动编码器,在编码器层和解码器层之间有扩散transformer层。

架构图,来源 Oasis GitHub

强调使用transformer架构的原因是它在多个领域(包括生成扩散模型)的 SOTA(最新)结果。因此,作者在架构中使用 DIT 模型进行噪声预测过程训练,同时利用扩散强制,修改架构以包括在空间注意层之间交错的额外时间注意层,以便提供来自前一帧的上下文。训练数据集是 Open AI 收集的 Minecraft 视频集合。

扩散强制:是一种用于在视频生成中有效生成下一帧的技术。它结合了全序列扩散生成下一帧和 LLM 等下一个标记预测的优点,以记住上下文窗口。它通过允许每个标记具有不同的噪声级别来实现这一点。 Full-Seq 扩散会一次性对所有帧进行降噪,噪声水平相同,而下一个标记预测会一次对下一帧进行降噪,其过去标记中的噪声为零。因此,可以在采样时对整个序列使用不同的噪声水平来实现灵活的行为,例如稳定自回归推出。

空间注意层:允许模型将注意力放在同一帧的特定部分。

时间注意层:允许模型将注意力放在上下文窗口的不同帧上。

扩散是在基于 ViT(视觉转换器)的编码器的输出上执行的,用于输入上下文窗口。Oasis 自回归生成帧,能够根据游戏输入调节每个帧。这使用户能够实时与世界互动。

3.2 硬件

目前,该模型在 NVIDIA H100 GPU 上运行,以 460p 和 20fps 的速度运行。而一旦 Etched 的 Sohu 芯片推出,同一型号就可以以 4k 分辨率运行。因此,模型也针对在搜狐芯片上运行进行了优化。不仅如此,在Sohu芯片上,Oasis 至少可以运行 10 倍以上的用户。

4、当前的局限性和未来的探索

作者还强调了模型及其输出的当前局限性。目前,该模型存在以下困难(至少是作者强调的困难):

  • 领域泛化困难
  • 长期内存有限
  • 精确库存控制困难
  • 精确对象控制困难
  • 远处沙子的模糊性
由 Oasis 生成的可视化局限性

作者假设可以通过扩展模型和数据集来解决这些问题。因此,他们目前正在研究这个问题以及其他优化技术。就我个人而言,我认为这会奏效,迫不及待地想看看他们接下来会想出什么。

5、对游戏和游戏开发的影响

上次 GameNGen 发布时,我明确指出了我认为会发生什么,我相信我的观点在这次之后会更加坚定:

我认为最令人兴奋的事情是在更复杂、互动性更强的游戏上测试相同的整体想法。到目前为止,我们只能想到这个引擎可以生成预先存在的游戏,但让我兴奋的是,它有可能自动生成将不同游戏的机制结合在一起的新游戏。

使用生成式AI生成预先存在的游戏,然后为人们提供一个 API 端点,以少量月费来玩它,这可能是我现在真正看到的游戏范例。我最期待的是使用来自众多游戏的现有游戏机制和艺术风格来生成新的想法和游戏。10 年后,我可以看到生成的游戏和在线游戏端点(如前所述)成为常态。我个人对这项技术的未来前景感到兴奋。我的观点可以通过用户 u/Agecom5r/singularity 上对有关这一进步的帖子的 Reddit 评论来轻松表达:

“这是有史以来最糟糕的情况”
这句话我开始厌倦了,但在这里却非常适用。
这很糟糕,但它有效,坦率地说,他们设法弄清楚全球永久性的那一刻,这项技术就成为革命性的。

这很糟糕,但这是有史以来最糟糕的情况。


原文链接:Oasis: A Universe in a Transformer — A New Paradigm in AI Generated Gaming

汇智网翻译整理,转载请标明出处

Tags