DeepSeek R1-Zero & R1分析
我们还没有 AGI,创新仍然受到限制——扩大纯 LLM 预训练并不是出路,尽管这是去年夏天人工智能行业的主流叙事和主流公众观点。
叙事之所以重要,是因为它们最终会推动经济活动,如投资、研究重点、资金、地缘政治、贸易等。例如,在 2023-24 年,新 LLM 初创公司的投资约为 200 亿美元,而新 AGI 初创公司的投资仅为约 2 亿美元。
我们于去年 6 月推出了 ARC Prize 2024,以提高人们对 LLM 扩展限制的认识,并推动一个有用的基准 ARC-AGI-1 朝着新的方向发展,即要求 AI 系统适应新的、看不见的问题,而不是严格依赖记忆。
1、DeepSeek R1训练架构
上周,DeepSeek 发布了他们的新 R1-Zero 和 R1“推理机”系统,可与 OpenAI 的 ARC-AGI-1 上的 o1 系统相媲美。R1-Zero、R1 和 o1(低计算)的得分都在 15-20% 左右——相比之下,GPT-4o 的得分为 5%,这是多年来纯 LLM 扩展的巅峰。根据本周美国市场的反应,公众也开始了解纯 LLM 扩展的局限性。然而,公众对即将到来的推理需求仍然普遍不了解。
2024 年 12 月,OpenAI 宣布了我们验证的突破性新 o3 系统。它在低计算模式下得分为 76%,在高计算模式下得分为 88%。o3 系统展示了计算机适应新奇问题的首个实用、通用实现。
尽管 o3 击败 ARC-AGI-1 是重大科技新闻,但主流媒体却基本没有注意到和报道。
这对于人工智能领域和计算机科学来说是一个极其重要的时刻,这些系统需要研究。但由于 o1/o3 的封闭性,我们不得不依赖猜测。多亏了 ARC-AGI-1 以及现在(几乎)开源的 R1-Zero 和 R1,我们可以加深理解。特别是,R1-Zero 比 R1 重要得多。
我们说“几乎”,是因为 DeepSeek 还没有发布一种可重复的方法来从头开始生成模型权重。
2、R1-Zero 消除了人为瓶颈
在我们的 o1 和 o3 分析中,我们推测了这些推理系统是如何工作的。关键思想:
- 为问题域生成思维链 (CoT)。
- 使用人类专家(“监督微调”或 SFT)和自动化机器(“强化学习”或 RL)的组合来标记中间 CoT 步骤。
- 使用 (2) 训练基础模型。
- 在测试时,从流程模型进行迭代推理。
下面回顾了用于迭代采样的技术以及 ARC-AGI-1 分数:
系统 | ARC-AGI-1 | 方法 | 平均令牌 | 平均成本 |
---|---|---|---|---|
r1-zero | 14% | 无 SFT / 无搜索 | 11K | $.11 |
r1 | 15.8% | SFT / 无搜索 | 6K | $.06 |
o1 (低) | 20.5% | SFT / 无搜索 | 7K | $.43 |
o1 (中) | 31% | SFT / 无搜索 | 13K | $.79 |
o1 (高) | 35% | SFT / 无搜索 | 22K | $1.31 |
o3 (低) | 75.7% | SFT / 搜索 + 采样 | 335K | $20 |
o3 (高) | 87.5% | SFT / 搜索 + 采样 | 57M | $3.4K |
注意:显示 ARC-AGI-1 半私有分数。
借助 DeepSeek 最新发表的研究,我们可以更好地进行推测。关键见解是,LLM 推理系统更高程度的新颖性适应性(和可靠性)是在三个维度上实现的:
- 将人工标签(又称 SFT)添加到 CoT 过程模型训练中
- CoT 搜索而不是线性推理(并行每步 CoT 推理)
- 整个 CoT 采样(并行轨迹推理)
项目 (1) 受到人工数据生成的限制,并限制了这些推理系统最受益的领域。例如,MMLU 专业法律类别令人惊讶地比 o1 上的数学和逻辑低得多。
项目 (2) 和 (3) 受到效率的限制。o1 和 o3 都显示出对数级的 ARC-AGI-1 基准测试准确度的提高,因为它们在测试时花费了更多的推理计算,而花费这些计算的不同方式会调整曲线的 x 轴。
我认为,DeepSeek 所做的最有趣的事情是单独发布 R1-Zero。R1-Zero 是一个不使用 SFT((1) 项)的模型。相反,它完全依赖于强化学习。
R1-Zero 和 R1 在 ARC-AGI-1 上表现出很强的得分一致性,分别得分为 14% 和 15%。DeepSeeks 自己报告的基准分数也显示出 R1-Zero 和 R1 之间的高度一致性,例如在 MATH AIME 2024 上的得分分别为 71% 和 76%(高于基础 DeepSeek V3 上的约 40%)。
在论文中,R1-Zero 的作者说“DeepSeek-R1-Zero 遇到了可读性差和语言混合等挑战”,并在网上得到了证实。然而在我们的测试中,我们发现几乎没有证据表明在 ARC-AGI-1 上测试 R1-Zero 存在不一致,这与系统进行 RL 的数学和编码领域类似。
综上所述,这些发现表明:
- SFT(例如人类专家标记)对于在具有强验证的领域中进行准确和清晰的 CoT 推理不是必需的。
- R1-Zero 训练过程能够通过 RL 优化在标记空间中创建自己的内部领域特定语言(“DSL”)。
- SFT 对于提高 CoT 推理领域的通用性是必要的。
这很直观,因为语言本身实际上是一种推理 DSL。 完全相同的“单词”可以在一个领域中学习并应用于另一个领域,就像一个程序一样。 纯 RL 方法还不能发现广泛的共享词汇表,我预计这将成为未来研究的重点。
最终,R1-Zero 展示了一种潜在的扩展机制的原型,没有任何人类瓶颈——即使在训练数据获取本身中也是如此。
几乎可以肯定,DeepSeek 已经将目光投向了 OpenAI 的 o3 系统。重要的是观察 SFT 最终是否成为添加 CoT 搜索和采样的必要条件,或者假设的“R2-Zero”是否可能存在于相同的对数精度与推理缩放曲线上。基于 R1-Zero 结果,我相信在这个假设的扩展版本中,SFT 不需要击败 ARC-AGI-1。
3、为可靠性而花钱
从经济角度来看,人工智能正在发生两大转变:
- 现在可以花更多的钱来获得更高的准确性和可靠性
- 训练资金正在转向推理资金
两者都将推动对推理的大量需求,而且都不会减少对更多计算的需求。事实上,它们会增加对计算的需求。
人工智能推理系统承诺的回报远不止基准测试中更高的准确性。阻碍更多人工智能自动化使用(例如推理需求)的首要问题是可靠性。我曾与数百名试图在其业务中部署 AI 代理的 Zapier 客户交谈过,他们的反馈非常一致:“我还不信任它们,因为它们工作不可靠”。
之前我曾认为,ARC-AGI 的进展将带来更高的可靠性。LLM 代理面临的挑战是,它们需要强大的本地域控制才能可靠地工作。更强的泛化能力需要能够适应未知情况。我们现在开始看到证据表明这种观点是正确的。因此,几家公司现在正在引入代理(Anthropic、OpenAI、Apple 等)也就不足为奇了。
由于可靠性需求,代理将推动近期需求推断的大幅增长。更广泛地说,开发人员可以选择投入更多计算来增加用户对系统的信任。然而,更高的可靠性并不意味着 100% 的准确性——但你会期望更一致的不准确性。这没关系,因为用户和开发人员现在可以在准确度较低时通过提示更自信地引导行为。
以前计算机无法解决的问题现在需要花费大量金钱。随着效率的提高,这些金额将会下降。
4、推理即训练
另一个重大转变是进入 LLM 系统进行预训练的数据来源。以前,大多数数据都是从现有的 LLM 购买、抓取或合成生成的(例如提炼或增强)。
这些推理系统提供了一种新选择,即生成“真实”数据而不是“合成”数据。人工智能行业使用合成一词来识别通常通过 LLM 回收的低质量数据,以增加总体训练数据量 - 收益递减。
但现在有了推理系统和验证器,我们可以创建全新的合法数据进行训练。这可以离线完成,开发人员付费创建数据,也可以在推理时完成,最终用户付费!
这是经济学中一个令人着迷的转变,表明拥有最多付费客户的人工智能系统开发人员可能会出现权力集中失控的时刻。这些客户正在为创建新的高质量数据买单……这改进了模型……变得更好,更受用户青睐……你明白了。
如果我们能够突破人类专家 CoT 障碍,创建一个极其高效的系统,通过搜索/合成和验证来创建新数据,那么我们应该期待大量计算涌入这些推理系统,因为它们确实只需输入美元和原始数据就能变得更好。最终,这种类型的人工智能训练将完全超越对人类生成的数据的预训练。
5、结束语
随着推理需求的增加变得清晰,我们将继续看到市场调整。人工智能系统效率只会推动更多的使用,这不仅是因为杰文斯悖论,还因为随着效率的提高,新的训练机制被解锁。
随着 R1 的开放和可复制,更多的人和团队将把 CoT 和搜索推向极限。这将更快地告诉我们前沿在哪里,它将推动一波创新浪潮,从而增加快速实现 AGI 的机会。
已经有几个人告诉我,他们计划在 2025 年 ARC 奖中使用 R1 式系统,我很高兴看到结果。
R1 开放这一事实对世界来说是一件大事。 DeepSeek 推动了科学前沿的发展。
原文链接:An Analysis of DeepSeek's R1-Zero and R1
汇智网翻译整理,转载请标明出处