DeepSeek-R1对AI模型市场的影响

DeepSeek 引发的股市抛售是盲目恐慌,还是终结的开始?

DeepSeek-R1对AI模型市场的影响

DeepSeek 引发的股市抛售是盲目恐慌,还是终结的开始?

本文是许多精彩对话的产物。我无法一一列举你们所有人,但要特别感谢我的朋友 Eric Flaningam 和 Andrew Gillies。你们俩总是提出非常具有挑战性的问题,并拥有最敏锐的见解,这迫使我变得更好。我很幸运能和你们成为朋友。我欠你们两个大大的吻,感谢你们给我的所有想法。

自从 DeepSeek 推出他们的推理模型 R1 以来,很多人都在试图弄清楚它将如何影响人工智能市场。美国市场立即的反应是恐慌和看跌,因为DeepSeek 的廉价训练成本和使用较旧的 GPU 提出了一个重要问题——我们是否高估了 GPU 在训练 AI 中的价值?

如果任何人都可以复制模型,那么是什么建立了忠诚度?尤其是考虑到蒸馏的性能——它可以让较小的模型以一小部分成本复制更强大的模型;导致 LLM 领域出现激烈的价格战——似乎 LLM 注定会成为利润率低的商品。

如果人们可以以极低的价格复制他们的研究,这说明了美国的地缘政治地位如何?

正如你可能想象的那样,这并没有导致市场前景非常乐观-

图片来源

在本文中,我将消除干扰,帮助你理解以下重要问题-

这种反应合理吗?

这是一个微妙的问题。从短期和中期来看,GPU 的价格过高且被高估,但从长远来看,云计算使用量的增加(GPU 也可以提供帮助)将证明其合理性。因此,我认为从长远来看,它们并不是一个糟糕的选择。价值获取更多地流向纯硬件玩家(Nvidia 和 Co.)还是超大规模提供商(AWS、Google Cloud 等)取决于几个因素。我相信它会更倾向于前者,因为这是一种更无情和更激进的文化。

为什么人们会在开源模型免费的情况下为模型 API 付费?

自己托管和部署 LLM 的成本巨大。为模型 API 付费,尤其是当它们如此便宜时,通常是更好的选择。

如果 API 定价趋势持续下降,这一点将变得更加正确。图片来源
DeepSeek 是否向我们展示了模型和算法中没有护城河?

是的,但那无关紧要。对于LLM(或任何颠覆性初创公司)来说,护城河并不重要。

蒸馏是否意味着研究的终结?

即使假设蒸馏可以完美地转移能力和稳健性(非常可疑的说法,尤其是后者),我也不认为蒸馏会消除竞争优势。突破界限和探索想法的行为本身就具有深远的意义(即使从结果的角度来看),失败可以让你深入了解未来什么会起作用。蒸馏模型对此毫无作用,而对蒸馏的大量投资假设模型架构将继续与现在相同(考虑到研究趋势,这是一个大胆的想法)。因此,我认为蒸馏并不像人们声称的那样挑战权力结构。

这是一篇特别的文章,因此它将以特殊的方式构建。我们将首先通过探讨人们对 DeepSeek 及其对 AI 模型市场的影响的各种误解来详细阐述上述问题的所有答案。我还将附上附录,进一步解释一些与上述问题相关但并非绝对必要的重要思想。

我们还将撰写本文的第二部分,重点介绍如果像 Distillation 这样的技术可以消除领先和较小模型之间的大多数性能差异,LLM 提供商将如何赚钱。请务必留意这一点。

如果你对所有这些都感兴趣,请继续阅读。首先,让我们更详细地回答问题 1。

1、GPU 和云提供商是否已经过时?

这种反应合理吗?呃。总的来说,我认为 Nvidia 是一家被高估的公司。正如我多次重申的那样,你真的不需要大量最新的 GPU(或通常任何 GPU)来为人们构建有用的 AI。安装机架和购买服务器的人数绝对是不必要的。从这个角度来看,这感觉像是一次调整,甚至可能进一步下降。在未来 5-7 年内,我认为它们的价格过高。

使用本文描述的数据集,AI 模型在单个 NVIDIA-V100 图形处理单元上训练需要几个小时。确切的执行时间取决于训练期间验证的频率。我们使用 50 个验证步骤(每 1,000 个批次),因此整个全局模型的训练时间为 10 小时
—— Google 的 Floodforecast系统几乎无需任何训练就能拯救生命

从中长期来看,事情变得非常有趣。现在选择购买 GPU 的超大规模企业正在押注整体云消费(不仅仅是 AI)将增加,我认为这是一个非常合理的赌注-

来源

这里,你有两个竞争力量——超大规模企业购买 GPU 以及他们对 HPC 的投资(这将为他们带来一些垂直整合)。根据他们之间的竞争方式,人们会预期价值会向硬件提供商或超大规模企业倾斜。

我对这方面的技术细节了解不够,但从我与这些群体的几次对话来看,Nvidia 似乎拥有更好的杀手本能和文化。基本面似乎仍然偏向超大规模企业,所以根据你认为更重要的东西来选择你的毒药(我个人偏向文化,尤其是考虑到 Nvidia 确实有论文和团队来推动)。我仍在研究这个领域,所以我不会发表太多激烈的评论。

我把这篇文章发布在了 Threads 上(我更喜欢这个,而不是 BlueSky 或 X)。我会在那里发布更多片段,所以如果你感兴趣的话,可以来打个招呼。

从长远来看,我没什么好说的,除了基础设施层的变化往往最慢。无论谁在中期获胜,都可能在留存方面拥有巨大的优势。然而,随着时间的推移,这可能会过时(原则保持不变,但新技术可能会让在云端切换基础设施变得更容易)。我不是 Ops 人员,所以我对这个领域的所有理解都来自我的邻接和与各种人的交谈。我很高兴能在这个话题上得到教育。

然而,人们对这将如何影响这个领域的理解有很多错误。要理解 DeepSeek 的真正含义,我们首先需要了解与整个情况相关的一些常见误解。以下是主要内容 -

2、纠正人们对 DeepSeek 的误解

误解 #1:为何是DeepSeek 破解了高效推理模型的代码

让我问你一个问题:为什么 DeepSeek 是破解更好模型代码的团队?不是如何(我们将在这里单独写一篇后续文章,详细介绍 DeepSeek 为实现高性能而做出的有趣技术决策),而是为什么他们是实现这一目标的人?

在我看来,这不是因为 DeepSeek 拥有一群天才,或者他们做了一些革命性的事情(他们的技术大多之前就存在了)。这不是因为他们的人力资源部门在招聘方面很失败(尽管如果他们决定雇用我,我可能会收回这句话)。相反,DeepSeek 在推理方面获胜,因为他们的竞争对手被 3 个不一致的激励因素所困扰 -

  • 时间陷阱:许多研究团队被迫以一致的节奏交付成果。这迫使他们走向更稳定的扩展(更可预测),而不是冒险去做一些风险更大的事情(虽然结果会更好,但成功的可能性更低)。DeepSeek 没有来自投资者/炒作者的压力,因此能够花更多时间整合东西,看看哪些是可行的。
  • 地位陷阱:领导 AI 团队的管理层通常会试图增加预算/支出,以此来表明重要性(Timmy 的团队花了 20 亿美元训练一个LLM → 我要在胸前纹一个 Timmy 的纹身,因为他太酷了)。使用的 GPU、员工人数或花费的金钱等因素可以作为重要性的指标(导致晋升)——因此许多经理受到激励,推动扩展,而不是寻求其他替代路径。
  • 自我陷阱:LLM公司不得不吃自己的狗粮。即使 Gemini 客观上更好,OpenAI 也只会使用 GPT 为他们的新模型生成合成数据。 DeepSeek 没有这样的顾虑(我使用它的第一印象之一是它看起来像 GPT,现在报告似乎表明它大量使用 GPT 进行训练)。

这 3 个陷阱会增​​加成本并降低模型性能。DeepSeek 实际上不受其中任何一个的约束,因此它能够专注于质量同时保持效率。

还值得记住的是,DeepSeek 在中国(更便宜的劳动力和大多数其他资源 + 更宽松的知识产权),这以西方可能无法复制的方式降低了成本。

最后,我还获得了一些有趣的报告(来自一些我信任的非常可靠的来源),这些报告估计 DeepSeek 的成本比报告的高出很多倍(我已经请求允许在这里分享,如果他们同意,我会分享)。我对这件事了解不多,无法发表评论,但我认为值得思考。

误解 2:开源模型不会破坏 AI 模型利润

人们喜欢表现得好像开源 DeepSeek 的存在会破坏利润一样,因为人们只会下载并使用它,而不是为现有模型付费。

是的,因为-

  • 在线课程和教育行业并不是利润丰厚的行业,因为人们可以阅读 Wikipedia 上的所有内容。
  • 餐馆和快餐不是真实的,因为每个人都可以自己做饭。
  • 这份通讯是我的鬼魂写的。真正的 Devansh 实际上饿死了,因为他的通讯/咨询业务主要关注公开的研究。
  • 服务业是一个由共产党人创造的谎言,目的是破坏美国人的自然自力更生。
  • 当我们有腿(或轮椅)可以带我们去任何我们需要去的地方时,为什么要买车呢?
  • 亚当·斯密在写关于劳动分工的好处时,他很不以为然。当然,人们会把钱省下来,自己做事。

公司可以免费提取开源模型。但公司不会因此而获得报酬。他们获得报酬来制造产品。而以安全和稳定的方式在开源模型之上构建需要大量投资(人才、存储、计算成本……)。 AI 模型公司可以通过批量执行此操作来节省资金(这一想法称为规模经济)。对于一个组织来说,经历这种麻烦是一个沉重的负担,甚至可能不会带来成本节约。当你考虑到这笔资金和(通常更重要的是)大量时间的投资本可以投入到其他机会中时,这种动态会变得更糟 -

对经济学的基本了解可以作为更好思考的工具非常有用

这就是为什么我经常建议我的企业客户不要托管他们自己的模型,尽管我与开源社区有着密切的联系。当你开始考虑我们为建立它们而必须做的所有工作时,操作系统模型的投资回报率比你想象的要低得多。

为了证明这一点,看看 Meta。他们没有陷入这种困境,因为他们没有像亚马逊、谷歌或微软那样的云业务。他们从提供推理中赚到的钱会占用他们的使命。把 Llama 赠送出去,让社区改进它,然后将其重新纳入他们的审核系统/用它来以其他方式提高效率,这要容易得多。

我几年前就提出过这个观点,包括开源如何成为一个关键的区别因素,当时围绕开源的叙述都是悲观的

在我们结束这个话题之前,如果你想了解更多关于公司如何从开源中获利的信息——既通过使用它们,又分享他们的工作开源——那么这篇文章将是你的菜。它得到了很多积极的反馈,并包含了我们 GOAT 的美丽图片-

误解 #3:算法“护城河”在 Gen AI 中毫无意义

随着 DeepSeek 的兴起,我相信你们都看到了对谷歌信函的暗示,信函中提到基础模型公司没有护城河-

我们在这里报道了谷歌信函和为什么开源会获胜

说实话:它既真实又完全不相关。算法护城河现在并不重要,在未来很长一段时间内也不会重要。

对于初创公司(Gen AI 目前所处的阶段)而言,算法护城河是投资者和风险投资家虚构的概念,这样他们就可以假装拥有批判性思维技能。这是一个不存在的现象,因此从未建立过任何有意义的东西的人可以庆幸自己假装问了聪明的问题。

原因很简单 - 护城河是难以复制的静态优势(金钱、供应链、多年构建事物和服务客户​​的智慧......)。当剧本完善时,护城河最有帮助。初创公司本质上处于事物的边缘 - 希望打破现状。初创公司的颠覆性越强,我们对什么可行、什么不可行就越不了解。一家极具颠覆性的初创公司将改变战场,而不是进入现有的战场。

风险投资家寻找护城河并不奇怪。尽管他们进行了营销,但许多风险投资家都是规避风险的人,他们总是希望复制彼此的剧本,以确保更稳定、更可预测的回报。“我们投资了 1000 个将震撼世界的团队,所以谁在乎 999 个团队破产”更多的是一种品牌宣传,而不是一种生活哲学——

我们对生成式人工智能的了解并不像人们想象的/假装的那么多。在这个阶段担心护城河是没有意义的。

建立初创企业的颠覆性也是我认为资源差异对初创企业不那么重要的原因。你花的钱与你获得的实际结果呈对数关系(而且,这也是一个非常卑鄙、丑陋、看起来像你妈妈的日志)。你必须花很多钱才能强行建立一个好的创业产品。

另一方面,初创企业应该呈指数级增长,每项投资都会带来巨大的复合回报。实现这一目标的方法不是规模或想象中的护城河。而是迭代速度。你需要尽快获得真实的反馈,确定人们产生共鸣的内容,并据此做出调整。初创公司不需要无人能复制的秘密算法(这更像是好莱坞概念)。他们需要能够倾听市场的声音,阅读反馈中的台词,过滤掉噪音,并做出最重要的 2 项更改(而不是 10 项平庸的更改)。

这是我愿意投入时间和金钱的原则。事实上,我已经这样做了。你们中的一些人知道我的法律 AI 初创公司 IQIDIS。这里有一些有趣的事情 -

  • 我们进入了一个资金雄厚的初创公司市场:Harvey(筹集了 2.06 亿美元)、Paxton(2800 万美元)和 Leya(3600 万美元)等。
  • 我们还必须关注 Foundation Model 公司。
  • 两者都意味着我们没有“护城河”。
  • 我们也没有数百万美元来竞争(尽管如果你们中有谁愿意给我几百万来表彰我对人类的贡献,我会很感激)。
  • 我也公开分享了我们在本期新闻通讯中的大量研究成果:我们如何处理文档、我们的知识密集型 RAG,以及我们如何构建代理(不可否认纯属巧合,在我的文章小范围传播后不久,Harvey AI 开始谈论代理和法律工作流程的重要性),等等。这应该会进一步削弱我们本已不存在的护城河。

相反,我们的赌注很简单——首席执行官和顾问都是精英律师,他们了解律师的需求。而我足够优秀,能够构建他们需要的东西,而不会被一时的潮流所分心。我们打赌,这两个因素结合起来会让我们比竞争对手(不是由律师主导的)拥有更快的迭代速度。结果呢?我们几乎每天都会收到这样的电子邮件(过去 4 个工作日内有 3 个不同的用户)-

我们还故意只让非好友加入,以尽可能保持反馈的纯净

我们的一位高级用户是一位律师,他使用过许多法律 AI 产品,甚至认为我们优于竞争对手(据称所有竞争对手都有护城河)-

请参阅此处的帖子和有关法律 AI 工具的更多讨论

我们的用户不断主动将我们推荐给其他律师-

总而言之,仅在 1 月份,我们就收到了超过 2000 次购买付费产品的咨询。全部来自口碑增长(对外营销花费 0 美元)。情况已经变得如此失控,以至于我们决定筹集一些资金,以便能够满足需求,并让所有想要为其公司购买 IQIDIS 的人比原计划提前几个月加入。

但是,是的,护城河很重要,因为你从你认识的人那里听说沃伦·巴菲特说他喜欢护城河。再提醒我一下 Facebook 或亚马逊刚开始时有什么技术护城河?

误解 #4:R1 并不像你想象的那么具有革命性。

在大多数情况下,由于某些原因,这并不像你想象的那么具有革命性 -

首先,API 价格战已经持续了一段时间。Google Gemini Flash 1.5 8B 价格低廉且速度快,在大多数任务中都能提供稳定的性能,应该会更加主流。但它不幸成为 Google 模型,因此大多数人几乎不知道它的存在,因为 Google 非常无能的开发者关系团队正忙于通过复制思维模型来打动所有人 -

Flash 1.5 模型让我感到好笑的是,它们是经过蒸馏的(这是 DeepSeek 受到如此多关注的技术之一)。他们在 DeepSeek 之前做了 DeepSeek 所做的一切,只是专注于他们的 AI 模型在正确的事情上进行通信。

当使用较大的模型来训练较小的模型时,就会发生蒸馏。较小的模型试图获得与较大模型相同的答案/logit

我提出 Gemini Flash 1.5(而不是 2)是有原因的。非常重要的原因。让我们暂时搁置一下,探索另一个思路。

DS 确实做了一些有趣的工作,使推理模型更便宜。作为一名技术人员,这很棒(这就是我们将深入研究技术细节的原因)。但我希望你退一步思考这到底有多重要。根据我的经验,虽然关于提高模型能力的讨论非常有影响力,但更重要的讨论围绕着这个问题:“多少智能才算太多智能?”

假设我们确实有一个推理模型。你想用它做什么,以前做不到?

我目前处于一个奇怪的领域,我既在许多顶级圈子内(通过这份时事通讯),又在它们之外(我的项目主要在金融、法律和政府领域 - 都是高价值但低技术的群体)。你会惊讶地发现,通过集成良好的文档处理、自动化脚本、嵌入和简单的 QA 等技术可以获得多少价值。

当高级技术人员谈论技术时,他们经常谈论未来该技术可能做什么。然而,当许多最终用户谈论它时,他们谈论的是他们现在可以用该技术做什么。这是一个非常重要的区别,在跨领域对话中没有得到足够的重视。

以代理为例。大多数硅谷人将 Agent 比作飞轮——你会得到一堆可以执行任务的强大部件,然后将它们串联起来,以大规模创建高质量的任务。然而,在实践中,我见过的大多数(有效且有利可图的)Agent 实现都相对简单,只关注一些细节。这些任务大多可以用更简单、功能更弱的模型来完成(也有一些例外,但最主要的例外并不像你想象的那么常见;这些例外需要专门化)

这可能就是为什么我们关于 Agent 的迷你系列中的每一篇文章都在网上流行的原因。它关注的是实际的实现,而不是未来的假设

根据这个思维链的含义得出一个合理的结论,我们了解到:大多数 AI 模型的用例不需要重型推理模型来匹配性能。硅谷对推理模型的大量炒作都是基于未来能力的承诺,而不是当前的能力。

最后,鉴于有趣的研究表明这些模型的最佳实践可能与标准模型不同,放弃这些模型的机会成本成为将它们随意保留的额外障碍。

让我们回顾一下之前的思维链。结合 1(廉价模型和高效推理已经存在多年)和 2(大多数用例不需要推理模型),我们应该看到一些有趣的东西 -

DeepSeek 使推理模型更便宜并不像市场定价那样具有革命性。

是的。这很酷,并且增加了更多竞争。但这与我们迄今为止看到的并没有什么不同。

这些是我在关于 DeepSeek 的各种对话中发现的主要误解。接下来,我想给你一个附录,其中包含重要的相关想法,如果你非常忙,你可以跳过它,但这将有助于理解这一点以及深度学习和LLM的其他发展。它们是-

  • 研究人员如何按规模获得报酬(为什么这么多基础模型公司一直依赖规模,尽管对“S 曲线”及其收益递减提出了许多警告。
  • 公司在托管和部署自己的LLM时面临的一些挑战。
  • 为什么前沿研究很难(为什么资源在那里并不像工程那么重要)。在我看来,建立一家初创公司很像应用研究,所以理解这一点很有帮助。

附录 1:为什么生成式AI喜欢扩展

简而言之,当创造力抛弃你时,扩展(scaling)可以拯救你 -

用简单的英语来说,如果你是一家风险投资基金的 GP(普通合伙人),并且无法挑选出你的生命依赖它的赢家——看看你,General Catalyst 和亿万富翁首席执行官 Hemant Taneja——你会怎么做?你建立一个帝国。

因为,正如 VC 兄弟喜欢提醒我们的那样,一旦你达到一定的规模(是的,规模确实很重要):

2% 大于 20%

翻译:如果你不擅长挑选创新型公司,你的动机就会从产生回报转变为积累资产。资产基础越大,2% 的管理费就越高。

Sergei 是一位天才,你绝对应该读读他的作品。他对健康科技有很多精辟的见解。同样的原则也适用于我们。

扩展对于企业研究来说是一个非常有吸引力的选择,因为它是中层管理人员梦寐以求的一切:可靠 - 你可以在固定的时间表上估计预计的绩效回报;易于核算 - 你知道它要花多少钱;无干扰 - 它能做更多相同的事情;并且不带个人色彩 - 与可能需要专业专家来设置的更专业的设置不同,规模可以由(相对)任何人完成(在此处阅读更多信息)。

这也直接激励了通过以下方式获得报酬的研究人员:

  • 与快速/更多发布挂钩的奖金:许多研究人员因发表更多研究而获得报酬。这促使他们寻求能够让他们更频繁地发表文章的方法:在他们想要的期刊上找到已经发表的研究成果,对其进行渐进式修改,然后发表(这相当于常见的社会模式的研究)。规模是我们可以追求的最简单的“增量变化”之一,因此许多研究人员都选择了这条路。
  • 裁员:许多研究团队与大型科技公司挂钩,而这些公司与季度评估挂钩。这会给研究人员带来很大压力,他们需要在季度(有时甚至是更短的时间范围内)评估中提供结果。在这种情况下,研究人员将优先考虑那些确保他们不会被解雇的途径,而不是那些最有可能失败但有很小机会彻底改变现状的途径。
  • 公众看法:从一种架构/设置转向完全不同的东西被一些人视为失败,无论是内部还是外部。这可能会阻止研究团队推动工作中的重大变化,依靠规模将他们的产品提升到一个新的水平。
  • 谁买单:坦率地说,大多数研究人员不为他们的实验付费(没有参与其中是一种糟糕的设置)。因此,当他们推动扩展时,他们没有什么可失去的。这在大型科技公司尤其明显,因为团队可能与业务方面脱节(并不是所有的技术人员都积极尝试了解雇主/团队的经济状况)。LLM也加剧了这个问题,因为他们的随机行为和多样化的能力使得投资回报率计算非常困难。在这种情况下,扩展以使能力“更好”成为一种继续填满时间表的简单方法。
这是LLM开发成本上升的原因之一
  • 引用和声望——关于扩展的论文获得更多的引用,因为它们更容易构建(只需做同样的事情,但规模更大!)。更多的引用被认为是一件非常好的事情,因此更多的人会参与基于扩展的研究,希望他们的工作能在其他作品中被引用。例如,我经常听到推特上的某些“深度学习专家”发表这样的帖子——“不要进入计算机视觉领域,NLP 的前景要好得多”。类似的心态通常适用于研究方向,研究人员会考虑职业前景而不是其他因素 -
  • 资助资金 - 大型扩展项目很容易向资助者解释。你可以指出明确的数字并说“我们会把它做大!”它还有更清晰的可交付成果和时间表,投资者将这两点贴在他们最喜欢的抱枕上。估算扩展的成本要容易得多(虽然不准确,但你可以估算) - 与没有人真正预测的非常实验性的想法相比,这使得它更容易推销。
  • 易于理解:从技术层面上讲,扩展更容易证明和解释,因为它不那么新颖。有点违反直觉的是,当获得内部和外部的认可时,这是一个加分项(如果论文推动的是一些非常新的东西(未经证实的)),审稿人会更犹豫是否接受一篇论文发表在知名期刊上)。如果我想推动一个项目,我可能会更容易推动扩展。

通过避免这个陷阱,DeepSeek 能够节省大量资金。

附录 2:运行免费开源模型的成本

是的,下载开源模型是免费的。但使用它们非常昂贵。以下是你必须考虑的一些因素:

  • 它们的推理。如果你必须处理多个并发用户,这可能会成为一个大问题,因为在你的终端流式传输 LLM 将比从提供商调用 LLM 慢得多。
  • 存储。
  • 正确管理它们所需的人才。仅雇用 1 名工程师(在本地部署 LLM)和 1 名研究人员(查看信息)每月就可以为你节省约 3 万美元。假设 1 万美元,假设两人只花三分之一的时间在这上面。即使在这里,你也必须运行数千万个token(甚至数亿个,取决于模型)才能收回直接投资(甚至不是机会成本)。
  • 责任。
  • 持续维护。
  • 如果有更好的东西出现,就换一个。

下次当某人告诉你开源模型可以免费运行时,请考虑这一点。

附录 3:研究为何艰难

在实际研究中,你不仅仅是在解决一个已知问题——你还在不断发现真正的问题。这带来了一系列独特的挑战,使研究变得特别苛刻和昂贵。

递归不确定性:

每次突破通常都会揭示我们不知道存在的新的复杂层次。解决方案通常需要解决我们只能在过程中发现的先决条件问题,而前进的道路经常需要回溯和重建我们的基础理解。在科学上,我们都有点像琼恩·雪诺,什么都不知道。我们艰难前行,坚持我们有限的知识,但偶尔(如果你是我,则经常)会发现我们绝对自信的知识是完全错误的。

举一个离家近的例子,回想一下关于批量大小的研究

及其对深度学习的影响。长期以来,我们都坚信大批量训练不利于泛化,这种现象被称为泛化差距。随着论文《深度学习的大批量训练:泛化差距和尖锐最小值》的发表,这场讨论似乎结束了。该论文提出了(并验证了)一个非常可靠的假设,解释了为什么会出现这种泛化差距。

数值证据支持大批量方法倾向于收敛到训练和测试函数的尖锐最小值这一观点,众所周知,尖锐最小值会导致较差的泛化。相比之下,小批量方法始终收敛到平坦最小值,我们的实验支持一种普遍持有的观点,即这是由于梯度估计中固有的噪声造成的。

这里有很多内容,让我们一步一步来。下图优雅地描绘了尖锐最小值和平坦最小值之间的差异。

在极小值处,X 的相对较小的变化会导致损失发生更大的变化

一旦你理解了区别,让我们来理解作者证实的两个(相关的)主要主张:

  • 使用较大的批大小将使你的代理具有非常尖锐的损失景观。而这种尖锐的损失景观将降低网络的泛化能力。
  • 较小的批大小会产生更平坦的景观。这是由于梯度估计中的噪声。

作者在论文中强调了这一点,并陈述了以下内容:

他们为此提供了大量证据(如果您感兴趣,请查看论文),创造了一个看似一目了然的问题。

然而,事情并不像看起来那么清楚。事实证明,差距是由于 LB 模型获得较少更新造成的。如果模型使用两倍的批量大小,那么根据定义,它将使用一半的更新来浏览数据集。如果我们通过使用适应性训练机制来解决这个问题,大批量学习器将赶上小批量学习器——

批大小如何影响你的模型学习

这使我们能够保持大批量的效率,同时又不会破坏我们的泛化能力。

这在研究中经常发生,学习新东西只会让我们产生更多问题,或者让我们质疑我们认为自己知道的东西。例如,了解可训练和不可训练神经网络超参数配置之间的分形边界只会让我们产生更多问题,例如为什么会发生这种情况以及我们可以用它做什么——

好的研究开始尝试回答问题,但往往会给我们带来比以前更多的问题。这可能导致非常昂贵的税收——

“未知的未知数”税

在前沿研究中,我们通常不知道我们不知道什么。这使得初始成本和时间估计本质上不可靠。随着理解的发展,成功标准可能会发生变化,最有价值的发现有时来自意想不到的方向。

这种不确定性给研究工作带来了负担——我们需要保持灵活性,并保留能力来追求意想不到的方向,即使我们无法提前预测哪些方向最有价值。这就是为什么 80-20 的科学突破如此困难,以及为什么像爱迪生尝试 1000 次灯泡迭代这样的故事在发明家/科学家中很常见。

工具悖论

前沿研究最昂贵的方面之一是研究人员经常需要发明新工具来进行实验。这产生了“元研究”负担,需要投入大量时间和资源来创建甚至开始初步研究所需的基础设施。

研究人员经常发现自己需要创建新的测量方法来验证他们的结果并开发新的框架来解释他们的发现。这种双重创新——创造工具来创造发现——给研究过程增加了相当大的复杂性和成本。如果你曾经查看过 LLM 基准,对它们与你的用例的转换效果感到沮丧,并创建了自己的评估集,那么你就很了解这种痛苦。

非线性进展路径

研究并不遵循可预测的线性路径。相反,它通常涉及多个并行探索,其中大多数都不会成功。团队经常追求看似有希望的方向,但最终却走上了死胡同,而意外的发现可能需要改变整个研究方向。即使是进展也经常在长时间的停滞之后突然出现。这就是我们认为扩展如此有吸引力的原因之一——它似乎在一个不可预测的领域提供了可预测的回报。

与软件工程相比,科学需要非常长的周期,其中可能包括数月的研究才能投入使用,以及广泛的分析以了解实验的结果。

—— Chris Walton 博士,亚马逊高级应用科学经理。

这种非线性特性使管理和资助研究尤其具有挑战性,因为传统的进度指标无法反映探索阶段创造的真正价值。

沟通开销

问题是跨学科的,而专家通常不是(尤其是如今极端专业化)。来自不同领域的专家往往缺乏共同的词汇,不同学科有不同的方法论假设。弥合这些知识差距需要投入大量时间,而且文档需求比单一学科研究高得多。

这些原因以及更多原因使研究成为一个特别困难的过程。误解/低估这一领域的挑战往往会导致科学家和管理层相互矛盾(因此出现了科学家不切实际地研究无关紧要的问题的刻板故事,或者管理层不断描述在科学家取得重大突破之前停止资助科学家)。

希望这能让你更清楚地了解 DeepSeek 的情况,以及它将如何影响市场。让我知道你对此的看法。


原文链接:DeepSeek R1, Model Distillation, and how Da AI Models Markets will be impacted

汇智网翻译整理,转载请标明出处