AI:模型即产品

过去几年里,关于下一波人工智能发展的方向有很多猜测:是代理?推理器?还是真正的多模态?我认为现在可以明确地说:模型就是产品。

AI:模型即产品

过去几年里,关于下一波人工智能发展的方向有很多猜测:是代理?推理器?还是真正的多模态?

我认为现在可以明确地说:模型就是产品。

目前研究和市场发展中的所有因素都推动着这一方向。

  • 通用模型的扩展已经停滞。这就是GPT-4.5发布的核心信息:能力的增长是线性的,而计算成本却呈几何级数增长。即使在过去两年中在训练和基础设施效率方面取得的所有进步,OpenAI也无法以可承受的价格部署这个巨大的模型。
  • 有目的的训练比预期要好得多。强化学习与推理的结合意味着模型突然开始学习任务。这不是机器学习,也不是基础模型,而是一种秘密的第三种东西。即使是小型模型也能突然在数学上表现出色。不再是仅仅生成代码,而是能够自主管理整个代码库。Claude在非常有限的上下文信息和没有专门训练的情况下玩Pokemon。
  • 推理成本正在自由落体式下降。DeepSeek最近的优化意味着所有的可用GPU可以覆盖全球人口每天10,000个令牌的需求,而这种需求水平从未达到过。向模型提供商出售令牌的经济学不再可行:他们必须向价值链的更高层迈进。

这也是一个令人不安的方向。所有投资者都押注于应用层。在人工智能进化的下一阶段,应用层很可能会首先被自动化和颠覆。

1、即将出现的模型形态

在过去几周里,我们看到了新一代模型作为产品的两个主要例子:OpenAI的DeepResearch和Claude Sonnet 3.7。

我读到了很多关于DeepResearch的误解,这并不是由开放和封闭克隆的增多所帮助的。OpenAI并没有在O3之上构建一个包装器。他们实际上训练了一个全新的模型,能够在内部执行搜索,而不需要任何外部调用、提示或编排:

该模型学会了核心浏览能力(搜索、点击、滚动、解释文件)……以及如何通过强化学习训练来合成大量网页以找到特定的信息或撰写全面的报告。

DeepResearch不是标准的语言模型,也不是标准的聊天机器人。它是一种新的“研究语言模型”,专门设计用于端到端地执行搜索任务。所有认真使用它的人都会立即注意到区别:该模型生成结构一致且带有底层源分析过程的长篇报告。相比之下,正如Hanchung Lee指出的那样,所有其他DeepSearch,包括Perplexity和Google变体,只是普通的模型加上一些小改动:

Google的Gemini和Perplexity的聊天助手也提供了“深度研究”功能,但它们都没有发表任何关于如何优化其模型或系统以完成这项任务的文献,也没有进行任何实质性的定量评估……我们可以假设所做的微调工作并不显著。

Anthropic一直在更清晰地阐述他们的当前愿景。去年12月,他们引入了一个有争议但在我看来正确的代理模型定义。类似于DeepSearch,一个代理必须在内部执行目标任务:他们“动态地指导自己的流程和工具使用,控制如何完成任务”。

大多数代理初创公司目前正在构建的并不是代理,而是工作流,即“LLM和工具通过预定义的代码路径进行编排的系统”。工作流可能仍然带来一些价值,特别是在垂直适应方面。然而,对于目前在大型实验室工作的任何人来说,很明显所有重大进展都将通过重新设计模型本身来实现。

我们有一个非常具体的演示,就是在Claude 3.7的发布中,这是一个主要针对复杂代码使用场景训练的模型。所有像Devin这样的工作流适应在SWE基准测试中都得到了重大提升。

再举一个小规模的例子:在Pleias,我们目前正在努力自动化RAG。当前的RAG系统是一系列相互连接但脆弱的工作流:路由、分块重排序、查询解释、查询扩展、源上下文化、搜索工程。随着训练技术栈的发展,确实有可能将这些过程捆绑在两个分离但相互连接的模型中,一个是用于数据准备,另一个是用于搜索/检索/报告生成。这需要一个精心设计的合成管道和完全新的强化学习奖励函数。真正的训练,真正的研究。

这一切在实践中意味着什么:转移复杂性。训练预测了大量的行动和边缘情况,因此部署变得简单得多。但在这一过程中,大部分价值现在是在训练模型时创造的,并且很可能最终会被模型训练者捕获。简而言之,Claude的目标是颠覆并取代当前的工作流,比如这个简单的“代理”系统来自llama index:

取而代之的是这个:

2、训练还是被训练

重申一下:大实验室并不是在暗中推进。虽然他们有时可能很不透明,但他们正在公开一切:他们会打包,会上升到应用层,并试图在那里捕获大部分价值。商业后果也很明显。Databricks的Gen AI副总裁Naveen Rao说得很好:

所有的闭源AI模型供应商将在未来2-3年内停止销售API。只有开源模型将通过API提供……闭源模型供应商正在尝试建立非商品化的能力,他们需要很好的UI来交付这些能力。这不仅仅是一个模型,而是一个具有特定用途的应用程序和UI。

所以现在发生的一切只是一些否认。模型供应商和包装器之间的蜜月期已经结束。事情可能会朝两个方向发展:

  • Claude Code和DeepSearch是朝着这个方向进行的早期技术和产品实验。你会注意到DeepSearch不是通过API提供的,而是用于创建高级订阅的价值。Claude Code是一个极简主义的终端集成。奇怪的是,尽管Claude 3.7在Claude Code中表现完美,Cursor却对其感到困难,我已经看到有几个高端用户因此取消了他们的订阅。实际的LLM代理并不关心现有的工作流:它们取代它。
  • 最高调的包装器现在正忙于成为混合AI训练公司。它们确实有一些训练能力,尽管很少被宣传。Cursor的主要资产之一是他们的小型自动完成模型。WindSurf有自己的内部廉价代码模型,Codium。Perplexity一直依赖于家庭分类器进行路由,并且最近转向训练自己的DeepSeek变体用于搜索目的。
  • 对于较小的包装器,除了可能更加依赖无偏见的推理提供商外,不会有太大变化,如果大实验室完全放弃这个市场的话。我还预计会看到更多对UI的关注,因为即使是更通用的模型也可能捆绑常见的部署任务,特别是对于RAG。

简而言之,大多数成功包装器的困境很简单:是训练还是被训练。它们现在所做的不仅是为大实验室进行免费的市场研究,甚至所有输出最终都是通过模型提供商生成的,因此也是免费的数据设计和生成。

之后会发生什么,谁也无法预测。成功的包装器确实拥有深入了解其垂直领域的优势,并积累了大量宝贵的用户反馈。然而,在我的经验中,从模型到应用层向下发展比从零开始构建全新的训练能力要容易得多。包装器可能也没有得到投资者的帮助。据我所听到的,对训练的负面情绪如此强烈,以至于他们几乎不得不隐藏自己最核心的价值所在:无论是Cursor的小模型还是Codium都没有得到适当的文档记录。

3、强化学习未被定价

这让我回到了真正痛苦的部分:目前所有的AI投资都是相关的。基金在以下假设下运作:

  • 真正的价值在于独立于模型层的应用层,这是最佳定位来颠覆现有市场。
  • 模型供应商只会以不断降低的价格出售令牌,从而让包装商变得更盈利。
  • 封闭模型的包装将满足所有现有的需求,即使在受监管的行业中,长期存在对外部依赖的担忧。
  • 构建任何训练能力都只是浪费时间。这不仅包括预训练,还包括任何形式的训练。

我担心这看起来越来越像是一个冒险的赌注,也是对最新技术发展,尤其是强化学习的准确价格评估的市场失败。

在当前的经济生态系统中,风险投资……ndd 是为了寻找不相关的投资。它们不会击败标普 500 指数,但这并不是大型机构投资者所追求的:他们想要分散风险,确保在糟糕的一年里至少有些事情会奏效。模型训练就是一个完美的例子:在大多数西方经济体即将陷入衰退的背景下,存在大量的颠覆潜力。然而,模型训练师却无法筹集资金,或者至少不能以通常的方式筹集。Prime Intellect 是少数几家具有成为前沿实验室潜力的西方人工智能训练公司之一,但尽管他们在训练第一个去中心化大语言模型方面取得了成就,他们仍然难以筹集到超过普通公司的资金。

除此之外,除了大型实验室,当前的训练生态系统非常小。你可以用一只手数清楚这些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina,以及 Hugging Face 的预训练团队(实际上很小)……加上一些学术参与者(如 Allen AI、Eleuther 等)共同构建和支持了大部分现有的开放训练基础设施。在欧洲,我知道至少有 7-8 个 LLM 项目将整合我们在 Pleias 开发的通用语料库和一些预训练工具——其余的将是微调网络,很可能是 Nous 或 Arcee 提供的后训练指令集。

目前的资金环境存在问题。即使是 OpenAI 也意识到了这一点。最近,有人对当前硅谷创业环境中缺乏“垂直强化学习”感到不满(相关推文)。我认为这条信息直接来自山姆·阿尔特曼,并且可能会导致下一批 YC 公司做出一些调整,但这也表明了一个更大的转变:很快,大型实验室的合作伙伴选择将不再是 API 客户,而是参与早期训练阶段的关联承包商。

如果模型就是产品,你不一定能独自构建它。搜索和代码是容易的低垂果实:两年来的主要用例,市场几乎成熟,你可以在几个月内发布一个新的Cursor。现在,许多未来最有利可图的人工智能用例还没有达到这个发展阶段——典型地,想想仍然主导世界经济的那些基于规则的系统……专注于特定领域的小型跨学科团队可能最适合解决这些问题——最终成为初始基础工作完成后可能被收购的目标。我们也可以在 UI 方面看到类似的管道。一些优选合作伙伴,通过提供独家访问专门模型的 API,前提是他们能够进行业务收购。

我还没有提到 DeepSeek 或中国实验室。只是因为 DeepSeek 已经更进一步:不是将模型作为产品,而是作为通用基础设施层。像 OpenAI 和 Anthropic 一样,梁文峰 公开了他的计划

我们认为,当前阶段是技术创新的爆发,而不是应用的爆发……如果完整的上下游工业生态系统形成,那么我们就无需自己开发应用。当然,如果我们需要的话,也没有障碍来开发应用,但研究和技术创新始终是我们优先考虑的重点。

在这个阶段,仅关注应用就像是“用上一场战争的老将军来打下一场战争”。恐怕我们现在正处于这样一个时刻,许多西方人甚至没有意识到上一场战争已经结束。


原文链接:The Model is the Product

汇智网翻译整理,转载请标明出处