DeepSeek R1 vs. OpenAI O1

在DeepSeek R1出现之前,我认为 OpenAI O1 模型是自 ChatGPT 以来 AI 领域发生的最好的事情。

DeepSeek R1 vs. OpenAI O1

在今天之前,我认为 OpenAI O1 模型是自 ChatGPT 以来 AI 领域发生的最好的事情。

O1 系列模型是“推理模型”—与即时响应的传统模型不同,这些模型花时间“思考”,从而产生更好的结果。

价格要高得多。

一整天使用 OpenAI 最强大的模型

事实上,这些模型非常昂贵,只有我的 AI 应用程序的高级用户才能访问。不是因为我不想抑制我的用户,而是因为我根本负担不起补贴这个昂贵的模型。

相对成本

不过,多亏了中国,我的用户现在可以体验到下一代语言模型的全部功能。

而且他们可以以 2% 的价格做到这一点。这不是开玩笑。

1、中文 ChatGPT

就像 OpenAI 和 Meta 生了一个孩子.

DeepSeek 是中文 OpenAI,但有一些重要的警告。与 OpenAI 不同,DeepSeek 将其所有模型发布给开源社区。这包括他们的代码、架构,甚至模型权重——所有这些都可供任何人下载。

具有讽刺意味的是,这让他们比 OpenAI 更开放。

DeepSeek R1 是他们最新的模型。就像 OpenAI 的 O1 一样,R1 是一个推理模型,能够在给出答案之前思考问题。

就像 OpenAI 一样,这个“思考过程”令人难以置信。

DeepSeek R1、OpenAI o1 和原始 DeepSeek-V3 的并排比较

R1 在各种不同的基准测试中与 O1 匹敌或超过 O1。要查看这些基准测试,请查看其 GitHub 页面。此外,根据我的经验,它更快、更便宜,并且具有可比的准确性。

事实上,如果你将它与苹果进行比较,R1 不只是便宜一点;它便宜得多。

  • R1:0.55 美元/百万输入令牌 | 2.19 美元/百万输出令牌
  • O1:15.00 美元/百万输入令牌 | 60.00 美元/百万输出令牌
DeepSeek R1 与 OpenAI O1 的成本

在相同的基准测试性能下,该模型比 OpenAI 的 O1 模型便宜 50 倍。这太疯狂了。

但这只是基准测试。R1 模型在复杂的现实任务中真的表现良好吗?

剧透警告:是的。

2、R1 与 O1 的并排比较

之前的一篇文章中,我将 OpenAI 的 O1 模型与 Anthropic 的 Claude 3.5 Sonnet 进行了比较。在那篇文章中,我展示了 O1 优于 Claude,并且能够执行复杂的实际任务,例如生成 SQL 查询。相比之下,Claude 举步维艰。

随后执行模型生成的 SQL,然后将结果发送回模型进行进一步处理和汇总。

显示使用 LLM 进行金融研究的过程的图表

我决定用 O1 复制同样的测试。具体来说,我问了以下问题:

  • 自 2000 年 1 月 1 日以来,SPY 在 7 天内下跌了 5% 多少次?
  • 从每个开始日期开始,接下来 180 天内的平均最大跌幅是多少?接下来的 365 天呢?
  • 从每个结束日期开始,平均 180 天回报率和平均 365 天回报率是多少,与 7 天百分比跌幅相比如何?
  • 根据这些结果创建特定的算法交易策略。

要获得确切对话的链接,你可以在其中查看、复制并从我离开的地方继续,请查看这个链接

3、使用 R1 和 O1 进行复杂的财务分析 - 比较

让我们从第一个问题开始,基本上询问模型 SPY 经历大幅下跌的频率。

确切的问题是:

Since Jan 1st 2000, how many times has SPY fallen 5% in a 7-day period? In other words, at time t, how many times has the percent return at time (t + 7 days) been -5% or more.

Note, I’m asking 7 calendar days, not 7 trading days.

In the results, include the data ranges of these drops and show the percent return. Also, format these results in a markdown table.
翻译:
自 2000 年 1 月 1 日以来,SPY 在 7 天内下跌了 5% 多少次?换句话说,在时间 t,时间 (t + 7 天) 的百分比回报率有多少次为 -5% 或更多。

注意,我问的是 7 个日历日,而不是 7 个交易日。

在结果中,包括这些下跌的数据范围并显示百分比回报率。此外,将这些结果格式化为降价表。

这是它的回应:

DeepSeek 对“急剧下降”问题的回应

让我们将其与 OpenAI 的 o1 的回应进行比较:

OpenAI 对“急剧下降”问题的回应

两个回应都包含我们可以检查的 SQL 查询:

R1 生成的 SQL 查询

我们可以通过查看完整对话并单击消息底部的信息图标来检查确切的查询:

如果我们仔细观察,我们会注意到两个模型的响应都是100% 正确。

它们之间的区别是:

  • O1 的响应包含一个总发生次数字段,从技术上讲更正确(我确实问过“这种情况发生了多少次?”)
  • O1 的响应也没有被截断。相比之下,R1 的响应在降价表中被删节,因此很难看到完整的回报列表

OpenAI 的响应稍好一些,但好不了多少。两种模型的回答都很准确,而且 R1 的响应在提取现实世界的见解方面完全没问题。

让我们继续下一个问题:

From this, what is the average 180 day max drawdown, the average 365 day max drawdown, and how does it compare to the 7 day percent drop?
翻译:从中,平均 180 天最大回撤是多少,平均 365 天最大回撤是多少,与 7 天百分比跌幅相比如何?

R1 模型的响应如下:

R1 对平均 180 天最大回撤、365 天最大回撤以及与 7 天跌幅的比较的响应

相比之下,O1 的响应如下:

O1 对平均 180 天最大回撤、365 天最大回撤以及与 7 天跌幅的比较的响应

在这个例子中,R1 的答案实际上更好!它通过在响应中包含一个比率来回答“与 7 天跌幅相比如何”的问题。

除此之外,答案几乎完全相同。

对于下一个问题,我们问了以下问题:

What was the average 180 day return and the average 365 day return, and how does it compare to the 7 day percent drop?
翻译:平均 180 天回报率和平均 365 天回报率是多少,与 7 天百分比跌幅相比如何?
大幅下跌后的平均回报率——左侧是 R1 的响应,右侧是 O1 的响应

在这种情况下,结果几乎完全相同。 R1 的格式稍好一些,但这完全是主观的。

真正的考验是看 R1 能否在完全不同的任务中表现出色——创建自动交易策略。

4、使用 R1 和 O1 创建算法交易策略

要创建交易策略,我们本质上是要求模型生成“投资组合”的配置。

创建此配置涉及许多步骤。

  • 我们创建“投资组合”,其中包括名称、初始值和交易策略的描述。
  • 根据此描述,我们创建“策略”配置。此配置包括一个操作和一个关于何时执行该操作的描述(称为“条件”)。
  • 根据此描述,我们创建“条件”配置,可以将其解释为算法交易

将一个提示的输出用作另一个提示的输入的过程称为“提示链”:

“创建投资组合”提示链

如下所示……我们只需向模型提出以下问题:

Create a portfolio with $10,000 with the following strategies
- Buy 50% of our buying power in SPXL if we have less than $500 of SPXL positions
- Sell 20% of our portfolio value in SPXL if we haven’t sold SPXL in 10000 days and our SPXL positions are up 10% or more
- Sell 20% of our portfolio value in SPXL if the SPXL stock price is up 10% from when we last sold it
- Buy 40% of our buying power in SPXL if our SPXL positions are down 12% or more
翻译:
创建一个包含 10,000 美元的投资组合,并采用以下策略:

- 如果我们的 SPXL 头寸少于 500 美元,则购买 SPXL 中 50% 的购买力
- 如果我们在 10000 天内没有出售 SPXL,并且我们的 SPXL 头寸上涨 10% 或更多,则出售 SPXL 中 20% 的投资组合价值
- 如果 SPXL 股价比我们上次出售时上涨 10%,则出售 SPXL 中 20% 的投资组合价值
- 如果我们的 SPXL 头寸下跌 12% 或更多,则购买 SPXL 中 40% 的购买力

与 O1 一样,该模型响应正确,在第一次尝试时就生成了高利润的算法交易策略:

与标准普尔 500 指数相比,这一策略非常出色。它的表现比市场高出 2 倍,拥有更高的夏普比率、更高的索提诺比率和类似的最大回撤。

该策略的性能指标

绝对令人难以置信。

5、注意事项:此模型并不完美

尽管能够完美地生成准确的查询和 JSON 配置,但该模型确实存在一些缺点。

首先,在查看此模型的日志时,我注意到它有时会生成无效的 SQL 查询:

日志中错误消息的示例

但是,由于我的平台具有自我纠正逻辑,它会自动重试没有意义或无效的查询,所以这不是一个大问题,因为它往往会自我纠正。

除此之外,有一次,模型确实超时了,没有对我提出的问题给出有效的答复:

模型没有回应

我不得不重新问这个问题,它第二次回答正确了。

我并不是说其他​​模型(如 O1)没有这些问题;我只是没有注意到它们。但价格只有 2%,你可以用 R1 发送 50 倍的消息来获得类似的答案。

正因为如此,这些小错误一点也不困扰我。这个模型释放的价值令人震惊,它让每个人都能更轻松地获得强大的人工智能。有了这个模型,我的 ChatGPT Pro 订阅(每月 200 美元)几乎看起来像是在浪费钱。这说明了些什么。

6、总结性想法

对于 OpenAI 的推理模型,我并不是一见钟情。我发现它非常慢而且非常昂贵。当我开始使用它并看到它在财务分析和算法交易方面有多么神奇时,我才爱上它。

对于 DeepSeek 的 R1,我几乎立刻就爱上了它。这句话被过度使用了,但在这种情况下,它确实是革命性的。

由于它们是开源的,它们现在已经让数百万开发人员能够在其模型的基础上进行构建、修改和改进,这将进一步降低成本并迫使 OpenAI 带来一些巨大的成果。

而且由于它们非常便宜,我可以为我的算法交易平台的所有用户启用该模型,无论您是否是付费用户。

事实上,该模型非常便宜且功能强大,以至于我将所有用户的默认模型都切换为它。 由于它只比 OpenAI 的 4o-mini(他们最便宜的模型和我之前的默认模型)贵 4 倍,我真的没有理由不这样做。

有了这个模型,人工智能就变得人人可用了。 OpenAI、Anthropic 和谷歌陷入了很大的麻烦。 如果一个在更便宜的 GPU 上训练的规模小得多的开源模型能够胜过这些价值数十亿美元(或数万亿美元)的科技巨头,那么他们绝对不可能在没有“镜像力量”之类的陷阱卡的情况下生存下来。

而整个世界都将从他们的灭亡中受益。


原文链接:The Chinese OBLITERATED OpenAI. A side-by-side comparison of DeepSeek R1 vs OpenAI O1 for Finance

汇智网翻译整理,转载请标明出处