MODEL-ZOO

DeepSeek R1 vs. OpenAI O1

在DeepSeek R1出现之前，我认为 OpenAI O1 模型是自 ChatGPT 以来 AI 领域发生的最好的事情。

admin

Jan 23, 2025 • 13 min read

在今天之前，我认为 OpenAI O1 模型是自 ChatGPT 以来 AI 领域发生的最好的事情。

O1 系列模型是“推理模型”—与即时响应的传统模型不同，这些模型花时间“思考”，从而产生更好的结果。

价格要高得多。

事实上，这些模型非常昂贵，只有我的 AI 应用程序的高级用户才能访问。不是因为我不想抑制我的用户，而是因为我根本负担不起补贴这个昂贵的模型。

不过，多亏了中国，我的用户现在可以体验到下一代语言模型的全部功能。

而且他们可以以 2% 的价格做到这一点。这不是开玩笑。

1、中文 ChatGPT

就像 OpenAI 和 Meta 生了一个孩子.

DeepSeek 是中文 OpenAI，但有一些重要的警告。与 OpenAI 不同，DeepSeek 将其所有模型发布给开源社区。这包括他们的代码、架构，甚至模型权重——所有这些都可供任何人下载。

具有讽刺意味的是，这让他们比 OpenAI 更开放。

DeepSeek R1 是他们最新的模型。就像 OpenAI 的 O1 一样，R1 是一个推理模型，能够在给出答案之前思考问题。

就像 OpenAI 一样，这个“思考过程”令人难以置信。

DeepSeek R1、OpenAI o1 和原始 DeepSeek-V3 的并排比较

R1 在各种不同的基准测试中与 O1 匹敌或超过 O1。要查看这些基准测试，请查看其 GitHub 页面。此外，根据我的经验，它更快、更便宜，并且具有可比的准确性。

事实上，如果你将它与苹果进行比较，R1 不只是便宜一点；它便宜得多。

R1：0.55 美元/百万输入令牌 | 2.19 美元/百万输出令牌
O1：15.00 美元/百万输入令牌 | 60.00 美元/百万输出令牌

在相同的基准测试性能下，该模型比 OpenAI 的 O1 模型便宜 50 倍。这太疯狂了。

但这只是基准测试。R1 模型在复杂的现实任务中真的表现良好吗？

剧透警告：是的。

2、R1 与 O1 的并排比较

在之前的一篇文章中，我将 OpenAI 的 O1 模型与 Anthropic 的 Claude 3.5 Sonnet 进行了比较。在那篇文章中，我展示了 O1 优于 Claude，并且能够执行复杂的实际任务，例如生成 SQL 查询。相比之下，Claude 举步维艰。

随后执行模型生成的 SQL，然后将结果发送回模型进行进一步处理和汇总。

我决定用 O1 复制同样的测试。具体来说，我问了以下问题：

自 2000 年 1 月 1 日以来，SPY 在 7 天内下跌了 5% 多少次？
从每个开始日期开始，接下来 180 天内的平均最大跌幅是多少？接下来的 365 天呢？
从每个结束日期开始，平均 180 天回报率和平均 365 天回报率是多少，与 7 天百分比跌幅相比如何？
根据这些结果创建特定的算法交易策略。

要获得确切对话的链接，你可以在其中查看、复制并从我离开的地方继续，请查看这个链接。

3、使用 R1 和 O1 进行复杂的财务分析 - 比较

让我们从第一个问题开始，基本上询问模型 SPY 经历大幅下跌的频率。

确切的问题是：

Since Jan 1st 2000, how many times has SPY fallen 5% in a 7-day period? In other words, at time t, how many times has the percent return at time (t + 7 days) been -5% or more.

Note, I’m asking 7 calendar days, not 7 trading days.

In the results, include the data ranges of these drops and show the percent return. Also, format these results in a markdown table.

翻译：
自 2000 年 1 月 1 日以来，SPY 在 7 天内下跌了 5% 多少次？换句话说，在时间 t，时间 (t + 7 天) 的百分比回报率有多少次为 -5% 或更多。

注意，我问的是 7 个日历日，而不是 7 个交易日。

在结果中，包括这些下跌的数据范围并显示百分比回报率。此外，将这些结果格式化为降价表。

这是它的回应：

让我们将其与 OpenAI 的 o1 的回应进行比较：

两个回应都包含我们可以检查的 SQL 查询：

我们可以通过查看完整对话并单击消息底部的信息图标来检查确切的查询：

如果我们仔细观察，我们会注意到两个模型的响应都是100% 正确。

它们之间的区别是：

O1 的响应包含一个总发生次数字段，从技术上讲更正确（我确实问过“这种情况发生了多少次？”）
O1 的响应也没有被截断。相比之下，R1 的响应在降价表中被删节，因此很难看到完整的回报列表

OpenAI 的响应稍好一些，但好不了多少。两种模型的回答都很准确，而且 R1 的响应在提取现实世界的见解方面完全没问题。

让我们继续下一个问题：

From this, what is the average 180 day max drawdown, the average 365 day max drawdown, and how does it compare to the 7 day percent drop?

翻译：从中，平均 180 天最大回撤是多少，平均 365 天最大回撤是多少，与 7 天百分比跌幅相比如何？

R1 模型的响应如下：

R1 对平均 180 天最大回撤、365 天最大回撤以及与 7 天跌幅的比较的响应

相比之下，O1 的响应如下：

O1 对平均 180 天最大回撤、365 天最大回撤以及与 7 天跌幅的比较的响应

在这个例子中，R1 的答案实际上更好！它通过在响应中包含一个比率来回答“与 7 天跌幅相比如何”的问题。

除此之外，答案几乎完全相同。

对于下一个问题，我们问了以下问题：

What was the average 180 day return and the average 365 day return, and how does it compare to the 7 day percent drop?

翻译：平均 180 天回报率和平均 365 天回报率是多少，与 7 天百分比跌幅相比如何？

在这种情况下，结果几乎完全相同。 R1 的格式稍好一些，但这完全是主观的。

真正的考验是看 R1 能否在完全不同的任务中表现出色——创建自动交易策略。

4、使用 R1 和 O1 创建算法交易策略

要创建交易策略，我们本质上是要求模型生成“投资组合”的配置。

创建此配置涉及许多步骤。

我们创建“投资组合”，其中包括名称、初始值和交易策略的描述。
根据此描述，我们创建“策略”配置。此配置包括一个操作和一个关于何时执行该操作的描述（称为“条件”）。
根据此描述，我们创建“条件”配置，可以将其解释为算法交易

将一个提示的输出用作另一个提示的输入的过程称为“提示链”：

如下所示……我们只需向模型提出以下问题：

Create a portfolio with $10,000 with the following strategies
- Buy 50% of our buying power in SPXL if we have less than $500 of SPXL positions
- Sell 20% of our portfolio value in SPXL if we haven’t sold SPXL in 10000 days and our SPXL positions are up 10% or more
- Sell 20% of our portfolio value in SPXL if the SPXL stock price is up 10% from when we last sold it
- Buy 40% of our buying power in SPXL if our SPXL positions are down 12% or more

翻译：
创建一个包含 10,000 美元的投资组合，并采用以下策略：

- 如果我们的 SPXL 头寸少于 500 美元，则购买 SPXL 中 50% 的购买力
- 如果我们在 10000 天内没有出售 SPXL，并且我们的 SPXL 头寸上涨 10% 或更多，则出售 SPXL 中 20% 的投资组合价值
- 如果 SPXL 股价比我们上次出售时上涨 10%，则出售 SPXL 中 20% 的投资组合价值
- 如果我们的 SPXL 头寸下跌 12% 或更多，则购买 SPXL 中 40% 的购买力

与 O1 一样，该模型响应正确，在第一次尝试时就生成了高利润的算法交易策略：