OpenAI o3-mini vs. DeepSeek R1
整个一月份,我都是 OpenAI 的反对者。
我多次公开抨击他们。我广泛讨论了他们的开源竞争对手 DeepSeek R1,以及一小队中国研究人员如何在他们自己的游戏中摧毁了 OpenAI。
我还谈到了 Operator,这是OpenAI试图制作一个有用的“AI 代理”的失败尝试,该代理可以完全自主地执行任务。
所以当 Sam Altman 宣布他们今天将发布 o3-mini 时,我认为这将是另一次从实际成功的 AI 公司那里抢风头的失败尝试。
我 110% 错了。O3-mini 简直太棒了。
1、什么是 O3-mini?
OpenAI 的 o3-mini 是他们新改进的大型推理模型。
与传统的即时响应的大型语言模型不同,推理模型旨在“思考”答案,然后再提出解决方案。而这个过程过去需要很长时间。
例如,当我将 DeepSeek R1 集成到我的算法交易平台 NexusTrade 中时,我将所有超时时间增加到 30 分钟……针对单个问题。
我还将实现从传统的请求/响应方法更改为基于轮询的方法,因为连接会超时。
然而,OpenAI 做了一件不可思议的事情。他们不仅制作了一个比之前的日常使用模型 GPT-4o 更便宜的推理模型……
它不仅同时比他们之前的最佳模型 O1 更强大……
但它也快如闪电。比我迄今为止使用过的任何推理模型都要快得多。
而且,当被问到复杂的问题时,它可以完美地回答,甚至比 o1、DeepSeek 的 R1 和我曾经使用过的任何其他模型都要好。
所以,我想对它进行基准测试。让我们将 OpenAI 的 o3 与 1 月份最热门的语言模型 DeepSeek R1 进行比较。
2、DeepSeek R1 和 OpenAI o3-mini 的并排比较
我们将并排比较这两个模型的一个复杂推理任务:生成复杂、语法有效的 SQL 查询
我们将在以下基础上比较这些模型:
- 准确性:模型是否生成了正确的响应?
- 延迟:模型生成响应需要多长时间?
- 成本:大约哪个模型生成响应的成本更高?
前两个类别非常不言自明。以下是我们比较成本的方法。
我们知道 DeepSeek R1 的成本为每百万输入令牌 0.75 美元,每百万输出令牌 2.4 美元。
相比之下,OpenAI 的 o3 为每百万输入令牌 1.10 美元,每百万输出令牌 4.4 美元。
因此,o3-mini 的每请求成本大约高出 2 倍。
但是,如果模型生成不准确的查询,则应用程序层内有自动重试逻辑。
因此,要计算成本,我们将查看模型重试的次数,计算发送的请求数,并创建估计成本指标。R1 的基准成本为 c,因此没有重试,因为 o3-mini 的成本为 2c(因为它的成本是它的两倍)。
现在,让我们开始吧!
3、使用 LLM 生成语法有效的复杂SQL查询
我们将使用 LLM 生成语法有效的 SQL 查询。
此任务对于实际的 LLM 应用程序非常有用。通过将简单的英语转换为数据库查询,我们将界面从按钮和鼠标点击更改为我们都能理解的东西 - 语言。
它的工作原理是:
- 我们接受用户的请求并将其转换为数据库查询
- 我们针对数据库执行查询
- 我们接受用户的请求、模型的响应和查询的结果,并要求 LLM 对响应进行“评分”
- 如果“等级”高于某个阈值,我们会向用户显示答案。否则,我们会抛出错误并自动重试。
3.1 让我们从 R1 开始
对于这个任务,我将从 R1 开始。我会要求 R1 向我展示强劲的股息股票。这是请求:
Show me large-cap stocks with:
- Dividend yield >3%
- 5 year dividend growth > 5%
- Debt/Equity <0.5
翻译:向我展示具有以下特征的大盘股:
- 股息收益率 >3%
- 5 年股息增长率 > 5%
- 债务/股权 <0.5
我让模型分别执行了两次。在两次测试中,模型要么超时,要么没有找到任何股票
我向上帝发誓,这不是精心挑选的。
当我深入研究日志时,我发现模型很难生成准确的查询。
仅从手动检查中,我们就可以看到:
- 它使用总负债(而非债务)作为比率
- 它试图查询全年收益,而不是使用最新季度
- 它使用平均股息收益率作为过去 12 个月的股息数字
最后,我不得不直接检查数据库日志以查看经过的时间。
这些日志显示模型在 41 分钟后最终放弃了!太疯狂了!而且显然不适合实时财务分析。
因此,对于 R1,最终得分是
- 准确率:它没有生成正确的响应 = 0
- 成本:重试 5 次,成本为 5c + 1c = 6c
- 延迟:41 分钟
R1 看起来不太好……
现在,让我们用 OpenAI 的新 O3-mini 模型重复此测试。
3.2 接下来是 O3
我们将向 O3-mini 提出完全相同的问题。
与 R1 不同,速度的差异是天壤之别。
我在下午 6:26 提出问题,2 分 24 秒后收到回复。
这包括 1 次重试尝试、一次评估查询的请求和一次汇总结果的请求。
最后,我得到了以下回复。
我们得到了符合我们查询的股票列表。康菲石油、芝加哥商品交易所集团、EOG Resources 和 DiamondBack Energy 等股票的股息大幅增长,负债权益比非常低,市值也很高。
如果我们点击消息底部的“信息”图标,我们还可以检查查询。
通过人工检查,我们知道此查询符合我们的要求。因此,对于我们的最终成绩:
- 准确度:它生成了正确的响应 = 1
- 成本:1 次重试尝试 + 1 次评估查询 + 1 次汇总查询 = 3c * 2(因为它的成本是 r1的两倍)= 6c
- 延迟:2 分 24 秒
对于这个例子,我们可以看到 o3-mini 在各方面都比 r1 更好。它的速度快了几个数量级,成本相同,并且它对复杂的财务分析问题生成了准确的查询。
能够以低于去年日常使用模型的价格完成所有这些工作绝对令人难以置信。
4、结束语
DeepSeek 发布 R1 后,我承认我给了 OpenAI 很多批评。从极其昂贵的价格到完全搞砸的 Operator,再到发布一个缓慢、无法使用的伪装成 AI 代理的玩具,OpenAI 在 1 月份已经遭受了很多失败。
他们用 O3-mini 弥补了所有这些。
这个模型让他们以惊人的第一名重新回到了 AI 竞赛中。O3-mini 速度快如闪电,非常准确,而且成本低廉。与 R1 一样,我已将其集成到我的 AI 驱动交易平台 NexusTrade 的所有用户中。
此版本展示了我们在 AI 方面取得的指数级进步。随着时间的推移,这些模型将继续变得越来越好,成本却只有一小部分。
我非常兴奋地看到它的发展方向。
原文链接:OpenAI is BACK in the AI race. A side-by-side comparison between DeepSeek R1 and OpenAI o3-mini
汇智网翻译整理,转载请标明出处