深度研究AI代理的比较
在过去的几周里,我们看到了几种旨在自主地对给定主题进行全面研究并生成详细报告的“深度研究”AI代理的推出。

在过去的几周里,我们看到了几种旨在自主地对给定主题进行全面研究并生成详细报告的“深度研究”AI代理的推出。与简单的问答机器人不同,这些代理执行多步推理:制定搜索查询、浏览网页内容、分析数据,并将发现综合成结构化的输出并附上引用。例如:
所有这些实现肯定可以节省人类大量时间,通过几分钟的时间处理数小时的研究工作。我个人经常使用这些工具!
深度研究代理主要有两种主要的架构方法:
- 完全自主代理:一旦给定了提示或主题,这些代理就可以独立地从头到尾操作。例如,OpenAI的“深度研究”功能(于2025年2月发布)允许ChatGPT充当一个“研究分析师”,在没有干预的情况下工作几分钟,从网络中收集信息并编制一份带有来源的报告。它由OpenAI即将推出的优化用于推理和网络浏览的专用版本o3模型提供支持。用户只需提供主题,回答几个额外的问题,然后代理就会自主地处理其余的工作。这种完全自动的方法很方便,但需要一个非常强大的代理来决定研究方向并自行验证信息。
- 人机交互(HITL)代理:这些代理在研究工作流程的不同步骤中结合了人工反馈或批准。而不是毫无质疑地运行到完成,AI会在制定研究计划或大纲后暂停以获取指导——用户可以在代理继续之前审查并调整它。这个“计划审查”阶段作为质量控制,确保代理的理解与用户的意图一致。一些开源实现(稍后讨论)采用了先计划后执行的设计,让用户引导整个过程。

1、深度研究工具中的常见架构
虽然实现方式各不相同,但深度研究代理通常共享一些架构模式。一种常见的设计是将代理拆分为专门的子代理或组件,通常描述为管理代理和调用工具的代理(有时通过“代码代理”范式一起实现)。

LangChain的Open Deep Research文档有一个很好的概述:

1.1 管理代理(规划/协调)
这个代理(通常是主要的LLM实例)负责解释用户的请求,将研究任务分解为子任务(例如报告的部分或单独需要回答的问题),并协调整个过程。在基于代码的代理框架(如Hugging Face的smolagents)中,管理代理通常采取代码代理的形式——这意味着它可以生成并执行代码以执行操作。管理代理处理逻辑、规划和结果合成。它可能决定搜索什么、使用哪些工具以及如何聚合信息。这类似于人类研究人员为回答复杂问题而制定提纲和策略。
1.2 调用工具的代理(执行)
这些代理专长于与外部资源进行交互并执行动作,如网络搜索、网页导航或数据提取。调用工具的代理可能会查询搜索引擎API、点击结果、抓取页面内容或调用其他实用程序。它专注于从世界(互联网助理部分)获取原始信息。例如,一个工具代理可能会使用DuckDuckGo或Google搜索API检索相关链接,而另一个则解析网页文本以提取关键事实。在许多系统中,如果主要代理具有输出代码或结构化动作的能力(如代码代理),这些工具使用行为也可以由主要代理处理。关键思想是拥有专门的模块来获取和处理外部数据,以便管理者(或主要LLM)可以对这些数据进行推理。
1.3 网络搜索、导航和检查网页
深度研究代理严重依赖网络浏览能力。通常,它们集成了一个搜索工具和一个内容检查器/阅读器。
- 网络搜索:代理根据用户的提示或当前的信息需求制定搜索查询。它使用API或浏览器自动化来获取搜索结果(例如,通过SerpAPI使用Google的API、DuckDuckGo搜索工具或专门为LLM使用优化的Tavily服务)。例如,开源的OpenDeepResearcher代理使用SerpAPI进行Google搜索查询,而其他代理则使用Tavily的实时搜索API。这会返回一系列相关的网页或文档。
- 导航与检索:代理需要访问这些页面并提取其内容。简化后的基于文本的浏览器或HTTP客户端用于获取页面HTML并剥离文本。一些代理集成了一个检查工具来读取和解析常见的格式(HTML、PDF等)并在文本中搜索。例如,Hugging Face的开源深度研究原型包括一个基本的基于文本的网页浏览器和一个文本文件检查器(借鉴自微软的Magentic-One代理)以加载页面并扫描相关信息。代理可以在页面内搜索特定关键词或标题以决定是否有用,并提取内容片段。
- 迭代探索:这些代理通常不是一次性搜索,而是迭代。管理器(LLM)阅读检索到的信息,并可能提示工具代理进行后续搜索或深入超链接。这个循环会一直持续到代理确定已获得足够信息或达到预定义限制为止。在整个过程中,代理维护着它迄今为止学到的知识的状态或记忆,包括覆盖的主题和剩余的空白。现代代理通常采用反思策略——代理检查其当前知识并问“我是否需要更多关于X的信息?”如果是,则触发新的查询以深入挖掘。
如前所述,一些代理完全自主地执行这些步骤,而其他代理则暂停以纳入人工输入。无论工作流程如何,一旦研究完成,最后一步是综合——将所有发现合并成一份连贯的报告。管理代理通常会将搜索阶段收集的笔记或片段组合成一份结构良好的文档。这不仅包括合并事实,还包括生成解释、对比,并插入引用以确保可追溯性。
1.4 评估指标
为了衡量深度研究代理的有效性,研究人员使用测试复杂推理和知识整合的基准。一个著名的基准是GAIA(通用AI助手),它评估AI代理处理需要多步推理、工具使用(如网络浏览)和从多个来源整合信息的实际问题解决任务的能力。这篇文章这里对此进行了介绍。GAIA提出了不同难度的问题(级别1到3)。级别3的问题通常涉及多跳推理和使用外部工具或参考文献,模拟人类分析师可能面临的挑战。
另一个评估是“人类的最后一场考试”(HLE)——一项涵盖100多个专家级科目的测试,旨在看AI是否可以通过人类给它的最后一场考试(涵盖法律、医学、工程等领域)。
深度研究代理在这两个基准上的进展迅速。OpenAI报告称,其使用o3模型的深度研究代理在人类的最后一场考试中取得了26.6%的准确率,这比之前的模型(如GPT-4o和Google的Grok-2)的约3%有了显著提升。虽然26.6%听起来很低,但这场考试非常困难,即使如此高的分数也远超早期AI的表现,表明了一种新的专家推理能力水平。
在GAIA上,OpenAI的深度研究同样创造了新的最先进成果。OpenAI的初步报告显示,该代理平均正确回答了GAIA问题的72-73%,而此前顶级代理约为63-67%。在最难的级别3问题上,深度研究代理达到了约58%的准确率(以前的系统在级别3上低于40%到50%)。这样的表现表明该代理在复杂的多步任务中表现出色。简而言之,这些系统开始接近人类在以前完全超出AI能力的任务上的推理水平。
1.5 开源替代方案
开源复制品正在迅速缩小差距。Hugging Face的24小时复现OpenAI的深度研究代理(使用他们的smolagents框架)在早期版本中达到了GAIA验证集的55.15%。这低于OpenAI的专有代理,但远高于旧基线(Microsoft的Magentic-One代理在GAIA上的得分为约46%)。改进主要来自采用代码代理方法(让LLM输出代码以执行操作),这减少了推理步骤和错误。这表明架构选择(如使用代码还是JSON进行工具使用)可以影响性能。
2、实现比较
为了理解这一领域,让我们比较OpenAI的深度研究、Google的Gemini深度研究和领先的开源实现在架构、工作流程、搜索策略和性能方面的关键方面:
2.1 架构与模型
OpenAI的深度研究代理建立在其专有的LLM(o3系列模型)之上。该模型优化用于长篇推理,并与内部代理框架集成,使其实现网络浏览和数据分析。OpenAI尚未披露完整的代理框架技术细节,但它涉及模型协调工具使用(类似于内部基于代码的代理)。Google的Gemini深度研究使用Google的Gemini 1.5 Pro和2.0模型作为基础。
相比之下,开源项目通常利用较小的模型或多个组件:例如,OpenDeepResearcher可以使用Anthropic的Claude-3.5(通过OpenRouter API)来处理查询生成和内容分析,而Hugging Face的open-deep-research演示使用DeepSeek进行推理,使用Python编写的工具进行网页抓取。LangChain的实现可以根据不同阶段插件不同的模型(默认情况下使用OpenAI的o3-mini进行规划,使用Anthropic的Claude进行写作,或者使用其他开放模型)——本质上是一种模块化架构,每个阶段都可以使用最适合的模型。
OpenAI和Google的专有代理具有极其强大的模型(o3和Gemini是前沿的,可能是多模态的,并且考虑到工具使用进行训练),而开源代理可能使用优化的Llama衍生模型或蒸馏模型来近似这种能力。这意味着专有代理可能更好地处理非常复杂的推理或大输入,但开源代理正在快速改进并且可以在定制硬件上运行。
2.2 工作流程设计
OpenAI的深度研究主要是完全自主的。用户在ChatGPT界面中提供提示;代理随后内部生成计划,执行搜索,最后返回详细的带引文的报告。用户观察整个过程(ChatGPT显示一个步骤栏,就像实时日志一样,但中途不会干预)。
另一方面,Google的深度研究模式明确包含了一个计划审批步骤。在用户初始查询之后,它会呈现一个草稿大纲(用户可以编辑或完善),只有在确认后才会继续收集信息并编写报告。这表明Google选择了半自主的工作流程,利用HITL来提高相关性。这可以防止浪费工作(例如,如果代理打算研究错误的子主题,用户可以及时发现)。
在开源实现中,我们看到两种模式:OpenDeepResearcher和Ollama Deep Researcher运行在一个自主的单次循环中直到完成(运行期间没有用户交互)。相反,LangChain的open_deep_research使用计划和执行的方法,在规划阶段暂停以允许用户反馈(用户可以选择修改建议的章节列表)后再继续。
这是一个来自LangChain团队关于他们Open Deep Research实现的很棒的视频:
LangChain的Open Deep Research实现
2.3 搜索方法
所有的深度研究代理都依赖外部搜索,但来源和方法有所不同:
OpenAI的深度研究预计使用类似早期ChatGPT浏览Alpha或OpenAI提到的“Operator”系统的网络浏览堆栈。它可能查询一个通用搜索引擎(可能是Bing或自定义API)以获取结果,然后使用内部浏览器导航页面。代理优先考虑可信来源;据报道,它倾向于引用*高质量的参考资料(学术论文、权威报告)*而不是仅仅流行的网页。这表明OpenAI的代理可能有一些排名策略或偏好看起来权威的来源。它还可以通过调用工具处理非文本数据(OpenAI提到使用Python进行数据分析,这意味着它可以获取CSV或表格并进行处理)。
Google的Gemini深度研究肯定不会使用任何其他搜索引擎,它与Google自己的搜索引擎紧密集成。这意味着它拥有广泛的覆盖范围和Google的索引和排名算法。然而,它可能会强调在Google上流行或排名较高的内容。用户观察到Google的代理从许多来源汇总信息,但有时只是浅尝辄止(广泛但肤浅)。
开源选项通常使用公共搜索API或开源搜索引擎。例如,OpenDeepResearcher使用SerpAPI(Google)获取网页结果和Jina(一个人工智能驱动的内容检索API)来获取页面文本。其他人使用DuckDuckGo或Bing Web API。LangChain的open_deep_research默认使用Tavily(一个专为LLM设计的搜索API),也可以切换到Perplexity(一个人工智能元搜索引擎)。
开源代理通常模仿浏览器,仅提取文本而不执行JavaScript或渲染——这涵盖了大多数需求(文本内容),但可能会错过动态加载的内容。开源代理的搜索方法通常可以配置;开发人员可以插入不同的搜索工具。总体而言,这些代理确保它们有一种查询实时网络并获取内容的方式。结果的质量将取决于所使用的搜索API——例如,使用Google的API通常会产生良好的信息,但会有成本,而免费API可能有更多的噪声。实际上,开源代理实现了类似的迭代加深搜索:它们首先获取初始结果,让LLM阅读并总结或提取要点,然后生成新的查询以跟进未解答的问题。
2.4 报告生成
所有比较的实现都力求生成一份带有来源引用的最终报告。OpenAI的深度研究以生成非常详细、详细的报告(通常有几十页并包含许多引用)而闻名,适用于复杂的查询。它的写作风格是结构化的——使用标题、项目符号和分析叙述。Google的深度研究倾向于产生较短的输出;用户将其描述为更像扩展摘要或简报。LangChain的Open Deep Research工具以Markdown格式输出,包含章节和引用。开源输出中的引用通常是内联括号URL或数字参考映射到参考列表——与专有的一样。开源框架的一个好处是你可以根据需要自定义报告格式(例如,确保始终包含简介,或添加特定部分)。
2.5 性能和基准
在具有挑战性的基准(如GAIA和HLE)上,由于o3-mini模型的强大和优化的代理逻辑,OpenAI的深度研究目前处于领先地位。
正如所指出的,HuggingFace的开源深度研究在一天的工作中达到了OpenAI的GAIA得分的约72-82%。因此,开源和封闭解决方案之间的差距并非不可逾越,特别是如果你愿意使用付费API。专有解决方案仍然胜出的是易用性和集成性:它们是开箱即用的(无需设置,界面友好),具有一些特性,如图表生成、直接导出到Google Docs等,这些开源版本可能还没有。
2.6 成本和访问
OpenAI的深度研究最初仅在每月200美元的ChatGPT企业/专业订阅中提供,对于普通用户来说价格昂贵。Google的深度研究在每月约20美元的Google One高级计划中更加容易访问(包含一个月的免费试用)。
开源代理,由于设计原因,可以免费运行(如果你有足够的计算资源)或非常便宜。许多开源实现使用API密钥供OpenAI/Anthropic模型和搜索使用,所以你按API调用付费——这可能每份报告只花费几分钱或几美元,具体取决于长度。一篇文章展示了如何以“不到1美元”的API成本构建一个深度研究代理(见构建一个深度研究代理:1美元替代200美元的OpenAI工具)。
如果你完全使用开源模型(如本地运行Llama 70B)和免费搜索(例如,使用开源搜索索引),除了硬件和时间外,成本可以几乎为零。权衡在于增加的复杂性:你需要设置环境,并且性能可能会较慢或稍微低质量。此外,开源解决方案允许隐私——你可以离线运行代理(Ollama的版本在本地机器上运行一切,包括通过本地索引或缓存结果进行搜索),确保没有任何数据离开你的环境。专有解决方案会发送你的查询及其检索到的内容到他们的服务器,这可能是敏感研究主题的一个考虑因素。
希望这个比较能帮助你在特定用例中决定使用哪种研究代理。
原文链接:A Comparison of Deep Research AI Agents
汇智网翻译整理,转载请标明出处