OpenAI深度研究的AI代理架构

最近,OpenAI 展示了他们创建深度研究 AI 代理的理想场景…

OpenAI深度研究的AI代理架构

使用 AI 代理和工具之间存在最佳平衡。

是的,所有这些 AI 代理都可以合并为一个 AI 代理,配备多个工具。但是,在一个 AI 代理中的工具数量与将其拆分为更多 AI 代理(每个代理分配较少的工具)之间存在最佳平衡。

当分配给单个 AI 代理的工具过多时,工具选择可能会成为一个问题。在这方面,NVIDIA 对微调语言模型以进行准确的工具选择进行了出色的研究。

OpenAI 的一般方法似乎是多个 AI 代理之间的协作和编排。

建立上下文和多个 AI 代理协作非常重要……这使我们回到了聊天机器人的原始基础,其中建立意图很重要。对于通常需要长时间运行的研究请求,这种意图和上下文的牢固建立至关重要。

每个 AI 代理都使用不同的语言模型,从使用更便宜的模型处理子任务的角度来看,这很有趣,并且在将用户查询发送到昂贵且耗时的查询之前,对其进行充分准备。

通过将工具与任务匹配,您可以优化效率,减少成本,并确保在应用程序中可扩展的 AI 集成。

1、特定用途

当处理需要战略规划、从不同来源综合信息、整合专业工具或分层多步骤推理的复杂任务时——例如进行深入的市场分析、调试复杂的代码问题或生成全面的研究报告——利用深度研究代理。

它们擅长协调工作流程,适应不断变化的上下文,并通过将问题分解为可管理的组件并根据需要进行迭代来提供细致的输出。

相反,仅将它们用于这些要求苛刻的场景。

对于日常需求,如快速获取事实、简单的问答交流或简短的对话互动,请坚持使用标准的 OpenAI Chat Completions API。

这个更简单的端点提供了:

  • 更快的响应时间,
  • 更低的计算开销,
  • 更低的成本,

使其非常适合高吞吐量或低复杂度的用例,而无需代理编排带来的额外延迟。

在 AI 系统设计中,一个带有多个工具的 AI 代理可以减少延迟,但随着复杂性的增加,可能会出现过载和错误。另一方面,多个 AI 代理使用有限的工具可以促进模块化,就像 OpenAI 的 Deep Research API 所展示的那样,其中专门的 AI 代理负责初步分类、澄清和研究——提高透明度和可扩展性,尽管增加了交接的开销和成本。选择取决于任务的复杂性和需求。

2、四代理深度研究流水线

2.1 初步分类代理

你好,我仔细查看用户的查询,看看发生了什么。

如果感觉缺少一些关键的上下文,我会把它发送给澄清代理以进一步挖掘。否则,如果一切看起来都很好,我会直接将其路由到指令代理以继续推进。

2.2 澄清代理

我专注于通过询问那些必要的后续问题来澄清事情。

然后,我等待用户——或者模拟响应——提供我们需要的答案。指令构建器代理 一旦我们获得了增强后的输入,我会介入将其转化为一个超级精确的研究简报,准备好采取行动。

2.3 研究代理 (o3-deep-research)

我使用 WebSearchTool 进行网络规模的经验研究,收集所有有用的信息。

同时,我使用 MCP 检查我们的内部知识库,如果有相关内容,我会提取这些有用的片段来丰富我的参考文献。为了保持透明度,我会在过程中流式传输中间事件。

最后,我交付经过润色的研究成果,我们可以在以后解析它。

3、可观察性

print_agent_interaction 函数,也称为 OpenAI 菜谱中的 parse_agent_interaction_flow,是一个用于可视化和调试多代理系统动态工作流的便捷工具。

它接受一系列 AI 代理事件作为输入,并遍历每个项目,打印出清晰的编号序列,突出显示关键活动,如代理交接、工具调用(包括名称和参数)、推理步骤和消息输出,所有内容都以前置的代理名称为前缀,以便于跟踪。

这对于构建复杂研究管道的开发人员来说非常有价值,因为它将原始事件数据转换为人类可读的格式,增强了测试或监控期间的透明度——可以将其视为一种轻量级的追踪日志,跳过不相关细节,同时突出代理之间的核心交互,如初步分类、澄清、指令构建器和研究组件。

4、结束语

让事情运作的下一个前沿领域是 AI 代理之间的协作,其中 AI 代理不在同一个组织中。

其次,将 AI 代理集成到复杂的网页浏览和操作系统导航的人类世界中。


原文链接:OpenAI Deep Research AI Agent Architecture

汇智网翻译整理,转载请标明出处