OpenAI Operator
在本文中,我将通过具有桌面和浏览器访问的 AI 代理的视角探索 OpenAI Operator,重点关注准确性、人工监督以及模型 (CUA) 和框架 (Operator) 之间的区别。最后,我将讨论未来需要牢记的关键挑战和重要注意事项。
最近发布了许多 AI 代理计算机接口 (ACI) 框架。
核心概念是 AI 代理驻留在用户的桌面上,使其能够通过 GUI 浏览 PC 和互联网。
将 GUI 视为 API 的人性化版本。此功能赋予 AI 代理无与伦比的自由,使其能够完全按照用户的设想执行任务。
通过将用户请求与 GUI 的直观界面及其功能可能性相结合,AI 可确保无缝且高效的体验。
1、一些背景
虽然我一直在尝试定义引入代理和自动化的不同方法,但我也喜欢将其称为代理范围(Agency Spectrum)。不仅在像 Operator 这样的完整解决方案中,而且在特定垂直行业中,都需要不同级别的代理和监督。
称为 CUA 的 Operator 模型将通过 API 提供。这引出了我的下一个观点,即企业能够在非常精细的基础上编写自己的解决方案。
2、桌面和互联网
ACI 在两个主要环境中运行:PC 本身和浏览器。
在 PC 上,它可以访问 Word 和 Excel 等程序、管理文件、设置权限等。访问浏览器可解锁全新的功能和数据检索维度。
例如,OpenAI Operator 使用虚拟浏览器与 Web 内容交互,模拟人类行为来浏览网站、搜索、填写表格和执行任务,即使在没有 API 的平台上也是如此。
同样,Claude 3.5 计算机使用模型通过运行在用户 PC 上的 Docker 实例使用虚拟机,进一步扩展了 AI 功能。
针对用户市场有不同的策略,每种策略都有自己的重点。
主要考虑因素包括确保安全性以保护用户数据、通过透明度和可靠性建立信任、最大限度地减少访问和使用技术的摩擦,以及通过使解决方案直观和用户友好来推动采用。
有效地平衡这些因素可以决定 AI 能否成功满足用户需求,同时促进长期参与。
3、准确性和监督
AI 代理的炒作导致了人们对其准确性的误解,尤其是对于复杂的长期任务。
为了解决这个问题,我提倡所谓的 Agentic Workflows,其中人类提供指令,AI 在人类监督下创建和执行工作流或事件序列。
这种方法将 AI 的效率与人类监督相结合,以确保准确性和可靠性。
Claude AI 代理计算机接口 (ACI) 目前通过图形用户界面 (GUI) 与计算机交互时的效率比人类低约 80%。
虽然人类通常可以达到 70-75% 的熟练程度,但 Claude ACI 框架在 OSWorld 基准测试中的得分仅为 14.9%——该测试旨在评估模型在导航和使用计算机方面的能力。
如下所示,最近对 AI 代理性能的研究显示,在所有情况下的成功率都低于 25%。下面显示了支撑每个 AI 代理的模型:
OpenAI Operator 展示了市场领先的性能,尤其是与 Anthropic 相比。
与其他技术一样,AI 代理的性能遵循着熟悉的轨迹——就像高级语音识别 (ASR) 一样,它最初落后于人类的能力,但最终达到并超越了它们。这表明,随着时间的推移,AI 代理可能会遵循类似的路径来实现和超越人类水平的性能。
4、将模型与框架分离
计算机用户代理 (CUA) 应被视为与 Operator 框架和虚拟浏览器环境不同的模型。
与强调基于 Web 的工作流程的 Operator 不同,CUA 专注于管理本地应用程序、文件和系统级任务,例如导航 GUI 和执行命令。
这种区别至关重要,因为 CUA 解决了特定于桌面界面的挑战,包括特定于操作系统的行为和应用程序集成。
通过将 CUA 视为独立模型,它允许进行定制优化,以补充 Operator 框架的更广泛功能。这些模型可以共同为本地和在线环境中的人工智能驱动自动化提供整体方法。
考虑下面的图片……
该图显示了 CUA 模型如何与 Operator 环境分开。
OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员可以使用它来构建自己的计算机使用代理。
该模型处理原始像素数据以了解屏幕上的上下文和内容,并使用虚拟鼠标和键盘完成操作。
它可以导航多步骤任务、处理错误并适应意外变化。
这使得 CUA 能够在广泛的数字环境中运行,执行诸如填写表格和浏览网站等任务,而无需专门的 API。
根据用户的指令,CUA 通过集成感知、推理和操作的迭代循环进行操作:
4.1 感知
该模型将计算机中的屏幕截图集成到其上下文中,提供系统当前状态的视觉快照,这有助于指导其操作。
4.2 推理
使用思路链过程,CUA 通过考虑当前和以前的屏幕截图和操作来评估后续步骤。 此推理过程使模型能够跟踪其进度、审查中间步骤并根据需要进行调整,从而提高整体任务性能。
4.3 操作
然后,CUA 执行单击、滚动或键入等任务,并继续执行,直到任务完成或需要进一步的用户输入。虽然它可以自动执行大多数操作,但 CUA 会在执行敏感任务(例如输入登录凭据或处理 CAPTCHA 挑战)之前提示用户确认。
5、Agentic 工作流
OpenAI Operator 能够根据不断变化的输入和条件观察、创建和动态更新工作流。
这些工作流可以安排在特定时间或间隔运行,从而无需持续的人工干预即可自动执行任务和流程。
通过观察用户输入和系统状态,Operator 可以实时调整工作流程以优化效率。
计划的工作流程允许自动处理日常任务,使用户免于重复操作。
Operator 创建和修改工作流程的能力确保它可以适应不断变化的需求,并与 CUA 等其他模型无缝集成,实现更广泛的任务自动化。
工作流管理的这种灵活性增强了整体自动化体验,允许跨不同任务和环境进行即时和长期规划。
6、帐户网站
从 OpenAI 内容来看,OpenAI Operator 中似乎有一个“帐户网站”选项卡。
这似乎是框架内的一个部分,允许 AI 通过存储的用户帐户管理和与不同的网站交互。
此功能使 Operator 能够安全地访问和自动执行用户拥有帐户的网站上的任务,例如登录、管理设置或执行其他经过身份验证的操作。
根据文档,“帐户网站”选项卡组织和存储各种网站的凭据和访问点,使 Operator 能够根据需要检索或更新信息。它可能包括以下功能:
- 帐户管理:存储并安全管理登录凭据和其他敏感数据。
- 网站交互:自动执行需要用户身份验证的网站上的任务,例如提交表单或检索数据。
- 安全和隐私:确保通过加密和访问控制正确处理敏感信息。
- 任务自动化:允许 AI 在用户拥有帐户的网站上执行重复或计划的操作。
7、障碍和注意事项
关于截取屏幕截图和流式屏幕交互有一些注意事项,通过 CUA API 进行探索可能会很有趣。有评论说使用屏幕截图会导致连续性中断。
由于弹出窗口和破坏性图形,AI 代理在浏览互联网时面临挑战,研究表明浏览代理中的漏洞受到这些元素的攻击,这凸显了监督的必要性。
直接访问用户的机器存在风险,这就是为什么使用虚拟机(例如 Anthropic 使用的 Docker 环境)提供了更安全的替代方案。
虚拟机提供了更少的采用障碍,模拟了不仅仅是浏览器的完整 PC 使用。
对于复杂的长期任务,强有力的人工监督仍然是必要的,这可能导致网站与 OpenAI 等 AI 提供商合作创建安全环境的场景——本质上是一个安全 AI 交互的市场。
我喜欢虚拟浏览器的想法,以及位于虚拟世界和用户之间的过滤器,用户决定将哪些数据从他们的个人空间共享到虚拟浏览器环境。
原文链接:OpenAI Operator
汇智网翻译整理,转载请标明出处