AI代理聚焦工具利用
AI 代理的功能和覆盖范围在很大程度上取决于工具访问,工具以自然语言描述并通过代理的内部推理激活。
桌面和其他用户特定环境提供了代理有效执行任务所需的丰富背景,使其成为理想的操作空间。
1、简介
随着模型成为实用工具,支持工具的框架和环境正在成为关键,领先的 AI 公司如 OpenAI 和 Anthropic 正在探索使用计算机 GUI 导航完成复杂任务的 AI 代理。
最近,OpenAI 还宣布准备发布名为 Operator的AI 代理,它将在用户的计算机上自主执行任务,例如编码和预订旅行,将于 1 月作为研究预览提供。
此版本与整个行业转向更强大的 Agentic 工具相一致,这些工具可以在最少的监督下管理多步骤工作流程。
其他主要参与者也在推出能够实时计算机导航的代理工具,这反映了通过工具访问增强 AI 代理能力而不是简单地提高模型能力的战略举措。
2、Anthropic 的“计算机使用”
Anthropic 提供了一个参考实现,其中包括快速开始使用计算机所需的一切。
上图显示了在我的桌面上运行的 AI 代理,我必须在我的 MacBook 中安装 Docker 并将 docker 映像部署到我的机器上。
下面显示的脚本部署实例并启动它:
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
-e ANTHROPIC_API_KEY=<Your Anthropic API Key Goes Here> \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
下面是我运行文件的终端窗口的屏幕截图……
Anthropic的实现包括:
3、Anthropic AI 代理详细信息
Anthropic AI 代理可以访问三个主要工具/函数,使我能够与 Ubuntu 虚拟机环境进行交互:
computer
函数:
- 这是与 GUI 环境交互的主要界面
- 允许 AI 代理执行鼠标和键盘操作,例如:
- 移动光标 (mouse_move)
- 单击 (left_click、right_click、middle_click、double_click)
- 键入文本 (type)
- 按键盘组合键 (key)
- 截取屏幕截图 (screenshot)
- 显示分辨率设置为 1024x768
- 显示器编号为 :1
- AI 代理需要在单击元素之前通过屏幕截图检查坐标
bash
函数:
- 允许 AI 代理访问 bash shell 以运行命令
- 状态在命令之间保持不变
- 可以通过 apt 和 pip 安装软件包
- 可以运行后台进程
- 对于 GUI 应用程序,需要设置
DISPLAY=:1
环境变量
str_replace_editor
函数:
- 允许的文件操作工具:
- 查看文件和目录(查看)
- 创建新文件(创建)
- 替换文件中的文本(str_replace)
- 在特定行插入文本(插入)
- 撤消编辑(undo_edit)
- 在操作中保持状态
一些重要的限制包括:
- 无法在社交媒体/通信平台上创建帐户
- 无法在没有用户帮助的情况下处理 CAPTCHA/reCAPTCHA
- 无法在没有用户指导的情况下同意服务条款
- 无法在社交媒体上发表评论/反应
- 无法访问选民登记或选举基础设施数据
系统在 aarch64 架构 Ubuntu VM 上运行,我通过笔记本电脑上的 Docker 容器运行它。
这些工具为 AI 代理提供了一种受控但灵活的方式与虚拟环境交互,结合了 GUI 交互、命令行操作和文件操作功能。
我的环境为每个会话都进行了全新初始化,但在工具调用期间保持会话内的状态。
AI 代理可以通过 Firefox 使用互联网,并根据需要通过包管理系统安装其他软件。
原文链接:The Focus Is Shifting From AI Agents To AI Agent Tool Use
汇智网翻译整理,转载请标明出处