AI代理聚焦工具利用

AI 代理的功能和覆盖范围在很大程度上取决于工具访问,工具以自然语言描述并通过代理的内部推理激活。

桌面和其他用户特定环境提供了代理有效执行任务所需的丰富背景,使其成为理想的操作空间。

1、简介

随着模型成为实用工具,支持工具的框架和环境正在成为关键,领先的 AI 公司如 OpenAI 和 Anthropic 正在探索使用计算机 GUI 导航完成复杂任务的 AI 代理。

最近,OpenAI 还宣布准备发布名为 Operator的AI 代理,它将在用户的计算机上自主执行任务,例如编码和预订旅行,将于 1 月作为研究预览提供。

此版本与整个行业转向更强大的 Agentic 工具相一致,这些工具可以在最少的监督下管理多步骤工作流程。

其他主要参与者也在推出能够实时计算机导航的代理工具,这反映了通过工具访问增强 AI 代理能力而不是简单地提高模型能力的战略举措。

2、Anthropic 的“计算机使用”

Anthropic 提供了一个参考实现,其中包括快速开始使用计算机所需的一切。

上图显示了在我的桌面上运行的 AI 代理,我必须在我的 MacBook 中安装 Docker 并将 docker 映像部署到我的机器上。

下面显示的脚本部署实例并启动它:

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=<Your Anthropic API Key Goes Here> \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

下面是我运行文件的终端窗口的屏幕截图……

Anthropic的实现包括:

3、Anthropic AI 代理详细信息

Anthropic AI 代理可以访问三个主要工具/函数,使我能够与 Ubuntu 虚拟机环境进行交互:

computer 函数:

  • 这是与 GUI 环境交互的主要界面
  • 允许 AI 代理执行鼠标和键盘操作,例如:
  • 移动光标 (mouse_move)
  • 单击 (left_click、right_click、middle_click、double_click)
  • 键入文本 (type)
  • 按键盘组合键 (key)
  • 截取屏幕截图 (screenshot)
  • 显示分辨率设置为 1024x768
  • 显示器编号为 :1
  • AI 代理需要在单击元素之前通过屏幕截图检查坐标

bash 函数:

  • 允许 AI 代理访问 bash shell 以运行命令
  • 状态在命令之间保持不变
  • 可以通过 apt 和 pip 安装软件包
  • 可以运行后台进程
  • 对于 GUI 应用程序,需要设置 DISPLAY=:1 环境变量

str_replace_editor 函数:

  • 允许的文件操作工具:
  • 查看文件和目录(查看)
  • 创建新文件(创建)
  • 替换文件中的文本(str_replace)
  • 在特定行插入文本(插入)
  • 撤消编辑(undo_edit)
  • 在操作中保持状态

一些重要的限制包括:

  • 无法在社交媒体/通信平台上创建帐户
  • 无法在没有用户帮助的情况下处理 CAPTCHA/reCAPTCHA
  • 无法在没有用户指导的情况下同意服务条款
  • 无法在社交媒体上发表评论/反应
  • 无法访问选民登记或选举基础设施数据

系统在 aarch64 架构 Ubuntu VM 上运行,我通过笔记本电脑上的 Docker 容器运行它。

这些工具为 AI 代理提供了一种受控但灵活的方式与虚拟环境交互,结合了 GUI 交互、命令行操作和文件操作功能。

我的环境为每个会话都进行了全新初始化,但在工具调用期间保持会话内的状态。

AI 代理可以通过 Firefox 使用互联网,并根据需要通过包管理系统安装其他软件。


原文链接:The Focus Is Shifting From AI Agents To AI Agent Tool Use

汇智网翻译整理,转载请标明出处