UI TARS:最好的GUI Agent模型
UI-TARS 代表用户界面 - 任务自动化和推理系统,是字节跳动创建的创新型原生 GUI 代理模型。
GenAI 永无止境,不仅仅是基于文本的 LLM,每天都会出现各种各样的新模型,无论是 TTS 模型还是视觉模型,现在还有 ByteDance 的 GUI 代理模型。
你还记得 Claude 的计算机使用 API 吗?
去年,Claude 提出了“计算机使用”这一想法,其中 Agentic 模型可以浏览你的计算机以执行任务(而不仅仅是输出文本)。这甚至包括移动光标、单击正确的内容、填写表格等。不过这是付费 API
字节跳动的 UI TARS 经过类似训练,可以像人类一样在计算机上执行任务!!
UI-TARS 代表用户界面 - 任务自动化和推理系统,是字节跳动创建的创新型原生 GUI 代理模型。它旨在通过复杂的 AI 功能增强与图形用户界面 (GUI) 的交互。与传统的模块化系统不同,UI-TARS 将基本元素(感知、推理、基础和记忆)整合到统一的视觉语言模型 (VLM) 中。这种设计允许全面的任务自动化,而无需依赖预先建立的工作流程或手动干预。
1、UI TARS 核心功能
感知:
- 对 GUI 的整体理解:UI-TARS 解释各种类型的输入,例如文本和图像,以形成对用户界面的完整理解。
- 动态交互:该模型主动观察并实时响应不断发展的 GUI 中的变化。
动作:
- 标准化动作框架:它在多个平台上提供一致的动作定义,包括桌面、移动和 Web 环境。
- 针对每个平台的特定操作:UI-TARS 可容纳针对特定平台定制的附加功能,如热键、长按和手势。
推理:
- 双重推理方法:该系统采用快速、本能的响应和深思熟虑的规划来处理更复杂的任务。
- 规划和反思:UI-TARS 支持多步骤任务规划,并反思先前的操作以提高执行可靠性。
记忆:
- 情境短期记忆:它保留与任务相关的上下文,以在操作期间保持态势感知。
- 历史长期记忆:该模型记住过去的互动和知识,这有助于随着时间的推移做出更好的决策。
功能:
- 跨平台功能:UI-TARS 旨在无缝运行于桌面、移动和 Web 平台。
- 复杂任务管理:该模型擅长通过多步骤流程和推理策略来管理复杂的任务。
- 数据驱动学习:它利用大量带注释的数据集和合成数据的组合来增强其适应性和稳健性。
2、UI TARS 如何工作?
2.1 用户查询和操作空间
- 用户查询:提供的任务是“在 Word 中的‘文档 > 论文’中打开文档,添加文本‘hello’并保存。”
- 操作空间:UI-TARS 根据任务生成可能的操作,如单击、双击、键入和保存。
2.2 带观察的工作流程
步骤 1:初始化:UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。
步骤 2:观察和思考过程
- 观察:UI-TARS 识别桌面上的 Word 图标。
- 思考:“Word 图标存在;我需要双击它才能打开 Word 程序。”
- 操作:在 Word 图标上执行左键双击操作。
步骤 3:等待程序启动
- 观察:UI-TARS 检测到 Word 程序正在加载。
- 想法:“我应该等到 Word 完全启动以避免交互错误。”
- 操作:执行等待操作以确保环境已准备好进行下一步。
步骤 4:输入文本并保存
- 观察:UI-TARS 观察到 Word 文档界面已准备好进行交互。
- 想法:“现在我可以添加文本‘hello’并使用 Ctrl+S 保存文档。”
- 操作:执行输入(type("hello"))并保存文件(Ctrl+S)。
3、指标和性能
左表
- 基准:与 GUI 控制相关的各种数据集和任务,例如 GUI-Odyssey、OSWorld、ScreenSpot 等。
- 上一个 SOTA:展示 UI-TARS 之前性能最佳的模型。
相对改进:
- UI-TARS-72B 在所有基准测试中始终优于之前的 SOTA 模型,改进幅度高达 +42.9%(例如,在 GUI-Odyssey 中)。
- UI-TARS-7B 也表现出强劲的性能,尽管略低于 72B 模型。
右侧雷达图
比较指标:
- UI-TARS-72B(蓝色):在几乎所有任务中都明显领先,表明其在处理与 GUI 相关的基准测试方面表现出色。
- GPT-4o(绿色)和 Claude(橙色):在某些领域表现良好,但通常不如 UI-TARS。
4、为什么 UI-TARS 最适合 GUI 代理
- 巨大的改进:在不同任务中的显着提升证明了其适应性和理解 GUI 环境的优势。
- 一致性:在低复杂度(ScreenQA)和高复杂度(OSWorld)任务中表现更好。
- 可扩展性:7B 和 72B 版本都超越了之前的基准测试,使其在不同模型大小中都有效。
5、如何使用 UI-TARS?
模型权重是开源的,可以从 HuggingFace 访问,也可以探索 github repo 来设置桌面应用程序。
总之,字节跳动的 UI-TARS 以其创新的设计、卓越的跨平台功能和最先进的性能为基于 GUI 的代理模型树立了新的标杆。通过开源模型,字节跳动不仅突破了人工智能驱动自动化的界限,还使其可供进一步探索和开发。UI-TARS 是迈向人工智能时代无缝人机交互的有希望的一步。
原文链接:ByteDance UI TARS : Best GUI Agent model to run computers
汇智网翻译整理,转载请标明出处