Browser Use:浏览器自动化代理
想象一下有一个不仅能回答基本问题,还能预订航班、填写无聊的表格,甚至在线购物的AI 代理。这一切都可以完全自动化且无需你的干预。这就是Browser Use的作用所在,这是一个旨在允许AI 代理自主与网页浏览器交互的开源框架。
Browser Use集成了顶级的 LLM 提供商,如OpenAI、Anthropic、谷歌 Gemini、Mistral 和 DeepSeek。在这篇文章中,我将向你展示Browser Use是如何工作的,并提供一个逐步指南来安装和使用Browser Use。
1、创建虚拟环境
虚拟环境可以组织您的依赖项:
python3 -m venv venv
source venv/bin/activate # 在 macOS/Linux 上
# 在 Windows 上:
venv\Scripts\activate
2、安装依赖项
pip install browser-use
playwright install
3、设置环境变量
创建一个 .env 文件并添加您的 Google API 密钥。您可以在这里生成一个:这里
GOOGLE_API_KEY=your_google_api_key
4、创建 Python 脚本
创建 demo.py
:
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent, Browser, BrowserConfig
import asyncio
from dotenv import load_dotenv
load_dotenv()
# 可选:使用自己的 Chrome 实例,请取消注释:
# browser = Browser(
# config=BrowserConfig(
# chrome_instance_path='/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
# )
# )
async def main():
agent = Agent(
task="Go to https://www.google.com/travel/flights and book a flight from Gothenburg to London on 2025-03-01 to 2025-03-10.",
llm=ChatGoogleGenerativeAI(model="gemini-2.0-flash"),
# browser=browser # 取消注释以使用自己的 Chrome 浏览器
)
result = await agent.run()
print(result)
asyncio.run(main())
5、运行脚本
python3 demo.py
您的 AI 代理将在谷歌航班上搜索航班并返回您的旅行日期的最便宜选项。task
参数可以修改为填写表格、数据抓取、购物和其他用例。
AI 代理集成了谷歌 Gemini 2.0 Flash,因为目前它是免费的,但您可以通过更改 llm
参数来使用任何其他 LLM。
您可以在这个GitHub 仓库上查看整个项目:这里
6、Browser Use的顶级用例
线索生成
- 从网页抓取商业详细信息。
- 自动将联系人插入您的 CRM。
在线购物
- 跨不同网站比较产品价格。
- 为多个订单自动结账。
网页抓取和数据分析
- 获取财务报告进行分析。
- 抓取房地产列表以获取价格趋势数据。
人力资源和招聘自动化
- 填写并提交工作申请。
- 从求职网站获取简历以评估候选人。
7、结束语
Browser Use正在改变 AI 网络自动化。其开源、LLM 兼容性和多标签方法使其区别于 OpenAI Operator 和 Anthropic Computer Use 等解决方案。如果您想自动化预订航班、抓取数据或在线购物,浏览器使用提供了强大而灵活的框架来提升您的自动化之旅。