Browser Use:浏览器自动化代理

想象一下有一个不仅能回答基本问题,还能预订航班填写无聊的表格,甚至在线购物AI 代理。这一切都可以完全自动化且无需你的干预。这就是Browser Use的作用所在,这是一个旨在允许AI 代理自主与网页浏览器交互的开源框架。

Browser Use集成了顶级的 LLM 提供商,如OpenAIAnthropic谷歌 GeminiMistralDeepSeek。在这篇文章中,我将向你展示Browser Use是如何工作的,并提供一个逐步指南安装和使用Browser Use

1、创建虚拟环境

虚拟环境可以组织您的依赖项:

python3 -m venv venv  
source venv/bin/activate # 在 macOS/Linux 上  

# 在 Windows 上:
venv\Scripts\activate

2、安装依赖项

pip install browser-use  
playwright install

3、设置环境变量

创建一个 .env 文件并添加您的 Google API 密钥。您可以在这里生成一个:这里

GOOGLE_API_KEY=your_google_api_key

4、创建 Python 脚本

创建 demo.py

from langchain_google_genai import ChatGoogleGenerativeAI  
from browser_use import Agent, Browser, BrowserConfig  
import asyncio  
from dotenv import load_dotenv
load_dotenv()  
# 可选:使用自己的 Chrome 实例,请取消注释:
# browser = Browser(  
#     config=BrowserConfig(  
#         chrome_instance_path='/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',   
#     )  
# )  
async def main():  
    agent = Agent(  
        task="Go to https://www.google.com/travel/flights and book a flight from Gothenburg to London on 2025-03-01 to 2025-03-10.",  
        llm=ChatGoogleGenerativeAI(model="gemini-2.0-flash"),  
        # browser=browser  # 取消注释以使用自己的 Chrome 浏览器  
    )  
    result = await agent.run()  
    print(result)  
asyncio.run(main())

5、运行脚本

python3 demo.py

您的 AI 代理将在谷歌航班上搜索航班并返回您的旅行日期的最便宜选项。task 参数可以修改为填写表格数据抓取购物和其他用例。

AI 代理集成了谷歌 Gemini 2.0 Flash,因为目前它是免费的,但您可以通过更改 llm 参数来使用任何其他 LLM。

您可以在这个GitHub 仓库上查看整个项目:这里

6、Browser Use的顶级用例

线索生成

  • 从网页抓取商业详细信息
  • 自动将联系人插入您的 CRM

在线购物

  • 跨不同网站比较产品价格
  • 为多个订单自动结账

网页抓取和数据分析

  • 获取财务报告进行分析。
  • 抓取房地产列表以获取价格趋势数据。

人力资源和招聘自动化

  • 填写并提交工作申请
  • 从求职网站获取简历以评估候选人。

7、结束语

Browser Use正在改变 AI 网络自动化。其开源LLM 兼容性多标签方法使其区别于 OpenAI Operator 和 Anthropic Computer Use 等解决方案。如果您想自动化预订航班抓取数据在线购物,浏览器使用提供了强大而灵活框架来提升您的自动化之旅。