用browser-use自动化浏览器操作
在这篇文章中,我将通过一个简单的例子告诉你如何开始使用browser-use,这个例子展示了如何使用你的Gmail账户自动发送邮件。

“编程世界里一个非常流行的笑话是,为什么要在5分钟内完成任务,而不是花5天时间来自动化它。但现在你可以将时间从5天减少到5分钟👀!想象一下这种可能性。”
在这篇文章中,我将通过一个简单的例子告诉你如何开始使用browser-use,这个例子展示了如何使用你的Gmail账户自动发送邮件。
1、什么是browser-use?
Browser-use是连接AI代理与浏览器的最简单方式。但具体意味着什么呢?本质上,browser-use提供了一个简洁的界面,使你的AI代理能够像人类用户一样与网页进行交互。这消除了编写复杂、底层的浏览器自动化脚本的需求。我们都知道编写带有特定类名和ID的网页抓取脚本有多痛苦。如果网站的UI发生变化,你的抓取脚本就会停止工作。为什么还要经历这些困难,当你可以让AI为你做这些呢?
如果你对此感到兴奋,那就让我们开始吧!
2、在本地安装browser-use
根据他们的文档,他们推荐安装一个名为uv的工具,这是一个用Rust编写的极快的Python包管理器。这也有助于设置虚拟环境,当你在Python项目中工作时,这是推荐的做法。
要安装这个工具,请运行以下命令,该命令直接从uv文档中提取:
curl -LsSf https://astral.sh/uv/install.sh | sh
这将在你的机器上安装uv,并将二进制文件的路径添加到系统中。(你可能需要重新启动当前的终端会话)
💡 browser-use 需要Python 3.11或更高版本
下一步是使用uv命令创建虚拟环境:
uv venv --python 3.11
这将创建一个名为.venv的文件夹,其中包含隔离项目Python依赖所需的文件。
现在我们已经创建了虚拟环境,我们需要激活它。可以通过运行以下命令来实现:
source .venv/bin/activate
此命令基本上会设置你的shell环境,使其使用指定虚拟环境中的Python解释器和包,从而隔离项目的依赖项,避免与系统的Python安装冲突。
现在是时候安装浏览器使用了。官方文档建议使用以下命令直接将包安装到虚拟环境中:
uv pip install browser-use
最后一步是安装Playwright。Playwright是由微软开发的开源自动化库,用于浏览器测试和网络抓取。它是Puppeteer的一个替代方案。类似于Puppeteer,这个库也在后台使用Chromium,并且支持无头模式。使用以下命令安装Playwright:
playwright install
就这样!我们现在可以开始编写代码了🤓。在这个例子中,我演示了如何使用浏览器使用自动化发送电子邮件到Gmail。创建一个名为app.py的文件并复制以下代码。
🚨 只有在你愿意将你的账户凭证传递给OpenAI的情况下才运行此示例。你已被警告⚠️
from langchain_openai import ChatOpenAI
from browser_use import Agent, Browser, BrowserConfig
from dotenv import load_dotenv
load_dotenv()
import asyncio
task2="""
### 提示发送一封邮件给我的经理,请求他批准我的假期
**目标:**
打开Gmail,撰写一封新邮件给manager@gmail.com,主题为"批准我的假期",正文为"我要结婚了,请现在批准我的假期!"。
使用这些凭证登录:
- 邮箱:youremail@gmail.com
- 密码:yourpassword
- 选择设备选项的“是”
**重要提示:**
- 邮件应成功发送。
- 填写收件人邮箱后,模拟点击回车键。
- 邮件主题应为"批准我的假期",正文应为"我要结婚了,请现在批准我的假期!"。
---
**重要提示:** 确保在整个过程中保持效率和准确性。"""
browser = Browser()
agent = Agent(
task=task2,
llm=ChatOpenAI(model="gpt-4o"),
browser=browser,
)
async def main():
await agent.run()
input("按Enter关闭浏览器...")
await browser.close()
if __name__ == '__main__':
asyncio.run(main())
此外,你还需要创建一个.env文件或在系统中创建OPENAI_API_KEY的环境变量。示例.env文件如下所示:
OPENAI_API_KEY=yoursecretopenaiapikey
这段简单的代码就是你需要的所有内容,以自动化你的邮件发送过程。然而,由于我在测试Google账户时使用了2FA,因此仍有一个手动步骤需要批准登录。你可以通过以下命令运行此程序,看看AI的实际效果。你会真正欣赏到背后复杂的代码。
python app.py
这只是这个库可以实现的一个简单示例,但可能性是无限的! 你可以要求它做以下事情:
- 准备购物清单并在热门网站上下单
- 在Google Docs中写一篇论文
- 获取你最喜欢的名人的信息以及他们最近的动态
- 从特定网站获取产品的规格(我尝试从gsmarena网站获取智能手机的详细规格,结果令人惊叹)
浏览器使用的GitHub账号包含了许多其他惊人的示例。请务必查看。还有一个示例展示了他们如何绕过验证码!
3、结束语
虽然这感觉像是超级增强版的网络抓取,但这个库仍然相对较新,需要证明自己。像puppeteer和传统的网络抓取工具已经经受住了时间的考验,这个库也需要这样做,而且按照目前的发展趋势,我相信它能做到!
原文链接:Automate anything in the browser using AI
汇智网翻译整理,转载请标明出处
