Browser Use:用自然语言控制浏览器的AI神器 | 开源工具
张秋 Lv2

想象一下,当你在睡觉时,AI正在帮你完成网上所有繁琐的任务:自动监控机票价格、自动追踪快递物流、甚至帮你抢购限量商品。这不是科幻电影,而是 Browser Use 带来的现实。这款开源神器一经推出就引爆技术圈,短短一周内GitHub斩获5K+ Star,堪称2025年最值得关注的AI效率工具!

image

从Star增长趋势图可以看出:

  • 项目在11月初发布后快速获得关注
  • 12月中旬开始呈现爆发式增长
  • 在短短两个月内突破8000+ Star
  • 增长曲线依然保持强劲上升趋势

这种罕见的增长速度证明了Browser Use在AI自动化领域的创新价值,以及开发者社区对这类智能工具的强烈需求。

为什么 Browser Use 与众不同?

传统的网页自动化工具往往需要编写复杂的规则和脚本,而 Browser Use 让这一切变得简单:只需用自然语言告诉AI你想做什么,它就能完美执行。以流行的Playwright为例:

1
2
3
4
5
6
7
8
9
10
11
12
13
# Playwright传统写法
from playwright.sync_api import sync_playwright

def login_example():
with sync_playwright() as p:
browser = p.chromium.launch()
page = browser.new_page()
page.goto('https://example.com')
page.get_by_role('button', name='登录').click()
page.get_by_label('用户名').fill('username')
page.get_by_label('密码').fill('password')
page.get_by_role('button', name='提交').click()
browser.close()
1
2
3
4
5
6
# Browser Use写法
agent = Agent(
task="登录example.com网站,用户名是username",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()

Browser Use通过AI理解用户意图,自动处理复杂的网页交互逻辑,无需手动定位元素和编写步骤。而传统工具如Playwright则需要开发者:

  • 手动编写选择器和交互代码
  • 处理各种异常情况
  • 维护大量重复的自动化脚本
  • 适配不同网站的页面结构

在Web自动化任务的准确性测试中,Browser Use以89%的成功率遥遥领先于其他同类工具。这意味着它能更可靠地完成你交给它的任务,大大减少失败和重试的次数。

image

从上图可以看出:

  • Browser Use: 89% 的任务成功率,远超竞品
  • Runner H 0.1: 67% 的完成率
  • AgentE: 61% 的完成率
  • Computer Use: 52% 的完成率
  • Web Voyager: 50% 的完成率

这种显著的性能优势源于Browser Use独特的AI决策引擎和自适应网页交互技术。

image

改变生活的实用场景

1. 智能购物助手

  • 自动比价:同时监控多个电商平台的价格变化
  • 限量抢购:设定条件自动下单
  • 优惠券收集:自动搜集并应用最优惠券

image

2. 求职效率提升

  • 简历批量投递:一次设置,自动投递到多个平台
  • 职位变动监控:追踪心仪公司的新职位发布
  • 面试时间协调:自动查找并预约合适的面试时段

image

3. 生活服务自动化

  • 物流追踪:实时监控多个包裹的配送状态
  • 场馆预订:自动预订健身房、游泳池等场地
  • 活动票务:监控演唱会、展览等票务开放

image

快速上手指南

安装和配置

  1. 首先通过pip安装Browser Use:

    1
    pip install browser-use
  2. 在项目根目录创建.env文件,添加必要的API密钥:

    1
    2
    OPENAI_API_KEY=your_openai_key_here
    ANTHROPIC_API_KEY=your_anthropic_key_here

使用示例

让我们看几个实用的示例代码:

示例1:智能求职助手

1
2
3
4
5
6
7
8
9
10
from langchain_openai import ChatOpenAI
from browser_use import Agent

async def job_search():
agent = Agent(
task="搜索所有机器学习相关职位,将符合要求的职位保存到'ml_jobs.txt',然后自动开始投递",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)

示例2:航班价格监控

1
2
3
4
5
6
7
async def flight_monitor():
agent = Agent(
task="查找2024年12月25日至2025年2月2日期间,所有从苏黎世到北京的航班,按价格排序",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)

示例3:AI模型搜索

1
2
3
4
5
6
7
async def model_search():
agent = Agent(
task="在Hugging Face上搜索带有cc-by-sa-4.0许可的模型,按点赞数排序并保存前5个到'top_models.txt'",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)

这些示例展示了Browser Use强大的自动化能力。无论是职位搜索、航班监控,还是模型查找,只需要用自然语言描述任务,AI就能完美执行。

注意事项

  • 请遵守网站的使用条款和机器人协议
  • 合理设置任务间隔,避免对目标网站造成压力
  • 妥善保管API密钥和个人信息

Browser Use 不仅仅是一个自动化工具,它是一个融入日常生活的AI助手,能够帮助用户更智能、更高效地使用互联网。随着AI技术的发展,这类工具将越来越成为人们生活中不可或缺的一部分。

你准备好让AI成为你的网络助手了吗?


项目地址:Browser Use on GitHub