AI

Browser Use:开源 AI 代理框架,用于网页浏览器控制

Browser Use 是一个开源框架,使 AI 代理能够使用 LLM 控制网页浏览器,执行表单填写、数据提取、导航和测试。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Browser Use:开源 AI 代理框架,用于网页浏览器控制

网页自动化传统上需要僵硬、脆弱的脚本。一个填写表单的 Selenium 测试需要知道每个元素的 ID、class 和 XPath。如果页面稍有变动,脚本就会失效。Browser Use 采取根本不同的方法:它不是使用脚本指令,而是将 LLM 驱动的代理控制权交给浏览器,让它像人类一样理解和与网页交互。

Browser Use 建立在 Playwright 之上,提供一个 Python 框架,将大型语言模型连接到实时的浏览器实例。代理接收屏幕截图和页面内容,决定要采取哪些操作(点击、输入、滚动、导航),并通过浏览器自动化层执行这些操作。这种 AI 原生方法使 Browser Use 比传统自动化工具更能适应页面变更。

该框架已迅速在传统自动化难以处理的任务中流行起来:从非结构化网页中提取数据、填写复杂的多步骤表单、在结构不一致的网站中导航,以及针对变更中的 UI 测试 Web 应用程序。通过将页面结构的理解委托给 LLM,Browser Use 消除了对硬编码选择器和等待特定 DOM 元素出现的需求。


Browser Use 的代理架构如何运作?

Browser Use 的架构通过结构化的操作循环将 LLM 推理与浏览器自动化连接起来。

graph LR
    A[用户任务] --> B[LLM 代理]
    B --> C[分析页面]
    C --> D{适合的下一个操作}
    D -->|点击| E[Playwright 点击]
    D -->|输入| F[Playwright 输入]
    D -->|导航| G[Playwright 前往]
    D -->|提取| H[Playwright 获取文本]
    D -->|滚动| I[Playwright 滚动]
    E --> J[更新后的页面状态]
    F --> J
    G --> J
    H --> J
    I --> J
    J --> B
    B --> K[任务完成?]
    K -->|否| C
    K -->|是| L[返回结果]

代理在一个连续循环中运作:观察当前页面状态,决定下一个操作,通过 Playwright 执行它,观察结果状态,然后重复直到任务完成。LLM 以视觉形式(屏幕截图)和结构化形式(DOM 文本、可访问属性)接收页面内容以做出决策。


Browser Use 代理可以执行哪些操作?

该框架提供一套全面的浏览器操作,代理可以用来完成几乎任何网页任务。

操作参数使用场景
点击元素、修饰键按钮、链接、复选框
输入元素、文本、先清除表单字段、搜索栏
导航URL前往特定页面
滚动方向、数量长页面、无限滚动
提取元素或区域数据收集
悬停元素工具提示、菜单
选择下拉菜单、选项值表单、筛选器
上传元素、文件路径文件上传表单
等待持续时间或条件页面加载、动画
截图整页或视口调试、验证
执行 JavaScript脚本代码高级交互

操作可以组合成序列。一个典型的表单填写任务可能包括:导航到 URL、等待表单加载、在每个字段中输入、点击提交、等待确认、提取结果。


有哪些 LLM 和配置选项可用?

Browser Use 的性能显著取决于用于决策的 LLM。该框架支持多个提供者并提供广泛的配置。

LLM 提供者推荐模型浏览器理解力操作准确性成本
OpenAIGPT-4o、GPT-4.1极佳
AnthropicClaude 3.7 Sonnet极佳
GoogleGemini 2.5 Pro非常好
OpenRouter通过 API 的 200 多个模型各异各异各异
OllamaLlama 3、Qwen 2.5良好中等免费(本地)
AzureGPT-4o (Azure)极佳

LLM 的选择涉及能力、速度和成本之间的取舍。对于像填写已知表单这样的简单任务,较小的模型表现良好。对于涉及模糊页面布局或多步骤工作流程的复杂任务,最有能力的模型会产生显著更好的结果。


Browser Use 如何处理复杂的网页交互?

现实世界的网页自动化涉及传统脚本难以处理的挑战。Browser Use 的 AI 原生方法通过几种机制解决这些问题。

挑战Browser Use 解决方案传统方法
动态内容代理读取当前 DOM等待选择器
CAPTCHA委托给人类或服务失效或失败
认证保存/恢复 session硬编码登录脚本
弹出窗口/对话框代理检测和处理对已知对话框使用 try/catch
无限滚动代理滚动直到找到数据固定滚动次数
多步骤表单代理依次填写字段序列选择器
页面布局变更代理调整指令脚本失效
iframe/shadow DOM代理在内部导航特定选择器

代理处理意外页面状态的能力——弹出窗口、延迟内容、错误消息——是 Browser Use 相对于传统自动化的主要优势。您不需要编写每种可能状态的脚本,而是描述目标并让代理找出路径。


FAQ

什么是 Browser Use? Browser Use 是一个开源 Python 框架,使 AI 代理能够控制网页浏览器。它使用 LLM 来理解网页并执行点击、输入、表单填写、导航和数据提取等操作。

Browser Use 与传统浏览器自动化工具相比如何? 与需要硬编码选择器和脚本的 Selenium 或 Playwright 不同,Browser Use 使用 AI 来理解页面内容并决定操作。它自动适应页面变更,并能处理非结构化的网页交互。

Browser Use 支持哪些 LLM? Browser Use 支持多种 LLM,包括 OpenAI GPT-4o、Anthropic Claude、Google Gemini 以及通过 Ollama 的本地模型。LLM 的选择影响代理理解复杂页面布局的能力。

Browser Use 能处理登录和认证吗? 是的,Browser Use 可以处理登录表单、Cookie 和 session 管理。它可以保存和恢复浏览器 session、处理认证弹出窗口,以及处理 SSO 登录流程。

Browser Use 的典型使用场景有哪些? 常见使用场景包括网页数据提取和爬取、自动化表单填写、UI 测试、工作流程自动化(订购、预订)、社交媒体自动化以及监控网页变更。


延伸阅读

TAG
CATEGORIES