Browser Use：开源 AI 代理框架，用于网页浏览器控制

Q: "什么是 Browser Use？"

"Browser Use 是一个开源 Python 框架，使 AI 代理能够控制网页浏览器。它使用 LLM 来理解网页并执行点击、输入、表单填写、导航和数据提取等操作。"

Q: "Browser Use 与传统浏览器自动化工具相比如何？"

"与需要硬编码选择器和脚本的 Selenium 或 Playwright 不同，Browser Use 使用 AI 来理解页面内容并决定操作。它自动适应页面变更，并能处理非结构化的网页交互。"

Q: "Browser Use 支持哪些 LLM？"

"Browser Use 支持多种 LLM，包括 OpenAI GPT-4o、Anthropic Claude、Google Gemini 以及通过 Ollama 的本地模型。LLM 的选择影响代理理解复杂页面布局的能力。"

Q: "Browser Use 能处理登录和认证吗？"

"是的，Browser Use 可以处理登录表单、Cookie 和 session 管理。它可以保存和恢复浏览器 session、处理认证弹出窗口，以及处理 SSO 登录流程。"

Q: "Browser Use 的典型使用场景有哪些？"

"常见使用场景包括网页数据提取和爬取、自动化表单填写、UI 测试、工作流程自动化（订购、预订）、社交媒体自动化以及监控网页变更。"

Browser Use 是一个开源框架，使 AI 代理能够使用 LLM 控制网页浏览器，执行表单填写、数据提取、导航和测试。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 04, 2026 阅读 10 分钟

网页自动化传统上需要僵硬、脆弱的脚本。一个填写表单的 Selenium 测试需要知道每个元素的 ID、class 和 XPath。如果页面稍有变动，脚本就会失效。Browser Use 采取根本不同的方法：它不是使用脚本指令，而是将 LLM 驱动的代理控制权交给浏览器，让它像人类一样理解和与网页交互。

Browser Use 建立在 Playwright 之上，提供一个 Python 框架，将大型语言模型连接到实时的浏览器实例。代理接收屏幕截图和页面内容，决定要采取哪些操作（点击、输入、滚动、导航），并通过浏览器自动化层执行这些操作。这种 AI 原生方法使 Browser Use 比传统自动化工具更能适应页面变更。

该框架已迅速在传统自动化难以处理的任务中流行起来：从非结构化网页中提取数据、填写复杂的多步骤表单、在结构不一致的网站中导航，以及针对变更中的 UI 测试 Web 应用程序。通过将页面结构的理解委托给 LLM，Browser Use 消除了对硬编码选择器和等待特定 DOM 元素出现的需求。

Browser Use 的代理架构如何运作？

Browser Use 的架构通过结构化的操作循环将 LLM 推理与浏览器自动化连接起来。

graph LR
    A[用户任务] --> B[LLM 代理]
    B --> C[分析页面]
    C --> D{适合的下一个操作}
    D -->|点击| E[Playwright 点击]
    D -->|输入| F[Playwright 输入]
    D -->|导航| G[Playwright 前往]
    D -->|提取| H[Playwright 获取文本]
    D -->|滚动| I[Playwright 滚动]
    E --> J[更新后的页面状态]
    F --> J
    G --> J
    H --> J
    I --> J
    J --> B
    B --> K[任务完成？]
    K -->|否| C
    K -->|是| L[返回结果]

代理在一个连续循环中运作：观察当前页面状态，决定下一个操作，通过 Playwright 执行它，观察结果状态，然后重复直到任务完成。LLM 以视觉形式（屏幕截图）和结构化形式（DOM 文本、可访问属性）接收页面内容以做出决策。

Browser Use 代理可以执行哪些操作？

该框架提供一套全面的浏览器操作，代理可以用来完成几乎任何网页任务。

操作	参数	使用场景
点击	元素、修饰键	按钮、链接、复选框
输入	元素、文本、先清除	表单字段、搜索栏
导航	URL	前往特定页面
滚动	方向、数量	长页面、无限滚动
提取	元素或区域	数据收集
悬停	元素	工具提示、菜单
选择	下拉菜单、选项值	表单、筛选器
上传	元素、文件路径	文件上传表单
等待	持续时间或条件	页面加载、动画
截图	整页或视口	调试、验证
执行 JavaScript	脚本代码	高级交互

操作可以组合成序列。一个典型的表单填写任务可能包括：导航到 URL、等待表单加载、在每个字段中输入、点击提交、等待确认、提取结果。

有哪些 LLM 和配置选项可用？

Browser Use 的性能显著取决于用于决策的 LLM。该框架支持多个提供者并提供广泛的配置。

LLM 提供者	推荐模型	浏览器理解力	操作准确性	成本
OpenAI	GPT-4o、GPT-4.1	极佳	高	中
Anthropic	Claude 3.7 Sonnet	极佳	高	中
Google	Gemini 2.5 Pro	非常好	高	中
OpenRouter	通过 API 的 200 多个模型	各异	各异	各异
Ollama	Llama 3、Qwen 2.5	良好	中等	免费（本地）
Azure	GPT-4o (Azure)	极佳	高	中

LLM 的选择涉及能力、速度和成本之间的取舍。对于像填写已知表单这样的简单任务，较小的模型表现良好。对于涉及模糊页面布局或多步骤工作流程的复杂任务，最有能力的模型会产生显著更好的结果。

Browser Use 如何处理复杂的网页交互？

现实世界的网页自动化涉及传统脚本难以处理的挑战。Browser Use 的 AI 原生方法通过几种机制解决这些问题。

挑战	Browser Use 解决方案	传统方法
动态内容	代理读取当前 DOM	等待选择器
CAPTCHA	委托给人类或服务	失效或失败
认证	保存/恢复 session	硬编码登录脚本
弹出窗口/对话框	代理检测和处理	对已知对话框使用 try/catch
无限滚动	代理滚动直到找到数据	固定滚动次数
多步骤表单	代理依次填写字段	序列选择器
页面布局变更	代理调整指令	脚本失效
iframe/shadow DOM	代理在内部导航	特定选择器

代理处理意外页面状态的能力——弹出窗口、延迟内容、错误消息——是 Browser Use 相对于传统自动化的主要优势。您不需要编写每种可能状态的脚本，而是描述目标并让代理找出路径。

FAQ

什么是 Browser Use？ Browser Use 是一个开源 Python 框架，使 AI 代理能够控制网页浏览器。它使用 LLM 来理解网页并执行点击、输入、表单填写、导航和数据提取等操作。

Browser Use 与传统浏览器自动化工具相比如何？ 与需要硬编码选择器和脚本的 Selenium 或 Playwright 不同，Browser Use 使用 AI 来理解页面内容并决定操作。它自动适应页面变更，并能处理非结构化的网页交互。

Browser Use 支持哪些 LLM？ Browser Use 支持多种 LLM，包括 OpenAI GPT-4o、Anthropic Claude、Google Gemini 以及通过 Ollama 的本地模型。LLM 的选择影响代理理解复杂页面布局的能力。

Browser Use 能处理登录和认证吗？ 是的，Browser Use 可以处理登录表单、Cookie 和 session 管理。它可以保存和恢复浏览器 session、处理认证弹出窗口，以及处理 SSO 登录流程。

Browser Use 的典型使用场景有哪些？ 常见使用场景包括网页数据提取和爬取、自动化表单填写、UI 测试、工作流程自动化（订购、预订）、社交媒体自动化以及监控网页变更。

Browser Use：开源 AI 代理框架，用于网页浏览器控制

Browser Use 的代理架构如何运作？

Browser Use 代理可以执行哪些操作？

有哪些 LLM 和配置选项可用？

Browser Use 如何处理复杂的网页交互？

FAQ

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

Browser Use：开源 AI 代理框架，用于网页浏览器控制

Browser Use 的代理架构如何运作？

Browser Use 代理可以执行哪些操作？

有哪些 LLM 和配置选项可用？

Browser Use 如何处理复杂的网页交互？

FAQ

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险