AI

Browser Use:開源 AI 代理框架,用於網頁瀏覽器控制

Browser Use 是一個開源框架,使 AI 代理能夠使用 LLM 控制網頁瀏覽器,執行表單填寫、資料擷取、導航和測試。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Browser Use:開源 AI 代理框架,用於網頁瀏覽器控制

網頁自動化傳統上需要僵化、脆弱的腳本。一個填寫表單的 Selenium 測試需要知道每個元素的 ID、class 和 XPath。如果頁面稍有變動,腳本就會失效。Browser Use 採取根本不同的方法:它不是使用腳本指令,而是將 LLM 驅動的代理控制權交給瀏覽器,讓它像人類一樣理解和與網頁互動。

Browser Use 建立在 Playwright 之上,提供一個 Python 框架,將大型語言模型連接到即時的瀏覽器實例。代理接收螢幕截圖和頁面內容,決定要採取哪些操作(點擊、輸入、滾動、導覽),並透過瀏覽器自動化層執行這些操作。這種 AI 原生方法使 Browser Use 比傳統自動化工具更能適應頁面變更。

該框架已迅速在傳統自動化難以處理的任務中流行起來:從非結構化網頁中提取資料、填寫複雜的多步驟表單、在結構不一致的網站中導覽,以及針對變更中的 UI 測試網頁應用程式。透過將頁面結構的理解委託給 LLM,Browser Use 消除了對硬編碼選擇器和等待特定 DOM 元素出現的需求。


Browser Use 的代理架構如何運作?

Browser Use 的架構透過結構化的操作循環將 LLM 推理與瀏覽器自動化連接起來。

graph LR
    A[使用者任務] --> B[LLM 代理]
    B --> C[分析頁面]
    C --> D{適合的下一個操作}
    D -->|點擊| E[Playwright 點擊]
    D -->|輸入| F[Playwright 輸入]
    D -->|導覽| G[Playwright 前往]
    D -->|提取| H[Playwright 取得文字]
    D -->|滾動| I[Playwright 滾動]
    E --> J[更新後的頁面狀態]
    F --> J
    G --> J
    H --> J
    I --> J
    J --> B
    B --> K[任務完成?]
    K -->|否| C
    K -->|是| L[回傳結果]

代理在一個連續循環中運作:觀察當前頁面狀態,決定下一個操作,透過 Playwright 執行它,觀察結果狀態,然後重複直到任務完成。LLM 以視覺形式(螢幕截圖)和結構化形式(DOM 文字、可存取屬性)接收頁面內容以做出決策。


Browser Use 代理可以執行哪些操作?

該框架提供一套全面的瀏覽器操作,代理可以用來完成幾乎任何網頁任務。

操作參數使用案例
點擊元素、修飾鍵按鈕、連結、核取方塊
輸入元素、文字、先清除表單欄位、搜尋列
導覽URL前往特定頁面
滾動方向、數量長頁面、無限滾動
提取元素或區域資料收集
懸停元素工具提示、選單
選取下拉選單、選項值表單、篩選器
上傳元素、檔案路徑檔案上傳表單
等待持續時間或條件頁面載入、動畫
截圖整頁或視口除錯、驗證
執行 JavaScript腳本程式碼進階互動

操作可以組合成序列。一個典型的表單填寫任務可能包括:導覽到 URL、等待表單載入、在每個欄位中輸入、點擊提交、等待確認、提取結果。


有哪些 LLM 和配置選項可用?

Browser Use 的效能顯著取決於用於決策的 LLM。該框架支援多個提供者並提供廣泛的配置。

LLM 提供者推薦模型瀏覽器理解力操作準確性成本
OpenAIGPT-4o、GPT-4.1極佳
AnthropicClaude 3.7 Sonnet極佳
GoogleGemini 2.5 Pro非常好
OpenRouter經由 API 的 200 多個模型各異各異各異
OllamaLlama 3、Qwen 2.5良好中等免費(本地)
AzureGPT-4o (Azure)極佳

LLM 的選擇涉及能力、速度和成本之間的取捨。對於像填寫已知表單這樣的簡單任務,較小的模型表現良好。對於涉及模糊頁面佈局或多步驟工作流程的複雜任務,最有能力的模型會產生顯著更好的結果。


Browser Use 如何處理複雜的網頁互動?

現實世界的網頁自動化涉及傳統腳本難以處理的挑戰。Browser Use 的 AI 原生方法透過幾種機制解決這些問題。

挑戰Browser Use 解決方案傳統方法
動態內容代理讀取當前 DOM等待選擇器
CAPTCHA委派給人類或服務失效或失敗
驗證儲存/還原 session硬編碼登入腳本
彈出視窗/對話框代理檢測和處理對已知對話框使用 try/catch
無限滾動代理滾動直到找到資料固定滾動次數
多步驟表單代理依序填寫欄位序列選擇器
頁面佈局變更代理調整指令腳本失效
iframe/shadow DOM代理在內部導覽特定選擇器

代理處理意外頁面狀態的能力──彈出視窗、延遲內容、錯誤訊息──是 Browser Use 相對於傳統自動化的主要優勢。您不需要編寫每種可能狀態的腳本,而是描述目標並讓代理找出路徑。


FAQ

什麼是 Browser Use? Browser Use 是一個開源 Python 框架,使 AI 代理能夠控制網頁瀏覽器。它使用 LLM 來理解網頁並執行點擊、輸入、表單填寫、導覽和資料擷取等操作。

Browser Use 與傳統瀏覽器自動化工具相比如何? 與需要硬編碼選擇器和腳本的 Selenium 或 Playwright 不同,Browser Use 使用 AI 來理解頁面內容並決定操作。它自動適應頁面變更,並能處理非結構化的網頁互動。

Browser Use 支援哪些 LLM? Browser Use 支援多種 LLM,包括 OpenAI GPT-4o、Anthropic Claude、Google Gemini 以及透過 Ollama 的本地模型。LLM 的選擇影響代理理解複雜頁面佈局的能力。

Browser Use 能處理登入和驗證嗎? 是的,Browser Use 可以處理登入表單、Cookie 和 session 管理。它可以儲存和還原瀏覽器 session、處理驗證彈出視窗,以及處理 SSO 登入流程。

Browser Use 的典型使用案例有哪些? 常見使用案例包括網頁資料擷取和爬取、自動化表單填寫、UI 測試、工作流程自動化(訂購、預訂)、社交媒體自動化以及監控網頁變更。


延伸閱讀

TAG