網頁爬取

開源 May 04, 2026

Trafilatura：適用於 LLM 資料集與研究的開源網頁文字擷取工具

從網頁中擷取乾淨、結構化的文字是 LLM 訓練資料集、研究語料庫和內容分析管線的基礎任務。Trafilatura 已成為此任務的黃金標準——這是一個 Python 函式庫，在開源文字擷取工具中持續取得最高的 F-Score，同時保持輕量、快速且易於整合。

AI May 04, 2026

傳統的網頁爬取很脆弱。基於 CSS 選擇器和 XPath 表達式建立的爬蟲，在目標網站更新其 HTML 結構時就會失效。大規模維護爬蟲變成了不斷追趕版面變化、重構選擇器和重新測試管線的遊戲。ScrapeGraphAI 採用了一種根本不同的方法：它不硬編碼提取規則，而是使用 LLM 從語意上 …