Trafilatura:適用於 LLM 資料集與研究的開源網頁文字擷取工具
從網頁中擷取乾淨、結構化的文字是 LLM 訓練資料集、研究語料庫和內容分析管線的基礎任務。Trafilatura 已成為此任務的黃金標準——這是一個 Python 函式庫,在開源文字擷取工具中持續取得最高的 F-Score,同時保持輕量、快速且易於整合。
從網頁中擷取乾淨、結構化的文字是 LLM 訓練資料集、研究語料庫和內容分析管線的基礎任務。Trafilatura 已成為此任務的黃金標準——這是一個 Python 函式庫,在開源文字擷取工具中持續取得最高的 F-Score,同時保持輕量、快速且易於整合。
大規模將 PDF 轉換為乾淨、機器可讀的文字是 LLM 資料集準備中的基本挑戰之一。傳統 PDF 解析器難以處理複雜佈局、表格和混合內容,而商業 OCR 服務在大規模使用時成本昂貴。olmOCR 由 Allen AI(AI2)開發,使用 7B 參數的視覺語言模型解決了這個問題,能以卓越的準 …
LightRAG 是香港大學 (HKU) 的一項研究專案,重新想像了使用知識圖譜的檢索增強生成(RAG)。該專案已被 EMNLP 2025 收錄,以基於圖形的架構取代傳統的平面向量儲存方法,從文件中提取實體及其關係,為 LLM 應用提供顯著更好的上下文理解。
微調大型語言模型已成為需要特定領域 AI 效能的組織不可或缺的手段,但這個過程始終受到一個關鍵資源的瓶頸:高品質的訓練資料。手動建立指令微調資料集既昂貴又緩慢,且需要通常短缺的領域專業知識。Easy Dataset,ConardLi 開發的開源框架,透過提供一個基於 GUI 的系統,從非結 …