資料科學

開源 May 04, 2026

Trafilatura：適用於 LLM 資料集與研究的開源網頁文字擷取工具

從網頁中擷取乾淨、結構化的文字是 LLM 訓練資料集、研究語料庫和內容分析管線的基礎任務。Trafilatura 已成為此任務的黃金標準——這是一個 Python 函式庫，在開源文字擷取工具中持續取得最高的 F-Score，同時保持輕量、快速且易於整合。

AI May 04, 2026

大規模將 PDF 轉換為乾淨、機器可讀的文字是 LLM 資料集準備中的基本挑戰之一。傳統 PDF 解析器難以處理複雜佈局、表格和混合內容，而商業 OCR 服務在大規模使用時成本昂貴。olmOCR 由 Allen AI（AI2）開發，使用 7B 參數的視覺語言模型解決了這個問題，能以卓越的準 …

AI May 02, 2026

LightRAG 是香港大學 (HKU) 的一項研究專案，重新想像了使用知識圖譜的檢索增強生成（RAG）。該專案已被 EMNLP 2025 收錄，以基於圖形的架構取代傳統的平面向量儲存方法，從文件中提取實體及其關係，為 LLM 應用提供顯著更好的上下文理解。

AI May 02, 2026

微調大型語言模型已成為需要特定領域 AI 效能的組織不可或缺的手段，但這個過程始終受到一個關鍵資源的瓶頸：高品質的訓練資料。手動建立指令微調資料集既昂貴又緩慢，且需要通常短缺的領域專業知識。Easy Dataset，ConardLi 開發的開源框架，透過提供一個基於 GUI 的系統，從非結 …