AI

Easy Dataset:用於合成 LLM 微調資料的開源框架

Easy Dataset 是一個開源基於 GUI 的框架,用於從 PDF、Markdown 和 DOCX 等非結構化文件建立高品質的微調資料集。

Easy Dataset:用於合成 LLM 微調資料的開源框架

微調大型語言模型已成為需要特定領域 AI 效能的組織不可或缺的手段,但這個過程始終受到一個關鍵資源的瓶頸:高品質的訓練資料。手動建立指令微調資料集既昂貴又緩慢,且需要通常短缺的領域專業知識。Easy Dataset,ConardLi 開發的開源框架,透過提供一個基於 GUI 的系統,從非結構化文件合成微調資料集,直接解決了這個瓶頸。

核心概念優雅而簡單:獲取你現有的文件——PDF、Markdown 文件、DOCX 文件——然後使用 LLM 從內容生成多樣的問答對。Easy Dataset 處理整個管道,從文件解析和分塊,到 LLM 驅動的資料合成、品質過濾和匯出到標準微調格式。

Easy Dataset 與臨時資料生成腳本的不同之處在於其結構化方法。該框架支援人設驅動的提示詞多樣性、可設定的難度級別、透過自我一致性檢查的品質過濾,以及一個乾淨的網頁 UI,使整個過程對非程式設計師也可存取。


Easy Dataset 是如何運作的?

資料合成管道經過幾個階段,每個階段都可以透過網頁介面設定。

管道階段用途設定選項
文件解析從來源檔案提取文字OCR 開關、語言檢測、表格提取
分塊將文件分割為可管理的區段區塊大小、重疊、策略(段落/章節/語意)
人設選擇定義 AI 人設以產生多樣化輸出內建人設或自訂人設定義
資料合成從區塊生成問答對範例問題、輸出格式、配對數量
品質過濾移除低品質或重複條目去重、啟發式規則、LLM 作為評審
格式匯出輸出到微調格式JSONL、CSV、Parquet、Hugging Face Hub

Easy Dataset 支援哪些文件格式?

Easy Dataset 支援多種輸入格式,使其易於與現有知識庫配合使用。

格式副檔名解析器備註
PDF.pdf多欄支援、表格提取、OCR
Markdown.md保留標題、列表、程式碼區塊
Word.docx保留格式和嵌入的影像
純文字.txt簡單文字提取
CSV/JSON.csv、.json、.jsonl結構化資料支援
HTML.html、.htm網頁內容提取
EPUB.epub電子書格式支援
LaTeX.tex學術論文支援
PowerPoint.pptx投影片內容提取

分塊引擎仔細關注上下文保留。當一個區塊跨越語意邊界(如章節標題)時,它會包含標題上下文以維持生成的問答對的連貫性。


人設驅動提示詞是如何運作的?

人設系統是 Easy Dataset 最強大的功能之一。它不僅從同一視角生成所有問題,而是讓你定義多個人設,每個從其獨特的視角生成問題。

人設視角生成的範例問題
初學者簡化、概念性「這個系統的主要目的是什麼?」
實踐者應用、實用「如何設定重試機制?」
專家進階、分析性「這兩種架構之間有哪些權衡?」
審查者批判、比較性「有哪些潛在的邊界案例未被處理?」

這種多樣性對於產出穩健的微調資料集至關重要。在單一視角資料上訓練的模型傾向於過度擬合該風格,而多人設資料則產出在不同用例上泛化效果更好的模型。


Easy Dataset 支援哪些匯出格式?

一旦資料集被合成並經過品質過濾,Easy Dataset 支援多種匯出選項。

匯出格式常見用例結構
JSONL (ShareGPT)聊天模型微調具有角色和回合的對話
JSONL (Alpaca)指令微調instruction、input、output
JSONL (OpenAI)OpenAI 微調 APImessages 陣列格式
CSV簡單處理question、answer、context 欄位
Parquet大規模訓練欄位式、壓縮格式
Hugging Face Hub直接發布自動上傳到資料集倉庫

品質過濾過程是什麼?

Easy Dataset 包含內建的品質保證,在資料合成後執行。過濾系統同時使用自動化啟發式和基於 LLM 的評估。

過濾類型方法捕捉的內容
去重語意相似度檢測幾乎重複的問答對
長度過濾最小和最大長度閾值太短或太長的回應
自我一致性LLM 生成答案兩次並比較幻覺或不一致的內容
相關性檢查問題與文件區塊間的餘弦相似度離題的生成
啟發式規則可設定的模式匹配有害內容、PII、格式問題

預設管道通常過濾掉 5-15% 的生成配對,取決於來源文件品質和用於合成的 LLM。


常見問題

什麼是 Easy Dataset? Easy Dataset 是 ConardLi 開發的開源基於 GUI 的框架,用於從非結構化文件建立高品質的微調資料集。它處理 PDF、Markdown、DOCX 和其他格式,使用 LLM 驅動的資料合成搭配人設驅動的提示詞來生成多樣的訓練範例。它支援多種匯出格式,專為指令微調和偏好對齊而設計。

Easy Dataset 支援哪些文件格式? Easy Dataset 支援 PDF、Markdown(.md)、DOCX(.docx)、TXT、CSV、JSON、JSONL、HTML、EPUB、LaTeX(.tex)和 PowerPoint(.pptx)。文件被解析為保留上下文、格式和層次關係的結構化區塊。該框架透過 OCR 整合處理多欄 PDF、表格和嵌入的影像。

Easy Dataset 中的人設驅動提示詞是如何運作的? 人設驅動提示詞使用可設定的 AI 人設,從相同的來源材料生成多樣的問答對。例如,「初學者」人設可能生成簡單的定義問題,而「專家」人設則生成複雜的分析問題。這種方法產出的資料集具有自然的變異性,顯著改善了下游模型的泛化能力。

Easy Dataset 支援哪些匯出格式? Easy Dataset 匯出為最常見的微調格式,包括 JSONL(ShareGPT 風格、Alpaca 風格、OpenAI 風格)、CSV、Parquet 和 Hugging Face Datasets 格式。它還支援直接匯出到 Hugging Face Hub。可以透過插件系統定義自訂輸出模板。

Easy Dataset 基於哪篇研究論文? Easy Dataset 基於論文「Large Language Models are Effective Dataset Generators」,該論文證明 LLM 合成的訓練資料在微調方面可以匹配或超越人工策展的資料。該框架實作了論文的主要發現,包括人設驅動的多樣性、難度校準以及透過自我一致性檢查和啟發式驗證的品質過濾。


延伸閱讀

TAG