微調大型語言模型已成為需要特定領域 AI 效能的組織不可或缺的手段,但這個過程始終受到一個關鍵資源的瓶頸:高品質的訓練資料。手動建立指令微調資料集既昂貴又緩慢,且需要通常短缺的領域專業知識。Easy Dataset,ConardLi 開發的開源框架,透過提供一個基於 GUI 的系統,從非結構化文件合成微調資料集,直接解決了這個瓶頸。
核心概念優雅而簡單:獲取你現有的文件——PDF、Markdown 文件、DOCX 文件——然後使用 LLM 從內容生成多樣的問答對。Easy Dataset 處理整個管道,從文件解析和分塊,到 LLM 驅動的資料合成、品質過濾和匯出到標準微調格式。
Easy Dataset 與臨時資料生成腳本的不同之處在於其結構化方法。該框架支援人設驅動的提示詞多樣性、可設定的難度級別、透過自我一致性檢查的品質過濾,以及一個乾淨的網頁 UI,使整個過程對非程式設計師也可存取。
Easy Dataset 是如何運作的?
資料合成管道經過幾個階段,每個階段都可以透過網頁介面設定。
graph TD
A[上傳文件<br>PDF、MD、DOCX、TXT] --> B[文件解析器]
B --> C[分塊與上下文<br>保留]
C --> D[人設選擇<br>可設定人設]
D --> E[LLM 資料合成<br>問答生成]
E --> F[品質過濾<br>自我一致性與啟發式]
F --> G[匯出<br>JSONL、CSV、Parquet]
G --> H[微調<br>你的 LLM]| 管道階段 | 用途 | 設定選項 |
|---|---|---|
| 文件解析 | 從來源檔案提取文字 | OCR 開關、語言檢測、表格提取 |
| 分塊 | 將文件分割為可管理的區段 | 區塊大小、重疊、策略(段落/章節/語意) |
| 人設選擇 | 定義 AI 人設以產生多樣化輸出 | 內建人設或自訂人設定義 |
| 資料合成 | 從區塊生成問答對 | 範例問題、輸出格式、配對數量 |
| 品質過濾 | 移除低品質或重複條目 | 去重、啟發式規則、LLM 作為評審 |
| 格式匯出 | 輸出到微調格式 | JSONL、CSV、Parquet、Hugging Face Hub |
Easy Dataset 支援哪些文件格式?
Easy Dataset 支援多種輸入格式,使其易於與現有知識庫配合使用。
| 格式 | 副檔名 | 解析器備註 |
|---|---|---|
| 多欄支援、表格提取、OCR | ||
| Markdown | .md | 保留標題、列表、程式碼區塊 |
| Word | .docx | 保留格式和嵌入的影像 |
| 純文字 | .txt | 簡單文字提取 |
| CSV/JSON | .csv、.json、.jsonl | 結構化資料支援 |
| HTML | .html、.htm | 網頁內容提取 |
| EPUB | .epub | 電子書格式支援 |
| LaTeX | .tex | 學術論文支援 |
| PowerPoint | .pptx | 投影片內容提取 |
分塊引擎仔細關注上下文保留。當一個區塊跨越語意邊界(如章節標題)時,它會包含標題上下文以維持生成的問答對的連貫性。
人設驅動提示詞是如何運作的?
人設系統是 Easy Dataset 最強大的功能之一。它不僅從同一視角生成所有問題,而是讓你定義多個人設,每個從其獨特的視角生成問題。
| 人設 | 視角 | 生成的範例問題 |
|---|---|---|
| 初學者 | 簡化、概念性 | 「這個系統的主要目的是什麼?」 |
| 實踐者 | 應用、實用 | 「如何設定重試機制?」 |
| 專家 | 進階、分析性 | 「這兩種架構之間有哪些權衡?」 |
| 審查者 | 批判、比較性 | 「有哪些潛在的邊界案例未被處理?」 |
這種多樣性對於產出穩健的微調資料集至關重要。在單一視角資料上訓練的模型傾向於過度擬合該風格,而多人設資料則產出在不同用例上泛化效果更好的模型。
Easy Dataset 支援哪些匯出格式?
一旦資料集被合成並經過品質過濾,Easy Dataset 支援多種匯出選項。
| 匯出格式 | 常見用例 | 結構 |
|---|---|---|
| JSONL (ShareGPT) | 聊天模型微調 | 具有角色和回合的對話 |
| JSONL (Alpaca) | 指令微調 | instruction、input、output |
| JSONL (OpenAI) | OpenAI 微調 API | messages 陣列格式 |
| CSV | 簡單處理 | question、answer、context 欄位 |
| Parquet | 大規模訓練 | 欄位式、壓縮格式 |
| Hugging Face Hub | 直接發布 | 自動上傳到資料集倉庫 |
品質過濾過程是什麼?
Easy Dataset 包含內建的品質保證,在資料合成後執行。過濾系統同時使用自動化啟發式和基於 LLM 的評估。
| 過濾類型 | 方法 | 捕捉的內容 |
|---|---|---|
| 去重 | 語意相似度檢測 | 幾乎重複的問答對 |
| 長度過濾 | 最小和最大長度閾值 | 太短或太長的回應 |
| 自我一致性 | LLM 生成答案兩次並比較 | 幻覺或不一致的內容 |
| 相關性檢查 | 問題與文件區塊間的餘弦相似度 | 離題的生成 |
| 啟發式規則 | 可設定的模式匹配 | 有害內容、PII、格式問題 |
預設管道通常過濾掉 5-15% 的生成配對,取決於來源文件品質和用於合成的 LLM。
常見問題
什麼是 Easy Dataset? Easy Dataset 是 ConardLi 開發的開源基於 GUI 的框架,用於從非結構化文件建立高品質的微調資料集。它處理 PDF、Markdown、DOCX 和其他格式,使用 LLM 驅動的資料合成搭配人設驅動的提示詞來生成多樣的訓練範例。它支援多種匯出格式,專為指令微調和偏好對齊而設計。
Easy Dataset 支援哪些文件格式? Easy Dataset 支援 PDF、Markdown(.md)、DOCX(.docx)、TXT、CSV、JSON、JSONL、HTML、EPUB、LaTeX(.tex)和 PowerPoint(.pptx)。文件被解析為保留上下文、格式和層次關係的結構化區塊。該框架透過 OCR 整合處理多欄 PDF、表格和嵌入的影像。
Easy Dataset 中的人設驅動提示詞是如何運作的? 人設驅動提示詞使用可設定的 AI 人設,從相同的來源材料生成多樣的問答對。例如,「初學者」人設可能生成簡單的定義問題,而「專家」人設則生成複雜的分析問題。這種方法產出的資料集具有自然的變異性,顯著改善了下游模型的泛化能力。
Easy Dataset 支援哪些匯出格式? Easy Dataset 匯出為最常見的微調格式,包括 JSONL(ShareGPT 風格、Alpaca 風格、OpenAI 風格)、CSV、Parquet 和 Hugging Face Datasets 格式。它還支援直接匯出到 Hugging Face Hub。可以透過插件系統定義自訂輸出模板。
Easy Dataset 基於哪篇研究論文? Easy Dataset 基於論文「Large Language Models are Effective Dataset Generators」,該論文證明 LLM 合成的訓練資料在微調方面可以匹配或超越人工策展的資料。該框架實作了論文的主要發現,包括人設驅動的多樣性、難度校準以及透過自我一致性檢查和啟發式驗證的品質過濾。
延伸閱讀
- Easy Dataset GitHub 倉庫 – 原始碼、議題和使用範例
- Easy Dataset 文件 – 設定指南和設定參考
- Large Language Models are Effective Dataset Generators 論文 – 框架方法基礎的研究論文
- Hugging Face Datasets 格式指南 – 下游微調的匯出格式文件