微調大型語言模型曾經是一個複雜、資源密集的過程,僅限於擁有大型 GPU 叢集的組織。LlamaFactory 使這項能力普及化,提供一個可存取的、功能豐富的框架,使在消費級硬體上微調數百種 LLM 架構變得實用。
由研究社群(hiyouga/LlamaFactory)創建,該框架已成長為最受歡迎的開源微調工具之一,支援從單一 GPU 上的簡單 LoRA 調整到跨多個節點的完整分散式訓練的一切。它抽象化了訓練基礎設施的複雜性,讓從業者專注於資料、配置和評估。
LlamaFactory 特別有價值之處在於其對參數高效微調方法的全面支援。70B 模型的完整微調需要超過 140GB 的 GPU 記憶體。在 LlamaFactory 中使用 QLoRA,同樣的任務可以在單個 24GB GPU 上完成,品質損失最小——硬體需求減少了 6 倍。
LlamaFactory 的訓練架構如何運作?
LlamaFactory 提供統一的訓練流程,支援多種微調策略。
graph LR
A[基礎模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ]
B --> C[適配器設定\nLoRA / QLoRA / DoRA / 完整]
C --> D[訓練配置\n資料 + 超參數]
D --> E[訓練迴圈\nSFT / RLHF / DPO / KTO]
E --> F[訓練最佳化\n閃電注意力, 梯度檢查點]
F --> G[輸出\n合併模型 / 適配器權重]
G --> H[匯出\nHugging Face, GGUF, Ollama]
該流程在統一的工作流程中處理資料預處理、分詞、訓練編排和模型匯出。
LlamaFactory 支援哪些微調方法?
微調方法的選擇決定了訓練的記憶體、速度和品質特性。
| 方法 | 記憶體 (7B) | 記憶體 (70B) | 訓練速度 | 與完整 FT 的品質比較 |
|---|---|---|---|---|
| 完整 FT | 56 GB | 560 GB | 1 倍(參考) | 相同 |
| LoRA (rank=16) | 16 GB | 160 GB | 快 1.2 倍 | ~99% |
| QLoRA (4 位元) | 8 GB | 48 GB | 慢 1.5 倍 | ~97% |
| DoRA | 17 GB | 162 GB | 與 LoRA 相似 | ~99.5% |
| GaLore | 20 GB | 180 GB | 略慢 | ~98% |
在 48GB 記憶體中微調 70B 模型(QLoRA)的能力使大規模模型自訂的存取權普及化。
LlamaFactory 支援哪些訓練演算法?
除了參數高效微調之外,LlamaFactory 還支援全方位的 LLM 訓練目標。
| 訓練演算法 | 目的 | 所需資料 |
|---|---|---|
| 監督式 FT (SFT) | 指令遵循 | 指令-回應對 |
| 獎勵建模 | 偏好預測 | 選擇-拒絕對 |
| PPO | RLHF 對齊 | 獎勵模型 + 提示 |
| DPO | 直接偏好最佳化 | 偏好對 |
| KTO | 未配對偏好最佳化 | 好/壞回應 |
| ORPO | 結合 SFT + 對齊 | 偏好對 |
這套全面的演算法使 LlamaFactory 適用於 LLM 自訂的每個階段,從初始指令調整到最終偏好對齊。
如何使用 LlamaFactory 的 Web UI?
LlamaFactory 基於 Gradio 的 Web 介面提供了命令列配置的視覺替代方案。
| 標籤頁 | 目的 | 關鍵配置 |
|---|---|---|
| 模型 | 選擇基礎模型和量化 | 模型名稱、精度、快取目錄 |
| 資料 | 選擇訓練資料集 | 資料集名稱、格式化、分割比例 |
| 訓練 | 配置超參數 | 學習率、批次大小、週期數 |
| 配置 | 進階配置 | 方法、適配器設定、最佳化 |
| 匯出 | 儲存訓練好的模型 | 格式選擇、量化級別 |
Web UI 設計為對新手足夠直觀,同時暴露進階使用者所需的全部配置選項深度。
常見問題
什麼是 LlamaFactory? 用於高效微調 LLM 的開源框架,支援 LoRA、QLoRA 等方法和數百種模型。
支援哪些微調方法? 完整 FT、LoRA、QLoRA、DoRA、GaLore 以及混合方法。
包含哪些訓練功能? SFT、獎勵建模、PPO、DPO、KTO、ORPO,以及資料預處理、課程學習等。
可以在有限 GPU 記憶體下使用嗎? 可以,QLoRA 允許在 8GB GPU 上微調 7B 模型。
有哪些互動介面? Web UI、CLI 和 Python API。
延伸閱讀
- LlamaFactory GitHub 儲存庫 – 原始碼、文件和範例
- LlamaFactory 文件 – 官方使用指南和 API 參考
- LoRA 論文 (ArXiv) – “LoRA: Low-Rank Adaptation of Large Language Models”
- QLoRA 論文 (ArXiv) – “QLoRA: Efficient Finetuning of Quantized Language Models”
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!