AI

LlamaFactory:開源 LLM 微調框架

LlamaFactory 是一個受歡迎的開源 LLM 高效微調框架,支援 LoRA、QLoRA、完整參數訓練和數百種模型。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LlamaFactory:開源 LLM 微調框架

微調大型語言模型曾經是一個複雜、資源密集的過程,僅限於擁有大型 GPU 叢集的組織。LlamaFactory 使這項能力普及化,提供一個可存取的、功能豐富的框架,使在消費級硬體上微調數百種 LLM 架構變得實用。

由研究社群(hiyouga/LlamaFactory)創建,該框架已成長為最受歡迎的開源微調工具之一,支援從單一 GPU 上的簡單 LoRA 調整到跨多個節點的完整分散式訓練的一切。它抽象化了訓練基礎設施的複雜性,讓從業者專注於資料、配置和評估。

LlamaFactory 特別有價值之處在於其對參數高效微調方法的全面支援。70B 模型的完整微調需要超過 140GB 的 GPU 記憶體。在 LlamaFactory 中使用 QLoRA,同樣的任務可以在單個 24GB GPU 上完成,品質損失最小——硬體需求減少了 6 倍。


LlamaFactory 的訓練架構如何運作?

LlamaFactory 提供統一的訓練流程,支援多種微調策略。

graph LR
    A[基礎模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ]
    B --> C[適配器設定\nLoRA / QLoRA / DoRA / 完整]
    C --> D[訓練配置\n資料 + 超參數]
    D --> E[訓練迴圈\nSFT / RLHF / DPO / KTO]
    E --> F[訓練最佳化\n閃電注意力, 梯度檢查點]
    F --> G[輸出\n合併模型 / 適配器權重]
    G --> H[匯出\nHugging Face, GGUF, Ollama]

該流程在統一的工作流程中處理資料預處理、分詞、訓練編排和模型匯出。


LlamaFactory 支援哪些微調方法?

微調方法的選擇決定了訓練的記憶體、速度和品質特性。

方法記憶體 (7B)記憶體 (70B)訓練速度與完整 FT 的品質比較
完整 FT56 GB560 GB1 倍(參考)相同
LoRA (rank=16)16 GB160 GB快 1.2 倍~99%
QLoRA (4 位元)8 GB48 GB慢 1.5 倍~97%
DoRA17 GB162 GB與 LoRA 相似~99.5%
GaLore20 GB180 GB略慢~98%

在 48GB 記憶體中微調 70B 模型(QLoRA)的能力使大規模模型自訂的存取權普及化。


LlamaFactory 支援哪些訓練演算法?

除了參數高效微調之外,LlamaFactory 還支援全方位的 LLM 訓練目標。

訓練演算法目的所需資料
監督式 FT (SFT)指令遵循指令-回應對
獎勵建模偏好預測選擇-拒絕對
PPORLHF 對齊獎勵模型 + 提示
DPO直接偏好最佳化偏好對
KTO未配對偏好最佳化好/壞回應
ORPO結合 SFT + 對齊偏好對

這套全面的演算法使 LlamaFactory 適用於 LLM 自訂的每個階段,從初始指令調整到最終偏好對齊。


如何使用 LlamaFactory 的 Web UI?

LlamaFactory 基於 Gradio 的 Web 介面提供了命令列配置的視覺替代方案。

標籤頁目的關鍵配置
模型選擇基礎模型和量化模型名稱、精度、快取目錄
資料選擇訓練資料集資料集名稱、格式化、分割比例
訓練配置超參數學習率、批次大小、週期數
配置進階配置方法、適配器設定、最佳化
匯出儲存訓練好的模型格式選擇、量化級別

Web UI 設計為對新手足夠直觀,同時暴露進階使用者所需的全部配置選項深度。


常見問題

什麼是 LlamaFactory? 用於高效微調 LLM 的開源框架,支援 LoRA、QLoRA 等方法和數百種模型。

支援哪些微調方法? 完整 FT、LoRA、QLoRA、DoRA、GaLore 以及混合方法。

包含哪些訓練功能? SFT、獎勵建模、PPO、DPO、KTO、ORPO,以及資料預處理、課程學習等。

可以在有限 GPU 記憶體下使用嗎? 可以,QLoRA 允許在 8GB GPU 上微調 7B 模型。

有哪些互動介面? Web UI、CLI 和 Python API。


延伸閱讀

TAG