LlamaFactory 使在消费级硬件上微调数百种 LLM 架构变得实用。
graph LR
A[基础模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ]
B --> C[适配器设置\nLoRA / QLoRA / DoRA / 完整]
C --> D[训练配置\n数据 + 超参数]
D --> E[训练循环\nSFT / RLHF / DPO / KTO]
E --> F[训练优化\nFlash Attention, 梯度检查点]
F --> G[输出\n合并模型 / 适配器权重]
G --> H[导出\nHugging Face, GGUF, Ollama]
| 方法 | 内存 (7B) | 内存 (70B) | 训练速度 | 与完整 FT 的质量比较 |
|---|---|---|---|---|
| 完整 FT | 56 GB | 560 GB | 1 倍(参考) | 相同 |
| LoRA (rank=16) | 16 GB | 160 GB | 快 1.2 倍 | ~99% |
| QLoRA (4 位) | 8 GB | 48 GB | 慢 1.5 倍 | ~97% |
| DoRA | 17 GB | 162 GB | 与 LoRA 相似 | ~99.5% |
| 训练算法 | 目的 | 所需数据 |
|---|---|---|
| SFT | 指令遵循 | 指令-响应对 |
| DPO | 直接偏好优化 | 偏好对 |
| PPO | RLHF 对齐 | 奖励模型 + 提示 |
| KTO | 未配对偏好优化 | 好/坏响应 |
| 标签页 | 目的 | 关键配置 |
|---|---|---|
| 模型 | 选择基础模型和量化 | 模型名称、精度、缓存目录 |
| 数据 | 选择训练数据集 | 数据集名称、格式化、分割比例 |
| 训练 | 配置超参数 | 学习率、批量大小、周期数 |
| 导出 | 保存训练好的模型 | 格式选择、量化级别 |
常见问题
什么是 LlamaFactory? 用于高效微调 LLM 的开源框架,支持 LoRA、QLoRA 等方法和数百种模型。
支持哪些微调方法? 完整 FT、LoRA、QLoRA、DoRA、GaLore 以及混合方法。
包含哪些训练功能? SFT、奖励建模、PPO、DPO、KTO、ORPO 等。
可以在有限 GPU 内存下使用吗? 可以,QLoRA 允许在 8GB GPU 上微调 7B 模型。
有哪些交互界面? Web UI、CLI 和 Python API。
延伸阅读
- LlamaFactory GitHub 仓库 – 源代码、文档和示例
- LlamaFactory 文档 – 官方用户指南和 API 参考
- LoRA 论文 (ArXiv) – “LoRA: Low-Rank Adaptation of Large Language Models”
- QLoRA 论文 (ArXiv) – “QLoRA: Efficient Finetuning of Quantized Language Models”
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!