LlamaFactory:开源 LLM 微调框架
LlamaFactory 使在消费级硬件上微调数百种 LLM 架构变得实用。 graph LR A[基础模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ] B --> C[适配器设置\nLoRA / QLoRA …
LlamaFactory 使在消费级硬件上微调数百种 LLM 架构变得实用。 graph LR A[基础模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ] B --> C[适配器设置\nLoRA / QLoRA …
llama.cpp 已发展成为通用推理引擎,支持数百种模型架构和多种后端。 graph TD A[GGUF 模型文件] --> B[llama.cpp 推理引擎] B --> C[CPU 后端\nx86 搭配 AVX2/AVX-512\nARM 搭配 NEON] B …
Gemma.cpp 是 Google 官方为其 Gemma 开放模型提供的推理引擎。 graph TD A[Gemma 模型\nSFP / 权重文件] --> B[Gemma.cpp 引擎] B --> C[分词器\nSentencePiece / Tokenizer] B …
Flash Linear Attention 通过提供线性复杂度替代方案,使 Transformer 模型能够处理比以前长数个数量级的序列。 graph LR subgraph 标准注意力 O(n^2) A1[Q: n x d] --> A2[K^T: d x n] A2 …
FAISS 是 Meta 的 Facebook AI 相似性搜索库,是向量搜索领域的黄金标准。它提供 Python 绑定的 C++ 库,实现了十亿级别的最近邻搜索。 graph LR A[密集向量\n浮点数, D 维度] --> B[索引选择] B --> C{索引类型} C …
ColossalAI 提供从单一 GPU 到数千个 GPU 扩展训练所需的并行原语。 graph TD A[模型 + 数据] --> B{并行策略} B --> C[数据并行\n跨设备批次分割] B --> D[张量并行\n层内操作分割] B --> E[流水线并行 …