llama.cpp 已发展成为通用推理引擎,支持数百种模型架构和多种后端。
graph TD
A[GGUF 模型文件] --> B[llama.cpp 推理引擎]
B --> C[CPU 后端\nx86 搭配 AVX2/AVX-512\nARM 搭配 NEON]
B --> D[CUDA 后端\nNVIDIA GPU\nTensor Core]
B --> E[Metal 后端\nApple Silicon GPU\n统一内存]
B --> F[Vulkan 后端\n跨平台 GPU\nAMD/Intel/NVIDIA]
C --> G[输出 Tokens]
D --> G
E --> G
F --> G
B --> H[采样策略\n温度, Top-K, Top-P\n重复惩罚]
H --> G
| 量化 | 每权重位数 | 内存 (7B 模型) | 与 FP16 的质量比较 |
|---|---|---|---|
| FP16 | 16 | 14 GB | 基准 |
| Q8_0 | 8 | 7 GB | 损失可忽略 |
| Q4_K_M | 4 | 4.2 GB | 小损失 |
| Q2_K | 2 | 2.2 GB | 显著损失 |
| 接口 | 命令 / 方法 | 使用场景 |
|---|---|---|
| CLI (main) | ./llama-cli -m model.gguf -p "Hello" | 快速问题、脚本 |
| 服务器 (API) | ./llama-server -m model.gguf | Web 应用、OpenAI 兼容 API |
| Python 绑定 | llama-cpp-python | Python 集成、自动化 |
| 模型大小 | 量化 | 最低 RAM | 典型硬件 |
|---|---|---|---|
| 7B-8B | Q4_K_M | 6 GB | 笔记本电脑、MacBook Air |
| 13B-14B | Q4_K_M | 10 GB | 台式电脑、MacBook Pro |
| 70B-72B | Q4_K_M | 40 GB | 服务器、多 GPU 设置 |
常见问题
什么是 llama.cpp? 高性能 C++ 实现,用于在本地运行 LLM,支持广泛的模型量化。
什么是 GGUF 格式? 为 llama.cpp 开发的模型格式,在单一文件中包含所有模型数据。
可以在哪些硬件上运行? CPU(x86/ARM/Apple Silicon)、GPU(CUDA/ROCm/Metal/Vulkan)和混合模式。
哪些模型兼容? 数百种架构,包括 Llama、Mistral、Gemma、Qwen、DeepSeek 等。
可以用作服务器吗? 是的,内置 HTTP 服务器提供 OpenAI 兼容的 API。
延伸阅读
- llama.cpp GitHub 仓库 – 源代码、文档和社区
- llama.cpp 文档 – 附用户指南和故障排除的 Wiki
- GGUF 格式规范 – GGUF 模型格式的技术细节
- 本地 LLM 指南 – 使用 llama.cpp 等工具运行本地 LLM 的指南
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!