AI

llama.cpp:在 CPU 和 GPU 上进行高性能 LLM 推理

llama.cpp 是一个高性能 C++ 实现,用于在 CPU 和 GPU 上本地运行 LLM,支持量化,兼容数百种模型。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
llama.cpp:在 CPU 和 GPU 上进行高性能 LLM 推理

llama.cpp 已发展成为通用推理引擎,支持数百种模型架构和多种后端。

graph TD
    A[GGUF 模型文件] --> B[llama.cpp 推理引擎]
    B --> C[CPU 后端\nx86 搭配 AVX2/AVX-512\nARM 搭配 NEON]
    B --> D[CUDA 后端\nNVIDIA GPU\nTensor Core]
    B --> E[Metal 后端\nApple Silicon GPU\n统一内存]
    B --> F[Vulkan 后端\n跨平台 GPU\nAMD/Intel/NVIDIA]
    C --> G[输出 Tokens]
    D --> G
    E --> G
    F --> G
    B --> H[采样策略\n温度, Top-K, Top-P\n重复惩罚]
    H --> G
量化每权重位数内存 (7B 模型)与 FP16 的质量比较
FP161614 GB基准
Q8_087 GB损失可忽略
Q4_K_M44.2 GB小损失
Q2_K22.2 GB显著损失
接口命令 / 方法使用场景
CLI (main)./llama-cli -m model.gguf -p "Hello"快速问题、脚本
服务器 (API)./llama-server -m model.ggufWeb 应用、OpenAI 兼容 API
Python 绑定llama-cpp-pythonPython 集成、自动化
模型大小量化最低 RAM典型硬件
7B-8BQ4_K_M6 GB笔记本电脑、MacBook Air
13B-14BQ4_K_M10 GB台式电脑、MacBook Pro
70B-72BQ4_K_M40 GB服务器、多 GPU 设置

常见问题

什么是 llama.cpp? 高性能 C++ 实现,用于在本地运行 LLM,支持广泛的模型量化。

什么是 GGUF 格式? 为 llama.cpp 开发的模型格式,在单一文件中包含所有模型数据。

可以在哪些硬件上运行? CPU(x86/ARM/Apple Silicon)、GPU(CUDA/ROCm/Metal/Vulkan)和混合模式。

哪些模型兼容? 数百种架构,包括 Llama、Mistral、Gemma、Qwen、DeepSeek 等。

可以用作服务器吗? 是的,内置 HTTP 服务器提供 OpenAI 兼容的 API。


延伸阅读

TAG
CATEGORIES