AI

Gemma.cpp:Google 的轻量级 Gemma 模型 C++ 推理引擎

Gemma.cpp 是 Google 的轻量级 C++ 推理引擎,专为 Gemma 开放模型设计,针对边缘和移动部署进行了优化,依赖最小。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Gemma.cpp:Google 的轻量级 Gemma 模型 C++ 推理引擎

Gemma.cpp 是 Google 官方为其 Gemma 开放模型提供的推理引擎。

graph TD
    A[Gemma 模型\nSFP / 权重文件] --> B[Gemma.cpp 引擎]
    B --> C[分词器\nSentencePiece / Tokenizer]
    B --> D[Transformer 块\n自注意力 + FFN]
    B --> E[采样层\n温度 + Top-K]
    D --> F[量化运算\nInt8 / Float16 内核]
    F --> G[CPU 后端\nx86 搭配 SIMD, ARM NEON]
    F --> H[Apple Metal GPU]
    F --> I[CUDA 后端\nNVIDIA GPU]
    B --> J[输出文本]
特性Gemma.cppllama.cppPyTorch
依赖无(纯 C++)无(纯 C++)大量(CUDA 等)
模型支持仅 Gemma200+ 模型类型任何 PyTorch 模型
二进制大小~5 MB~10-20 MB400+ MB
代码可读性非常高中等框架复杂性
用例Gemma.cpp 的优势
移动应用最小二进制大小,无大量依赖
边缘设备可在 ARM 上运行,低内存占用
教育干净、可读的 C++ 代码
隐私敏感仅本地推理,无云依赖
步骤操作
克隆git clone https://github.com/google/gemma.cpp
下载模型从 Kaggle 下载 Gemma SFP 权重
构建cmake -B build && cmake --build build
运行./build/gemma --model gemma-2b-it.sfp --prompt "Hello"

常见问题

什么是 Gemma.cpp? Google 的轻量级、最小依赖的 C++ 推理引擎,专为 Gemma 系列模型设计。

支持哪些模型? Gemma 2(2B、9B、27B)和 Gemma 3(1B、12B、27B)。

与 llama.cpp 有何不同? 更专注和极简,仅针对 Gemma 模型。

系统要求是什么? Gemma 2B 需要 4GB+ RAM,9B 需要 8GB+ RAM,27B 需要 16GB+ RAM。

为什么选择它? 当需要最小、自包含的推理引擎时,适合边缘和移动部署。


延伸阅读

TAG
CATEGORIES