PowerInfer：通过 CPU-GPU 混合设计在消费级 GPU 上实现高速 LLM 推理

Q: "什么是 PowerInfer？"

"PowerInfer 是一个针对消费级 GPU 优化的高速 LLM 推理引擎，采用 CPU-GPU 混合设计，可在单张 NVIDIA RTX 4090（24GB VRAM）上运行 175B 参数等大型模型。"

Q: "什么是激活局部性？"

"激活局部性是 PowerInfer 的关键洞察：对于任何给定的输入 token，只有一小部分神经元处于活跃状态。通过预先计算哪些神经元可能被激活，它仅将这些权重加载到 GPU，大幅降低内存需求和带宽。"

Q: "PowerInfer 的性能与其他引擎相比如何？"

"PowerInfer 在相同硬件上对于大型模型可达到最高 11 倍的加速（相较于 llama.cpp），并且可以在单张消费级 GPU 上运行通常需要多张 GPU 或高内存服务器硬件的模型。"

Q: "PowerInfer 支持哪些模型？"

"PowerInfer 支持 Llama 系列模型，包括 Llama-2、Llama-3、CodeLlama 和其他基于 Transformer 的架构，特别专注于 7B 到 175B 参数范围。"

Q: "如何安装 PowerInfer？"

"PowerInfer 从源代码通过 CMake 构建安装。该仓库提供 Linux、macOS 和 Windows 的构建脚本，GPU 加速需要 CUDA 支持。"

PowerInfer 是一个专为消费级 GPU 设计的高速 LLM 推理引擎，利用激活局部性在单张 RTX 4090 上运行 175B 参数模型。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 04, 2026 阅读 9 分钟

在本地运行大型语言模型一直受到一道难以逾越的限制：GPU 内存。一个 1750 亿参数的 FP16 模型需要约 350GB 的 VRAM——远远超出 RTX 4090 等消费级 GPU 所能提供的 24GB。服务器级的解决方案（A100、H100）确实存在，但它们的价格高达数万美元。PowerInfer 由 Tiiny-AI（原上海交通大学团队）开发，利用一个巧妙的洞察突破这道高墙，该洞察利用了神经网络实际计算方式的一个基本特性。

这个洞察称为激活局部性：对于任何给定的输入 token，只有一小部分模型神经元处于活跃状态，其余的基本上处于闲置状态。PowerInfer 通过预先分析模型来识别哪些神经元是"热的"（频繁激活）和哪些是"冷的"（很少激活）。热神经元保留在 GPU 上以便快速访问；冷神经元保留在 CPU 内存中，仅在需要时才加载。

这种混合方法非常有效。一个通常需要多 GPU 服务器的 175B 模型可以在单张 RTX 4090 上运行，冷神经元的 CPU-GPU 数据传输与 GPU 对热神经元的计算同时进行。其结果是传统模型并行或内存卸载方法无法达到的推理速度。

激活局部性在实践中如何运作？

PowerInfer 的方法包括一个离线分析阶段和一个在线混合执行阶段。

流程图 TD
    A[LLM 权重\n完整模型] --> B[离线分析\n激活模式分析]
    B --> C[神经元分类]
    C --> D[热神经元\n频繁激活]
    C --> E[冷神经元\n很少激活]

    D --> F[GPU 内存\nRTX 4090 24GB]
    E --> G[CPU DRAM\n系统内存]

    H[输入 Token] --> I{在线推理}
    I --> J[计算热神经元\n在 GPU 上 - 快速]
    I --> K[CPU 查询\n预测需要哪些冷神经元]
    K --> L[加载所选冷神经元\n到 GPU - 重叠进行]
    L --> J

    J --> M[下一个 Token\n预测]

关键的性能技巧在于重叠：当 GPU 计算当前 token 的热神经元激活时，CPU 预取预测为下一个 token 所需的冷神经元。这将内存传输延迟隐藏在计算背后，保持 GPU 的高利用率。

可测量的性能增益有哪些？

PowerInfer 发表的基准测试显示了相较于传统方法的惊人加速。

模型大小	llama.cpp（token/秒）	PowerInfer（token/秒）	加速比
OPT-6.7B	8.5	32.1	3.8x
Llama-2-13B	4.2	18.7	4.5x
Llama-2-70B	0.9	6.4	7.1x
OPT-175B	0.2（GPU OOM）	2.2	11.0x

175B 参数模型在 RTX 4090 上以每秒 2.2 个 token 运行是最引人注目的结果。虽然不是实时聊天的速度，但对于批量推理、内容生成和异步处理任务来说已经足够——全部在一张价格不到 2,000 美元的消费级 GPU 上完成。

有哪些硬件需求和限制？

PowerInfer 的 CPU-GPU 混合设计有特定的硬件要求和权衡。

组件	需求	备注
GPU	NVIDIA GPU 8GB+ VRAM	70B+ 模型建议使用 RTX 3090/4090
CPU	多核（建议 8+ 核）	CPU 负责冷神经元预测和预取
系统 RAM	70B 需 32GB+，175B 需 128GB+	冷神经元存在于系统内存中
存储	建议使用快速 NVMe SSD	模型权重从磁盘加载
CUDA	CUDA 11.8+	GPU 内核需求

主要的限制在于性能高度依赖模型的激活稀疏性。密集、高度活跃的模型可能无法从混合方法中获得同样多的好处。PowerInfer 最适合经过训练或微调以展现激活局部性的模型——幸运的是，这包括大多数现代 Transformer 架构。

PowerInfer 如何安装？

PowerInfer 需要从源代码构建以在目标硬件上获得最佳性能。

# 克隆并构建
git clone https://github.com/Tiiny-AI/PowerInfer.git
cd PowerInfer
cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release

# 使用模型运行
./build/bin/main -m /path/to/model -p "你的提示内容"

该项目为流行的架构提供了预先量化的模型权重，激活分析步骤已集成到模型加载过程中，无需手动配置。

常见问题

什么是 PowerInfer？ PowerInfer 是一个针对消费级 GPU 优化的高速 LLM 推理引擎，采用 CPU-GPU 混合设计，可在单张 NVIDIA RTX 4090（24GB VRAM）上运行 175B 参数等大型模型。

什么是激活局部性？ 激活局部性是 PowerInfer 的关键洞察：对于任何给定的输入 token，只有一小部分神经元处于活跃状态。通过预先计算哪些神经元可能被激活，它仅将这些权重加载到 GPU，大幅降低内存需求和带宽。

PowerInfer 的性能与其他引擎相比如何？ PowerInfer 在相同硬件上对于大型模型可达到最高 11 倍的加速（相较于 llama.cpp），并且可以在单张消费级 GPU 上运行通常需要多张 GPU 或高内存服务器硬件的模型。

PowerInfer 支持哪些模型？ PowerInfer 支持 Llama 系列模型，包括 Llama-2、Llama-3、CodeLlama 和其他基于 Transformer 的架构，特别专注于 7B 到 175B 参数范围。

如何安装 PowerInfer？ PowerInfer 从源代码通过 CMake 构建安装。该仓库提供 Linux、macOS 和 Windows 的构建脚本，GPU 加速需要 CUDA 支持。

PowerInfer：通过 CPU-GPU 混合设计在消费级 GPU 上实现高速 LLM 推理

激活局部性在实践中如何运作？

可测量的性能增益有哪些？

有哪些硬件需求和限制？

PowerInfer 如何安装？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

PowerInfer：通过 CPU-GPU 混合设计在消费级 GPU 上实现高速 LLM 推理

激活局部性在实践中如何运作？

可测量的性能增益有哪些？

有哪些硬件需求和限制？

PowerInfer 如何安装？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险