消费级 GPU

AI May 04, 2026

PowerInfer：通过 CPU-GPU 混合设计在消费级 GPU 上实现高速 LLM 推理

在本地运行大型语言模型一直受到一道难以逾越的限制：GPU 内存。一个 1750 亿参数的 FP16 模型需要约 350GB 的 VRAM——远远超出 RTX 4090 等消费级 GPU 所能提供的 24GB。服务器级的解决方案（A100、H100）确实存在，但它们的价格高达数万美元 …