混合

AI May 04, 2026

PowerInfer：透過 CPU-GPU 混合設計在消費級 GPU 上實現高速 LLM 推論

在本地運行大型語言模型一直受到一道難以逾越的限制：GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案（A100、H100）確實存在，但它們的價格高達數萬美元 …