PowerInfer:透過 CPU-GPU 混合設計在消費級 GPU 上實現高速 LLM 推論
在本地運行大型語言模型一直受到一道難以逾越的限制:GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案(A100、H100)確實存在,但它們的價格高達數萬美元 …
在本地運行大型語言模型一直受到一道難以逾越的限制:GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案(A100、H100)確實存在,但它們的價格高達數萬美元 …