PowerInfer:透過 CPU-GPU 混合設計在消費級 GPU 上實現高速 LLM 推論
在本地運行大型語言模型一直受到一道難以逾越的限制:GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案(A100、H100)確實存在,但它們的價格高達數萬美元 …
在本地運行大型語言模型一直受到一道難以逾越的限制:GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案(A100、H100)確實存在,但它們的價格高達數萬美元 …
Transformer 架構已主宰深度學習多年,但一個新的挑戰者已經出現:狀態空間模型(SSM)。在最具影響力的 SSM 架構之一 Mamba 的核心,是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao(以 FlashAttention …