PowerInfer:通过 CPU-GPU 混合设计在消费级 GPU 上实现高速 LLM 推理
在本地运行大型语言模型一直受到一道难以逾越的限制:GPU 内存。一个 1750 亿参数的 FP16 模型需要约 350GB 的 VRAM——远远超出 RTX 4090 等消费级 GPU 所能提供的 24GB。服务器级的解决方案(A100、H100)确实存在,但它们的价格高达数万美元 …
在本地运行大型语言模型一直受到一道难以逾越的限制:GPU 内存。一个 1750 亿参数的 FP16 模型需要约 350GB 的 VRAM——远远超出 RTX 4090 等消费级 GPU 所能提供的 24GB。服务器级的解决方案(A100、H100)确实存在,但它们的价格高达数万美元 …
Transformer 架构已主宰深度学习多年,但一个新的挑战者已经出现:状态空间模型(SSM)。在最具影响力的 SSM 架构之一 Mamba 的核心,是一个名为 Causal-Conv1d 的、令人惊讶地简朴的 CUDA 内核库。由 Tri Dao(以 FlashAttention 闻名 …