机器学习

AI May 04, 2026

PowerInfer：通过 CPU-GPU 混合设计在消费级 GPU 上实现高速 LLM 推理

在本地运行大型语言模型一直受到一道难以逾越的限制：GPU 内存。一个 1750 亿参数的 FP16 模型需要约 350GB 的 VRAM——远远超出 RTX 4090 等消费级 GPU 所能提供的 24GB。服务器级的解决方案（A100、H100）确实存在，但它们的价格高达数万美元 …

AI May 02, 2026

Transformer 架构已主宰深度学习多年，但一个新的挑战者已经出现：状态空间模型（SSM）。在最具影响力的 SSM 架构之一 Mamba 的核心，是一个名为 Causal-Conv1d 的、令人惊讶地简朴的 CUDA 内核库。由 Tri Dao（以 FlashAttention 闻名 …