機器學習

AI May 04, 2026

PowerInfer：透過 CPU-GPU 混合設計在消費級 GPU 上實現高速 LLM 推論

在本地運行大型語言模型一直受到一道難以逾越的限制：GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案（A100、H100）確實存在，但它們的價格高達數萬美元 …

AI May 02, 2026

Transformer 架構已主宰深度學習多年，但一個新的挑戰者已經出現：狀態空間模型（SSM）。在最具影響力的 SSM 架構之一 Mamba 的核心，是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao（以 FlashAttention …