CUDA

AI May 05, 2026

Flash Linear Attention：Transformer 的高效注意力機制

Transformer 架構自推出以來一直是序列處理的主導模型，但它有一個根本性的限制：自注意力機制的複雜度隨序列長度以 O(n^2) 增長。對於現代 AI 應用日益需要的長上下文——128K tokens、1M tokens 及以上——這個二次瓶頸變得難以負擔。Flash Linear …

AI May 04, 2026

大型語言模型已經遠遠超出了消費級硬體的記憶體容量。一個 700 億參數的模型在標準 16 位元精度下需要 140 GB 的 GPU 記憶體──遠遠超過最昂貴的消費級 GPU。bitsandbytes 就是彌補這個差距的函式庫，提供量化技術，使得在可負擔的硬體上載入、訓練和執行大型模型成為可 …

AI May 02, 2026

Transformer 架構已主宰深度學習多年，但一個新的挑戰者已經出現：狀態空間模型（SSM）。在最具影響力的 SSM 架構之一 Mamba 的核心，是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao（以 FlashAttention …