Causal-Conv1d:驅動 Mamba 狀態空間模型的 CUDA 最佳化核心
Transformer 架構已主宰深度學習多年,但一個新的挑戰者已經出現:狀態空間模型(SSM)。在最具影響力的 SSM 架構之一 Mamba 的核心,是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao(以 FlashAttention …
Transformer 架構已主宰深度學習多年,但一個新的挑戰者已經出現:狀態空間模型(SSM)。在最具影響力的 SSM 架構之一 Mamba 的核心,是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao(以 FlashAttention …