Causal-Conv1d:驅動 Mamba 狀態空間模型的 CUDA 最佳化核心
Transformer 架構已主宰深度學習多年,但一個新的挑戰者已經出現:狀態空間模型(SSM)。在最具影響力的 SSM 架構之一 Mamba 的核心,是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao(以 FlashAttention …
Transformer 架構已主宰深度學習多年,但一個新的挑戰者已經出現:狀態空間模型(SSM)。在最具影響力的 SSM 架構之一 Mamba 的核心,是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao(以 FlashAttention …
多年來,AI 社群一直處在一個廣為接受的假設之下:Transformer 架構——在里程碑式的「Attention Is All You Need」論文中首次提出——是建構大型語言模型的唯一可行途徑。遞歸神經網路(RNN)被認為已經過時——訓練太慢、太容易出現梯度消失、無法在規模上匹配 …

AI 產業在過去五年透過擴展規模來獲取更強大的模型——增加參數、消耗更多算力,以令電網營運商從維吉尼亞到新加坡都警覺的速度吞噬電力。2026 年 4 月,塔夫茨大學研究團隊發布了一項成果,從根本挑戰這一策略的核心假設:更大,不必然意味著更昂貴。他們的神經符號視覺語言動作模型在一項嚴苛的規劃 …