深度學習

AI May 02, 2026

Causal-Conv1d：驅動 Mamba 狀態空間模型的 CUDA 最佳化核心

Transformer 架構已主宰深度學習多年，但一個新的挑戰者已經出現：狀態空間模型（SSM）。在最具影響力的 SSM 架構之一 Mamba 的核心，是一個名為 Causal-Conv1d 的、令人驚訝地簡樸的 CUDA 核心函式庫。由 Tri Dao（以 FlashAttention …

AI May 02, 2026

多年來，AI 社群一直處在一個廣為接受的假設之下：Transformer 架構——在里程碑式的「Attention Is All You Need」論文中首次提出——是建構大型語言模型的唯一可行途徑。遞歸神經網路（RNN）被認為已經過時——訓練太慢、太容易出現梯度消失、無法在規模上匹配 …

AI 趨勢 Apr 08, 2026

AI 產業在過去五年透過擴展規模來獲取更強大的模型——增加參數、消耗更多算力，以令電網營運商從維吉尼亞到新加坡都警覺的速度吞噬電力。2026 年 4 月，塔夫茨大學研究團隊發布了一項成果，從根本挑戰這一策略的核心假設：更大，不必然意味著更昂貴。他們的神經符號視覺語言動作模型在一項嚴苛的規劃 …