Tags

CUDA

Flash Linear Attention:Transformer 的高效注意力機制
AI

Flash Linear Attention:Transformer 的高效注意力機制

Transformer 架構自推出以來一直是序列處理的主導模型,但它有一個根本性的限制:自注意力機制的複雜度隨序列長度以 O(n^2) 增長。對於現代 AI 應用日益需要的長上下文——128K tokens、1M tokens 及以上——這個二次瓶頸變得難以負擔。Flash Linear …

bitsandbytes:LLM 訓練與推論必備的 k-bit 量化函式庫
AI

bitsandbytes:LLM 訓練與推論必備的 k-bit 量化函式庫

大型語言模型已經遠遠超出了消費級硬體的記憶體容量。一個 700 億參數的模型在標準 16 位元精度下需要 140 GB 的 GPU 記憶體──遠遠超過最昂貴的消費級 GPU。bitsandbytes 就是彌補這個差距的函式庫,提供量化技術,使得在可負擔的硬體上載入、訓練和執行大型模型成為可 …

TAG