Flash Linear Attention:Transformer 的高效注意力机制
Flash Linear Attention 通过提供线性复杂度替代方案,使 Transformer 模型能够处理比以前长数个数量级的序列。 graph LR subgraph 标准注意力 O(n^2) A1[Q: n x d] --> A2[K^T: d x n] A2 …
Flash Linear Attention 通过提供线性复杂度替代方案,使 Transformer 模型能够处理比以前长数个数量级的序列。 graph LR subgraph 标准注意力 O(n^2) A1[Q: n x d] --> A2[K^T: d x n] A2 …