Transformer

AI May 05, 2026

llm.c：Karpathy 的极简 C 语言 LLM 训练实现

llm.c 提供了一个在纯 C 中完整、可运行的 GPT-2 训练实现。 graph LR A[输入文本\n已分词] --> B[嵌入层\nToken + 位置嵌入] B --> C[Transformer 块 x12\n自注意力 + FFN] C --> D[层归一化 …

AI May 05, 2026

Flash Linear Attention 通过提供线性复杂度替代方案，使 Transformer 模型能够处理比以前长数个数量级的序列。 graph LR subgraph 标准注意力 O(n^2) A1[Q: n x d] --> A2[K^T: d x n] A2 …