llm.c:Karpathy 的极简 C 语言 LLM 训练实现
llm.c 提供了一个在纯 C 中完整、可运行的 GPT-2 训练实现。 graph LR A[输入文本\n已分词] --> B[嵌入层\nToken + 位置嵌入] B --> C[Transformer 块 x12\n自注意力 + FFN] C --> D[层归一化 …
llm.c 提供了一个在纯 C 中完整、可运行的 GPT-2 训练实现。 graph LR A[输入文本\n已分词] --> B[嵌入层\nToken + 位置嵌入] B --> C[Transformer 块 x12\n自注意力 + FFN] C --> D[层归一化 …
Flash Linear Attention 通过提供线性复杂度替代方案,使 Transformer 模型能够处理比以前长数个数量级的序列。 graph LR subgraph 标准注意力 O(n^2) A1[Q: n x d] --> A2[K^T: d x n] A2 …