LLM 训练

AI May 05, 2026

llm.c：Karpathy 的极简 C 语言 LLM 训练实现

llm.c 提供了一个在纯 C 中完整、可运行的 GPT-2 训练实现。 graph LR A[输入文本\n已分词] --> B[嵌入层\nToken + 位置嵌入] B --> C[Transformer 块 x12\n自注意力 + FFN] C --> D[层归一化 …

AI May 05, 2026

LlamaFactory 使在消费级硬件上微调数百种 LLM 架构变得实用。 graph LR A[基础模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ] B --> C[适配器设置\nLoRA / QLoRA …

AI May 04, 2026

大规模将 PDF 转换为干净、机器可读的文本是 LLM 数据集准备中的基本挑战之一。传统 PDF 解析器难以处理复杂布局、表格和混合内容，而商业 OCR 服务在大规模使用时成本昂贵。olmOCR 由 Allen AI（AI2）开发，使用 7B 参数的视觉语言模型解决了这个问题，能以卓越的准 …