深度学习

AI May 05, 2026

Hugging Face Transformers：预训练模型的通用库

Hugging Face Transformers 是让整个 AI 生态系统对每个开发者都可访问的库。 graph LR subgraph 抽象层 A1[pipeline()\n高阶 API] --> A2[AutoModel\n自动模型选择] A2 --> A3[特定模型 …

AI May 05, 2026

Flash Linear Attention 通过提供线性复杂度替代方案，使 Transformer 模型能够处理比以前长数个数量级的序列。 graph LR subgraph 标准注意力 O(n^2) A1[Q: n x d] --> A2[K^T: d x n] A2 …

AI May 05, 2026

ColossalAI 提供从单一 GPU 到数千个 GPU 扩展训练所需的并行原语。 graph TD A[模型 + 数据] --> B{并行策略} B --> C[数据并行\n跨设备批次分割] B --> D[张量并行\n层内操作分割] B --> E[流水线并行 …

AI May 04, 2026

PDF 文档仍然是知识传播最常见的格式之一，然而它们也是最难以程序化处理的格式。跨页面的表格、多栏布局、数学方程式、页眉和页脚都共同导致了简单提取工具的失败。Marker 以深度学习方法应对这一挑战，像人类读者一样理解文档结构——通过识别视觉布局模式，而不仅仅是遵循文本顺序。

AI May 04, 2026

在移动和边缘设备上运行深度学习模型面临独特挑战：有限的计算能力、受限的内存、电池敏感度以及多样的硬件架构。MNN（Mobile Neural Network）是阿里巴巴对这些挑战的回应，这是一款轻量级推理引擎，以最小的开销和最大的性能将 AI 带到边缘。

AI May 03, 2026

LayoutParser 是为了终结文档处理混乱而建立的开源深度学习工具包。它提供了用于文档图像分析任务的统一接口，包括布局检测、OCR 集成和视觉信息提取。仓库：github.com/Layout-Parser/layout-parser 核心功能功能描述后端选项布局检测检测 …