Tags

PDF 转换

Marker:使用深度学习的开源 PDF 转 Markdown 工具
AI

Marker:使用深度学习的开源 PDF 转 Markdown 工具

PDF 文档仍然是知识传播最常见的格式之一,然而它们也是最难以程序化处理的格式。跨页面的表格、多栏布局、数学方程式、页眉和页脚都共同导致了简单提取工具的失败。Marker 以深度学习方法应对这一挑战,像人类读者一样理解文档结构——通过识别视觉布局模式,而不仅仅是遵循文本顺序。

TAG
CATEGORIES