Tags

OCR

PDF-Extract-Kit:全面的 PDF 内容提取工具包
AI

PDF-Extract-Kit:全面的 PDF 内容提取工具包

PDF 仍然是文档交换最常见的格式,但从其中提取结构化内容是出了名的困难。由 OpenDataLab 开发的 PDF-Extract-Kit 结合了深度学习模型与传统基于规则的方法,以卓越的准确度提取文字、表格、公式和图像。 该工具包解决了 PDF 提取的全面挑战。扫描文档使用 OCR 处 …

Surya:开源多语言 OCR 与文档理解系统
AI

Surya:开源多语言 OCR 与文档理解系统

光学字符识别是计算机视觉最古老的应用之一,但传统 OCR 引擎一直难以跟上现代需求。如今的文档在布局、多语言内容以及质量变异性方面比以往任何时候都更加多样化。Surya 代表了 OCR 的现代方法,建立在深度学习架构之上,以传统引擎无法比拟的准确度处理真实世界文档的复杂性。

Marker:使用深度学习的开源 PDF 转 Markdown 工具
AI

Marker:使用深度学习的开源 PDF 转 Markdown 工具

PDF 文档仍然是知识传播最常见的格式之一,然而它们也是最难以程序化处理的格式。跨页面的表格、多栏布局、数学方程式、页眉和页脚都共同导致了简单提取工具的失败。Marker 以深度学习方法应对这一挑战,像人类读者一样理解文档结构——通过识别视觉布局模式,而不仅仅是遵循文本顺序。

RapidLayout:开源中英文文档版面分析工具
AI

RapidLayout:开源中英文文档版面分析工具

文档版面分析是任何文档理解管线中至关重要的第一步。在 OCR 提取文本之前、在表格被解析之前、在内容被分类之前,系统需要先了解事物在页面上的位置。RapidLayout 是 RapidAI 团队开发的开源库,专注于解决这一挑战,并同时支持中英文文档内容。

TAG
CATEGORIES