Tags

Python

PDFPlumber:使用 Python 从 PDF 提取文字、表格和元资料
Python

PDFPlumber:使用 Python 从 PDF 提取文字、表格和元资料

PDF 仍然是分发文件最常見的格式之一,但以程式化方式从中提取资料一直具有挑戰性。PDF 格式保留视觉版面,但犧牲了结构语義,使得区分表格与欄位版面或标题与正文文字变得困难。PDFPlumber(GitHub 上的 jsvine/pdfplumber)透過提供一个 Python 函式库来应 …

Dynaconf:适用于所有环境的 Python 配置管理
Python

Dynaconf:适用于所有环境的 Python 配置管理

配置管理是一个看似简单的问题,直到你需要处理多个环境、数百个配置以及灵活性与安全性之间的持续拉锯。Dynaconf(GitHub 上的 dynaconf/dynaconf)是一个 Python 配置管理库,它以最少的样板代码,提供一个在开发、测试和生产环境中都能运行的统一系统,直接应对了这 …

MarkItDown:微软的通用文档到 Markdown 转换器
AI

MarkItDown:微软的通用文档到 Markdown 转换器

任何文档理解 AI 管道的第一步都是将原始文档转换为机器可读的文本。这个看似简单的任务充满了挑战:具有复杂布局的 PDF、无可提取文本的扫描文档、包含合并单元格的 Excel 文件、包含嵌入图片的 PowerPoint 演示文稿。MarkItDown,微软的开源文档转换工具,正面应对这些挑 …

TAG
CATEGORIES