AI

GOT-OCR2.0:迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型

GOT-OCR2.0 是一个统一的端到端 OCR 模型,拥有 5.8 亿参数,可处理纯文本、数学、表格、图表和乐谱等场景和文档图像。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
GOT-OCR2.0:迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型

光学字符识别(OCR)几十年来一直被视为已解决的问题——对于具有简单文本的清晰扫描文档而言。但真实世界的视觉内容远更杂乱多样。带有复杂符号的数学方程、具有不规则单元格结构的表格、带有专门符号的乐谱,以及招牌和标签上的场景文本,都挑战了假设干净、线性文本在均匀背景上的传统 OCR 方法。

GOT-OCR2.0(通用 OCR 理论 2.0 版)由 Ucas-HaoranWei 的研究人员开发,代表了作者所称的 OCR-2.0 的范式转移。GOT-OCR2.0 不是将检测、分割和识别模块串接在一起的传统管线,而是一个拥有 5.8 亿参数的单一端到端模型,直接将图像像素映射到结构化的文本输出。

该模型的统一架构使其能够处理异常广泛的内容类型。同一个转录印刷英文页面的模型,可以解析 LaTeX 数学表达式、从复杂的 HTML 表格中提取数据、识别乐谱上的音符,或读取街头招牌照片上的文字。这种多功能性无需针对特定任务进行微调——模型学会从输入图像的视觉特征本身识别内容类型。


GOT-OCR2.0 的端到端架构如何运作?

与传统的 OCR 管线不同,GOT-OCR2.0 使用单一的编码器-解码器 Transformer 架构。

流程图 LR
    A[输入图像\n场景或文档] --> B[视觉编码器\n基于 ViT 的主干]
    B --> C[跨模态\n注意力]
    C --> D[文本解码器\n自回归 Transformer]

    D --> E{内容类型\n分类}
    E -->|纯文本| F[Markdown 字符串]
    E -->|数学公式| G[LaTeX 表达式]
    E -->|表格| H[HTML 表格结构]
    E -->|乐谱| I[MusicXML / ABC 记谱法]
    E -->|图表| J[文本 + 数据点]

    F --> K[结构化输出]
    G --> K
    H --> K
    I --> K
    J --> K

视觉编码器将输入图像处理为特征表示,然后由自回归文本解码器逐 token 产生输出。解码器学会根据看到的视觉内容在输出格式之间切换,为数学区域输出 LaTeX、为表格输出 HTML、为标准段落输出纯文本。


GOT-OCR2.0 支持哪些内容类型和性能指标?

与传统 OCR 系统相比,该模型支持的内容类型范围异常广泛。

内容类型输出格式典型准确度传统 OCR 处理方式
印刷文本Markdown 字符串>98% 字符准确度良好支持
数学公式LaTeX>90% 表达式准确度需独立的数学 OCR
表格HTML + CSS>85% 单元格级准确度需表格检测
乐谱ABC 记谱法>80% 音符准确度需专门的 OMR
场景文本纯文本>92% 识别率需场景文本检测器
图表与图形文本 + 数据值>88% 键值准确度通常不支持

统一的方法消除了困扰传统 OCR 管线的复合错误——检测阶段的错误会传播到识别和后处理。单一的端到端模型直接针对最终输出质量进行优化。


安装和设置流程为何?

GOT-OCR2.0 使用标准的深度学习工具,设置过程简单。

组件需求备注
Python3.9+核心运行环境
PyTorch2.0+深度学习框架
Transformers4.35+HuggingFace 模型加载
GPU 内存6GB+(FP16)5.8 亿参数模型
模型权重自动下载托管于 HuggingFace

该模型支持 FP16 推理以降低内存需求,使其能够在消费级 GPU 上运行。5.8 亿参数大小代表了能力与资源需求之间的最佳平衡点——足够大以处理多样化的 OCR 任务,又足够小以部署在单张 GPU 上。


GOT-OCR2.0 与 OCR-1.0 系统的对比

从 OCR-1.0 到 OCR-2.0 的转变代表了根本的架构变革。

方面OCR-1.0(传统)OCR-2.0(GOT-OCR2.0)
架构多模块管线单一端到端模型
文本检测独立的 CNN 检测器隐式学习
字符识别逐字符分类器自回归序列模型
版面分析独立的版面解析器集成到解码器中
数学识别需外部引擎原生能力
表格识别需外部模型原生能力
错误传播级联错误通过联合优化最小化

端到端方法也简化了部署。你不再需要管理和版本化多个模型(检测器、识别器、版面分析器、数学解析器),只需部署一个处理所有任务的模型。


常见问题

什么是 GOT-OCR2.0? GOT-OCR2.0 是一个统一的端到端 OCR 模型,拥有 5.8 亿参数,可处理多种内容类型,包括纯文本、数学表达式、表格、图表和乐谱,适用于场景和文档图像。

GOT-OCR2.0 支持哪些内容类型? GOT-OCR2.0 支持纯文本、LaTeX 数学表达式、HTML 格式表格、图表文本提取、乐谱识别以及感知文档版面的转录。

如何安装 GOT-OCR2.0? 通过 GitHub 仓库安装。该模型需要 PyTorch 和 HuggingFace Transformers 库。预训练权重会自动从 HuggingFace 下载。

模型权重存放于何处? GOT-OCR2.0 模型权重托管在 HuggingFace Model Hub,首次运行模型时会自动下载。可能提供多种模型大小以满足不同的性能需求。

GOT-OCR2.0 与传统 OCR 有何不同? 与使用独立检测和识别模块的传统 OCR 系统不同,GOT-OCR2.0 是一个统一的端到端模型,直接将图像像素映射到文本输出,无需专门的子模块即可处理多样化的内容类型。


延伸阅读

TAG
CATEGORIES