GOT-OCR2.0：迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型

Q: "什么是 GOT-OCR2.0？"

"GOT-OCR2.0 是一个统一的端到端 OCR 模型，拥有 5.8 亿参数，可处理多种内容类型，包括纯文本、数学表达式、表格、图表和乐谱，适用于场景和文档图像。"

Q: "GOT-OCR2.0 支持哪些内容类型？"

"GOT-OCR2.0 支持纯文本、LaTeX 数学表达式、HTML 格式表格、图表文本提取、乐谱识别以及感知文档版面的转录。"

Q: "如何安装 GOT-OCR2.0？"

"通过 GitHub 仓库安装。该模型需要 PyTorch 和 HuggingFace Transformers 库。预训练权重会自动从 HuggingFace 下载。"

Q: "模型权重存放于何处？"

"GOT-OCR2.0 模型权重托管在 HuggingFace Model Hub，首次运行模型时会自动下载。可能提供多种模型大小以满足不同的性能需求。"

Q: "GOT-OCR2.0 与传统 OCR 有何不同？"

"与使用独立检测和识别模块的传统 OCR 系统不同，GOT-OCR2.0 是一个统一的端到端模型，直接将图像像素映射到文本输出，无需专门的子模块即可处理多样化的内容类型。"

GOT-OCR2.0 是一个统一的端到端 OCR 模型，拥有 5.8 亿参数，可处理纯文本、数学、表格、图表和乐谱等场景和文档图像。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 04, 2026 阅读 9 分钟

光学字符识别（OCR）几十年来一直被视为已解决的问题——对于具有简单文本的清晰扫描文档而言。但真实世界的视觉内容远更杂乱多样。带有复杂符号的数学方程、具有不规则单元格结构的表格、带有专门符号的乐谱，以及招牌和标签上的场景文本，都挑战了假设干净、线性文本在均匀背景上的传统 OCR 方法。

GOT-OCR2.0（通用 OCR 理论 2.0 版）由 Ucas-HaoranWei 的研究人员开发，代表了作者所称的 OCR-2.0 的范式转移。GOT-OCR2.0 不是将检测、分割和识别模块串接在一起的传统管线，而是一个拥有 5.8 亿参数的单一端到端模型，直接将图像像素映射到结构化的文本输出。

该模型的统一架构使其能够处理异常广泛的内容类型。同一个转录印刷英文页面的模型，可以解析 LaTeX 数学表达式、从复杂的 HTML 表格中提取数据、识别乐谱上的音符，或读取街头招牌照片上的文字。这种多功能性无需针对特定任务进行微调——模型学会从输入图像的视觉特征本身识别内容类型。

GOT-OCR2.0 的端到端架构如何运作？

与传统的 OCR 管线不同，GOT-OCR2.0 使用单一的编码器-解码器 Transformer 架构。

流程图 LR
    A[输入图像\n场景或文档] --> B[视觉编码器\n基于 ViT 的主干]
    B --> C[跨模态\n注意力]
    C --> D[文本解码器\n自回归 Transformer]

    D --> E{内容类型\n分类}
    E -->|纯文本| F[Markdown 字符串]
    E -->|数学公式| G[LaTeX 表达式]
    E -->|表格| H[HTML 表格结构]
    E -->|乐谱| I[MusicXML / ABC 记谱法]
    E -->|图表| J[文本 + 数据点]

    F --> K[结构化输出]
    G --> K
    H --> K
    I --> K
    J --> K

视觉编码器将输入图像处理为特征表示，然后由自回归文本解码器逐 token 产生输出。解码器学会根据看到的视觉内容在输出格式之间切换，为数学区域输出 LaTeX、为表格输出 HTML、为标准段落输出纯文本。

GOT-OCR2.0 支持哪些内容类型和性能指标？

与传统 OCR 系统相比，该模型支持的内容类型范围异常广泛。

内容类型	输出格式	典型准确度	传统 OCR 处理方式
印刷文本	Markdown 字符串	>98% 字符准确度	良好支持
数学公式	LaTeX	>90% 表达式准确度	需独立的数学 OCR
表格	HTML + CSS	>85% 单元格级准确度	需表格检测
乐谱	ABC 记谱法	>80% 音符准确度	需专门的 OMR
场景文本	纯文本	>92% 识别率	需场景文本检测器
图表与图形	文本 + 数据值	>88% 键值准确度	通常不支持

统一的方法消除了困扰传统 OCR 管线的复合错误——检测阶段的错误会传播到识别和后处理。单一的端到端模型直接针对最终输出质量进行优化。

安装和设置流程为何？

GOT-OCR2.0 使用标准的深度学习工具，设置过程简单。

组件	需求	备注
Python	3.9+	核心运行环境
PyTorch	2.0+	深度学习框架
Transformers	4.35+	HuggingFace 模型加载
GPU 内存	6GB+（FP16）	5.8 亿参数模型
模型权重	自动下载	托管于 HuggingFace

该模型支持 FP16 推理以降低内存需求，使其能够在消费级 GPU 上运行。5.8 亿参数大小代表了能力与资源需求之间的最佳平衡点——足够大以处理多样化的 OCR 任务，又足够小以部署在单张 GPU 上。

GOT-OCR2.0 与 OCR-1.0 系统的对比

从 OCR-1.0 到 OCR-2.0 的转变代表了根本的架构变革。

方面	OCR-1.0（传统）	OCR-2.0（GOT-OCR2.0）
架构	多模块管线	单一端到端模型
文本检测	独立的 CNN 检测器	隐式学习
字符识别	逐字符分类器	自回归序列模型
版面分析	独立的版面解析器	集成到解码器中
数学识别	需外部引擎	原生能力
表格识别	需外部模型	原生能力
错误传播	级联错误	通过联合优化最小化

端到端方法也简化了部署。你不再需要管理和版本化多个模型（检测器、识别器、版面分析器、数学解析器），只需部署一个处理所有任务的模型。

常见问题

什么是 GOT-OCR2.0？ GOT-OCR2.0 是一个统一的端到端 OCR 模型，拥有 5.8 亿参数，可处理多种内容类型，包括纯文本、数学表达式、表格、图表和乐谱，适用于场景和文档图像。

GOT-OCR2.0 支持哪些内容类型？ GOT-OCR2.0 支持纯文本、LaTeX 数学表达式、HTML 格式表格、图表文本提取、乐谱识别以及感知文档版面的转录。

如何安装 GOT-OCR2.0？ 通过 GitHub 仓库安装。该模型需要 PyTorch 和 HuggingFace Transformers 库。预训练权重会自动从 HuggingFace 下载。

模型权重存放于何处？ GOT-OCR2.0 模型权重托管在 HuggingFace Model Hub，首次运行模型时会自动下载。可能提供多种模型大小以满足不同的性能需求。

GOT-OCR2.0 与传统 OCR 有何不同？ 与使用独立检测和识别模块的传统 OCR 系统不同，GOT-OCR2.0 是一个统一的端到端模型，直接将图像像素映射到文本输出，无需专门的子模块即可处理多样化的内容类型。

GOT-OCR2.0：迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型

GOT-OCR2.0 的端到端架构如何运作？

GOT-OCR2.0 支持哪些内容类型和性能指标？

安装和设置流程为何？

GOT-OCR2.0 与 OCR-1.0 系统的对比

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

GOT-OCR2.0：迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型

GOT-OCR2.0 的端到端架构如何运作？

GOT-OCR2.0 支持哪些内容类型和性能指标？

安装和设置流程为何？

GOT-OCR2.0 与 OCR-1.0 系统的对比

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险