光學字元辨識是電腦視覺最古老的應用之一,但傳統 OCR 引擎一直難以跟上現代需求。如今的文件在版面、多語言內容和品質變異性方面比以往任何時候都更加多樣化。Surya 代表了 OCR 的現代方法,建立在深度學習架構之上,以傳統引擎無法比擬的準確度處理真實世界文件的複雜性。
由 datalab-to 團隊(Marker 的同一團隊)開發,Surya 既是獨立的 OCR 系統,也是更大文件處理管道的組件。它提供三項核心能力:文字檢測(找到頁面上文字的位置)、文字識別(讀取文字的內容)和版面分析(理解文件結構)。統一的架構意味著單一模型即可處理數十種文字系統和語言的文字。
Surya 已迅速成為開源文件處理生態系統中的熱門選擇,因其在具有挑戰性的文件上的準確度和簡潔、現代的 API 而備受推崇。它為包括 Marker 在內的幾個下游工具提供 OCR 功能,並已被先前依賴商業 OCR SDK 的組織採用。
Surya 的三階段架構如何運作?
Surya 透過三個專門的神經網路階段處理文件。
graph TD
A[文件圖片] --> B[階段 1: 文字檢測]
B --> C[區域候選\n文字行邊界框]
C --> D[階段 2: 文字識別]
D --> E[識別的文字行\n每個區域]
E --> F[階段 3: 版面分析]
F --> G[結構理解\n段落、標題、表格]
G --> H[結構化輸出\n帶版面標籤的排序文字]
這些階段可以獨立使用或組合使用。例如,僅需要邊界框的系統可以只使用文字檢測階段,而完整的文件轉換管道則會使用所有三個階段。
Surya 與其他 OCR 系統相比如何?
Surya 的準確度與傳統和現代替代方案進行了基準比較。
| OCR 引擎 | 方法 | 語言支援 | 版面分析 | CPU 速度 |
|---|---|---|---|---|
| Surya | 深度學習(Transformer) | 90+ 種語言 | 是 | 中等 |
| Tesseract | 傳統(LSTM) | 100+ 種語言 | 有限 | 快 |
| Google Cloud Vision | 專有(深度學習) | 多種語言 | 是 | N/A(API) |
| EasyOCR | 深度學習(CNN) | 80+ 種語言 | 否 | 慢 |
| PaddleOCR | 深度學習 | 80+ 種語言 | 有限 | 中等 |
Surya 的關鍵區別在於其版面分析能力加上寬鬆的開源授權(GPL)。需要在無需將資料傳送到雲端 API 的情況下獲得結構化文件理解的組織,會發現 Surya 是最有能力的自架選項。
有哪些效能基準可用?
該專案發布了不同文件類型和語言的準確度指標。
| 語言類型 | 字元錯誤率(Surya) | 字元錯誤率(Tesseract) | 改進 |
|---|---|---|---|
| 拉丁文字 | 1.2% | 3.5% | -66% |
| 中文/日文/韓文 | 2.8% | 8.1% | -65% |
| 阿拉伯文字 | 3.1% | 7.4% | -58% |
| 天城文字 | 2.5% | 6.9% | -64% |
| 混合文字文件 | 3.8% | 15.2% | -75% |
| 手寫文字 | 8.5% | 25%+ | -66% |
混合文字的結果尤其令人印象深刻——在語言之間切換的文件(常見於學術論文和國際商業文件)會對傳統 OCR 引擎造成不成比例的問題,而 Surya 的統一架構則能自然地處理它們。
常見問題
什麼是 Surya? Surya 是一個開源的多語言 OCR 系統,提供最先進的文字檢測、文字識別和版面分析能力。它支援數十種語言,專為取代 Tesseract 等傳統 OCR 引擎而設計。
Surya 支援哪些語言? Surya 支援超過 90 種語言,包括英文、中文、日文、韓文、阿拉伯文、印地文、俄文、法文、德文、西班牙文、葡萄牙文等。它使用統一的模型架構,無需語言特定配置即可處理多種文字系統。
Surya 與 Tesseract 相比準確度如何? 在基準資料集上,Surya 在大多數語言和文件類型上的準確度顯著高於 Tesseract。對於複雜版面、密集文字和具有挑戰性的文字系統,字元錯誤率的改進可達 30-50%。Surya 還能處理 Tesseract 未提供的版面分析。
Surya 中的版面分析是什麼? 版面分析是 Surya 理解文件結構的能力,不僅僅是識別文字。它能識別段落、標題、表格、列表、圖形及其閱讀順序。這種結構化理解對於文件轉換和 RAG 攝入等下遊任務至關重要。
Surya 需要 GPU 嗎? Surya 可以在 CPU 上運行,但使用 GPU 加速時速度顯著提高。對於生產批次處理,建議使用至少 4GB VRAM 的 NVIDIA GPU。僅使用 CPU 的操作對於小型任務是可行的,但速度可能慢 10-50 倍。
延伸閱讀
- Surya GitHub 倉庫 – 原始碼、模型權重和安裝指南
- Marker GitHub 倉庫 – 使用 Surya 進行 OCR 的 PDF 轉 Markdown 轉換器
- Tesseract OCR – 用於比較的傳統開源 OCR 引擎
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!