Post

部落格

SoloSoft 關於軟體工程、Hugo、網站效能與多語系內容發佈的技術文章。

AI May 04, 2026

RapidLayout：開源中英文文件版面分析工具

文件版面分析是任何文件理解管線中至關重要的第一步。在 OCR 提取文字之前、在表格被解析之前、在內容被分類之前，系統需要先了解事物在頁面上的位置。RapidLayout 是 RapidAI 團隊開發的開源函式庫，專注於解決這一挑戰，並同時支援中英文文件內容。

開源專案 May 04, 2026

學習詞彙和提升打字速度是知識工作者最重要的兩項技能，但這兩者幾乎總是分開練習。Qwerty Learner 以一個巧妙的洞察填補了這個缺口：打字本身就是一種單字練習方式。透過將刻意打字訓練與結構化的詞彙列表相結合，它將例行技能鍛鍊轉化為一個良性循環。

AI May 04, 2026

在本地運行大型語言模型一直受到一道難以逾越的限制：GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案（A100、H100）確實存在，但它們的價格高達數萬美元 …

AI May 04, 2026

圖片生成領域已變得日益碎片化。不同的模型處理文字轉圖片生成、圖片編輯和風格轉換。使用者必須在一個令人困惑的專門工具生態系統中導航，每個工具都有自己的介面、提示格式和能力。OmniGen2 由 VectorSpaceLab 開發，以一個統一的單一架構中處理文字轉圖片、指令引導編輯和上下文內生 …

AI May 04, 2026

光學字元辨識（OCR）幾十年來一直被視為已解決的問題——對於具有簡單文字的清晰掃描文件而言。但真實世界的視覺內容遠更雜亂多樣。帶有複雜符號的數學方程式、具有不規則儲存格結構的表格、帶有專門符號的樂譜，以及招牌和標籤上的場景文字，都挑戰了假設乾淨、線性文字在均勻背景上的傳統 OCR 方法。

AI May 04, 2026

OpenAI 的 Whisper 模型是自動語音辨識（ASR）領域的一項突破，證明了大規模弱監督訓練可以產出具有強大多語言轉錄能力的模型。然而，標準的 PyTorch 實作留下了顯著的效能提升空間。Faster-Whisper 由 SYSTRAN 開發，透過基於 CTranslate2 的 …