深度學習

AI May 05, 2026

Hugging Face Transformers：預訓練模型的通用函式庫

Transformer 架構已成為現代 AI 的通用建構區塊，為從語言理解到圖像生成再到語音辨識的一切提供動力。Hugging Face Transformers 是讓這個廣闊生態系統對每個開發者都可存取的函式庫，提供統一的 API 來使用超過 50 萬個預訓練模型，只需幾行程式碼。

AI May 05, 2026

Transformer 架構自推出以來一直是序列處理的主導模型，但它有一個根本性的限制：自注意力機制的複雜度隨序列長度以 O(n^2) 增長。對於現代 AI 應用日益需要的長上下文——128K tokens、1M tokens 及以上——這個二次瓶頸變得難以負擔。Flash Linear …

AI May 05, 2026

訓練大型 AI 模型本質上是一個分散式計算問題。單個 70B 參數模型需要的記憶體超過任何 GPU 所能提供，而在合理時間內訓練它需要協調數百或數千個加速器協同工作。ColossalAI 是一個為解決此協調挑戰而構建的框架，提供從單一 GPU 到數千個 GPU 擴展訓練所需的並行原語。

AI May 04, 2026

PDF 文件仍然是知識傳播最常見的格式之一，然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰，像人類讀者一樣理解文件結構——透過識別視覺版面模式，而不僅僅是遵循文字順序。

AI May 04, 2026

在行動和邊緣裝置上執行深度學習模型面臨獨特挑戰：有限的運算能力、受限的記憶體、電池敏感度以及多樣的硬體架構。MNN（Mobile Neural Network）是阿里巴巴對這些挑戰的回應，這是一款輕量級推論引擎，以最小的開銷和最大的效能將 AI 帶到邊緣。

AI May 03, 2026

如果你曾經嘗試從掃描的 PDF、歷史報紙檔案或一疊發票中提取結構化資訊，你就知道痛苦所在：每份文件看起來都不一樣，每個模型期望不同的輸入格式，每個 OCR 引擎以不同的座標系統輸出文字。LayoutParser 就是為了終結這種混亂而建立的。