Tags

深度學習

Hugging Face Transformers:預訓練模型的通用函式庫
AI

Hugging Face Transformers:預訓練模型的通用函式庫

Transformer 架構已成為現代 AI 的通用建構區塊,為從語言理解到圖像生成再到語音辨識的一切提供動力。Hugging Face Transformers 是讓這個廣闊生態系統對每個開發者都可存取的函式庫,提供統一的 API 來使用超過 50 萬個預訓練模型,只需幾行程式碼。

Flash Linear Attention:Transformer 的高效注意力機制
AI

Flash Linear Attention:Transformer 的高效注意力機制

Transformer 架構自推出以來一直是序列處理的主導模型,但它有一個根本性的限制:自注意力機制的複雜度隨序列長度以 O(n^2) 增長。對於現代 AI 應用日益需要的長上下文——128K tokens、1M tokens 及以上——這個二次瓶頸變得難以負擔。Flash Linear …

ColossalAI:開源大規模 AI 訓練框架
AI

ColossalAI:開源大規模 AI 訓練框架

訓練大型 AI 模型本質上是一個分散式計算問題。單個 70B 參數模型需要的記憶體超過任何 GPU 所能提供,而在合理時間內訓練它需要協調數百或數千個加速器協同工作。ColossalAI 是一個為解決此協調挑戰而構建的框架,提供從單一 GPU 到數千個 GPU 擴展訓練所需的並行原語。

Marker:使用深度學習的開源 PDF 轉 Markdown 工具
AI

Marker:使用深度學習的開源 PDF 轉 Markdown 工具

PDF 文件仍然是知識傳播最常見的格式之一,然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰,像人類讀者一樣理解文件結構——透過識別視覺版面模式,而不僅僅是遵循文字順序。

LayoutParser:用於文件影像分析的統一開源工具包
AI

LayoutParser:用於文件影像分析的統一開源工具包

如果你曾經嘗試從掃描的 PDF、歷史報紙檔案或一疊發票中提取結構化資訊,你就知道痛苦所在:每份文件看起來都不一樣,每個模型期望不同的輸入格式,每個 OCR 引擎以不同的座標系統輸出文字。LayoutParser 就是為了終結這種混亂而建立的。

TAG