Categories

Python

MarkItDown:Microsoft 的通用文件轉 Markdown 轉換器
AI

MarkItDown:Microsoft 的通用文件轉 Markdown 轉換器

任何文件理解 AI 流程的第一步是將原始文件轉換為機器可讀的文字。這個看似簡單的任務充滿了挑戰:具有複雜佈局的 PDF、沒有可提取文字的掃描文件、帶有合併儲存格的 Excel 檔案、帶有嵌入圖片的 PowerPoint。MarkItDown,Microsoft 的開源文件轉換工具,正面應對 …

LangChain:LLM 應用開發的通用框架
AI

LangChain:LLM 應用開發的通用框架

使用大型語言模型構建應用程式從根本上不同於傳統軟體開發。LLM 是非確定性的、昂貴的、受上下文視窗限制,且無法自行存取外部資料或執行計算。LangChain 提供了使 LLM 應用程式開發實用、可擴展和生產就緒的架構模式和建構區塊。

Hugging Face Transformers:預訓練模型的通用函式庫
AI

Hugging Face Transformers:預訓練模型的通用函式庫

Transformer 架構已成為現代 AI 的通用建構區塊,為從語言理解到圖像生成再到語音辨識的一切提供動力。Hugging Face Transformers 是讓這個廣闊生態系統對每個開發者都可存取的函式庫,提供統一的 API 來使用超過 50 萬個預訓練模型,只需幾行程式碼。

Marker:使用深度學習的開源 PDF 轉 Markdown 工具
AI

Marker:使用深度學習的開源 PDF 轉 Markdown 工具

PDF 文件仍然是知識傳播最常見的格式之一,然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰,像人類讀者一樣理解文件結構——透過識別視覺版面模式,而不僅僅是遵循文字順序。

TAG