AI

AI May 05, 2026

LAVIS：Salesforce 的視覺語言 AI 函式庫

視覺語言 AI——即同時理解圖像和文字的模型——是人工智慧中發展最快速的領域之一。Salesforce 的 LAVIS（視覺語言智慧函式庫）提供了一個統一的框架，用於訓練、評估和部署各種視覺語言模型，包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

AI May 05, 2026

音訊編輯通常需要手動檢查波形並進行精確剪裁，以隔離所需的片段。由 ModelScope 團隊開發的 FunClip 改變了這一點，它應用 AI 驅動的語音辨識和內容理解來自動化音訊剪輯任務。 FunClip 建構在 ModelScope 的 AI 模型生態系之上，能夠轉錄音訊、根據關鍵字或 …

AI May 05, 2026

如果你有一個 FastAPI 應用程式，那麼你就擁有了一個 AI 代理工具的潛在寶庫。由 tadata-org 建立的 FastAPI MCP，可自動將你現有的 FastAPI 端點轉換為 MCP 相容的工具，AI 助手可以發現並呼叫這些工具，無需對你的應用程式進行任何程式碼修改。該工具 …

AI May 05, 2026

在消費級硬體上執行大型語言模型需要高效的推論引擎，從可用的 GPU 記憶體中榨取每一滴效能。由 turboderp 團隊開發的 ExLlamaV3 是可用的最快推論引擎之一，特別是使用 EXL3 量化格式時。 ExLlamaV3 透過最佳化 CUDA 核心、高效記憶體管理和量化感知運算的組 …

AI May 05, 2026

高品質的文字轉語音通常需要昂貴的雲端 API 或複雜的本地模型設定。由 rany2 建立的 Edge-TTS 採取了一個巧妙的方法：它接入 Microsoft Edge 內建的線上 TTS 服務，提供對數百種自然聲音的免費存取，涵蓋數十種語言。該工具是一個簡單的 Python CLI，可 …

AI May 05, 2026

嵌入模型是現代語義搜尋和檢索增強生成（RAG）系統的基礎。由網易有道開發的 BCEmbedding 脫穎而出，提供了特別針對雙語中英文和跨模態檢索任務最佳化的最先進效能。該模型擅長理解跨語言和模態的語義關係。無論你是用英文查詢搜尋中文文件、從文字描述中檢索圖像，還是建構雙語 RAG 管線 …