開源

AI May 04, 2026

Agent Sandbox：一站式 AI 代理沙箱，整合瀏覽器、Shell 與 VSCode

AI 代理需要執行環境——用來執行程式碼、瀏覽網頁、編輯檔案和與工具互動的地方。為每個代理平台從頭建立這些環境既繁瑣又容易出錯。Agent Sandbox 透過提供一個完整、預先配置的 Docker 沙箱解決了這個問題，將瀏覽器、Shell、檔案系統、MCP 伺服器和 VSCode …

AI May 04, 2026

AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導，但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型，能在 2 秒內生成完整歌曲，同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合，在開源音樂生成領域前所未見 …

AI May 03, 2026

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型；OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數，直接在連續語音表徵上運作，跳脫傳統需要離散音訊分詞器的框架，避免音質下降。

AI May 03, 2026

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫，提供一個全面框架，用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計，Verifiers 提供一個乾淨、可組合的 …

AI May 03, 2026

RVC（基於檢索的語音轉換）WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架，已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS（變分推論文字轉語音）架構，以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。

AI May 03, 2026

Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型，由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型，Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入，同時產生串流文字與自然語音輸出——全部在單一架構內完成。