Agent Sandbox:一站式 AI 代理沙箱,整合瀏覽器、Shell 與 VSCode
AI 代理需要執行環境——用來執行程式碼、瀏覽網頁、編輯檔案和與工具互動的地方。為每個代理平台從頭建立這些環境既繁瑣又容易出錯。Agent Sandbox 透過提供一個完整、預先配置的 Docker 沙箱解決了這個問題,將瀏覽器、Shell、檔案系統、MCP 伺服器和 VSCode …
AI 代理需要執行環境——用來執行程式碼、瀏覽網頁、編輯檔案和與工具互動的地方。為每個代理平台從頭建立這些環境既繁瑣又容易出錯。Agent Sandbox 透過提供一個完整、預先配置的 Docker 沙箱解決了這個問題,將瀏覽器、Shell、檔案系統、MCP 伺服器和 VSCode …
AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導,但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型,能在 2 秒內生成完整歌曲,同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合,在開源音樂生成領域前所未見 …
VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。
Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫,提供一個全面框架,用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計,Verifiers 提供一個乾淨、可組合的 …
RVC(基於檢索的語音轉換)WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架,已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS(變分推論文字轉語音)架構,以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。
Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型,由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型,Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入,同時產生串流文字與自然語音輸出——全部在單一架構內完成。