Categories

AI

A2A:Google 的代理間通訊協定,現歸 Linux 基金會管轄
AI

A2A:Google 的代理間通訊協定,現歸 Linux 基金會管轄

AI 代理生態系統正在經歷一場寒武紀大爆發。用於構建代理的框架——LangChain、CrewAI、AutoGen、Semantic Kernel、Vertex AI Agent Builder——正在迅速增加,每個都有自己的內部通訊模式、資料格式和能力宣傳機制。這種碎片化造成了一個根本性 …

VoxCPM2:OpenBMB 免分詞器多語音合成模型
AI

VoxCPM2:OpenBMB 免分詞器多語音合成模型

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫
AI

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫,提供一個全面框架,用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計,Verifiers 提供一個乾淨、可組合的 …

RVC WebUI:基於 VITS 的開源即時語音轉換
AI

RVC WebUI:基於 VITS 的開源即時語音轉換

RVC(基於檢索的語音轉換)WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架,已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS(變分推論文字轉語音)架構,以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。

Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型,由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型,Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入,同時產生串流文字與自然語音輸出——全部在單一架構內完成。

Qwen Code:阿里巴巴的開源終端機 AI 代理
AI

Qwen Code:阿里巴巴的開源終端機 AI 代理

Qwen Code 是由阿里雲 QwenLM 團隊開發的開源 AI 驅動終端機代理。Qwen Code 從頭開始為終端機環境打造,提供 Claude Code 風格的互動式編碼體驗,專為阿里巴巴的 Qwen 模型系列最佳化,同時透過多協定提供者系統保持與 …

TAG