Categories

開源

ACE-Step 1.5:開源音樂生成模型超越商業方案
AI

ACE-Step 1.5:開源音樂生成模型超越商業方案

AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導,但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型,能在 2 秒內生成完整歌曲,同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合,在開源音樂生成領域前所未見 …

VoxCPM2:OpenBMB 免分詞器多語音合成模型
AI

VoxCPM2:OpenBMB 免分詞器多語音合成模型

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫
AI

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫,提供一個全面框架,用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計,Verifiers 提供一個乾淨、可組合的 …

RVC WebUI:基於 VITS 的開源即時語音轉換
AI

RVC WebUI:基於 VITS 的開源即時語音轉換

RVC(基於檢索的語音轉換)WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架,已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS(變分推論文字轉語音)架構,以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。

Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型,由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型,Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入,同時產生串流文字與自然語音輸出——全部在單一架構內完成。

TAG