Categories

AI

VoxCPM2:OpenBMB 免分词器多语言语音合成模型
AI

VoxCPM2:OpenBMB 免分词器多语言语音合成模型

VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型;OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数,直接在连续语音表征上运作,跳脱传统需要离散音频分词器的框架,避免音质下降。

Verifiers:用于训练 LLM 代理的模块化 RL 环境库
AI

Verifiers:用于训练 LLM 代理的模块化 RL 环境库

Verifiers 是由 PrimeIntellect-ai 开发的模块化 Python 库,提供一个全面框架,用于创建专为训练 LLM 代理而设计的强化学习环境。专为从事基于 RL 的 LLM 对齐与代理优化的研究人员与实务工作者设计,Verifiers 提供一个干净、可组合的 API, …

RVC WebUI:基于 VITS 的开源实时语音转换
AI

RVC WebUI:基于 VITS 的开源实时语音转换

RVC(基于检索的语音转换)WebUI 是由 RVC-Project 团队开发的开源语音转换框架,已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS(变分推理文本转语音)架构,以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型,由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型,Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入,同时产生流式文本与自然语音输出——全部在单一架构内完成。

Qwen Code:阿里巴巴的开源终端 AI 代理
AI

Qwen Code:阿里巴巴的开源终端 AI 代理

Qwen Code 是由阿里云 QwenLM 团队开发的开源 AI 驱动终端代理。Qwen Code 从头开始为终端环境打造,提供 Claude Code 风格的交互式编码体验,专为阿里巴巴的 Qwen 模型系列优化,同时通过多协议提供商系统保持与 …

Planning-with-Files:AI 编码代理的持久性 Markdown 规划技能
AI

Planning-with-Files:AI 编码代理的持久性 Markdown 规划技能

Planning-with-Files 是由 OthmanAdi 开发的创新开源项目,为 AI 编码代理实现了一个基于 Markdown 的持久性规划系统。灵感来自 Manus 的规划方法,该项目使用结构化的 3 文件系统,维护一份随着 AI 代理处理任务而不断演进的动态规划文档。它既可作 …

TAG
CATEGORIES