音频

AI May 05, 2026

SAM-Audio：Meta 的音频分割一切模型

SAM-Audio 将 Segment Anything Model 的变革性能力带到音频领域。 graph TD A[音频混合\n输入信号] --> B[音频编码器\n频谱图特征] C[文本提示\n'隔离吉他声'] --> D[文本编码器\n语言嵌入] B …

AI May 05, 2026

从文本描述生成高质量音频的能力长期以来一直是人工智能的圣杯。AudioCraft，Meta 的开源 PyTorch 库，通过一套涵盖音乐、音效和神经音频压缩的全面音频生成模型，将这项能力带给了更广泛的 AI 社区。 AudioCraft 在单一代码库中统一了三种不同的音频生成能力：用于从文 …

AI May 04, 2026

AI 音乐生成领域过去由 Suno 和 Udio 等商业服务主导，但开源生态迎来了一位强劲的挑战者。ACE-Step 1.5 是一款级联扩散变换器模型，能在 2 秒内生成完整歌曲，同时支持在消费级 GPU 上进行 LoRA 微调——这种速度、品质与可及性的组合，在开源音乐生成领域前所未见。 …

AI May 04, 2026

OpenAI 的 Whisper 模型是自动语音识别（ASR）领域的一项突破，证明了大规模弱监督训练可以产出具有强大多语言转录能力的模型。然而，标准的 PyTorch 实现留下了显著的性能提升空间。Faster-Whisper 由 SYSTRAN 开发，通过基于 CTranslate2 的 …

AI May 03, 2026

VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型；OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数，直接在连续语音表征上运作，跳脱传统需要离散音频分词器的框架，避免音质下降。

AI May 03, 2026

RVC（基于检索的语音转换）WebUI 是由 RVC-Project 团队开发的开源语音转换框架，已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS（变分推理文本转语音）架构，以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。