Categories

音频

SAM-Audio:Meta 的音频分割一切模型
AI

SAM-Audio:Meta 的音频分割一切模型

SAM-Audio 将 Segment Anything Model 的变革性能力带到音频领域。 graph TD A[音频混合\n输入信号] --> B[音频编码器\n频谱图特征] C[文本提示\n'隔离吉他声'] --> D[文本编码器\n语言嵌入] B …

AudioCraft:Meta 的开源 AI 音频生成工具包
AI

AudioCraft:Meta 的开源 AI 音频生成工具包

从文本描述生成高质量音频的能力长期以来一直是人工智能的圣杯。AudioCraft,Meta 的开源 PyTorch 库,通过一套涵盖音乐、音效和神经音频压缩的全面音频生成模型,将这项能力带给了更广泛的 AI 社区。 AudioCraft 在单一代码库中统一了三种不同的音频生成能力:用于从文 …

ACE-Step 1.5:开源音乐生成模型超越商业方案
AI

ACE-Step 1.5:开源音乐生成模型超越商业方案

AI 音乐生成领域过去由 Suno 和 Udio 等商业服务主导,但开源生态迎来了一位强劲的挑战者。ACE-Step 1.5 是一款级联扩散变换器模型,能在 2 秒内生成完整歌曲,同时支持在消费级 GPU 上进行 LoRA 微调——这种速度、品质与可及性的组合,在开源音乐生成领域前所未见。 …

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别
AI

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别

OpenAI 的 Whisper 模型是自动语音识别(ASR)领域的一项突破,证明了大规模弱监督训练可以产出具有强大多语言转录能力的模型。然而,标准的 PyTorch 实现留下了显著的性能提升空间。Faster-Whisper 由 SYSTRAN 开发,通过基于 CTranslate2 的 …

VoxCPM2:OpenBMB 免分词器多语言语音合成模型
AI

VoxCPM2:OpenBMB 免分词器多语言语音合成模型

VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型;OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数,直接在连续语音表征上运作,跳脱传统需要离散音频分词器的框架,避免音质下降。

RVC WebUI:基于 VITS 的开源实时语音转换
AI

RVC WebUI:基于 VITS 的开源实时语音转换

RVC(基于检索的语音转换)WebUI 是由 RVC-Project 团队开发的开源语音转换框架,已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS(变分推理文本转语音)架构,以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。

TAG
CATEGORIES