Tags

语音识别

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别
AI

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别

OpenAI 的 Whisper 模型是自动语音识别(ASR)领域的一项突破,证明了大规模弱监督训练可以产出具有强大多语言转录能力的模型。然而,标准的 PyTorch 实现留下了显著的性能提升空间。Faster-Whisper 由 SYSTRAN 开发,通过基于 CTranslate2 的 …

MLX-Audio:为 Apple Silicon 优化的 TTS、STT 和 STS 库
AI

MLX-Audio:为 Apple Silicon 优化的 TTS、STT 和 STS 库

配备 M 系列芯片——从 M1 到最新的 M4 Ultra——的 Apple Silicon Mac 拥有非凡的计算能力,特别是在机器学习工作负载方面。其统一内存架构允许模型访问大量快速内存,而无需传统 CPU-GPU 数据传输的瓶颈。MLX-Audio 是一个基于 Apple MLX 框 …

TAG
CATEGORIES