AI

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别

Faster-Whisper 是使用 CTranslate2 重新实现的 OpenAI Whisper,转录速度提升 4 倍,内存使用量更低,并支持量化。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别

OpenAI 的 Whisper 模型是自动语音识别(ASR)领域的一项突破,证明了大规模弱监督训练可以产出具有强大多语言转录能力的模型。然而,标准的 PyTorch 实现留下了显著的性能提升空间。Faster-Whisper 由 SYSTRAN 开发,通过基于 CTranslate2 的重新实现解决了这个差距,实现了惊人的速度提升。

CTranslate2 是一个专门针对 Transformer 模型优化的推理引擎,支持 INT8 和 FP16 量化、CPU 优化矩阵运算以及高效的波束搜索解码。通过在此引擎上重新实现 Whisper 的架构,Faster-Whisper 实现了 3-4 倍的速度提升,同时将内存消耗降低约一半。

对于大规模运行语音转录的组织而言,这些效率提升直接转化为成本节省。每天处理数千小时音频的转录管线只需从 Whisper 切换到 Faster-Whisper,即可减少 60-75% 的 GPU 使用时间,且转录品质完全不受影响。


CTranslate2 如何实现如此显著的速度提升?

CTranslate2 通过模型级别的优化和硬件感知的执行策略相结合来实现其性能。

流程图 LR
    A[OpenAI Whisper\nPyTorch 模型] --> B[CTranslate2\n模型转换]
    B --> C{量化\n策略}
    C -->|INT8| D[8 位整数\n权重]
    C -->|FP16| E[16 位浮点\n权重]
    C -->|FP32| F[全精度\n权重]

    D --> G[CTranslate2 推理引擎]
    E --> G
    F --> G

    G --> H[硬件优化]
    H --> I[CPU:MKL / Intel Math Kernel]
    H --> J[GPU:CUDA 内核\n融合运算]

    I --> K[转录输出\n3-4 倍更快]
    J --> K

关键洞察在于 Transformer 推理通常受内存带宽限制,而非计算限制。量化减少了模型权重的内存占用,使更多模型能够放入更快的缓存层级。CTranslate2 还融合了相邻运算(例如层归一化与注意力机制),以减少内核启动开销和内存往返。


Faster-Whisper 有哪些性能基准测试?

独立基准测试一致显示 Faster-Whisper 在各种模型大小和硬件配置下都优于原始 Whisper 实现。

模型大小原始 Whisper(RTF)Faster-Whisper(RTF)加速比内存减少
tiny0.12x0.03x4.0x45%
base0.15x0.04x3.8x50%
small0.22x0.06x3.7x48%
medium0.35x0.10x3.5x52%
large-v20.80x0.22x3.6x55%
large-v30.85x0.24x3.5x53%

RTF(实时因子)值低于 1.0 表示处理速度快于实时。0.03 的值意味着模型在大约 1 秒内处理 30 秒的音频。使用 Faster-Whisper,即使是庞大的 large-v3 模型也能在现代 GPU 上轻松以超实时速度运行。


Faster-Whisper 包含哪些额外功能?

除了原始速度之外,Faster-Whisper 还增加了提高转录管线可靠性和易用性的实用功能。

功能说明效益
VAD 过滤器语音活动检测跳过静音,提高准确度
字级时间戳逐字时间数据支持字幕生成
语言检测自动语言识别简化多语言管线
波束宽度调整可配置搜索宽度控制准确度 vs. 速度
对齐头交叉注意力头提取改进时间戳准确度

语音活动检测过滤器对于真实世界的音频尤其有价值。会议、播客和录制的通话包含大量静音时段。VAD 过滤器会自动识别并跳过这些片段,减少总处理时间,并防止模型对背景噪音产生虚假的"转录"内容。


Faster-Whisper 的安装方式为何?

开始使用 Faster-Whisper 很简单,包会处理大部分依赖项管理。

# 仅 CPU
pip install faster-whisper

# 支持 GPU(需要 CUDA 11.x+ 和 cuDNN 8.x+)
pip install faster-whisper

# 验证 CUDA 可用性
python -c "import faster_whisper; print(faster_whisper.__version__)"

Python API 被设计为在大多数工作流程中可无缝替代 Whisper。现有的转录管线通常只需更改一条 import 语句即可切换到 Faster-Whisper,立即获得速度和内存方面的优势。


常见问题

什么是 Faster-Whisper? Faster-Whisper 是使用 CTranslate2(一款 Transformer 模型的高速推理引擎)重新实现的 OpenAI Whisper 自动语音识别模型,可实现最高 4 倍的转录速度,同时大幅降低内存使用量。

Faster-Whisper 比原始 Whisper 快多少? Faster-Whisper 通常比 OpenAI 标准 Whisper 实现快 3-4 倍,在兼容硬件上使用 INT8 量化时可获得更大的增益。

Faster-Whisper 支持哪些量化格式? Faster-Whisper 通过 CTranslate2 支持 INT8 和 FP16 量化,可减少模型大小和内存带宽需求,同时保持高转录准确度。

Faster-Whisper 包含 VAD 过滤器吗? 是的,Faster-Whisper 包含语音活动检测(VAD)过滤器,可自动跳过静音片段,进一步提升转录速度并减少后处理需求。

如何安装 Faster-Whisper? 可通过 pip 安装,命令为 pip install faster-whisper。包会自动处理 CTranslate2 依赖项。如需 GPU 加速,请确保已安装 CUDA 和 cuDNN。


延伸阅读

TAG
CATEGORIES