AI

IndexTTS-vLLM:使用 vLLM 推論加速的開源文字轉語音

IndexTTS-vLLM 是 IndexTTS 的加速版本,使用 vLLM 實現 3 倍推論速度提升,支援多角色音訊混合和即時 TTS。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
IndexTTS-vLLM:使用 vLLM 推論加速的開源文字轉語音

文字轉語音技術在過去三年中取得了巨大進步。零樣本語音複製——系統可以僅從幾秒鐘的音訊合成出新語音——從研究新奇事物變成了實用工具。多說話者對話生成——可以在單一輸出中混合不同語音——從實驗性發展到生產就緒。阻礙這些能力被廣泛採用的限制因素越來越常是推論速度——輸出品質與生成速度之間的差距。

IndexTTS-vLLM 直接解決了這個差距。它是 IndexTTS 文字轉語音系統的加速版本,將模型的推論管線移植到 vLLM 上運行——vLLM 是原本為大型語言模型服務開發的高效能推論引擎。結果是 TTS 推論速度提升 2.5-3.5 倍,在消費級 GPU 上實現了具有零樣本語音複製和多角色音訊混合的即時語音合成。

儲存庫github.com/Ksuriuri/index-tts-vllm


IndexTTS-vLLM 如何運作?

功能原始 IndexTTSIndexTTS-vLLM
推論引擎自訂實作vLLM (PagedAttention)
相對速度1x (基線)2.5-3.5x
即時因子 (RTX 4090)~0.4x 即時~1.2-1.5x 即時
批次推論有限高效連續批次
記憶體使用每次請求較高經 PagedAttention 最佳化

效能提升

硬體原始 (RTF)vLLM (RTF)加速倍數
NVIDIA RTX 4090 (24GB)2.5x (0.4x 即時)0.67x (1.5x 即時)3.7x
NVIDIA RTX 3090 (24GB)3.0x (0.33x 即時)0.85x (1.18x 即時)3.5x
NVIDIA RTX 4070 (12GB)3.5x (0.29x 即時)1.1x (0.91x 即時)3.2x
NVIDIA A100 (80GB)2.0x (0.5x 即時)0.5x (2.0x 即時)4.0x

常見問題

什麼是 IndexTTS-vLLM? IndexTTS 文字轉語音系統的加速版本,利用 vLLM 推論引擎實現約 3 倍推論速度提升。支援零樣本語音複製和多角色音訊混合。

vLLM 加速如何改進 IndexTTS? vLLM 使用 PagedAttention 實現高效記憶體管理和連續批次處理,實現 3 倍更快的 Token 生成。

比原始版本快多少? 約 2.5-3.5 倍加速。在 RTX 4090 上,原始版本約 0.4x 即時速度,而 vLLM 版本約 1.2-1.5x 即時速度。

什麼是多角色音訊混合? 在單一輸出檔案中生成包含多種不同語音的音訊。兩個角色之間的對話可以用不同的語音合成。

需要什麼硬體? 需要至少 8GB VRAM 的 CUDA 相容 GPU。建議 RTX 3060(12GB)或更高。

延伸閱讀

TAG