文字轉語音技術在近年來取得了巨大進展,從機械化、單調的合成過渡到非常自然的語音生成。Higgs Audio 由 Boson AI 開發,代表了開源音訊生成的最先進水準,提供一個文字轉音訊基礎模型,能產生與人類錄音無法區分的語音,涵蓋多種聲音、語言和情感狀態。
Higgs Audio 與先前的 TTS 系統的區別在於其規模和架構。在超過 1000 萬小時的多樣化音訊資料上預訓練──遠超過任何先前的開源 TTS 模型──Higgs Audio 學習了人類語音的全部豐富性和多樣性。它可以生成具有適當情感、強調和節奏的富有表現力的語音,從僅幾秒鐘的音訊中複製語音,產生具有不同聲音的多說話者對話,甚至可以在聲音之間轉換說話風格。
Boson AI 決定將 Higgs Audio 作為開源模型發布,受到 AI 社群的歡迎。該模型為從有聲書製作和配音工作到無障礙工具和虛擬助手等各種應用提供動力。其零樣本語音複製能力──只需 3 到 5 秒的參考音訊──對於需要在沒有大量訓練資料的情況下生成一致語音輸出的應用特別有價值。
Higgs Audio 的架構如何運作?
Higgs Audio 建立在基於擴散的架構之上,該架構迭代地將隨機噪聲優化為由文字輸入引導的連貫音訊。
graph LR
A[文字輸入] --> B[文字編碼器]
B --> C[交叉注意力]
D[參考音訊] --> E[說話者編碼器]
E --> C
C --> F[音訊擴散模型]
G[隨機噪聲] --> F
F --> H[迭代去噪]
H --> I[最終音訊輸出]
I --> J[聲碼器]
J --> K[波形]
文字編碼器將輸入文字轉換為語義表示。說話者編碼器從參考音訊中提取語音特徵。擴散模型隨後生成同時符合文字內容和語音特徵的音訊,透過多個去噪步驟進行細化以達到自然的品質。
Higgs Audio 提供哪些能力?
該模型的能力遠超基本文字轉語音,涵蓋了全面的音訊生成任務範圍。
| 能力 | 描述 | 最低輸入 | 輸出品質 |
|---|---|---|---|
| 文字轉語音 | 以任何支援的聲音朗讀文字 | 僅文字 | 極佳 |
| 零樣本語音複製 | 從短樣本複製語音 | 3-5 秒音訊 | 非常好 |
| 多說話者對話 | 用不同聲音生成對話 | 附說話者標籤的腳本 | 良好 |
| 風格轉換 | 將一種語音的風格套用到另一種語音 | 兩個音訊樣本 | 良好 |
| 情感控制 | 以指定情感生成語音 | 文字 + 情感標籤 | 中等 |
| 音訊延續 | 自然地延續現有音訊 | 音訊提示 | 良好 |
| 韻律編輯 | 修改強調和節奏 | 文字 + 韻律標記 | 中等 |
品質因任務而異,基本 TTS 和語音複製產生最可靠的結果。情感控制和韻律編輯是更細緻的能力,隨著模型更新持續改進。
零樣本語音複製在實務中如何運作?
Higgs Audio 的零樣本複製能力是其最令人印象深刻的功能之一,只需極少的參考資料即可實現語音重現。
| 參考音訊長度 | 複製品質 | 建議用途 |
|---|---|---|
| 3-5 秒 | 良好 | 快速測試的短語音樣本 |
| 10-30 秒 | 非常好 | 角色語音、旁白 |
| 60 秒以上 | 極佳 | 生產級語音複製 |
| 5 分鐘以上 | 錄音室品質 | 長期語音保存 |
說話者編碼器從甚至非常短的樣本中捕捉語音的基本特徵──音色、音高範圍、共振峰結構、說話節奏。更長的參考音訊允許編碼器捕捉語音更細微的面向,包括其在不同說話情境中的動態範圍和變化。
Higgs Audio 使用了多少訓練資料和規模?
Higgs Audio 的訓練規模在開源 TTS 模型中是前所未有的,這解釋了其卓越品質的大部分原因。
| 資料維度 | Higgs Audio | 先前的開源模型 |
|---|---|---|
| 總音訊時數 | 1000 萬以上小時 | 通常 1K-1 萬小時 |
| 說話者數量 | 10 萬以上 | 通常 10-1K |
| 涵蓋語言 | 10 種以上 | 通常 1-5 種 |
| 音訊品質 | 混合(網路規模) | 策展(錄音室品質) |
| 文字多樣性 | 網路與書籍 | 朗讀語音 |
| 模型參數 | 未揭露 | 通常 1 億-10 億 |
大規模訓練資料是 Higgs Audio 卓越性能的主要因素。透過在網路規模資料上訓練──包括播客、有聲書、YouTube 影片和其他多樣化來源──該模型學會了處理人類語音的全部變化,包括不同的口音、語速、錄音條件和情感狀態。
FAQ
什麼是 Higgs Audio? Higgs Audio 是 Boson AI 的開源文字轉音訊基礎模型,在超過 1000 萬小時的音訊資料上預訓練。它支援富有表現力的文字轉語音、零樣本語音複製、多說話者對話生成和音訊風格轉換。
Higgs Audio 如何實現如此自然的語音合成? Higgs Audio 使用基於擴散的音訊生成架構,在大規模資料上訓練。這種方法捕捉了人類語音的完整複雜性,包括韻律、情感、語速和聲音特徵。
Higgs Audio 可以從短樣本複製語音嗎? 是的,Higgs Audio 支援零樣本語音複製,只需 3-5 秒的參考音訊。它能準確重現語音的音色、音高範圍、說話節奏和口音特徵。
Higgs Audio 支援哪些語言? Higgs Audio 支援多種語言,包括英語、中文、日語、韓語、法語、德語、西班牙語等,並具備跨語言語音複製能力,可在不同語言間保留語音特徵。
執行 Higgs Audio 的硬體需求是什麼? Higgs Audio 需要至少 8GB 視訊記憶體的 GPU 才能進行即時推論。CPU 推論可行但較慢。訓練或微調需要更強大的硬體,建議 24GB 以上的視訊記憶體。
延伸閱讀
- Higgs Audio GitHub 倉庫 – 原始碼、模型權重和文件
- Boson AI 官方網站 – Higgs Audio 模型背後的公司
- 音訊擴散模型 – 基於擴散音訊生成的研究
- Hugging Face:Higgs Audio 模型卡 – 模型權重和推論範例
- 文字轉語音技術概述 – Google 對神經 TTS 架構的研究
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!