音訊

AI May 05, 2026

FunClip：開源 AI 音訊剪輯與處理工具

音訊編輯通常需要手動檢查波形並進行精確剪裁，以隔離所需的片段。由 ModelScope 團隊開發的 FunClip 改變了這一點，它應用 AI 驅動的語音辨識和內容理解來自動化音訊剪輯任務。 FunClip 建構在 ModelScope 的 AI 模型生態系之上，能夠轉錄音訊、根據關鍵字或 …

AI May 05, 2026

高品質的文字轉語音通常需要昂貴的雲端 API 或複雜的本地模型設定。由 rany2 建立的 Edge-TTS 採取了一個巧妙的方法：它接入 Microsoft Edge 內建的線上 TTS 服務，提供對數百種自然聲音的免費存取，涵蓋數十種語言。該工具是一個簡單的 Python CLI，可 …

AI May 05, 2026

分割一切模型（SAM）透過實現基於提示的影像中任意物體分割，徹底改變了電腦視覺。SAM-Audio 將同樣的變革性能力帶到音訊領域，允許使用者使用自然語言描述從混合音訊中隔離特定聲音。與其說「去除人聲」，不如說「提取背景中彈奏的民謠吉他」。

AI May 05, 2026

從文字描述生成高品質音訊的能力長期以來一直是人工智慧的聖杯。AudioCraft，Meta 的開源 PyTorch 函式庫，透過一套涵蓋音樂、音效和神經音訊壓縮的全面音訊生成模型，將這項能力帶給了更廣泛的 AI 社群。 AudioCraft 在單一代碼庫中統一了三種不同的音訊生成能力：用於 …

AI May 04, 2026

AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導，但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型，能在 2 秒內生成完整歌曲，同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合，在開源音樂生成領域前所未見 …

AI May 04, 2026

OpenAI 的 Whisper 模型是自動語音辨識（ASR）領域的一項突破，證明了大規模弱監督訓練可以產出具有強大多語言轉錄能力的模型。然而，標準的 PyTorch 實作留下了顯著的效能提升空間。Faster-Whisper 由 SYSTRAN 開發，透過基於 CTranslate2 的 …