Categories

音訊

FunClip:開源 AI 音訊剪輯與處理工具
AI

FunClip:開源 AI 音訊剪輯與處理工具

音訊編輯通常需要手動檢查波形並進行精確剪裁,以隔離所需的片段。由 ModelScope 團隊開發的 FunClip 改變了這一點,它應用 AI 驅動的語音辨識和內容理解來自動化音訊剪輯任務。 FunClip 建構在 ModelScope 的 AI 模型生態系之上,能夠轉錄音訊、根據關鍵字或 …

edge-tts:使用 Microsoft Edge 線上服務的 Python TTS
AI

edge-tts:使用 Microsoft Edge 線上服務的 Python TTS

高品質的文字轉語音通常需要昂貴的雲端 API 或複雜的本地模型設定。由 rany2 建立的 Edge-TTS 採取了一個巧妙的方法:它接入 Microsoft Edge 內建的線上 TTS 服務,提供對數百種自然聲音的免費存取,涵蓋數十種語言。 該工具是一個簡單的 Python CLI,可 …

SAM-Audio:Meta 的音訊分割一切模型
AI

SAM-Audio:Meta 的音訊分割一切模型

分割一切模型(SAM)透過實現基於提示的影像中任意物體分割,徹底改變了電腦視覺。SAM-Audio 將同樣的變革性能力帶到音訊領域,允許使用者使用自然語言描述從混合音訊中隔離特定聲音。與其說「去除人聲」,不如說「提取背景中彈奏的民謠吉他」。

AudioCraft:Meta 的開源 AI 音訊生成工具組
AI

AudioCraft:Meta 的開源 AI 音訊生成工具組

從文字描述生成高品質音訊的能力長期以來一直是人工智慧的聖杯。AudioCraft,Meta 的開源 PyTorch 函式庫,透過一套涵蓋音樂、音效和神經音訊壓縮的全面音訊生成模型,將這項能力帶給了更廣泛的 AI 社群。 AudioCraft 在單一代碼庫中統一了三種不同的音訊生成能力:用於 …

ACE-Step 1.5:開源音樂生成模型超越商業方案
AI

ACE-Step 1.5:開源音樂生成模型超越商業方案

AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導,但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型,能在 2 秒內生成完整歌曲,同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合,在開源音樂生成領域前所未見 …

Faster-Whisper:使用 CTranslate2 實現 4 倍速語音辨識
AI

Faster-Whisper:使用 CTranslate2 實現 4 倍速語音辨識

OpenAI 的 Whisper 模型是自動語音辨識(ASR)領域的一項突破,證明了大規模弱監督訓練可以產出具有強大多語言轉錄能力的模型。然而,標準的 PyTorch 實作留下了顯著的效能提升空間。Faster-Whisper 由 SYSTRAN 開發,透過基於 CTranslate2 的 …

TAG