AI

Linly-Talker:開源數位虛擬人物對話系統

Linly-Talker 是一個開源數位虛擬人物系統,結合 LLM 與視覺模型,實現具有說話頭像生成的即時對話式 AI。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Linly-Talker:開源數位虛擬人物對話系統

能夠進行自然對話的數位虛擬人物——看到你的臉、聽到你的聲音、以同步的唇部動作和表情回應——幾十年來一直是科幻小說的主要元素。到了 2026 年,它已成為一個可以在你自己的硬體上運行的開源專案。

Linly-Talker 是由 Kedreamix 團隊開發的全面開源數位虛擬人物對話系統。它將對話式 AI 的整個管線——語音識別、語言理解、文字生成、語音合成和說話頭像動畫——整合成一個可設定的系統。給它一張肖像照片和一個麥克風,Linly-Talker 就能產生一個即時互動的虛擬人物,以同步的唇部動作、自然的頭部動作和富有表情的臉部動畫說話。

Linly-Talker 特別引人注目的是其模組化設計。管線的每個階段——ASR、LLM、TTS 和視覺生成——都是可替換的。使用者可以根據自己的硬體、品質要求和語言需求混合搭配模型。這種靈活性使其成為 GitHub 上最受歡迎的開源數位人專案之一,應用範圍從客服資訊站到教育工具和娛樂。

Linly-Talker 使用什麼技術棧?

管線階段技術選項角色
自動語音辨識(ASR)Whisper (OpenAI), SenseVoice (Alibaba), FunASR將語音輸入轉換為文字
大型語言模型(LLM)GPT-4, Qwen, Linly, ChatGLM, DeepSeek生成對話回應
文字轉語音(TTS)CosyVoice, Edge-TTS, GPT-SoVITS, VITS將回應文字轉換為語音
說話頭像生成SadTalker, Wav2Lip, MuseTalk, LivePortrait生成同步的虛擬人物影片
使用者介面Gradio(網頁版)提供聊天介面和控制項

硬體需求

硬體最低建議
GPUNVIDIA GTX 1660 (6GB)NVIDIA RTX 4060 / A4000
RAM16 GB32 GB
儲存空間20 GB 可用50 GB 可用
作業系統Linux / WindowsLinux (Ubuntu 22.04+)

常見問題

什麼是 Linly-Talker? Linly-Talker 是一個開源數位虛擬人物對話系統,結合大型語言模型與視覺生成模型,建立互動式、即時的說話頭像。系統透過 ASR-LLM-TTS 管線處理文字或語音輸入,並將最終語音與靜態肖像圖片上的說話頭像動畫同步。

使用什麼技術棧? 整合 ASR(Whisper, SenseVoice)、LLM 核心(GPT, Qwen, Linly)、TTS(CosyVoice, Edge-TTS)和說話頭像生成(SadTalker, Wav2Lip)。系統建立在 Gradio 上,支援 GPU 加速。

支援語音複製嗎? 是的,透過其 TTS 模組支援。使用者可以提供簡短的語音樣本(10-30 秒),系統可以合成匹配的語音。

能即時運行嗎? 在具備 NVIDIA RTX 3060 或更高 GPU 的系統上可達到接近即時的互動。支援串流模式以減少感知延遲。

授權條款? MIT 授權,可免費使用、修改和散佈。

延伸閱讀

TAG