能夠進行自然對話的數位虛擬人物——看到你的臉、聽到你的聲音、以同步的唇部動作和表情回應——幾十年來一直是科幻小說的主要元素。到了 2026 年,它已成為一個可以在你自己的硬體上運行的開源專案。
Linly-Talker 是由 Kedreamix 團隊開發的全面開源數位虛擬人物對話系統。它將對話式 AI 的整個管線——語音識別、語言理解、文字生成、語音合成和說話頭像動畫——整合成一個可設定的系統。給它一張肖像照片和一個麥克風,Linly-Talker 就能產生一個即時互動的虛擬人物,以同步的唇部動作、自然的頭部動作和富有表情的臉部動畫說話。
Linly-Talker 特別引人注目的是其模組化設計。管線的每個階段——ASR、LLM、TTS 和視覺生成——都是可替換的。使用者可以根據自己的硬體、品質要求和語言需求混合搭配模型。這種靈活性使其成為 GitHub 上最受歡迎的開源數位人專案之一,應用範圍從客服資訊站到教育工具和娛樂。
Linly-Talker 使用什麼技術棧?
flowchart LR
A[使用者輸入\n語音或文字] --> B[ASR 模組\nWhisper / SenseVoice]
B --> C[LLM 核心\nGPT / Qwen / Linly]
C --> D[TTS 引擎\nCosyVoice / Edge-TTS]
D --> E[說話頭像\nSadTalker / Wav2Lip]
E --> F[虛擬人物輸出\n含音訊的影片]| 管線階段 | 技術選項 | 角色 |
|---|---|---|
| 自動語音辨識(ASR) | Whisper (OpenAI), SenseVoice (Alibaba), FunASR | 將語音輸入轉換為文字 |
| 大型語言模型(LLM) | GPT-4, Qwen, Linly, ChatGLM, DeepSeek | 生成對話回應 |
| 文字轉語音(TTS) | CosyVoice, Edge-TTS, GPT-SoVITS, VITS | 將回應文字轉換為語音 |
| 說話頭像生成 | SadTalker, Wav2Lip, MuseTalk, LivePortrait | 生成同步的虛擬人物影片 |
| 使用者介面 | Gradio(網頁版) | 提供聊天介面和控制項 |
硬體需求
| 硬體 | 最低 | 建議 |
|---|---|---|
| GPU | NVIDIA GTX 1660 (6GB) | NVIDIA RTX 4060 / A4000 |
| RAM | 16 GB | 32 GB |
| 儲存空間 | 20 GB 可用 | 50 GB 可用 |
| 作業系統 | Linux / Windows | Linux (Ubuntu 22.04+) |
常見問題
什麼是 Linly-Talker? Linly-Talker 是一個開源數位虛擬人物對話系統,結合大型語言模型與視覺生成模型,建立互動式、即時的說話頭像。系統透過 ASR-LLM-TTS 管線處理文字或語音輸入,並將最終語音與靜態肖像圖片上的說話頭像動畫同步。
使用什麼技術棧? 整合 ASR(Whisper, SenseVoice)、LLM 核心(GPT, Qwen, Linly)、TTS(CosyVoice, Edge-TTS)和說話頭像生成(SadTalker, Wav2Lip)。系統建立在 Gradio 上,支援 GPU 加速。
支援語音複製嗎? 是的,透過其 TTS 模組支援。使用者可以提供簡短的語音樣本(10-30 秒),系統可以合成匹配的語音。
能即時運行嗎? 在具備 NVIDIA RTX 3060 或更高 GPU 的系統上可達到接近即時的互動。支援串流模式以減少感知延遲。
授權條款? MIT 授權,可免費使用、修改和散佈。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!