能够进行自然对话的数字虚拟人物——看到你的脸、听到你的声音、以同步的唇部动作和表情回应——几十年来一直是科幻小说的主要元素。到了 2026 年,它已成为一个可以在你自己的硬件上运行的开源项目。
Linly-Talker 是由 Kedreamix 团队开发的全面开源数字虚拟人物对话系统。它将对话式 AI 的整个流水线——语音识别、语言理解、文本生成、语音合成和说话头像动画——整合成一个可配置的系统。
技术栈
flowchart LR
A[用户输入\n语音或文本] --> B[ASR 模块\nWhisper / SenseVoice]
B --> C[LLM 核心\nGPT / Qwen / Linly]
C --> D[TTS 引擎\nCosyVoice / Edge-TTS]
D --> E[说话头像\nSadTalker / Wav2Lip]
E --> F[虚拟人物输出\n含音频的视频]| 流水线阶段 | 技术选项 | 角色 |
|---|---|---|
| 自动语音识别(ASR) | Whisper, SenseVoice, FunASR | 将语音输入转换为文本 |
| 大型语言模型(LLM) | GPT-4, Qwen, Linly, ChatGLM, DeepSeek | 生成对话响应 |
| 文本转语音(TTS) | CosyVoice, Edge-TTS, GPT-SoVITS, VITS | 将响应文本转换为语音 |
| 说话头像生成 | SadTalker, Wav2Lip, MuseTalk, LivePortrait | 生成同步的虚拟人物视频 |
说话头像生成
| 功能 | SadTalker | Wav2Lip | LivePortrait |
|---|---|---|---|
| 唇形同步准确度 | 高 | 非常高 | 高 |
| 头部运动 | 自然(生成) | 最少 | 富有表情 |
| 表情迁移 | 中等 | 无 | 强 |
| 实时可用 | 是(需 GPU) | 是 | 是 |
| 单图输入 | 是 | 是 | 是 |
硬件需求
| 硬件 | 最低 | 建议 |
|---|---|---|
| GPU | NVIDIA GTX 1660 (6GB) | NVIDIA RTX 4060 / A4000 |
| RAM | 16 GB | 32 GB |
| 存储 | 20 GB 可用 | 50 GB 可用 |
常见问题
什么是 Linly-Talker? 开源数字虚拟人物对话系统,结合 LLM 与视觉模型,创建交互式实时说话头像。
使用什么技术栈? ASR(Whisper, SenseVoice)、LLM 核心(GPT, Qwen, Linly)、TTS(CosyVoice)和说话头像生成(SadTalker, Wav2Lip)。
支持语音克隆吗? 是的,提供 10-30 秒语音样本即可。
能实时运行吗? 在 RTX 3060 或更高 GPU 上可接近实时。
许可证? MIT 许可证。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!