IndexTTS-vLLM:使用 vLLM 推理加速的开源文本转语音
IndexTTS-vLLM 是 IndexTTS 文本转语音系统的加速版本,将模型的推理流水线移植到 vLLM 上运行——vLLM 是原本为大型语言模型服务开发的高性能推理引擎。结果是 TTS 推理速度提升 2.5-3.5 倍,在消费级 GPU 上实现了具有零样本语音克隆和多角色音频混合的 …
SoloSoft 关于软件工程、Hugo、网站性能与多语言内容发布的技术文章。
IndexTTS-vLLM 是 IndexTTS 文本转语音系统的加速版本,将模型的推理流水线移植到 vLLM 上运行——vLLM 是原本为大型语言模型服务开发的高性能推理引擎。结果是 TTS 推理速度提升 2.5-3.5 倍,在消费级 GPU 上实现了具有零样本语音克隆和多角色音频混合的 …
对 macOS 用户来说,内置的屏幕捕获工具一直功能充足但受限。Apple 提供的功能(自 macOS Mojave 以来的屏幕截图快捷键)与高级用户所需的功能(标注、背景、快速编辑)之间的差距,一直由 CleanShot X(29 美元以上)和 Skitch 等商业工具填补。到了 …
StoryDiffusion 是南开大学与字节跳动的一项研究项目,针对生成式 AI 中最困难的问题之一:在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献,它引入了一种新颖的**一致性自注意力(CSA)**机制,使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …
Nexus Skills 是一个开源工具,解决 AI 辅助开发中最昂贵的问题之一:代码库上下文。当你告诉 AI 编码助手「找出用户验证在哪里处理」时,它要么需要将整个代码库放入其上下文窗口(消耗数千个 token),要么你必须手动搜索并粘贴相关文件(浪费你的时间)。Nexus Skills …
LLaMA-VID(大型语言与视频助手)是 ECCV 2024 的研究项目,针对 LLM 视频理解中的根本瓶颈:Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口,但先前的多模态方法每个视频帧消耗 100 到 500 个 Token,使得即使是短暂的 …
LightRAG 是香港大学 (HKU) 的一项研究项目,重新构想了使用知识图谱的检索增强生成(RAG)。该项目已被 EMNLP 2025 收录,以基于图形的架构取代传统的平面向量存储方法,从文档中提取实体及其关系,为 LLM 应用提供显著更好的上下文理解。