Post

博客

SoloSoft 关于软件工程、Hugo、网站性能与多语言内容发布的技术文章。

AI May 03, 2026

IndexTTS-vLLM：使用 vLLM 推理加速的开源文本转语音

IndexTTS-vLLM 是 IndexTTS 文本转语音系统的加速版本，将模型的推理流水线移植到 vLLM 上运行——vLLM 是原本为大型语言模型服务开发的高性能推理引擎。结果是 TTS 推理速度提升 2.5-3.5 倍，在消费级 GPU 上实现了具有零样本语音克隆和多角色音频混合的 …

开源 May 03, 2026

对 macOS 用户来说，内置的屏幕捕获工具一直功能充足但受限。Apple 提供的功能（自 macOS Mojave 以来的屏幕截图快捷键）与高级用户所需的功能（标注、背景、快速编辑）之间的差距，一直由 CleanShot X（29 美元以上）和 Skitch 等商业工具填补。到了 …

AI May 02, 2026

StoryDiffusion 是南开大学与字节跳动的一项研究项目，针对生成式 AI 中最困难的问题之一：在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献，它引入了一种新颖的**一致性自注意力（CSA）**机制，使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …

AI May 02, 2026

Nexus Skills 是一个开源工具，解决 AI 辅助开发中最昂贵的问题之一：代码库上下文。当你告诉 AI 编码助手「找出用户验证在哪里处理」时，它要么需要将整个代码库放入其上下文窗口（消耗数千个 token），要么你必须手动搜索并粘贴相关文件（浪费你的时间）。Nexus Skills …

AI May 02, 2026

LLaMA-VID（大型语言与视频助手）是 ECCV 2024 的研究项目，针对 LLM 视频理解中的根本瓶颈：Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口，但先前的多模态方法每个视频帧消耗 100 到 500 个 Token，使得即使是短暂的 …

AI May 02, 2026

LightRAG 是香港大学 (HKU) 的一项研究项目，重新构想了使用知识图谱的检索增强生成（RAG）。该项目已被 EMNLP 2025 收录，以基于图形的架构取代传统的平面向量存储方法，从文档中提取实体及其关系，为 LLM 应用提供显著更好的上下文理解。