Post

博客

SoloSoft 关于软件工程、Hugo、网站性能与多语言内容发布的技术文章。

IndexTTS-vLLM:使用 vLLM 推理加速的开源文本转语音
AI

IndexTTS-vLLM:使用 vLLM 推理加速的开源文本转语音

IndexTTS-vLLM 是 IndexTTS 文本转语音系统的加速版本,将模型的推理流水线移植到 vLLM 上运行——vLLM 是原本为大型语言模型服务开发的高性能推理引擎。结果是 TTS 推理速度提升 2.5-3.5 倍,在消费级 GPU 上实现了具有零样本语音克隆和多角色音频混合的 …

BetterShot:内置编辑器的开源 macOS 屏幕捕获工具
开源

BetterShot:内置编辑器的开源 macOS 屏幕捕获工具

对 macOS 用户来说,内置的屏幕捕获工具一直功能充足但受限。Apple 提供的功能(自 macOS Mojave 以来的屏幕截图快捷键)与高级用户所需的功能(标注、背景、快速编辑)之间的差距,一直由 CleanShot X(29 美元以上)和 Skitch 等商业工具填补。到了 …

StoryDiffusion:用于长序列图像与视频生成的一致性自注意力机制
AI

StoryDiffusion:用于长序列图像与视频生成的一致性自注意力机制

StoryDiffusion 是南开大学与字节跳动的一项研究项目,针对生成式 AI 中最困难的问题之一:在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献,它引入了一种新颖的**一致性自注意力(CSA)**机制,使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …

Nexus Skills:用于 AI 编码助手的原生代码库智能
AI

Nexus Skills:用于 AI 编码助手的原生代码库智能

Nexus Skills 是一个开源工具,解决 AI 辅助开发中最昂贵的问题之一:代码库上下文。当你告诉 AI 编码助手「找出用户验证在哪里处理」时,它要么需要将整个代码库放入其上下文窗口(消耗数千个 token),要么你必须手动搜索并粘贴相关文件(浪费你的时间)。Nexus Skills …

LightRAG:简单快速的图形检索增强生成框架
AI

LightRAG:简单快速的图形检索增强生成框架

LightRAG 是香港大学 (HKU) 的一项研究项目,重新构想了使用知识图谱的检索增强生成(RAG)。该项目已被 EMNLP 2025 收录,以基于图形的架构取代传统的平面向量存储方法,从文档中提取实体及其关系,为 LLM 应用提供显著更好的上下文理解。

TAG
CATEGORIES