LMRouter:用于多供应商模型访问的开源 AI API 路由器
LMRouter 通过为所有主要语言模型供应商提供单一统一的 API 网关来解决多供应商集成问题。以 TypeScript 构建并以 MIT 许可证发布,LMRouter 充当轻量代理,位于你的应用程序与各种 AI 供应商 API 之间。 仓库 …
LMRouter 通过为所有主要语言模型供应商提供单一统一的 API 网关来解决多供应商集成问题。以 TypeScript 构建并以 MIT 许可证发布,LMRouter 充当轻量代理,位于你的应用程序与各种 AI 供应商 API 之间。 仓库 …
能够进行自然对话的数字虚拟人物——看到你的脸、听到你的声音、以同步的唇部动作和表情回应——几十年来一直是科幻小说的主要元素。到了 2026 年,它已成为一个可以在你自己的硬件上运行的开源项目。 Linly-Talker 是由 Kedreamix 团队开发的全面开源数字虚拟人物对话系统。它将 …
IndexTTS-vLLM 是 IndexTTS 文本转语音系统的加速版本,将模型的推理流水线移植到 vLLM 上运行——vLLM 是原本为大型语言模型服务开发的高性能推理引擎。结果是 TTS 推理速度提升 2.5-3.5 倍,在消费级 GPU 上实现了具有零样本语音克隆和多角色音频混合的 …
StoryDiffusion 是南开大学与字节跳动的一项研究项目,针对生成式 AI 中最困难的问题之一:在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献,它引入了一种新颖的**一致性自注意力(CSA)**机制,使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …
Nexus Skills 是一个开源工具,解决 AI 辅助开发中最昂贵的问题之一:代码库上下文。当你告诉 AI 编码助手「找出用户验证在哪里处理」时,它要么需要将整个代码库放入其上下文窗口(消耗数千个 token),要么你必须手动搜索并粘贴相关文件(浪费你的时间)。Nexus Skills …
LLaMA-VID(大型语言与视频助手)是 ECCV 2024 的研究项目,针对 LLM 视频理解中的根本瓶颈:Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口,但先前的多模态方法每个视频帧消耗 100 到 500 个 Token,使得即使是短暂的 …