Post

博客

SoloSoft 关于软件工程、Hugo、网站性能与多语言内容发布的技术文章。

RVC WebUI:基于 VITS 的开源实时语音转换
AI

RVC WebUI:基于 VITS 的开源实时语音转换

RVC(基于检索的语音转换)WebUI 是由 RVC-Project 团队开发的开源语音转换框架,已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS(变分推理文本转语音)架构,以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型,由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型,Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入,同时产生流式文本与自然语音输出——全部在单一架构内完成。

Qwen Code:阿里巴巴的开源终端 AI 代理
AI

Qwen Code:阿里巴巴的开源终端 AI 代理

Qwen Code 是由阿里云 QwenLM 团队开发的开源 AI 驱动终端代理。Qwen Code 从头开始为终端环境打造,提供 Claude Code 风格的交互式编码体验,专为阿里巴巴的 Qwen 模型系列优化,同时通过多协议提供商系统保持与 …

Planning-with-Files:AI 编码代理的持久性 Markdown 规划技能
AI

Planning-with-Files:AI 编码代理的持久性 Markdown 规划技能

Planning-with-Files 是由 OthmanAdi 开发的创新开源项目,为 AI 编码代理实现了一个基于 Markdown 的持久性规划系统。灵感来自 Manus 的规划方法,该项目使用结构化的 3 文件系统,维护一份随着 AI 代理处理任务而不断演进的动态规划文档。它既可作 …

PaddleOCR:百度支持 80+ 语言的超轻量 OCR 工具包
AI

PaddleOCR:百度支持 80+ 语言的超轻量 OCR 工具包

PaddleOCR 是百度基于 PaddlePaddle 深度学习框架的工业级超轻量光学字符识别 (OCR) 工具包。作为 GitHub 上最受欢迎的开源 OCR 项目之一,PaddleOCR 已发展多个主要版本——目前包括用于文本检测与识别的 PP-OCRv5、用于全面文档解析的 …

OpenManus-RL:LLM 代理的强化学习调校
AI

OpenManus-RL:LLM 代理的强化学习调校

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目,由 Ulab-UIUC(伊利诺伊大学厄巴纳-香槟分校)与 MetaGPT 协作开发。该项目提供一个全面的框架,用于 LLM 基础代理的强化学习调校,实现了 GRPO(群组相对策略优化)、监督式微调 …

TAG
CATEGORIES