Post

博客

SoloSoft 关于软件工程、Hugo、网站性能与多语言内容发布的技术文章。

AI May 02, 2026

Animate Anyone：从单张图片实现 AI 驱动的角色动画

Animate Anyone 是阿里巴巴 HumanAIGC 团队的一项研究项目，能将单张照片转变为人物行走、跳舞或执行任何姿势序列的完整动画视频——同时以非凡的保真度维持角色的身份、服装和外观。它代表了使用扩散模型进行图像到视频合成最令人印象深刻的应用之一。

AI May 02, 2026

大型语言模型在一般知识与语言生成方面取得了令人瞩目的进展，但复杂推理——多步骤数学问题、形式逻辑、算法编码——仍然是一个挑战，特别是对于较小的模型。由 Gen-Verse 开发并被 NeurIPS 2025 接受的 ReasonFlux，从一个新颖的角度解决这个问题：与其扩大模型规模，不如 …

AI May 02, 2026

开源 AI 代理领域有一位新的领导者。由 FoundationAgents（MetaGPT 的同一团队）开发的 OpenManus 已迅速增长到超过 55,000 个 GitHub 星标，通过提供社区迫切想要的东西：一个灵活、模块化且真正开放的框架，用于构建通用 AI 代理。

AI May 02, 2026

使用 AI 代理进行软件开发的概念并不新鲜，但 MetaGPT 将它推向了前所未有的高度。它不是部署单一 AI 来编写代码，而是创建了一个完全由 AI 代理组成的模拟软件公司——每个代理都有特定的角色、专业知识与责任。由 FoundationAgents 开发，MetaGPT 已在 …

AI May 02, 2026

视频编辑是一项耗时的工艺，随着素材长度增加而难以扩展。一段 30 秒的社交短片可能需要手动编辑一小时。一段一小时的活动视频可能需要数天。CutClaw 是由 GVCLab 开发的开源框架，通过设计用于自主编辑数小时长度视频素材的多代理系统来解决这个问题。

AI May 02, 2026

语音生成技术取得了显著进步，但大多数开源文本转语音（TTS）模型仍在一个基本权衡中挣扎：质量与语言覆盖率之间的取舍。由阿里巴巴 FunAudioLLM 团队开发的 CosyVoice 打破了这一障碍，在 9 种语言与 18 种以上中文方言中提供生产级质量的语音生成。