Categories

AI

PaddleOCR:百度支持 80+ 语言的超轻量 OCR 工具包
AI

PaddleOCR:百度支持 80+ 语言的超轻量 OCR 工具包

PaddleOCR 是百度基于 PaddlePaddle 深度学习框架的工业级超轻量光学字符识别 (OCR) 工具包。作为 GitHub 上最受欢迎的开源 OCR 项目之一,PaddleOCR 已发展多个主要版本——目前包括用于文本检测与识别的 PP-OCRv5、用于全面文档解析的 …

OpenManus-RL:LLM 代理的强化学习调校
AI

OpenManus-RL:LLM 代理的强化学习调校

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目,由 Ulab-UIUC(伊利诺伊大学厄巴纳-香槟分校)与 MetaGPT 协作开发。该项目提供一个全面的框架,用于 LLM 基础代理的强化学习调校,实现了 GRPO(群组相对策略优化)、监督式微调 …

OpenHands:拥有 71K 星的开源 AI 软件开发平台
AI

OpenHands:拥有 71K 星的开源 AI 软件开发平台

OpenHands 是一个开源 AI 驱动的软件开发平台,迅速成长至超过 71,000 个 GitHub 星星,重新定义了 AI 辅助编码的可能性。前身为 OpenDevin,OpenHands 由 All-Hands-AI 开发,提供一个全面环境,让 AI 代理可以自主编写代码、调试、部 …

InternVL:扩展至 241B 参数的开源视觉语言模型系列
AI

InternVL:扩展至 241B 参数的开源视觉语言模型系列

InternVL 是由上海人工智能实验室的 OpenGVLab 开发的一系列开源视觉语言基础模型。InternVL 系列将视觉 Transformer 扩展至 60 亿个参数,并逐步与大型语言模型对齐,建立统一架构,在多项多模态基准测试中达到 GPT-4o 级别的表现。旗舰模型 …

GPT-SoVITS:仅需 1 分钟语音数据的少样本语音克隆
AI

GPT-SoVITS:仅需 1 分钟语音数据的少样本语音克隆

GPT-SoVITS 是由 RVC-Boss 开发的开源语音克隆与文本转语音系统,在 AI 音频社区中引起轰动。该项目的突出能力是仅需 1 分钟语音数据即可训练令人信服的语音模型的少样本语音克隆,而零样本能力只需 5-10 秒的参考音频。支持中文、英文、日文与韩文,GPT-SoVITS 结 …

GPT Pilot:逐步编写应用程序的 AI 开发者
AI

GPT Pilot:逐步编写应用程序的 AI 开发者

GPT Pilot 是由 Pythagora-io 开发的开源 AI 开发者伙伴,采用与传统 AI 代码生成 fundamentally 不同的方法。GPT Pilot 不是在单个提示中生成整个应用程序,而是实现一个逐步开发流程,模仿人类软件开发团队的工作方式——从需求分析开始,经过架构设 …

TAG
CATEGORIES