Tags

强化学习

X-R1:开源推理模型探索
AI

X-R1:开源推理模型探索

语言模型能够通过强化学习——而无需人类示范——发展出复杂推理能力的这一发现,是 2024 年和 2025 年 AI 研究中最令人惊讶的结果之一。DeepSeek R1 表明,使用 RL 训练的模型可以学会逐步思考,产生思维链推理,从而在数学、逻辑和编程任务上大幅提升表现。X-R1 是一个探 …

Verifiers:用于训练 LLM 代理的模块化 RL 环境库
AI

Verifiers:用于训练 LLM 代理的模块化 RL 环境库

Verifiers 是由 PrimeIntellect-ai 开发的模块化 Python 库,提供一个全面框架,用于创建专为训练 LLM 代理而设计的强化学习环境。专为从事基于 RL 的 LLM 对齐与代理优化的研究人员与实务工作者设计,Verifiers 提供一个干净、可组合的 API, …

OpenManus-RL:LLM 代理的强化学习调校
AI

OpenManus-RL:LLM 代理的强化学习调校

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目,由 Ulab-UIUC(伊利诺伊大学厄巴纳-香槟分校)与 MetaGPT 协作开发。该项目提供一个全面的框架,用于 LLM 基础代理的强化学习调校,实现了 GRPO(群组相对策略优化)、监督式微调 …

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理
AI

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正,甚至令人惊讶的「啊哈时刻」,模型在对话中途独立发现了更好的推理策略。但问题在于:训练基础设施被认为需要大 …

桌球机器人Ace:Sony AI打造的世界冠军挑战者
人工智能

桌球机器人Ace:Sony AI打造的世界冠军挑战者

Ace 是怎么打败人类选手的?三大技术突破解析 Ace 的成功并非单一技术的胜利,而是三大核心创新的系统性整合:事件传感器、无模型强化学习与高速硬件。这三项技术的协作,让机器人能即时感知、快速决策并精准执行。 事件传感器:只追踪关键变化,效率提升百倍 传统相机每秒撷取数十张完整画面,但 …

TAG
CATEGORIES