强化学习

AI May 04, 2026

X-R1：开源推理模型探索

语言模型能够通过强化学习——而无需人类示范——发展出复杂推理能力的这一发现，是 2024 年和 2025 年 AI 研究中最令人惊讶的结果之一。DeepSeek R1 表明，使用 RL 训练的模型可以学会逐步思考，产生思维链推理，从而在数学、逻辑和编程任务上大幅提升表现。X-R1 是一个探 …

AI May 03, 2026

Verifiers 是由 PrimeIntellect-ai 开发的模块化 Python 库，提供一个全面框架，用于创建专为训练 LLM 代理而设计的强化学习环境。专为从事基于 RL 的 LLM 对齐与代理优化的研究人员与实务工作者设计，Verifiers 提供一个干净、可组合的 API， …

AI May 03, 2026

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目，由 Ulab-UIUC（伊利诺伊大学厄巴纳-香槟分校）与 MetaGPT 协作开发。该项目提供一个全面的框架，用于 LLM 基础代理的强化学习调校，实现了 GRPO（群组相对策略优化）、监督式微调 …

AI May 03, 2026

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正，甚至令人惊讶的「啊哈时刻」，模型在对话中途独立发现了更好的推理策略。但问题在于：训练基础设施被认为需要大 …

人工智能 Apr 23, 2026

Ace 是怎么打败人类选手的？三大技术突破解析 Ace 的成功并非单一技术的胜利，而是三大核心创新的系统性整合：事件传感器、无模型强化学习与高速硬件。这三项技术的协作，让机器人能即时感知、快速决策并精准执行。事件传感器：只追踪关键变化，效率提升百倍传统相机每秒撷取数十张完整画面，但 …