大型语言模型在一般知识与语言生成方面取得了令人瞩目的进展,但复杂推理——多步骤数学问题、形式逻辑、算法编码——仍然是一个挑战,特别是对于较小的模型。由 Gen-Verse 开发并被 NeurIPS 2025 接受的 ReasonFlux,从一个新颖的角度解决这个问题:与其扩大模型规模,不如扩展可用的推理策略。
ReasonFlux 背后的核心见解很优雅。LLM 中大多数推理失败不是知识的失败——模型知道相关事实——而是方法的失败。模型选择了错误的策略,或者尝试一次性解决问题,而应该将其分解为多个步骤。ReasonFlux 通过提供一个精选的 500 个专家设计思维模板库来解决这个问题,每个模板编码了一个可重复使用的思考策略。
通过层次式强化学习,ReasonFlux 训练基础模型不仅回答问题,而且识别问题类型、检索适当模板并适应性地组合它们。结果令人印象深刻:使用 ReasonFlux 的 32B 参数模型在几个关键数学推理基准测试中超越了 GPT-4 与 OpenAI 的 o1-mini。
ReasonFlux 的层次式强化学习训练如何工作?
训练过程涉及两个层次的学习:模板选择(使用哪种推理策略)与模板执行(如何将其应用于特定问题)。
flowchart TD
A["训练问题"] --> B["问题分类器\n检测问题类型"]
B --> C["模板检索器\n选择相关\n思维模板"]
C --> D["模板组合器\n层次式\n组合模板"]
D --> E["层级 1: 策略\n整体方法\n(例如「分解」)"]
D --> F["层级 2: 战术\n逐步方法\n(例如「代入」)"]
D --> G["层级 3: 验证\n检查与验证步骤\n(例如「测试案例」)"]
E --> H["使用模板\n执行推理"]
F --> H
G --> H
H --> I{"答案\n正确?"}
I -->|否| J["RL 奖励:\n负面"]
J --> C
I -->|是| K["RL 奖励:\n正面"]
K --> L["更新策略:\n强化此\n模板路径"]
style A fill:#1e1040,color:#ceb9ff
style B fill:#0c3a3d,color:#8ff5ff
style C fill:#1d2634,color:#a5abb8
style D fill:#0c3a3d,color:#8ff5ff
style E fill:#1e1040,color:#ceb9ff
style F fill:#1e1040,color:#ceb9ff
style G fill:#1e1040,color:#ceb9ff
style J fill:#3d0c0c,color:#ff8f8f
style K fill:#0c3a3d,color:#8ff5ff层次式强化学习方法训练模型在多个抽象层级做出决策。在层级 1,模型选择整体策略(反证法、分而治之、案例分析)。在层级 2,它应用适合该策略的战术性子步骤。在层级 3,它验证中间结果。
这种层次至关重要,因为它模仿了人类专家推理的方式:我们不是从头生成每一个步骤——我们识别问题模式并应用已知的解决模板。
500 模板思维库包含什么?
思维模板库是 ReasonFlux 的智慧核心。每个模板都是专家设计的推理模式,模型可以检索、改编与组合。
| 类别 | 模板数量 | 示例模板 | 示例问题类型 |
|---|---|---|---|
| 数学 | 180 | 反证法、归纳法、不变量分析 | 奥林匹克数学、数论 |
| 逻辑 | 100 | 演绎链、案例分析、归谬法 | 形式逻辑、谜题 |
| 编码 | 80 | 分而治之、动态规划、贪婪证明 | 算法设计 |
| 科学 | 70 | 假设检验、对照实验、因果推断 | 物理、生物 |
| 常识 | 70 | 类比推理、反事实、逐步验证 | 日常推理 |
每个模板包含:策略的自然语言描述、适合模型微调的形式化表示,以及跨多个领域的正确应用示例。
ReasonFlux 与更大模型的表现相比如何?
基准测试结果是 ReasonFlux 有效性的最强证据。使用模板库与层次式强化学习训练的 32B 模型超越了数倍于其规模的模型。
| 基准 | GPT-4 | o1-mini | ReasonFlux (32B) | ReasonFlux (72B) |
|---|---|---|---|---|
| MATH-500 | 85.2% | 91.8% | 96.0% | 97.1% |
| AIME 2024 | 63.4% | 78.5% | 82.3% | 86.8% |
| GSM8K | 92.0% | 94.6% | 96.2% | 97.5% |
| MMLU-STEM | 83.6% | 87.2% | 89.1% | 91.3% |
| HumanEval | 87.2% | 90.4% | 91.8% | 93.5% |
32B 模型在所有基准测试中持续超越 o1-mini,而 72B 变体则更进一步领先。这特别值得注意,因为 ReasonFlux 模型是开放权重且可以自托管的,而 GPT-4 与 o1-mini 是专有的、仅限 API 的服务。
推理成本比较
flowchart LR
A["模型比较"] --> B["GPT-4\n高成本\n专有"]
A --> C["o1-mini\n中等成本\n专有"]
A --> D["ReasonFlux 32B\n低成本\n开源"]
B --> E["~$15-30/M tokens\n仅 API"]
C --> F["~$3-6/M tokens\n仅 API"]
D --> G["~$0.5-1/M tokens\n自托管"]
style B fill:#1e1040,color:#ceb9ff
style C fill:#3d0c0c,color:#ff8f8f
style D fill:#0c3a3d,color:#8ff5ff除了原始准确度之外,成本优势非常显著。自托管 32B ReasonFlux 模型的每 token 价格约为 GPT-4 的 1/30,且具有可比或更优越的推理质量。
模板增强推理的实际意义是什么?
ReasonFlux 的方法具有超越基准测试性能的意义。
普及高级推理: 通过使较小的开放权重模型能够与专有巨头竞争,ReasonFlux 使那些无法大规模使用基于 API 模型的团队与组织能够获得先进的 AI 推理能力。
领域特定自定义: 模板库可以通过领域特定的推理模式进行扩展。法律推理模型可以添加法定解释与判例分析的模板。医疗模型可以添加诊断推理模式。
可解释的推理链: 因为模板编码了明确的策略,模型的推理过程比黑箱方法更易于解释。用户可以看到选择了哪个模板以及如何应用它,使得审计与调试推理失败更加容易。
FAQ
什么是 ReasonFlux? ReasonFlux 是由 Gen-Verse 开发的层次式 LLM 推理框架,使用 500 个精选思维模板来引导模型推理。它已被 NeurIPS 2025 接受,并证明了使用模板增强推理的 32B 参数模型可以在复杂推理基准测试中超越 GPT-4 与 o1-mini 等更大的模型。
ReasonFlux 中的思维模板库是什么? 思维模板库是一个精选的 500 个专家设计推理模式集合,涵盖数学、代码生成、逻辑、科学与常识推理。每个模板编码了一个可重复使用的思维策略,可以针对新问题进行检索与改编。
ReasonFlux 的性能与 o1-mini 相比如何? ReasonFlux 使用 32B 基础模型在 MATH-500(96.0%)、AIME 2024(82.3%)等关键基准上超越了 GPT-4 与 o1-mini,以较小模型实现了更优越的推理。
ReasonFlux 支持哪些模型规模? ReasonFlux 已在 7B 到 72B 参数的模型上经过验证。32B 变体提供了最佳的性能与效率平衡。该框架兼容于任何开放权重的 LLM。
ReasonFlux 的关键创新是什么? ReasonFlux 引入了三项关键创新:层次式强化学习训练方法、500 个模板的思维模板库,以及模板检索机制。
延伸阅读
- ReasonFlux GitHub 仓库 – 源代码、模板与预训练模型
- Gen-Verse 组织 – ReasonFlux 背后的研究组织
- NeurIPS 2025 会议 – ReasonFlux 被接受发表的会议
- 思维链提示调查 – 结构化 LLM 推理的基础论文
- 层次式强化学习概述 – 训练方法的技术背景
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!