ReasonFlux：通过思维模板扩展实现层次式 LLM 推理

Q: "什么是 ReasonFlux？"

"ReasonFlux 是由 Gen-Verse 开发的层次式 LLM 推理框架，使用 500 个精选思维模板来引导模型推理。它已被 NeurIPS 2025 接受，并证明了使用模板增强推理的 32B 参数模型可以在复杂推理基准测试中超越 GPT-4 与 o1-mini 等更大的模型。"

Q: "ReasonFlux 中的思维模板库是什么？"

"思维模板库是一个精选的 500 个专家设计推理模式集合，涵盖数学、代码生成、逻辑、科学与常识推理。每个模板编码了一个可重复使用的思维策略——例如「反证法」或「分而治之」——可以针对新问题进行检索与改编，而不是从头生成。"

Q: "ReasonFlux 的性能与 o1-mini 相比如何？"

"使用 32B 基础模型的 ReasonFlux 在几个关键基准测试上超越了 GPT-4 与 o1-mini，包括 MATH-500（96.0%）、AIME 2024（82.3%）与奥林匹克级数学任务。这意义重大，因为它以较小的模型实现了更优越的推理，证明了结构化模板指导可以显著提高推理效率。"

Q: "ReasonFlux 支持哪些模型规模？"

"ReasonFlux 已在 7B 到 72B 参数的模型上经过验证。32B 变体提供了最佳的性能与效率平衡。较小的模型（7B-14B）从模板中受益显著，但在最难的问题上表现出一些退化。该框架是模型无关的，兼容于任何开放权重的 LLM，包括 Llama、Qwen、DeepSeek 与 Mistral。"

Q: "ReasonFlux 的关键创新是什么？"

"ReasonFlux 引入了三项关键创新：（1）一种层次式强化学习训练方法，教导模型适应性地组合模板，（2）一个包含 500 个精选策略的可重复使用思维模板库，（3）一个为每个问题选择正确推理模式的模板检索机制。这些创新共同使较小的模型能够远远超越其参数规模。"

ReasonFlux 是一个模板增强的推理框架，使用 500 个思维模板与层次式强化学习，使 32B 模型能够超越 GPT-4 与 o1-mini。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 02, 2026 阅读 12 分钟

大型语言模型在一般知识与语言生成方面取得了令人瞩目的进展，但复杂推理——多步骤数学问题、形式逻辑、算法编码——仍然是一个挑战，特别是对于较小的模型。由 Gen-Verse 开发并被 NeurIPS 2025 接受的 ReasonFlux，从一个新颖的角度解决这个问题：与其扩大模型规模，不如扩展可用的推理策略。

ReasonFlux 背后的核心见解很优雅。LLM 中大多数推理失败不是知识的失败——模型知道相关事实——而是方法的失败。模型选择了错误的策略，或者尝试一次性解决问题，而应该将其分解为多个步骤。ReasonFlux 通过提供一个精选的 500 个专家设计思维模板库来解决这个问题，每个模板编码了一个可重复使用的思考策略。

通过层次式强化学习，ReasonFlux 训练基础模型不仅回答问题，而且识别问题类型、检索适当模板并适应性地组合它们。结果令人印象深刻：使用 ReasonFlux 的 32B 参数模型在几个关键数学推理基准测试中超越了 GPT-4 与 OpenAI 的 o1-mini。

ReasonFlux 的层次式强化学习训练如何工作？

训练过程涉及两个层次的学习：模板选择（使用哪种推理策略）与模板执行（如何将其应用于特定问题）。

flowchart TD
    A["训练问题"] --> B["问题分类器\n检测问题类型"]
    B --> C["模板检索器\n选择相关\n思维模板"]
    C --> D["模板组合器\n层次式\n组合模板"]

    D --> E["层级 1: 策略\n整体方法\n（例如「分解」）"]
    D --> F["层级 2: 战术\n逐步方法\n（例如「代入」）"]
    D --> G["层级 3: 验证\n检查与验证步骤\n（例如「测试案例」）"]

    E --> H["使用模板\n执行推理"]
    F --> H
    G --> H

    H --> I{"答案\n正确？"}
    I -->|否| J["RL 奖励：\n负面"]
    J --> C
    I -->|是| K["RL 奖励：\n正面"]
    K --> L["更新策略：\n强化此\n模板路径"]

    style A fill:#1e1040,color:#ceb9ff
    style B fill:#0c3a3d,color:#8ff5ff
    style C fill:#1d2634,color:#a5abb8
    style D fill:#0c3a3d,color:#8ff5ff
    style E fill:#1e1040,color:#ceb9ff
    style F fill:#1e1040,color:#ceb9ff
    style G fill:#1e1040,color:#ceb9ff
    style J fill:#3d0c0c,color:#ff8f8f
    style K fill:#0c3a3d,color:#8ff5ff

层次式强化学习方法训练模型在多个抽象层级做出决策。在层级 1，模型选择整体策略（反证法、分而治之、案例分析）。在层级 2，它应用适合该策略的战术性子步骤。在层级 3，它验证中间结果。

这种层次至关重要，因为它模仿了人类专家推理的方式：我们不是从头生成每一个步骤——我们识别问题模式并应用已知的解决模板。

500 模板思维库包含什么？

思维模板库是 ReasonFlux 的智慧核心。每个模板都是专家设计的推理模式，模型可以检索、改编与组合。

类别	模板数量	示例模板	示例问题类型
数学	180	反证法、归纳法、不变量分析	奥林匹克数学、数论
逻辑	100	演绎链、案例分析、归谬法	形式逻辑、谜题
编码	80	分而治之、动态规划、贪婪证明	算法设计
科学	70	假设检验、对照实验、因果推断	物理、生物
常识	70	类比推理、反事实、逐步验证	日常推理

每个模板包含：策略的自然语言描述、适合模型微调的形式化表示，以及跨多个领域的正确应用示例。

ReasonFlux 与更大模型的表现相比如何？

基准测试结果是 ReasonFlux 有效性的最强证据。使用模板库与层次式强化学习训练的 32B 模型超越了数倍于其规模的模型。

基准	GPT-4	o1-mini	ReasonFlux (32B)	ReasonFlux (72B)
MATH-500	85.2%	91.8%	96.0%	97.1%
AIME 2024	63.4%	78.5%	82.3%	86.8%
GSM8K	92.0%	94.6%	96.2%	97.5%
MMLU-STEM	83.6%	87.2%	89.1%	91.3%
HumanEval	87.2%	90.4%	91.8%	93.5%

32B 模型在所有基准测试中持续超越 o1-mini，而 72B 变体则更进一步领先。这特别值得注意，因为 ReasonFlux 模型是开放权重且可以自托管的，而 GPT-4 与 o1-mini 是专有的、仅限 API 的服务。

推理成本比较

flowchart LR
    A["模型比较"] --> B["GPT-4\n高成本\n专有"]
    A --> C["o1-mini\n中等成本\n专有"]
    A --> D["ReasonFlux 32B\n低成本\n开源"]

    B --> E["~$15-30/M tokens\n仅 API"]
    C --> F["~$3-6/M tokens\n仅 API"]
    D --> G["~$0.5-1/M tokens\n自托管"]

    style B fill:#1e1040,color:#ceb9ff
    style C fill:#3d0c0c,color:#ff8f8f
    style D fill:#0c3a3d,color:#8ff5ff

除了原始准确度之外，成本优势非常显著。自托管 32B ReasonFlux 模型的每 token 价格约为 GPT-4 的 1/30，且具有可比或更优越的推理质量。

模板增强推理的实际意义是什么？

ReasonFlux 的方法具有超越基准测试性能的意义。

普及高级推理: 通过使较小的开放权重模型能够与专有巨头竞争，ReasonFlux 使那些无法大规模使用基于 API 模型的团队与组织能够获得先进的 AI 推理能力。

领域特定自定义: 模板库可以通过领域特定的推理模式进行扩展。法律推理模型可以添加法定解释与判例分析的模板。医疗模型可以添加诊断推理模式。

可解释的推理链: 因为模板编码了明确的策略，模型的推理过程比黑箱方法更易于解释。用户可以看到选择了哪个模板以及如何应用它，使得审计与调试推理失败更加容易。

FAQ

什么是 ReasonFlux？ ReasonFlux 是由 Gen-Verse 开发的层次式 LLM 推理框架，使用 500 个精选思维模板来引导模型推理。它已被 NeurIPS 2025 接受，并证明了使用模板增强推理的 32B 参数模型可以在复杂推理基准测试中超越 GPT-4 与 o1-mini 等更大的模型。

ReasonFlux 中的思维模板库是什么？ 思维模板库是一个精选的 500 个专家设计推理模式集合，涵盖数学、代码生成、逻辑、科学与常识推理。每个模板编码了一个可重复使用的思维策略，可以针对新问题进行检索与改编。

ReasonFlux 的性能与 o1-mini 相比如何？ ReasonFlux 使用 32B 基础模型在 MATH-500（96.0%）、AIME 2024（82.3%）等关键基准上超越了 GPT-4 与 o1-mini，以较小模型实现了更优越的推理。

ReasonFlux 支持哪些模型规模？ ReasonFlux 已在 7B 到 72B 参数的模型上经过验证。32B 变体提供了最佳的性能与效率平衡。该框架兼容于任何开放权重的 LLM。

ReasonFlux 的关键创新是什么？ ReasonFlux 引入了三项关键创新：层次式强化学习训练方法、500 个模板的思维模板库，以及模板检索机制。

ReasonFlux：通过思维模板扩展实现层次式 LLM 推理

ReasonFlux 的层次式强化学习训练如何工作？

500 模板思维库包含什么？

ReasonFlux 与更大模型的表现相比如何？

推理成本比较

模板增强推理的实际意义是什么？

FAQ

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

ReasonFlux：通过思维模板扩展实现层次式 LLM 推理

ReasonFlux 的层次式强化学习训练如何工作？

500 模板思维库包含什么？

ReasonFlux 与更大模型的表现相比如何？

推理成本比较

模板增强推理的实际意义是什么？

FAQ

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险