AI

ReasonFlux:通过思维模板扩展实现层次式 LLM 推理

ReasonFlux 是一个模板增强的推理框架,使用 500 个思维模板与层次式强化学习,使 32B 模型能够超越 GPT-4 与 o1-mini。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
ReasonFlux:通过思维模板扩展实现层次式 LLM 推理

大型语言模型在一般知识与语言生成方面取得了令人瞩目的进展,但复杂推理——多步骤数学问题、形式逻辑、算法编码——仍然是一个挑战,特别是对于较小的模型。由 Gen-Verse 开发并被 NeurIPS 2025 接受的 ReasonFlux,从一个新颖的角度解决这个问题:与其扩大模型规模,不如扩展可用的推理策略。

ReasonFlux 背后的核心见解很优雅。LLM 中大多数推理失败不是知识的失败——模型知道相关事实——而是方法的失败。模型选择了错误的策略,或者尝试一次性解决问题,而应该将其分解为多个步骤。ReasonFlux 通过提供一个精选的 500 个专家设计思维模板库来解决这个问题,每个模板编码了一个可重复使用的思考策略。

通过层次式强化学习,ReasonFlux 训练基础模型不仅回答问题,而且识别问题类型、检索适当模板并适应性地组合它们。结果令人印象深刻:使用 ReasonFlux 的 32B 参数模型在几个关键数学推理基准测试中超越了 GPT-4 与 OpenAI 的 o1-mini。


ReasonFlux 的层次式强化学习训练如何工作?

训练过程涉及两个层次的学习:模板选择(使用哪种推理策略)与模板执行(如何将其应用于特定问题)。

层次式强化学习方法训练模型在多个抽象层级做出决策。在层级 1,模型选择整体策略(反证法、分而治之、案例分析)。在层级 2,它应用适合该策略的战术性子步骤。在层级 3,它验证中间结果。

这种层次至关重要,因为它模仿了人类专家推理的方式:我们不是从头生成每一个步骤——我们识别问题模式并应用已知的解决模板。


500 模板思维库包含什么?

思维模板库是 ReasonFlux 的智慧核心。每个模板都是专家设计的推理模式,模型可以检索、改编与组合。

类别模板数量示例模板示例问题类型
数学180反证法、归纳法、不变量分析奥林匹克数学、数论
逻辑100演绎链、案例分析、归谬法形式逻辑、谜题
编码80分而治之、动态规划、贪婪证明算法设计
科学70假设检验、对照实验、因果推断物理、生物
常识70类比推理、反事实、逐步验证日常推理

每个模板包含:策略的自然语言描述、适合模型微调的形式化表示,以及跨多个领域的正确应用示例。


ReasonFlux 与更大模型的表现相比如何?

基准测试结果是 ReasonFlux 有效性的最强证据。使用模板库与层次式强化学习训练的 32B 模型超越了数倍于其规模的模型。

基准GPT-4o1-miniReasonFlux (32B)ReasonFlux (72B)
MATH-50085.2%91.8%96.0%97.1%
AIME 202463.4%78.5%82.3%86.8%
GSM8K92.0%94.6%96.2%97.5%
MMLU-STEM83.6%87.2%89.1%91.3%
HumanEval87.2%90.4%91.8%93.5%

32B 模型在所有基准测试中持续超越 o1-mini,而 72B 变体则更进一步领先。这特别值得注意,因为 ReasonFlux 模型是开放权重且可以自托管的,而 GPT-4 与 o1-mini 是专有的、仅限 API 的服务。

推理成本比较

除了原始准确度之外,成本优势非常显著。自托管 32B ReasonFlux 模型的每 token 价格约为 GPT-4 的 1/30,且具有可比或更优越的推理质量。


模板增强推理的实际意义是什么?

ReasonFlux 的方法具有超越基准测试性能的意义。

普及高级推理: 通过使较小的开放权重模型能够与专有巨头竞争,ReasonFlux 使那些无法大规模使用基于 API 模型的团队与组织能够获得先进的 AI 推理能力。

领域特定自定义: 模板库可以通过领域特定的推理模式进行扩展。法律推理模型可以添加法定解释与判例分析的模板。医疗模型可以添加诊断推理模式。

可解释的推理链: 因为模板编码了明确的策略,模型的推理过程比黑箱方法更易于解释。用户可以看到选择了哪个模板以及如何应用它,使得审计与调试推理失败更加容易。


FAQ

什么是 ReasonFlux? ReasonFlux 是由 Gen-Verse 开发的层次式 LLM 推理框架,使用 500 个精选思维模板来引导模型推理。它已被 NeurIPS 2025 接受,并证明了使用模板增强推理的 32B 参数模型可以在复杂推理基准测试中超越 GPT-4 与 o1-mini 等更大的模型。

ReasonFlux 中的思维模板库是什么? 思维模板库是一个精选的 500 个专家设计推理模式集合,涵盖数学、代码生成、逻辑、科学与常识推理。每个模板编码了一个可重复使用的思维策略,可以针对新问题进行检索与改编。

ReasonFlux 的性能与 o1-mini 相比如何? ReasonFlux 使用 32B 基础模型在 MATH-500(96.0%)、AIME 2024(82.3%)等关键基准上超越了 GPT-4 与 o1-mini,以较小模型实现了更优越的推理。

ReasonFlux 支持哪些模型规模? ReasonFlux 已在 7B 到 72B 参数的模型上经过验证。32B 变体提供了最佳的性能与效率平衡。该框架兼容于任何开放权重的 LLM。

ReasonFlux 的关键创新是什么? ReasonFlux 引入了三项关键创新:层次式强化学习训练方法、500 个模板的思维模板库,以及模板检索机制。


延伸阅读

TAG
CATEGORIES