AI

ReasonFlux:透過思維模板擴展實現階層式 LLM 推理

ReasonFlux 是一個模板增強的推理框架,使用 500 個思維模板與階層式強化學習,使 32B 模型能夠超越 GPT-4 與 o1-mini。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
ReasonFlux:透過思維模板擴展實現階層式 LLM 推理

大型語言模型在一般知識與語言生成方面取得了令人矚目的進展,但複雜推理——多步驟數學問題、形式邏輯、演算法編碼——仍然是一個挑戰,特別是對於較小的模型。由 Gen-Verse 開發並被 NeurIPS 2025 接受的 ReasonFlux,從一個新穎的角度解決這個問題:與其擴大模型規模,不如擴大可用的推理策略。

ReasonFlux 背後的核心見解很優雅。LLM 中大多數推理失敗不是知識的失敗——模型知道相關事實——而是方法的失敗。模型選擇了錯誤的策略,或者嘗試一次性解決問題,而應該將其分解為多個步驟。ReasonFlux 透過提供一個精選的 500 個專家設計思維模板庫來解決這個問題,每個模板編碼了一個可重複使用的思考策略。

透過階層式強化學習,ReasonFlux 訓練基礎模型不僅回答問題,而且識別問題類型、檢索適當模板並適應性地組合它們。結果令人印象深刻:使用 ReasonFlux 的 32B 參數模型在幾個關鍵數學推理基準測試中超越了 GPT-4 與 OpenAI 的 o1-mini。


ReasonFlux 的階層式強化學習訓練如何運作?

訓練過程涉及兩個層次的學習:模板選擇(使用哪種推理策略)與模板執行(如何將其應用於特定問題)。

階層式強化學習方法訓練模型在多個抽象層級做出決策。在層級 1,模型選擇整體策略(反證法、分而治之、案例分析)。在層級 2,它應用適合該策略的戰術性子步驟。在層級 3,它驗證中間結果。

這種階層至關重要,因為它模仿了人類專家推理的方式:我們不是從頭生成每一個步驟——我們識別問題模式並應用已知的解決模板。


500 模板思維庫包含什麼?

思維模板庫是 ReasonFlux 的智慧核心。每個模板都是專家設計的推理模式,模型可以檢索、改編與組合。

類別模板數量範例模板範例問題類型
數學180反證法、歸納法、不變量分析奧林匹克數學、數論
邏輯100演繹鏈、案例分析、歸謬法形式邏輯、謎題
編碼80分而治之、動態規劃、貪婪證明演算法設計
科學70假設檢驗、對照實驗、因果推斷物理、生物
常識70類比推理、反事實、逐步驗證日常推理

每個模板包含:策略的自然語言描述、適合模型微調的形式化表示,以及跨多個領域的正確應用範例。


ReasonFlux 與更大模型的表現相比如何?

基準測試結果是 ReasonFlux 有效性的最強證據。使用模板庫與階層式強化學習訓練的 32B 模型超越了數倍於其規模的模型。

基準GPT-4o1-miniReasonFlux (32B)ReasonFlux (72B)
MATH-50085.2%91.8%96.0%97.1%
AIME 202463.4%78.5%82.3%86.8%
GSM8K92.0%94.6%96.2%97.5%
MMLU-STEM83.6%87.2%89.1%91.3%
HumanEval87.2%90.4%91.8%93.5%

32B 模型在所有基準測試中持續超越 o1-mini,而 72B 變體則更進一步領先。這特別值得注意,因為 ReasonFlux 模型是開放權重且可以自架的,而 GPT-4 與 o1-mini 是專有的、僅限 API 的服務。

推理成本比較

除了原始準確度之外,成本優勢非常顯著。自架 32B ReasonFlux 模型的每 token 價格約為 GPT-4 的 1/30,且具有可比或更優越的推理品質。


模板增強推理的實際意義是什麼?

ReasonFlux 的方法具有超越基準測試效能的意義。

普及高級推理: 透過使較小的開放權重模型能夠與專有巨頭競爭,ReasonFlux 使那些無法大規模使用基於 API 模型的團隊與組織能夠獲得先進的 AI 推理能力。

領域特定自定義: 模板庫可以透過領域特定的推理模式進行擴展。法律推理模型可以添加法定解釋與判例分析的模板。醫療模型可以添加診斷推理模式。

可解釋的推理鏈: 因為模板編碼了明確的策略,模型的推理過程比黑箱方法更易於解釋。使用者可以看到選擇了哪個模板以及如何應用它,使得審計與除錯推理失敗更加容易。


FAQ

什麼是 ReasonFlux? ReasonFlux 是由 Gen-Verse 開發的階層式 LLM 推理框架,使用 500 個精選思維模板來引導模型推理。它已被 NeurIPS 2025 接受,並證明了使用模板增強推理的 32B 參數模型可以在複雜推理基準測試中超越 GPT-4 與 o1-mini 等更大的模型。

ReasonFlux 中的思維模板庫是什麼? 思維模板庫是一個精選的 500 個專家設計推理模式集合,涵蓋數學、程式碼生成、邏輯、科學與常識推理。每個模板編碼了一個可重複使用的思維策略,可以針對新問題進行檢索與改編。

ReasonFlux 的效能與 o1-mini 相比如何? ReasonFlux 使用 32B 基礎模型在 MATH-500(96.0%)、AIME 2024(82.3%)等關鍵基準上超越了 GPT-4 與 o1-mini,以較小模型實現了更優越的推理。

ReasonFlux 支援哪些模型規模? ReasonFlux 已在 7B 到 72B 參數的模型上經過驗證。32B 變體提供了最佳的效能與效率平衡。該框架相容於任何開放權重的 LLM。

ReasonFlux 的關鍵創新是什麼? ReasonFlux 引入了三項關鍵創新:階層式強化學習訓練方法、500 個模板的思維模板庫,以及模板檢索機制。


延伸閱讀

TAG