大型語言模型在一般知識與語言生成方面取得了令人矚目的進展,但複雜推理——多步驟數學問題、形式邏輯、演算法編碼——仍然是一個挑戰,特別是對於較小的模型。由 Gen-Verse 開發並被 NeurIPS 2025 接受的 ReasonFlux,從一個新穎的角度解決這個問題:與其擴大模型規模,不如擴大可用的推理策略。
ReasonFlux 背後的核心見解很優雅。LLM 中大多數推理失敗不是知識的失敗——模型知道相關事實——而是方法的失敗。模型選擇了錯誤的策略,或者嘗試一次性解決問題,而應該將其分解為多個步驟。ReasonFlux 透過提供一個精選的 500 個專家設計思維模板庫來解決這個問題,每個模板編碼了一個可重複使用的思考策略。
透過階層式強化學習,ReasonFlux 訓練基礎模型不僅回答問題,而且識別問題類型、檢索適當模板並適應性地組合它們。結果令人印象深刻:使用 ReasonFlux 的 32B 參數模型在幾個關鍵數學推理基準測試中超越了 GPT-4 與 OpenAI 的 o1-mini。
ReasonFlux 的階層式強化學習訓練如何運作?
訓練過程涉及兩個層次的學習:模板選擇(使用哪種推理策略)與模板執行(如何將其應用於特定問題)。
flowchart TD
A["訓練問題"] --> B["問題分類器\n偵測問題類型"]
B --> C["模板檢索器\n選擇相關\n思維模板"]
C --> D["模板組合器\n階層式\n組合模板"]
D --> E["層級 1: 策略\n整體方法\n(例如「分解」)"]
D --> F["層級 2: 戰術\n逐步方法\n(例如「代入」)"]
D --> G["層級 3: 驗證\n檢查與驗證步驟\n(例如「測試案例」)"]
E --> H["使用模板\n執行推理"]
F --> H
G --> H
H --> I{"答案\n正確?"}
I -->|否| J["RL 獎勵:\n負面"]
J --> C
I -->|是| K["RL 獎勵:\n正面"]
K --> L["更新策略:\n強化此\n模板路徑"]
style A fill:#1e1040,color:#ceb9ff
style B fill:#0c3a3d,color:#8ff5ff
style C fill:#1d2634,color:#a5abb8
style D fill:#0c3a3d,color:#8ff5ff
style E fill:#1e1040,color:#ceb9ff
style F fill:#1e1040,color:#ceb9ff
style G fill:#1e1040,color:#ceb9ff
style J fill:#3d0c0c,color:#ff8f8f
style K fill:#0c3a3d,color:#8ff5ff階層式強化學習方法訓練模型在多個抽象層級做出決策。在層級 1,模型選擇整體策略(反證法、分而治之、案例分析)。在層級 2,它應用適合該策略的戰術性子步驟。在層級 3,它驗證中間結果。
這種階層至關重要,因為它模仿了人類專家推理的方式:我們不是從頭生成每一個步驟——我們識別問題模式並應用已知的解決模板。
500 模板思維庫包含什麼?
思維模板庫是 ReasonFlux 的智慧核心。每個模板都是專家設計的推理模式,模型可以檢索、改編與組合。
| 類別 | 模板數量 | 範例模板 | 範例問題類型 |
|---|---|---|---|
| 數學 | 180 | 反證法、歸納法、不變量分析 | 奧林匹克數學、數論 |
| 邏輯 | 100 | 演繹鏈、案例分析、歸謬法 | 形式邏輯、謎題 |
| 編碼 | 80 | 分而治之、動態規劃、貪婪證明 | 演算法設計 |
| 科學 | 70 | 假設檢驗、對照實驗、因果推斷 | 物理、生物 |
| 常識 | 70 | 類比推理、反事實、逐步驗證 | 日常推理 |
每個模板包含:策略的自然語言描述、適合模型微調的形式化表示,以及跨多個領域的正確應用範例。
ReasonFlux 與更大模型的表現相比如何?
基準測試結果是 ReasonFlux 有效性的最強證據。使用模板庫與階層式強化學習訓練的 32B 模型超越了數倍於其規模的模型。
| 基準 | GPT-4 | o1-mini | ReasonFlux (32B) | ReasonFlux (72B) |
|---|---|---|---|---|
| MATH-500 | 85.2% | 91.8% | 96.0% | 97.1% |
| AIME 2024 | 63.4% | 78.5% | 82.3% | 86.8% |
| GSM8K | 92.0% | 94.6% | 96.2% | 97.5% |
| MMLU-STEM | 83.6% | 87.2% | 89.1% | 91.3% |
| HumanEval | 87.2% | 90.4% | 91.8% | 93.5% |
32B 模型在所有基準測試中持續超越 o1-mini,而 72B 變體則更進一步領先。這特別值得注意,因為 ReasonFlux 模型是開放權重且可以自架的,而 GPT-4 與 o1-mini 是專有的、僅限 API 的服務。
推理成本比較
flowchart LR
A["模型比較"] --> B["GPT-4\n高成本\n專有"]
A --> C["o1-mini\n中等成本\n專有"]
A --> D["ReasonFlux 32B\n低成本\n開源"]
B --> E["~$15-30/M tokens\n僅 API"]
C --> F["~$3-6/M tokens\n僅 API"]
D --> G["~$0.5-1/M tokens\n自架"]
style B fill:#1e1040,color:#ceb9ff
style C fill:#3d0c0c,color:#ff8f8f
style D fill:#0c3a3d,color:#8ff5ff除了原始準確度之外,成本優勢非常顯著。自架 32B ReasonFlux 模型的每 token 價格約為 GPT-4 的 1/30,且具有可比或更優越的推理品質。
模板增強推理的實際意義是什麼?
ReasonFlux 的方法具有超越基準測試效能的意義。
普及高級推理: 透過使較小的開放權重模型能夠與專有巨頭競爭,ReasonFlux 使那些無法大規模使用基於 API 模型的團隊與組織能夠獲得先進的 AI 推理能力。
領域特定自定義: 模板庫可以透過領域特定的推理模式進行擴展。法律推理模型可以添加法定解釋與判例分析的模板。醫療模型可以添加診斷推理模式。
可解釋的推理鏈: 因為模板編碼了明確的策略,模型的推理過程比黑箱方法更易於解釋。使用者可以看到選擇了哪個模板以及如何應用它,使得審計與除錯推理失敗更加容易。
FAQ
什麼是 ReasonFlux? ReasonFlux 是由 Gen-Verse 開發的階層式 LLM 推理框架,使用 500 個精選思維模板來引導模型推理。它已被 NeurIPS 2025 接受,並證明了使用模板增強推理的 32B 參數模型可以在複雜推理基準測試中超越 GPT-4 與 o1-mini 等更大的模型。
ReasonFlux 中的思維模板庫是什麼? 思維模板庫是一個精選的 500 個專家設計推理模式集合,涵蓋數學、程式碼生成、邏輯、科學與常識推理。每個模板編碼了一個可重複使用的思維策略,可以針對新問題進行檢索與改編。
ReasonFlux 的效能與 o1-mini 相比如何? ReasonFlux 使用 32B 基礎模型在 MATH-500(96.0%)、AIME 2024(82.3%)等關鍵基準上超越了 GPT-4 與 o1-mini,以較小模型實現了更優越的推理。
ReasonFlux 支援哪些模型規模? ReasonFlux 已在 7B 到 72B 參數的模型上經過驗證。32B 變體提供了最佳的效能與效率平衡。該框架相容於任何開放權重的 LLM。
ReasonFlux 的關鍵創新是什麼? ReasonFlux 引入了三項關鍵創新:階層式強化學習訓練方法、500 個模板的思維模板庫,以及模板檢索機制。
延伸閱讀
- ReasonFlux GitHub 倉庫 – 原始碼、模板與預訓練模型
- Gen-Verse 組織 – ReasonFlux 背後的研究組織
- NeurIPS 2025 會議 – ReasonFlux 被接受發表的會議
- 思維鏈提示調查 – 結構化 LLM 推理的基礎論文
- 階層式強化學習概述 – 訓練方法的技術背景
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!