ReasonFlux：透過思維模板擴展實現階層式 LLM 推理

Q: "什麼是 ReasonFlux？"

"ReasonFlux 是由 Gen-Verse 開發的階層式 LLM 推理框架，使用 500 個精選思維模板來引導模型推理。它已被 NeurIPS 2025 接受，並證明了使用模板增強推理的 32B 參數模型可以在複雜推理基準測試中超越 GPT-4 與 o1-mini 等更大的模型。"

Q: "ReasonFlux 中的思維模板庫是什麼？"

"思維模板庫是一個精選的 500 個專家設計推理模式集合，涵蓋數學、程式碼生成、邏輯、科學與常識推理。每個模板編碼了一個可重複使用的思維策略——例如「反證法」或「分而治之」——可以針對新問題進行檢索與改編，而不是從頭生成。"

Q: "ReasonFlux 的效能與 o1-mini 相比如何？"

"使用 32B 基礎模型的 ReasonFlux 在幾個關鍵基準測試上超越了 GPT-4 與 o1-mini，包括 MATH-500（96.0%）、AIME 2024（82.3%）與奧林匹克級數學任務。這意義重大，因為它以較小的模型實現了更優越的推理，證明了結構化模板指導可以顯著提高推理效率。"

Q: "ReasonFlux 支援哪些模型規模？"

"ReasonFlux 已在 7B 到 72B 參數的模型上經過驗證。32B 變體提供了最佳的效能與效率平衡。較小的模型（7B-14B）從模板中受益顯著，但在最難的問題上表現出一些退化。該框架是模型無關的，相容於任何開放權重的 LLM，包括 Llama、Qwen、DeepSeek 與 Mistral。"

Q: "ReasonFlux 的關鍵創新是什麼？"

"ReasonFlux 引入了三項關鍵創新：（1）一種階層式強化學習訓練方法，教導模型適應性地組合模板，（2）一個包含 500 個精選策略的可重複使用思維模板庫，（3）一個為每個問題選擇正確推理模式的模板檢索機制。這些創新共同使較小的模型能夠遠遠超越其參數規模。"

ReasonFlux 是一個模板增強的推理框架，使用 500 個思維模板與階層式強化學習，使 32B 模型能夠超越 GPT-4 與 o1-mini。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 02, 2026 閱讀 12 分鐘

大型語言模型在一般知識與語言生成方面取得了令人矚目的進展，但複雜推理——多步驟數學問題、形式邏輯、演算法編碼——仍然是一個挑戰，特別是對於較小的模型。由 Gen-Verse 開發並被 NeurIPS 2025 接受的 ReasonFlux，從一個新穎的角度解決這個問題：與其擴大模型規模，不如擴大可用的推理策略。

ReasonFlux 背後的核心見解很優雅。LLM 中大多數推理失敗不是知識的失敗——模型知道相關事實——而是方法的失敗。模型選擇了錯誤的策略，或者嘗試一次性解決問題，而應該將其分解為多個步驟。ReasonFlux 透過提供一個精選的 500 個專家設計思維模板庫來解決這個問題，每個模板編碼了一個可重複使用的思考策略。

透過階層式強化學習，ReasonFlux 訓練基礎模型不僅回答問題，而且識別問題類型、檢索適當模板並適應性地組合它們。結果令人印象深刻：使用 ReasonFlux 的 32B 參數模型在幾個關鍵數學推理基準測試中超越了 GPT-4 與 OpenAI 的 o1-mini。

ReasonFlux 的階層式強化學習訓練如何運作？

訓練過程涉及兩個層次的學習：模板選擇（使用哪種推理策略）與模板執行（如何將其應用於特定問題）。

flowchart TD
    A["訓練問題"] --> B["問題分類器\n偵測問題類型"]
    B --> C["模板檢索器\n選擇相關\n思維模板"]
    C --> D["模板組合器\n階層式\n組合模板"]

    D --> E["層級 1: 策略\n整體方法\n（例如「分解」）"]
    D --> F["層級 2: 戰術\n逐步方法\n（例如「代入」）"]
    D --> G["層級 3: 驗證\n檢查與驗證步驟\n（例如「測試案例」）"]

    E --> H["使用模板\n執行推理"]
    F --> H
    G --> H

    H --> I{"答案\n正確？"}
    I -->|否| J["RL 獎勵：\n負面"]
    J --> C
    I -->|是| K["RL 獎勵：\n正面"]
    K --> L["更新策略：\n強化此\n模板路徑"]

    style A fill:#1e1040,color:#ceb9ff
    style B fill:#0c3a3d,color:#8ff5ff
    style C fill:#1d2634,color:#a5abb8
    style D fill:#0c3a3d,color:#8ff5ff
    style E fill:#1e1040,color:#ceb9ff
    style F fill:#1e1040,color:#ceb9ff
    style G fill:#1e1040,color:#ceb9ff
    style J fill:#3d0c0c,color:#ff8f8f
    style K fill:#0c3a3d,color:#8ff5ff

階層式強化學習方法訓練模型在多個抽象層級做出決策。在層級 1，模型選擇整體策略（反證法、分而治之、案例分析）。在層級 2，它應用適合該策略的戰術性子步驟。在層級 3，它驗證中間結果。

這種階層至關重要，因為它模仿了人類專家推理的方式：我們不是從頭生成每一個步驟——我們識別問題模式並應用已知的解決模板。

500 模板思維庫包含什麼？

思維模板庫是 ReasonFlux 的智慧核心。每個模板都是專家設計的推理模式，模型可以檢索、改編與組合。

類別	模板數量	範例模板	範例問題類型
數學	180	反證法、歸納法、不變量分析	奧林匹克數學、數論
邏輯	100	演繹鏈、案例分析、歸謬法	形式邏輯、謎題
編碼	80	分而治之、動態規劃、貪婪證明	演算法設計
科學	70	假設檢驗、對照實驗、因果推斷	物理、生物
常識	70	類比推理、反事實、逐步驗證	日常推理

每個模板包含：策略的自然語言描述、適合模型微調的形式化表示，以及跨多個領域的正確應用範例。

ReasonFlux 與更大模型的表現相比如何？

基準測試結果是 ReasonFlux 有效性的最強證據。使用模板庫與階層式強化學習訓練的 32B 模型超越了數倍於其規模的模型。

基準	GPT-4	o1-mini	ReasonFlux (32B)	ReasonFlux (72B)
MATH-500	85.2%	91.8%	96.0%	97.1%
AIME 2024	63.4%	78.5%	82.3%	86.8%
GSM8K	92.0%	94.6%	96.2%	97.5%
MMLU-STEM	83.6%	87.2%	89.1%	91.3%
HumanEval	87.2%	90.4%	91.8%	93.5%

32B 模型在所有基準測試中持續超越 o1-mini，而 72B 變體則更進一步領先。這特別值得注意，因為 ReasonFlux 模型是開放權重且可以自架的，而 GPT-4 與 o1-mini 是專有的、僅限 API 的服務。

推理成本比較

flowchart LR
    A["模型比較"] --> B["GPT-4\n高成本\n專有"]
    A --> C["o1-mini\n中等成本\n專有"]
    A --> D["ReasonFlux 32B\n低成本\n開源"]

    B --> E["~$15-30/M tokens\n僅 API"]
    C --> F["~$3-6/M tokens\n僅 API"]
    D --> G["~$0.5-1/M tokens\n自架"]

    style B fill:#1e1040,color:#ceb9ff
    style C fill:#3d0c0c,color:#ff8f8f
    style D fill:#0c3a3d,color:#8ff5ff

除了原始準確度之外，成本優勢非常顯著。自架 32B ReasonFlux 模型的每 token 價格約為 GPT-4 的 1/30，且具有可比或更優越的推理品質。

模板增強推理的實際意義是什麼？

ReasonFlux 的方法具有超越基準測試效能的意義。

普及高級推理: 透過使較小的開放權重模型能夠與專有巨頭競爭，ReasonFlux 使那些無法大規模使用基於 API 模型的團隊與組織能夠獲得先進的 AI 推理能力。

領域特定自定義: 模板庫可以透過領域特定的推理模式進行擴展。法律推理模型可以添加法定解釋與判例分析的模板。醫療模型可以添加診斷推理模式。

可解釋的推理鏈: 因為模板編碼了明確的策略，模型的推理過程比黑箱方法更易於解釋。使用者可以看到選擇了哪個模板以及如何應用它，使得審計與除錯推理失敗更加容易。

FAQ

什麼是 ReasonFlux？ ReasonFlux 是由 Gen-Verse 開發的階層式 LLM 推理框架，使用 500 個精選思維模板來引導模型推理。它已被 NeurIPS 2025 接受，並證明了使用模板增強推理的 32B 參數模型可以在複雜推理基準測試中超越 GPT-4 與 o1-mini 等更大的模型。

ReasonFlux 中的思維模板庫是什麼？ 思維模板庫是一個精選的 500 個專家設計推理模式集合，涵蓋數學、程式碼生成、邏輯、科學與常識推理。每個模板編碼了一個可重複使用的思維策略，可以針對新問題進行檢索與改編。

ReasonFlux 的效能與 o1-mini 相比如何？ ReasonFlux 使用 32B 基礎模型在 MATH-500（96.0%）、AIME 2024（82.3%）等關鍵基準上超越了 GPT-4 與 o1-mini，以較小模型實現了更優越的推理。

ReasonFlux 支援哪些模型規模？ ReasonFlux 已在 7B 到 72B 參數的模型上經過驗證。32B 變體提供了最佳的效能與效率平衡。該框架相容於任何開放權重的 LLM。

ReasonFlux 的關鍵創新是什麼？ ReasonFlux 引入了三項關鍵創新：階層式強化學習訓練方法、500 個模板的思維模板庫，以及模板檢索機制。

ReasonFlux：透過思維模板擴展實現階層式 LLM 推理

ReasonFlux 的階層式強化學習訓練如何運作？

500 模板思維庫包含什麼？

ReasonFlux 與更大模型的表現相比如何？

推理成本比較

模板增強推理的實際意義是什麼？

FAQ

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

ReasonFlux：透過思維模板擴展實現階層式 LLM 推理

ReasonFlux 的階層式強化學習訓練如何運作？

500 模板思維庫包含什麼？

ReasonFlux 與更大模型的表現相比如何？

推理成本比較

模板增強推理的實際意義是什麼？

FAQ

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險