Marco-o1：阿里巴巴用於實際解決方案的開源大型推理模型

Q: "什麼是 Marco-o1？"

"Marco-o1 是由阿里巴巴 AIDC-AI（MarcoPolo 團隊）基於 Qwen2-7B-Instruct 開發的開源大型推理模型。它專為實際問題解決而設計，涵蓋標準答案領域（數學、物理、程式設計）和開放式情境，使用 Chain-of-Thought 微調和蒙地卡羅樹搜尋等先進推理技術。"

Q: "Marco-o1 使用了哪些技術（CoT + MCTS）？"

"Marco-o1 結合了 Chain-of-Thought (CoT) 微調和蒙地卡羅樹搜尋 (MCTS) 以增強推理深度。它還使用反思機制、新穎的微步粒度推理行動策略以及 EDPO（難度估計策略最佳化）來實現漸進式自我改善。"

Q: "Marco-o1 有哪些不同版本？"

"Marco-o1 v1（2024 年 11 月）是初始的開放推理模型。Marco-o1 v2（2025 年 2 月）增加了用於數學和規劃的 DPO 最佳化，並被 ACL 2025 接受。Marco-o1 v3（2025 年 2 月）引入了 MAM（混合注意力模組）和 TTT（測試時訓練），推理成本降低 20%，平均效能提升 4.7%。Marco-o1 Agentic 模型正在規劃中。"

Q: "Marco-o1 與其他推理模型相比表現如何？"

"Marco-o1 在推理基準測試中展現了強勁的表現，v3 在品質提升的同時實現了顯著的推理成本降低。v2 論文被 ACL 2025 接受，後續關於高效 LLM 推理的論文被 ICLR 2026 接受，突顯了研究團隊的學術貢獻。"

Q: "如何使用 Marco-o1？"

"Marco-o1 可在 GitHub 和 Hugging Face 上取得。您可以克隆儲存庫、使用 pip 安裝依賴項，然後使用 Hugging Face Transformers 函式庫載入模型。它在適合 7B 參數模型的標準硬體上執行，並與常見的 ML 框架整合。"

Marco-o1 是阿里巴巴 AIDC-AI 的開源大型推理模型，基於 Qwen2-7B，採用 CoT 微調和 MCTS 進行實際問題解決。

技術編輯團隊 May 02, 2026 閱讀 12 分鐘

自大型語言模型出現以來，建立能夠推理——而不僅僅是模式匹配——的機器一直定義著人工智慧的前沿。雖然像 OpenAI 的 o1 系列這樣的專有系統已經展示了令人印象深刻的推理鏈，但開源社群一直期待著一個可比的替代方案。現在登場的是 Marco-o1：來自阿里巴巴 AIDC-AI MarcoPolo 團隊的開源大型推理模型，為封閉式和開放式問題提供結構化的多步驟推理。

Marco-o1 建立在 Qwen2-7B-Instruct 基礎之上，代表了一種有別於僅為標準化基準最佳化的模型的刻意轉變。AIDC-AI 團隊設計它是為了處理現實世界部署中典型的混亂、模糊的問題——從物流最佳化到創意規劃——同時保持模型完全開源並對全球研究社群開放。

該專案已透過三個主要版本快速發展，每個版本都引入了突破性的架構創新，推動了開源推理模型的能力邊界。隨著 v2 論文被 ACL 2025 接受以及相關的高效推理論文被 ICLR 2026 接受，Marco-o1 已將自己確立為一個嚴肅的學術貢獻，而不僅僅是現有方法的複製。

什麼是 Marco-o1？為什麼要建立它？

Marco-o1 是一個開放的大型推理模型，旨在彌合封閉源推理系統與開源生態系統之間的差距。與旨在獲得廣泛通用知識的基礎模型不同，Marco-o1 專門針對多步驟邏輯演繹、規劃和問題解決而設計，適用於單次前向傳遞不足的情境。

阿里巴巴 AIDC-AI 的 MarcoPolo 團隊觀察到，當時大多數開源模型在回憶和生成方面表現出色，但在結構化推理方面表現不足。他們著手建立一個能夠「三思而後言」的模型——在得出答案之前產生內部推理軌跡——同時保持其決策過程的透明度。

面向	Marco-o1	典型開源 LLM
推理方法	多步驟 CoT + MCTS	單次生成
問題範圍	開放式 + 標準	主要為標準格式
推理策略	反思 + 回溯	僅前饋
訓練方法	CoT 微調 + EDPO	標準 SFT + RLHF
學術接受	ACL 2025, ICLR 2026	差異很大

哪些技術驅動了 Marco-o1 的推理能力？

Marco-o1 能力的核心在於Chain-of-Thought (CoT) 微調與蒙地卡羅樹搜尋 (MCTS) 的結合，形成了一個雙層推理架構。

CoT 微調訓練模型將複雜的查詢分解為中間推理步驟，就像在數學考試中展示你的解題過程一樣。MCTS 傳統上用於像 AlphaGo 這樣的遊戲 AI，系統性地探索多個推理路徑，評估它們的前景，並在必要時回溯。這些技術結合在一起，使 Marco-o1 能夠像人類專家一樣審慎地導航複雜的問題空間。

graph TD
    A[使用者查詢] --> B[CoT 分解]
    B --> C{MCTS 探索}
    C --> D[路徑 1：標準推理]
    C --> E[路徑 2：替代方法]
    C --> F[路徑 3：反思推理]
    D --> G[評估信心]
    E --> G
    F --> G
    G --> H{達到信心門檻？}
    H -->|是| I[最終答案]
    H -->|否| B

該模型還採用了 EDPO（難度估計策略最佳化），這是一種根據每個推理步驟的估計難度來調整強化訊號的訓練策略。這在困難問題上產生了更穩健的行為，同時避免了在簡單問題上的過度擬合。

不同版本之間如何比較？

Marco-o1 已透過三個主要版本演進，每個版本都建立在先前版本的經驗教訓之上，同時引入新的架構創新。

版本	發佈日期	關鍵創新	效能影響
v1	2024 年 11 月	初始 CoT + MCTS 框架	基準推理能力
v2	2025 年 2 月	DPO 最佳化、指令遵循	被 ACL 2025 接受
v3	2025 年 2 月	MAM（混合注意力模組）+ TTT	推理成本降低 20%，平均改善 4.7%

Marco-o1 v2 代表了該方法的成熟，DPO 使模型的輸出更接近人類偏好的推理模式。然而，v3 是架構上的突破：混合注意力模組允許模型在輸入的不同部分之間動態分配運算資源，而測試時訓練 (TTT) 則使模型能夠在推理期間完善自身的權重——這是一種從元學習中借鑑的技術，顯著改善了泛化能力。

如何使用 Marco-o1？

Marco-o1 的設計注重可及性。模型權重在 Hugging Face 和 ModelScope 上均可取得，推理程式碼在 GitHub 上完全開源。

git clone https://github.com/AIDC-AI/Marco-o1
cd Marco-o1
pip install -r requirements.txt

載入模型只需要標準的 Transformers：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

該模型在與 7B 參數 LLM 相容的硬體上執行——單個 A100 或同等 GPU 就足以進行推理，使其對沒有大量運算預算的研究實驗室和新創公司來說易於使用。

Marco-o1 的下一步是什麼？

MarcoPolo 團隊已宣佈即將推出 Marco-o1 Agentic 版本，這將把模型的推理能力擴展到自主代理工作流程中。這代表了一個自然的演進：一個能夠在內部推理問題的模型，很適合在外部環境中執行多步驟操作，從 API 調用到瀏覽器自動化。

Marco-o1 的發展軌跡反映了更廣泛的行業趨勢：推理不再是大型專有模型的專屬領域。像 Marco-o1 這樣的開源替代方案正在讓 AI 中的結構化思維變得普及，而從 v1 到 v3 僅在三個月內的改進速度表明，這個差距將持續縮小。

常見問題

什麼是 Marco-o1？ Marco-o1 是由阿里巴巴 AIDC-AI（MarcoPolo 團隊）基於 Qwen2-7B-Instruct 開發的開源大型推理模型。它專為實際問題解決而設計，涵蓋標準答案領域（數學、物理、程式設計）和開放式情境，使用 Chain-of-Thought 微調和蒙地卡羅樹搜尋等先進推理技術。

Marco-o1 使用了哪些技術（CoT + MCTS）？ Marco-o1 結合了 Chain-of-Thought (CoT) 微調和蒙地卡羅樹搜尋 (MCTS) 以增強推理深度。它還使用反思機制、新穎的微步粒度推理行動策略以及 EDPO（難度估計策略最佳化）來實現漸進式自我改善。

Marco-o1 有哪些不同版本？ Marco-o1 v1（2024 年 11 月）是初始的開放推理模型。Marco-o1 v2（2025 年 2 月）增加了用於數學和規劃的 DPO 最佳化，並被 ACL 2025 接受。Marco-o1 v3（2025 年 2 月）引入了 MAM（混合注意力模組）和 TTT（測試時訓練），推理成本降低 20%，平均效能提升 4.7%。Marco-o1 Agentic 模型正在規劃中。

Marco-o1 與其他推理模型相比表現如何？ Marco-o1 在推理基準測試中展現了強勁的表現，v3 在品質提升的同時實現了顯著的推理成本降低。v2 論文被 ACL 2025 接受，後續關於高效 LLM 推理的論文被 ICLR 2026 接受，突顯了研究團隊的學術貢獻。

如何使用 Marco-o1？ Marco-o1 可在 GitHub 和 Hugging Face 上取得。您可以克隆儲存庫、使用 pip 安裝依賴項，然後使用 Hugging Face Transformers 函式庫載入模型。它在適合 7B 參數模型的標準硬體上執行，並與常見的 ML 框架整合。

Marco-o1：阿里巴巴用於實際解決方案的開源大型推理模型

什麼是 Marco-o1？為什麼要建立它？

哪些技術驅動了 Marco-o1 的推理能力？

不同版本之間如何比較？

如何使用 Marco-o1？

Marco-o1 的下一步是什麼？

常見問題

延伸閱讀

LATEST POST

Easy Dataset：用於合成 LLM 微調資料的開源框架

CopilotKit：用於建構應用內 AI Copilot 的開源前端堆疊

ComfyUI：最強大的開源擴散模型 GUI，採用節點式工作流程

TAG

CATEGORIES