自大型語言模型出現以來,建立能夠推理——而不僅僅是模式匹配——的機器一直定義著人工智慧的前沿。雖然像 OpenAI 的 o1 系列這樣的專有系統已經展示了令人印象深刻的推理鏈,但開源社群一直期待著一個可比的替代方案。現在登場的是 Marco-o1:來自阿里巴巴 AIDC-AI MarcoPolo 團隊的開源大型推理模型,為封閉式和開放式問題提供結構化的多步驟推理。
Marco-o1 建立在 Qwen2-7B-Instruct 基礎之上,代表了一種有別於僅為標準化基準最佳化的模型的刻意轉變。AIDC-AI 團隊設計它是為了處理現實世界部署中典型的混亂、模糊的問題——從物流最佳化到創意規劃——同時保持模型完全開源並對全球研究社群開放。
該專案已透過三個主要版本快速發展,每個版本都引入了突破性的架構創新,推動了開源推理模型的能力邊界。隨著 v2 論文被 ACL 2025 接受以及相關的高效推理論文被 ICLR 2026 接受,Marco-o1 已將自己確立為一個嚴肅的學術貢獻,而不僅僅是現有方法的複製。
什麼是 Marco-o1?為什麼要建立它?
Marco-o1 是一個開放的大型推理模型,旨在彌合封閉源推理系統與開源生態系統之間的差距。與旨在獲得廣泛通用知識的基礎模型不同,Marco-o1 專門針對多步驟邏輯演繹、規劃和問題解決而設計,適用於單次前向傳遞不足的情境。
阿里巴巴 AIDC-AI 的 MarcoPolo 團隊觀察到,當時大多數開源模型在回憶和生成方面表現出色,但在結構化推理方面表現不足。他們著手建立一個能夠「三思而後言」的模型——在得出答案之前產生內部推理軌跡——同時保持其決策過程的透明度。
| 面向 | Marco-o1 | 典型開源 LLM |
|---|---|---|
| 推理方法 | 多步驟 CoT + MCTS | 單次生成 |
| 問題範圍 | 開放式 + 標準 | 主要為標準格式 |
| 推理策略 | 反思 + 回溯 | 僅前饋 |
| 訓練方法 | CoT 微調 + EDPO | 標準 SFT + RLHF |
| 學術接受 | ACL 2025, ICLR 2026 | 差異很大 |
哪些技術驅動了 Marco-o1 的推理能力?
Marco-o1 能力的核心在於Chain-of-Thought (CoT) 微調與蒙地卡羅樹搜尋 (MCTS) 的結合,形成了一個雙層推理架構。
CoT 微調訓練模型將複雜的查詢分解為中間推理步驟,就像在數學考試中展示你的解題過程一樣。MCTS 傳統上用於像 AlphaGo 這樣的遊戲 AI,系統性地探索多個推理路徑,評估它們的前景,並在必要時回溯。這些技術結合在一起,使 Marco-o1 能夠像人類專家一樣審慎地導航複雜的問題空間。
graph TD
A[使用者查詢] --> B[CoT 分解]
B --> C{MCTS 探索}
C --> D[路徑 1:標準推理]
C --> E[路徑 2:替代方法]
C --> F[路徑 3:反思推理]
D --> G[評估信心]
E --> G
F --> G
G --> H{達到信心門檻?}
H -->|是| I[最終答案]
H -->|否| B該模型還採用了 EDPO(難度估計策略最佳化),這是一種根據每個推理步驟的估計難度來調整強化訊號的訓練策略。這在困難問題上產生了更穩健的行為,同時避免了在簡單問題上的過度擬合。
不同版本之間如何比較?
Marco-o1 已透過三個主要版本演進,每個版本都建立在先前版本的經驗教訓之上,同時引入新的架構創新。
| 版本 | 發佈日期 | 關鍵創新 | 效能影響 |
|---|---|---|---|
| v1 | 2024 年 11 月 | 初始 CoT + MCTS 框架 | 基準推理能力 |
| v2 | 2025 年 2 月 | DPO 最佳化、指令遵循 | 被 ACL 2025 接受 |
| v3 | 2025 年 2 月 | MAM(混合注意力模組)+ TTT | 推理成本降低 20%,平均改善 4.7% |
Marco-o1 v2 代表了該方法的成熟,DPO 使模型的輸出更接近人類偏好的推理模式。然而,v3 是架構上的突破:混合注意力模組允許模型在輸入的不同部分之間動態分配運算資源,而測試時訓練 (TTT) 則使模型能夠在推理期間完善自身的權重——這是一種從元學習中借鑑的技術,顯著改善了泛化能力。
如何使用 Marco-o1?
Marco-o1 的設計注重可及性。模型權重在 Hugging Face 和 ModelScope 上均可取得,推理程式碼在 GitHub 上完全開源。
git clone https://github.com/AIDC-AI/Marco-o1
cd Marco-o1
pip install -r requirements.txt
載入模型只需要標準的 Transformers:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
該模型在與 7B 參數 LLM 相容的硬體上執行——單個 A100 或同等 GPU 就足以進行推理,使其對沒有大量運算預算的研究實驗室和新創公司來說易於使用。
Marco-o1 的下一步是什麼?
MarcoPolo 團隊已宣佈即將推出 Marco-o1 Agentic 版本,這將把模型的推理能力擴展到自主代理工作流程中。這代表了一個自然的演進:一個能夠在內部推理問題的模型,很適合在外部環境中執行多步驟操作,從 API 調用到瀏覽器自動化。
Marco-o1 的發展軌跡反映了更廣泛的行業趨勢:推理不再是大型專有模型的專屬領域。像 Marco-o1 這樣的開源替代方案正在讓 AI 中的結構化思維變得普及,而從 v1 到 v3 僅在三個月內的改進速度表明,這個差距將持續縮小。
常見問題
什麼是 Marco-o1? Marco-o1 是由阿里巴巴 AIDC-AI(MarcoPolo 團隊)基於 Qwen2-7B-Instruct 開發的開源大型推理模型。它專為實際問題解決而設計,涵蓋標準答案領域(數學、物理、程式設計)和開放式情境,使用 Chain-of-Thought 微調和蒙地卡羅樹搜尋等先進推理技術。
Marco-o1 使用了哪些技術(CoT + MCTS)? Marco-o1 結合了 Chain-of-Thought (CoT) 微調和蒙地卡羅樹搜尋 (MCTS) 以增強推理深度。它還使用反思機制、新穎的微步粒度推理行動策略以及 EDPO(難度估計策略最佳化)來實現漸進式自我改善。
Marco-o1 有哪些不同版本? Marco-o1 v1(2024 年 11 月)是初始的開放推理模型。Marco-o1 v2(2025 年 2 月)增加了用於數學和規劃的 DPO 最佳化,並被 ACL 2025 接受。Marco-o1 v3(2025 年 2 月)引入了 MAM(混合注意力模組)和 TTT(測試時訓練),推理成本降低 20%,平均效能提升 4.7%。Marco-o1 Agentic 模型正在規劃中。
Marco-o1 與其他推理模型相比表現如何? Marco-o1 在推理基準測試中展現了強勁的表現,v3 在品質提升的同時實現了顯著的推理成本降低。v2 論文被 ACL 2025 接受,後續關於高效 LLM 推理的論文被 ICLR 2026 接受,突顯了研究團隊的學術貢獻。
如何使用 Marco-o1? Marco-o1 可在 GitHub 和 Hugging Face 上取得。您可以克隆儲存庫、使用 pip 安裝依賴項,然後使用 Hugging Face Transformers 函式庫載入模型。它在適合 7B 參數模型的標準硬體上執行,並與常見的 ML 框架整合。
延伸閱讀
- Marco-o1 GitHub 儲存庫 – 官方原始碼、權重和文件
- Hugging Face 上的 Marco-o1 – 模型權重和推理範例
- Marco-o1:邁向開放式解決方案的開放推理模型 (arXiv) – 原始研究論文
- Marco-o1 v2:拓寬推理模型的蒸餾瓶頸 – ACL 2025 論文