AI

Marco-o1:阿里巴巴用於實際解決方案的開源大型推理模型

Marco-o1 是阿里巴巴 AIDC-AI 的開源大型推理模型,基於 Qwen2-7B,採用 CoT 微調和 MCTS 進行實際問題解決。

Marco-o1:阿里巴巴用於實際解決方案的開源大型推理模型

自大型語言模型出現以來,建立能夠推理——而不僅僅是模式匹配——的機器一直定義著人工智慧的前沿。雖然像 OpenAI 的 o1 系列這樣的專有系統已經展示了令人印象深刻的推理鏈,但開源社群一直期待著一個可比的替代方案。現在登場的是 Marco-o1:來自阿里巴巴 AIDC-AI MarcoPolo 團隊的開源大型推理模型,為封閉式和開放式問題提供結構化的多步驟推理。

Marco-o1 建立在 Qwen2-7B-Instruct 基礎之上,代表了一種有別於僅為標準化基準最佳化的模型的刻意轉變。AIDC-AI 團隊設計它是為了處理現實世界部署中典型的混亂、模糊的問題——從物流最佳化到創意規劃——同時保持模型完全開源並對全球研究社群開放。

該專案已透過三個主要版本快速發展,每個版本都引入了突破性的架構創新,推動了開源推理模型的能力邊界。隨著 v2 論文被 ACL 2025 接受以及相關的高效推理論文被 ICLR 2026 接受,Marco-o1 已將自己確立為一個嚴肅的學術貢獻,而不僅僅是現有方法的複製。


什麼是 Marco-o1?為什麼要建立它?

Marco-o1 是一個開放的大型推理模型,旨在彌合封閉源推理系統與開源生態系統之間的差距。與旨在獲得廣泛通用知識的基礎模型不同,Marco-o1 專門針對多步驟邏輯演繹、規劃和問題解決而設計,適用於單次前向傳遞不足的情境。

阿里巴巴 AIDC-AI 的 MarcoPolo 團隊觀察到,當時大多數開源模型在回憶和生成方面表現出色,但在結構化推理方面表現不足。他們著手建立一個能夠「三思而後言」的模型——在得出答案之前產生內部推理軌跡——同時保持其決策過程的透明度。

面向Marco-o1典型開源 LLM
推理方法多步驟 CoT + MCTS單次生成
問題範圍開放式 + 標準主要為標準格式
推理策略反思 + 回溯僅前饋
訓練方法CoT 微調 + EDPO標準 SFT + RLHF
學術接受ACL 2025, ICLR 2026差異很大

哪些技術驅動了 Marco-o1 的推理能力?

Marco-o1 能力的核心在於Chain-of-Thought (CoT) 微調與蒙地卡羅樹搜尋 (MCTS) 的結合,形成了一個雙層推理架構。

CoT 微調訓練模型將複雜的查詢分解為中間推理步驟,就像在數學考試中展示你的解題過程一樣。MCTS 傳統上用於像 AlphaGo 這樣的遊戲 AI,系統性地探索多個推理路徑,評估它們的前景,並在必要時回溯。這些技術結合在一起,使 Marco-o1 能夠像人類專家一樣審慎地導航複雜的問題空間。

該模型還採用了 EDPO(難度估計策略最佳化),這是一種根據每個推理步驟的估計難度來調整強化訊號的訓練策略。這在困難問題上產生了更穩健的行為,同時避免了在簡單問題上的過度擬合。


不同版本之間如何比較?

Marco-o1 已透過三個主要版本演進,每個版本都建立在先前版本的經驗教訓之上,同時引入新的架構創新。

版本發佈日期關鍵創新效能影響
v12024 年 11 月初始 CoT + MCTS 框架基準推理能力
v22025 年 2 月DPO 最佳化、指令遵循被 ACL 2025 接受
v32025 年 2 月MAM(混合注意力模組)+ TTT推理成本降低 20%,平均改善 4.7%

Marco-o1 v2 代表了該方法的成熟,DPO 使模型的輸出更接近人類偏好的推理模式。然而,v3 是架構上的突破:混合注意力模組允許模型在輸入的不同部分之間動態分配運算資源,而測試時訓練 (TTT) 則使模型能夠在推理期間完善自身的權重——這是一種從元學習中借鑑的技術,顯著改善了泛化能力。


如何使用 Marco-o1?

Marco-o1 的設計注重可及性。模型權重在 Hugging Face 和 ModelScope 上均可取得,推理程式碼在 GitHub 上完全開源。

git clone https://github.com/AIDC-AI/Marco-o1
cd Marco-o1
pip install -r requirements.txt

載入模型只需要標準的 Transformers:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

該模型在與 7B 參數 LLM 相容的硬體上執行——單個 A100 或同等 GPU 就足以進行推理,使其對沒有大量運算預算的研究實驗室和新創公司來說易於使用。


Marco-o1 的下一步是什麼?

MarcoPolo 團隊已宣佈即將推出 Marco-o1 Agentic 版本,這將把模型的推理能力擴展到自主代理工作流程中。這代表了一個自然的演進:一個能夠在內部推理問題的模型,很適合在外部環境中執行多步驟操作,從 API 調用到瀏覽器自動化。

Marco-o1 的發展軌跡反映了更廣泛的行業趨勢:推理不再是大型專有模型的專屬領域。像 Marco-o1 這樣的開源替代方案正在讓 AI 中的結構化思維變得普及,而從 v1 到 v3 僅在三個月內的改進速度表明,這個差距將持續縮小。


常見問題

什麼是 Marco-o1? Marco-o1 是由阿里巴巴 AIDC-AI(MarcoPolo 團隊)基於 Qwen2-7B-Instruct 開發的開源大型推理模型。它專為實際問題解決而設計,涵蓋標準答案領域(數學、物理、程式設計)和開放式情境,使用 Chain-of-Thought 微調和蒙地卡羅樹搜尋等先進推理技術。

Marco-o1 使用了哪些技術(CoT + MCTS)? Marco-o1 結合了 Chain-of-Thought (CoT) 微調和蒙地卡羅樹搜尋 (MCTS) 以增強推理深度。它還使用反思機制、新穎的微步粒度推理行動策略以及 EDPO(難度估計策略最佳化)來實現漸進式自我改善。

Marco-o1 有哪些不同版本? Marco-o1 v1(2024 年 11 月)是初始的開放推理模型。Marco-o1 v2(2025 年 2 月)增加了用於數學和規劃的 DPO 最佳化,並被 ACL 2025 接受。Marco-o1 v3(2025 年 2 月)引入了 MAM(混合注意力模組)和 TTT(測試時訓練),推理成本降低 20%,平均效能提升 4.7%。Marco-o1 Agentic 模型正在規劃中。

Marco-o1 與其他推理模型相比表現如何? Marco-o1 在推理基準測試中展現了強勁的表現,v3 在品質提升的同時實現了顯著的推理成本降低。v2 論文被 ACL 2025 接受,後續關於高效 LLM 推理的論文被 ICLR 2026 接受,突顯了研究團隊的學術貢獻。

如何使用 Marco-o1? Marco-o1 可在 GitHub 和 Hugging Face 上取得。您可以克隆儲存庫、使用 pip 安裝依賴項,然後使用 Hugging Face Transformers 函式庫載入模型。它在適合 7B 參數模型的標準硬體上執行,並與常見的 ML 框架整合。


延伸閱讀

TAG