Marco-o1：阿里巴巴用于实际解决方案的开源大型推理模型

Q: "什么是 Marco-o1？"

"Marco-o1 是由阿里巴巴 AIDC-AI（MarcoPolo 团队）基于 Qwen2-7B-Instruct 开发的开源大型推理模型。它专为实际问题解决而设计，涵盖标准答案领域（数学、物理、编程）和开放式场景，使用 Chain-of-Thought 微调和蒙特卡洛树搜索等先进推理技术。"

Q: "Marco-o1 使用了哪些技术（CoT + MCTS）？"

"Marco-o1 结合了 Chain-of-Thought (CoT) 微调和蒙特卡洛树搜索 (MCTS) 以增强推理深度。它还使用反思机制、新颖的微步粒度推理行动策略以及 EDPO（难度估计策略优化）来实现渐进式自我改善。"

Q: "Marco-o1 有哪些不同版本？"

"Marco-o1 v1（2024 年 11 月）是初始的开放推理模型。Marco-o1 v2（2025 年 2 月）增加了用于数学和规划的 DPO 优化，并被 ACL 2025 接收。Marco-o1 v3（2025 年 2 月）引入了 MAM（混合注意力模块）和 TTT（测试时训练），推理成本降低 20%，平均性能提升 4.7%。Marco-o1 Agentic 模型正在规划中。"

Q: "Marco-o1 与其他推理模型相比表现如何？"

"Marco-o1 在推理基准测试中展现了强劲的表现，v3 在质量提升的同时实现了显著的推理成本降低。v2 论文被 ACL 2025 接收，后续关于高效 LLM 推理的论文被 ICLR 2026 接收，突显了研究团队的学术贡献。"

Q: "如何使用 Marco-o1？"

"Marco-o1 可在 GitHub 和 Hugging Face 上获取。您可以克隆仓库、使用 pip 安装依赖项，然后使用 Hugging Face Transformers 库加载模型。它在适合 7B 参数模型的标准硬件上运行，并与常见的 ML 框架集成。"

Marco-o1 是阿里巴巴 AIDC-AI 的开源大型推理模型，基于 Qwen2-7B，采用 CoT 微调和 MCTS 进行实际问题解决。

技术编辑团队 May 02, 2026 阅读 12 分钟

自大型语言模型出现以来，构建能够推理——而不仅仅是模式匹配——的机器一直定义着人工智能的前沿。虽然像 OpenAI 的 o1 系列这样的专有系统已经展示了令人印象深刻的推理链，但开源社区一直期待着一个可比的替代方案。现在登场的是 Marco-o1：来自阿里巴巴 AIDC-AI MarcoPolo 团队的开源大型推理模型，为封闭式和开放式问题提供结构化的多步骤推理。

Marco-o1 建立在 Qwen2-7B-Instruct 基础之上，代表了一种有别于仅为标准化基准优化的模型的刻意转变。AIDC-AI 团队设计它是为了处理现实世界部署中典型的混乱、模糊的问题——从物流优化到创意规划——同时保持模型完全开源并对全球研究社区开放。

该项目已通过三个主要版本快速发展，每个版本都引入了突破性的架构创新，推动了开源推理模型的能力边界。随着 v2 论文被 ACL 2025 接收以及相关的高效推理论文被 ICLR 2026 接收，Marco-o1 已将自己确立为一个严肃的学术贡献，而不仅仅是现有方法的复制。

什么是 Marco-o1？为什么要创建它？

Marco-o1 是一个开放的大型推理模型，旨在弥合闭源推理系统与开源生态系统之间的差距。与旨在获得广泛通用知识的基础模型不同，Marco-o1 专门针对多步骤逻辑演绎、规划和问题解决而设计，适用于单次前向传递不足的场景。

阿里巴巴 AIDC-AI 的 MarcoPolo 团队观察到，当时大多数开源模型在回忆和生成方面表现出色，但在结构化推理方面表现不足。他们着手构建一个能够"三思而后言"的模型——在得出答案之前产生内部推理轨迹——同时保持其决策过程的透明度。

方面	Marco-o1	典型开源 LLM
推理方法	多步骤 CoT + MCTS	单次生成
问题范围	开放式 + 标准	主要为标准格式
推理策略	反思 + 回溯	仅前馈
训练方法	CoT 微调 + EDPO	标准 SFT + RLHF
学术认可	ACL 2025, ICLR 2026	差异很大

哪些技术驱动了 Marco-o1 的推理能力？

Marco-o1 能力的核心在于 Chain-of-Thought (CoT) 微调与蒙特卡洛树搜索 (MCTS) 的结合，形成了一个双层推理架构。

CoT 微调训练模型将复杂的查询分解为中间推理步骤，就像在数学考试中展示你的解题过程一样。MCTS 传统上用于像 AlphaGo 这样的游戏 AI，系统地探索多个推理路径，评估它们的前景，并在必要时回溯。这些技术结合在一起，使 Marco-o1 能够像人类专家一样审慎地导航复杂的问题空间。

graph TD
    A[用户查询] --> B[CoT 分解]
    B --> C{MCTS 探索}
    C --> D[路径 1：标准推理]
    C --> E[路径 2：替代方法]
    C --> F[路径 3：反思推理]
    D --> G[评估置信度]
    E --> G
    F --> G
    G --> H{达到置信度阈值？}
    H -->|是| I[最终答案]
    H -->|否| B

该模型还采用了 EDPO（难度估计策略优化），这是一种根据每个推理步骤的估计难度来调整强化信号的训练策略。这在困难问题上产生了更稳健的行为，同时避免了在简单问题上的过拟合。

不同版本之间如何比较？

Marco-o1 已通过三个主要版本演进，每个版本都建立在先前版本的经验教训之上，同时引入新的架构创新。

版本	发布日期	关键创新	性能影响
v1	2024 年 11 月	初始 CoT + MCTS 框架	基准推理能力
v2	2025 年 2 月	DPO 优化、指令遵循	被 ACL 2025 接收
v3	2025 年 2 月	MAM（混合注意力模块）+ TTT	推理成本降低 20%，平均改善 4.7%

Marco-o1 v2 代表了该方法的成熟，DPO 使模型的输出更接近人类偏好的推理模式。然而，v3 是架构上的突破：混合注意力模块允许模型在输入的不同部分之间动态分配计算资源，而测试时训练 (TTT) 则使模型能够在推理期间完善自身的权重——这是一种从元学习中借鉴的技术，显著改善了泛化能力。

如何使用 Marco-o1？

Marco-o1 的设计注重可及性。模型权重在 Hugging Face 和 ModelScope 上均可获取，推理代码在 GitHub 上完全开源。

git clone https://github.com/AIDC-AI/Marco-o1
cd Marco-o1
pip install -r requirements.txt

加载模型只需要标准的 Transformers：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

该模型在与 7B 参数 LLM 兼容的硬件上运行——单个 A100 或同等 GPU 就足以进行推理，使其对没有大量计算预算的研究实验室和初创公司来说易于使用。

Marco-o1 的下一步是什么？

MarcoPolo 团队已宣布即将推出 Marco-o1 Agentic 版本，这将把模型的推理能力扩展到自主智能体工作流中。这代表了一个自然的演进：一个能够在内部推理问题的模型，很适合在外部环境中执行多步骤操作，从 API 调用到浏览器自动化。

Marco-o1 的发展轨迹反映了更广泛的行业趋势：推理不再是大型专有模型的专属领域。像 Marco-o1 这样的开源替代方案正在让 AI 中的结构化思维变得普及，而从 v1 到 v3 仅在三个月内的改进速度表明，这个差距将持续缩小。

常见问题

什么是 Marco-o1？ Marco-o1 是由阿里巴巴 AIDC-AI（MarcoPolo 团队）基于 Qwen2-7B-Instruct 开发的开源大型推理模型。它专为实际问题解决而设计，涵盖标准答案领域（数学、物理、编程）和开放式场景，使用 Chain-of-Thought 微调和蒙特卡洛树搜索等先进推理技术。

Marco-o1 使用了哪些技术（CoT + MCTS）？ Marco-o1 结合了 Chain-of-Thought (CoT) 微调和蒙特卡洛树搜索 (MCTS) 以增强推理深度。它还使用反思机制、新颖的微步粒度推理行动策略以及 EDPO（难度估计策略优化）来实现渐进式自我改善。

Marco-o1 有哪些不同版本？ Marco-o1 v1（2024 年 11 月）是初始的开放推理模型。Marco-o1 v2（2025 年 2 月）增加了用于数学和规划的 DPO 优化，并被 ACL 2025 接收。Marco-o1 v3（2025 年 2 月）引入了 MAM（混合注意力模块）和 TTT（测试时训练），推理成本降低 20%，平均性能提升 4.7%。Marco-o1 Agentic 模型正在规划中。

Marco-o1 与其他推理模型相比表现如何？ Marco-o1 在推理基准测试中展现了强劲的表现，v3 在质量提升的同时实现了显著的推理成本降低。v2 论文被 ACL 2025 接收，后续关于高效 LLM 推理的论文被 ICLR 2026 接收，突显了研究团队的学术贡献。

如何使用 Marco-o1？ Marco-o1 可在 GitHub 和 Hugging Face 上获取。您可以克隆仓库、使用 pip 安装依赖项，然后使用 Hugging Face Transformers 库加载模型。它在适合 7B 参数模型的标准硬件上运行，并与常见的 ML 框架集成。

Marco-o1：阿里巴巴用于实际解决方案的开源大型推理模型

什么是 Marco-o1？为什么要创建它？

哪些技术驱动了 Marco-o1 的推理能力？

不同版本之间如何比较？

如何使用 Marco-o1？

Marco-o1 的下一步是什么？

常见问题

延伸阅读

LATEST POST

Easy Dataset：用于合成 LLM 微调数据的开源框架

CopilotKit：用于构建应用内 AI Copilot 的开源前端堆栈

ComfyUI：最强大的开源扩散模型 GUI，采用节点式工作流程

TAG

CATEGORIES