自大型语言模型出现以来,构建能够推理——而不仅仅是模式匹配——的机器一直定义着人工智能的前沿。虽然像 OpenAI 的 o1 系列这样的专有系统已经展示了令人印象深刻的推理链,但开源社区一直期待着一个可比的替代方案。现在登场的是 Marco-o1:来自阿里巴巴 AIDC-AI MarcoPolo 团队的开源大型推理模型,为封闭式和开放式问题提供结构化的多步骤推理。
Marco-o1 建立在 Qwen2-7B-Instruct 基础之上,代表了一种有别于仅为标准化基准优化的模型的刻意转变。AIDC-AI 团队设计它是为了处理现实世界部署中典型的混乱、模糊的问题——从物流优化到创意规划——同时保持模型完全开源并对全球研究社区开放。
该项目已通过三个主要版本快速发展,每个版本都引入了突破性的架构创新,推动了开源推理模型的能力边界。随着 v2 论文被 ACL 2025 接收以及相关的高效推理论文被 ICLR 2026 接收,Marco-o1 已将自己确立为一个严肃的学术贡献,而不仅仅是现有方法的复制。
什么是 Marco-o1?为什么要创建它?
Marco-o1 是一个开放的大型推理模型,旨在弥合闭源推理系统与开源生态系统之间的差距。与旨在获得广泛通用知识的基础模型不同,Marco-o1 专门针对多步骤逻辑演绎、规划和问题解决而设计,适用于单次前向传递不足的场景。
阿里巴巴 AIDC-AI 的 MarcoPolo 团队观察到,当时大多数开源模型在回忆和生成方面表现出色,但在结构化推理方面表现不足。他们着手构建一个能够"三思而后言"的模型——在得出答案之前产生内部推理轨迹——同时保持其决策过程的透明度。
| 方面 | Marco-o1 | 典型开源 LLM |
|---|---|---|
| 推理方法 | 多步骤 CoT + MCTS | 单次生成 |
| 问题范围 | 开放式 + 标准 | 主要为标准格式 |
| 推理策略 | 反思 + 回溯 | 仅前馈 |
| 训练方法 | CoT 微调 + EDPO | 标准 SFT + RLHF |
| 学术认可 | ACL 2025, ICLR 2026 | 差异很大 |
哪些技术驱动了 Marco-o1 的推理能力?
Marco-o1 能力的核心在于 Chain-of-Thought (CoT) 微调与蒙特卡洛树搜索 (MCTS) 的结合,形成了一个双层推理架构。
CoT 微调训练模型将复杂的查询分解为中间推理步骤,就像在数学考试中展示你的解题过程一样。MCTS 传统上用于像 AlphaGo 这样的游戏 AI,系统地探索多个推理路径,评估它们的前景,并在必要时回溯。这些技术结合在一起,使 Marco-o1 能够像人类专家一样审慎地导航复杂的问题空间。
graph TD
A[用户查询] --> B[CoT 分解]
B --> C{MCTS 探索}
C --> D[路径 1:标准推理]
C --> E[路径 2:替代方法]
C --> F[路径 3:反思推理]
D --> G[评估置信度]
E --> G
F --> G
G --> H{达到置信度阈值?}
H -->|是| I[最终答案]
H -->|否| B该模型还采用了 EDPO(难度估计策略优化),这是一种根据每个推理步骤的估计难度来调整强化信号的训练策略。这在困难问题上产生了更稳健的行为,同时避免了在简单问题上的过拟合。
不同版本之间如何比较?
Marco-o1 已通过三个主要版本演进,每个版本都建立在先前版本的经验教训之上,同时引入新的架构创新。
| 版本 | 发布日期 | 关键创新 | 性能影响 |
|---|---|---|---|
| v1 | 2024 年 11 月 | 初始 CoT + MCTS 框架 | 基准推理能力 |
| v2 | 2025 年 2 月 | DPO 优化、指令遵循 | 被 ACL 2025 接收 |
| v3 | 2025 年 2 月 | MAM(混合注意力模块)+ TTT | 推理成本降低 20%,平均改善 4.7% |
Marco-o1 v2 代表了该方法的成熟,DPO 使模型的输出更接近人类偏好的推理模式。然而,v3 是架构上的突破:混合注意力模块允许模型在输入的不同部分之间动态分配计算资源,而测试时训练 (TTT) 则使模型能够在推理期间完善自身的权重——这是一种从元学习中借鉴的技术,显著改善了泛化能力。
如何使用 Marco-o1?
Marco-o1 的设计注重可及性。模型权重在 Hugging Face 和 ModelScope 上均可获取,推理代码在 GitHub 上完全开源。
git clone https://github.com/AIDC-AI/Marco-o1
cd Marco-o1
pip install -r requirements.txt
加载模型只需要标准的 Transformers:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
该模型在与 7B 参数 LLM 兼容的硬件上运行——单个 A100 或同等 GPU 就足以进行推理,使其对没有大量计算预算的研究实验室和初创公司来说易于使用。
Marco-o1 的下一步是什么?
MarcoPolo 团队已宣布即将推出 Marco-o1 Agentic 版本,这将把模型的推理能力扩展到自主智能体工作流中。这代表了一个自然的演进:一个能够在内部推理问题的模型,很适合在外部环境中执行多步骤操作,从 API 调用到浏览器自动化。
Marco-o1 的发展轨迹反映了更广泛的行业趋势:推理不再是大型专有模型的专属领域。像 Marco-o1 这样的开源替代方案正在让 AI 中的结构化思维变得普及,而从 v1 到 v3 仅在三个月内的改进速度表明,这个差距将持续缩小。
常见问题
什么是 Marco-o1? Marco-o1 是由阿里巴巴 AIDC-AI(MarcoPolo 团队)基于 Qwen2-7B-Instruct 开发的开源大型推理模型。它专为实际问题解决而设计,涵盖标准答案领域(数学、物理、编程)和开放式场景,使用 Chain-of-Thought 微调和蒙特卡洛树搜索等先进推理技术。
Marco-o1 使用了哪些技术(CoT + MCTS)? Marco-o1 结合了 Chain-of-Thought (CoT) 微调和蒙特卡洛树搜索 (MCTS) 以增强推理深度。它还使用反思机制、新颖的微步粒度推理行动策略以及 EDPO(难度估计策略优化)来实现渐进式自我改善。
Marco-o1 有哪些不同版本? Marco-o1 v1(2024 年 11 月)是初始的开放推理模型。Marco-o1 v2(2025 年 2 月)增加了用于数学和规划的 DPO 优化,并被 ACL 2025 接收。Marco-o1 v3(2025 年 2 月)引入了 MAM(混合注意力模块)和 TTT(测试时训练),推理成本降低 20%,平均性能提升 4.7%。Marco-o1 Agentic 模型正在规划中。
Marco-o1 与其他推理模型相比表现如何? Marco-o1 在推理基准测试中展现了强劲的表现,v3 在质量提升的同时实现了显著的推理成本降低。v2 论文被 ACL 2025 接收,后续关于高效 LLM 推理的论文被 ICLR 2026 接收,突显了研究团队的学术贡献。
如何使用 Marco-o1? Marco-o1 可在 GitHub 和 Hugging Face 上获取。您可以克隆仓库、使用 pip 安装依赖项,然后使用 Hugging Face Transformers 库加载模型。它在适合 7B 参数模型的标准硬件上运行,并与常见的 ML 框架集成。
延伸阅读
- Marco-o1 GitHub 仓库 – 官方源码、权重和文档
- Hugging Face 上的 Marco-o1 – 模型权重和推理示例
- Marco-o1:迈向开放式解决方案的开放推理模型 (arXiv) – 原始研究论文
- Marco-o1 v2:拓宽推理模型的蒸馏瓶颈 – ACL 2025 论文