La carrera por construir maquinas que puedan razonar – no solo hacer coincidencia de patrones – ha definido la vanguardia de la inteligencia artificial desde la aparicion de los grandes modelos de lenguaje. Mientras que los sistemas propietarios como la serie o1 de OpenAI han demostrado cadenas de razonamiento impresionantes, la comunidad de codigo abierto ha esperado durante mucho tiempo una alternativa comparable. Presentamos Marco-o1: un modelo de razonamiento grande de codigo abierto del equipo MarcoPolo de AIDC-AI de Alibaba que ofrece razonamiento estructurado de multiples pasos tanto para problemas cerrados como abiertos.
Construido sobre la base de Qwen2-7B-Instruct, Marco-o1 representa una desviacion deliberada de los modelos optimizados unicamente para puntos de referencia estandarizados. El equipo de AIDC-AI lo diseno para abordar los problemas desordenados y ambiguos que caracterizan la implementacion en el mundo real – desde la optimizacion logıstica hasta la planificacion creativa – mientras mantiene el modelo completamente abierto y accesible para la comunidad de investigacion global.
El proyecto ha evolucionado rapidamente a traves de tres versiones principales, cada una introduciendo innovaciones arquitectonicas que empujan los lımites de lo que los modelos de razonamiento de codigo abierto pueden lograr. Con su artıculo de v2 aceptado en ACL 2025 y un artıculo relacionado sobre razonamiento eficiente aceptado en ICLR 2026, Marco-o1 se ha establecido como una contribucion academica seria, no meramente una replicacion de metodos existentes.
Que Es Marco-o1 y Por Que Fue Creado?
Marco-o1 es un modelo de razonamiento grande abierto disenado para cerrar la brecha entre los sistemas de razonamiento de codigo cerrado y el ecosistema de codigo abierto. A diferencia de los modelos fundacionales que apuntan a un conocimiento general amplio, Marco-o1 esta especıficamente disenado para deduccion logica de multiples pasos, planificacion y resolucion de problemas en contextos donde un solo paso hacia adelante es insuficiente.
El equipo MarcoPolo de Alibaba AIDC-AI observo que la mayoria de los modelos de codigo abierto en ese momento sobresalıan en recuperacion y generacion, pero se quedaban cortos en razonamiento estructurado. Se propusieron construir un modelo que pudiera “pensar antes de hablar” – generando trazas de razonamiento internas antes de llegar a respuestas – mientras permaneciera transparente sobre su proceso de toma de decisiones.
| Aspecto | Marco-o1 | LLM Tıpico de Codigo Abierto |
|---|---|---|
| Enfoque de razonamiento | CoT multi-paso + MCTS | Generacion de un solo paso |
| Alcance del problema | Abierto + estandar | Principalmente formatos estandar |
| Estrategia de inferencia | Reflexion + retroceso | Solo avance |
| Metodo de entrenamiento | Ajuste fino CoT + EDPO | SFT estandar + RLHF |
| Aceptacion academica | ACL 2025, ICLR 2026 | Varıa ampliamente |
Que Tecnicas Impulsan el Razonamiento de Marco-o1?
El nucleo de la capacidad de Marco-o1 radica en la combinacion de ajuste fino de Chain-of-Thought (CoT) con busqueda de arboles de Monte Carlo (MCTS), creando una arquitectura de razonamiento de doble capa.
El ajuste fino CoT entrena al modelo para descomponer consultas complejas en pasos de razonamiento intermedios, como mostrar tu trabajo en un examen de matematicas. MCTS, tradicionalmente utilizado en IA de juegos como AlphaGo, explora sistematicamente multiples caminos de razonamiento, evalua su promesa y retrocede cuando es necesario. Juntas, estas tecnicas permiten a Marco-o1 navegar espacios de problemas complejos con la deliberacion de un experto humano.
graph TD
A[Consulta del Usuario] --> B[Descomposicion CoT]
B --> C{Exploracion MCTS}
C --> D[Ruta 1: Razonamiento estandar]
C --> E[Ruta 2: Enfoque alternativo]
C --> F[Ruta 3: Razonamiento reflexivo]
D --> G[Evaluar confianza]
E --> G
F --> G
G --> H{Umbral de confianza alcanzado?}
H -->|Sı| I[Respuesta final]
H -->|No| BEl modelo tambien emplea EDPO (Optimizacion de Polıtica Estimada por Dificultad), una estrategia de entrenamiento que ajusta las senales de refuerzo segun la dificultad estimada de cada paso de razonamiento. Esto produce un comportamiento mas robusto en problemas dificiles mientras evita el sobreajuste en problemas faciles.
Como se Comparan las Diferentes Versiones?
Marco-o1 ha evolucionado a traves de tres versiones principales, cada una construyendo sobre las lecciones de su predecesora mientras introduce nuevas innovaciones arquitectonicas.
| Version | Fecha de Lanzamiento | Innovacion Clave | Impacto en Rendimiento |
|---|---|---|---|
| v1 | Noviembre 2024 | Framework inicial CoT + MCTS | Capacidad de razonamiento base |
| v2 | Febrero 2025 | Optimizacion DPO, seguimiento de instrucciones | Aceptado en ACL 2025 |
| v3 | Febrero 2025 | MAM (Modulo de Atencion Mixta) + TTT | 20% menor costo de inferencia, 4.7% de mejora promedio |
Marco-o1 v2 represento una maduracion del enfoque, con DPO acercando las salidas del modelo a los patrones de razonamiento preferidos por humanos. V3, sin embargo, fue el avance arquitectonico: el Modulo de Atencion Mixta permite al modelo asignar dinamicamente recursos computacionales a traves de diferentes partes de la entrada, mientras que el Entrenamiento en Tiempo de Prueba (TTT) permite al modelo refinar sus propios pesos durante la inferencia – una tecnica tomada del meta-aprendizaje que mejora significativamente la generalizacion.
Como Puedes Usar Marco-o1?
Marco-o1 esta disenado para accesibilidad. Los pesos del modelo estan disponibles tanto en Hugging Face como en ModelScope, y el codigo de inferencia es completamente de codigo abierto en GitHub.
git clone https://github.com/AIDC-AI/Marco-o1
cd Marco-o1
pip install -r requirements.txt
Cargar el modelo no requiere mas que Transformers estandar:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
El modelo se ejecuta en hardware compatible con LLMs de 7B parametros – una sola A100 o GPU comparable es suficiente para inferencia, lo que lo hace accesible para laboratorios de investigacion y startups sin presupuestos de computacion masivos.
Que Sigue para Marco-o1?
El equipo MarcoPolo ha anunciado un proximo lanzamiento de Marco-o1 Agentic, que extendera las capacidades de razonamiento del modelo a flujos de trabajo autonomos de agentes. Esto representa una evolucion natural: un modelo que puede razonar sobre problemas internamente esta bien posicionado para ejecutar acciones de multiples pasos en entornos externos, desde llamadas API hasta automatizacion de navegadores.
La trayectoria de Marco-o1 refleja una tendencia mas amplia de la industria: el razonamiento ya no es dominio exclusivo de modelos propietarios masivos. Alternativas de codigo abierto como Marco-o1 estan democratizando el acceso al pensamiento estructurado en IA, y el ritmo de mejora – de v1 a v3 en solo tres meses – sugiere que esta brecha continuara estrechandose.
Preguntas Frecuentes
Que es Marco-o1? Marco-o1 es un modelo de razonamiento grande de codigo abierto desarrollado por AIDC-AI de Alibaba (Equipo MarcoPolo) basado en Qwen2-7B-Instruct. Esta disenado para la resolucion de problemas del mundo real tanto en dominios de respuesta estandar (matematicas, fısica, programacion) como en escenarios abiertos, utilizando tecnicas avanzadas de razonamiento como ajuste fino de Chain-of-Thought y busqueda de arboles de Monte Carlo.
Que tecnicas utiliza Marco-o1 (CoT + MCTS)? Marco-o1 combina ajuste fino de Chain-of-Thought (CoT) con busqueda de arboles de Monte Carlo (MCTS) para mejorar la profundidad del razonamiento. Tambien utiliza mecanismos de reflexion, estrategias novedosas de accion de razonamiento de granularidad de micropasos y EDPO (Optimizacion de Polıtica Estimada por Dificultad) para la automejora progresiva.
Cuales son las diferentes versiones de Marco-o1? Marco-o1 v1 (noviembre 2024) fue el modelo de razonamiento abierto inicial. Marco-o1 v2 (febrero 2025) agrego optimizacion DPO para matematicas y planificacion, y fue aceptado en ACL 2025. Marco-o1 v3 (febrero 2025) introdujo MAM (Modulo de Atencion Mixta) y TTT (Entrenamiento en Tiempo de Prueba), logrando una reduccion del 20% en costos de inferencia y una mejora promedio del 4.7%. Se planea un modelo Marco-o1 Agentic.
Como se compara Marco-o1 con otros modelos de razonamiento? Marco-o1 demuestra un rendimiento solido en puntos de referencia de razonamiento, con v3 logrando reducciones notables en costos de inferencia junto con mejoras de calidad. El artıculo de v2 fue aceptado en ACL 2025, y un artıculo de seguimiento sobre razonamiento LLM eficiente fue aceptado en ICLR 2026, subrayando las contribuciones academicas del equipo de investigacion.
Como puedo usar Marco-o1? Marco-o1 esta disponible en GitHub y Hugging Face. Puede clonar el repositorio, instalar dependencias con pip y cargar el modelo usando la librerıa Hugging Face Transformers. Se ejecuta en hardware estandar adecuado para modelos de 7B parametros y se integra con frameworks de ML comunes.
Lecturas Adicionales
- Repositorio GitHub de Marco-o1 – Codigo fuente oficial, pesos y documentacion
- Marco-o1 en Hugging Face – Pesos del modelo y ejemplos de inferencia
- Marco-o1: Hacia Modelos de Razonamiento Abiertos para Soluciones Abiertas (arXiv) – Artıculo de investigacion original
- Marco-o1 v2: Ampliando el Cuello de Botella de Destilacion para Modelos de Razonamiento – Artıculo de ACL 2025