ReasonFlux: Razonamiento LLM Jerarquico mediante Plantillas de Pensamiento a Escala

Q: "Que es ReasonFlux?"

"ReasonFlux es un framework de razonamiento LLM jerarquico desarrollado por Gen-Verse que utiliza 500 plantillas de pensamiento seleccionadas para guiar el razonamiento del modelo. Fue aceptado en NeurIPS 2025 y demuestra que un modelo de 32B parametros que usa razonamiento aumentado con plantillas puede superar a modelos mucho mas grandes como GPT-4 y o1-mini en benchmarks de razonamiento complejo."

Q: "Que es la biblioteca de plantillas de pensamiento en ReasonFlux?"

"La biblioteca de plantillas de pensamiento es una coleccion seleccionada de 500 patrones de razonamiento diseñados por expertos que cubren matematicas, generacion de codigo, logica, ciencia y razonamiento de sentido comun. Cada plantilla codifica una estrategia de pensamiento reutilizable -- como 'prueba por contradiccion' o 'divide y venceras' -- que puede recuperarse y adaptarse para nuevos problemas en lugar de generarse desde cero."

Q: "Como se compara el rendimiento de ReasonFlux con o1-mini?"

"ReasonFlux con un modelo base de 32B supera tanto a GPT-4 como a o1-mini en varios benchmarks clave incluyendo MATH-500 (96.0%), AIME 2024 (82.3%) y tareas matematicas de nivel Olimpiada. Esto es significativo porque logra un razonamiento superior con un modelo mas pequeno, demostrando que la guia estructurada de plantillas puede mejorar dramaticamente la eficiencia del razonamiento."

Q: "Que tamanos de modelo soporta ReasonFlux?"

"ReasonFlux ha sido validado en modelos de 7B a 72B parametros. La variante de 32B ofrece el mejor equilibrio entre rendimiento y eficiencia. Los modelos mas pequenos (7B-14B) se benefician significativamente de las plantillas pero muestran cierta degradacion en los problemas mas dificiles. El framework es agnostico al modelo y compatible con cualquier LLM de peso abierto incluyendo Llama, Qwen, DeepSeek y Mistral."

Q: "Cuales son las innovaciones clave de ReasonFlux?"

"ReasonFlux introduce tres innovaciones clave: (1) un metodo de entrenamiento de aprendizaje por refuerzo jerarquico que ensena a los modelos a combinar plantillas adaptativamente, (2) una biblioteca reutilizable de 500 plantillas de pensamiento con estrategias seleccionadas, y (3) un mecanismo de recuperacion de plantillas que selecciona el patron de razonamiento correcto para cada problema. Juntas, estas innovaciones permiten que modelos mas pequenos rindan muy por encima de su categoria de peso."

ReasonFlux es un framework de razonamiento aumentado con plantillas que usa 500 plantillas de pensamiento y RL jerarquico para que modelos de 32B superen a GPT-4 y o1-mini.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 02, 2026 6 min de lectura

Los grandes modelos de lenguaje han logrado avances impresionantes en conocimiento general y generacion de lenguaje, pero el razonamiento complejo – problemas matematicos de multiples pasos, logica formal, codificacion algoritmica – sigue siendo un desafio, particularmente para modelos mas pequenos. ReasonFlux, desarrollado por Gen-Verse y aceptado en NeurIPS 2025, aborda este problema desde un angulo novedoso: en lugar de escalar el tamano del modelo, escala las estrategias de razonamiento disponibles para el modelo.

La idea central detras de ReasonFlux es elegante. La mayoria de los fallos de razonamiento en LLMs no son fallos de conocimiento – el modelo conoce los hechos relevantes – sino fallos de enfoque. El modelo elige la estrategia equivocada, o intenta resolver un problema de una sola vez cuando deberia descomponerlo en pasos. ReasonFlux aborda esto proporcionando una biblioteca seleccionada de 500 plantillas de pensamiento diseñadas por expertos, cada una codificando una estrategia de pensamiento reutilizable.

A traves del aprendizaje por refuerzo jerarquico, ReasonFlux entrena al modelo base no solo para responder preguntas, sino para reconocer tipos de problemas, recuperar plantillas apropiadas y combinarlas adaptativamente. Los resultados son sorprendentes: un modelo de 32B parametros usando ReasonFlux supera a GPT-4 y a o1-mini de OpenAI en varios benchmarks clave de razonamiento matematico.

Como funciona el entrenamiento de RL jerarquico de ReasonFlux?

El proceso de entrenamiento involucra dos niveles de aprendizaje: seleccion de plantillas (que estrategia de razonamiento usar) y ejecucion de plantillas (como aplicarla al problema especifico).

flowchart TD
    A["Problema de\nentrenamiento"] --> B["Clasificador de problemas\nDetecta tipo de problema"]
    B --> C["Recuperador de plantillas\nSelecciona plantillas\nde pensamiento relevantes"]
    C --> D["Componedor de Plantillas\nCombina plantillas\njerarquicamente"]

    D --> E["Nivel 1: Estrategia\nEnfoque general\n(ej., 'descomponer')"]
    D --> F["Nivel 2: Tacticas\nMetodos paso a paso\n(ej., 'sustituir')"]
    D --> G["Nivel 3: Validacion\nVerificar y comprobar\n(ej., 'caso de prueba')"]

    E --> H["Ejecutar razonamiento\nusando plantillas"]
    F --> H
    G --> H

    H --> I{"Respuesta\ncorrecta?"}
    I -->|No| J["Recompensa RL:\nnegativa"]
    J --> C
    I -->|Si| K["Recompensa RL:\npositiva"]
    K --> L["Actualizar politica:\nreforzar esta\nruta de plantilla"]

    style A fill:#1e1040,color:#ceb9ff
    style B fill:#0c3a3d,color:#8ff5ff
    style C fill:#1d2634,color:#a5abb8
    style D fill:#0c3a3d,color:#8ff5ff
    style E fill:#1e1040,color:#ceb9ff
    style F fill:#1e1040,color:#ceb9ff
    style G fill:#1e1040,color:#ceb9ff
    style J fill:#3d0c0c,color:#ff8f8f
    style K fill:#0c3a3d,color:#8ff5ff

El enfoque de RL jerarquico entrena al modelo para tomar decisiones en multiples niveles de abstraccion. En el Nivel 1, el modelo selecciona una estrategia general (prueba por contradiccion, divide y venceras, analisis de casos). En el Nivel 2, aplica sub-pasos tacticos apropiados para esa estrategia. En el Nivel 3, valida los resultados intermedios.

Esta jerarquia es critica porque refleja como razonan los expertos humanos: no generamos cada paso desde cero – reconocemos patrones de problemas y aplicamos plantillas de solucion conocidas.

Que contiene la biblioteca de 500 plantillas de pensamiento?

La biblioteca de plantillas de pensamiento es el nucleo intelectual de ReasonFlux. Cada plantilla es un patron de razonamiento diseñado por expertos que el modelo puede recuperar, adaptar y combinar.

Categoria	Numero de Plantillas	Plantilla Ejemplo	Tipo de Problema Ejemplo
Matematicas	180	Prueba por contradiccion, Induccion, Analisis de invariantes	Matematicas de Olimpiada, teoria de numeros
Logica	100	Cadena deductiva, Analisis de casos, Reductio ad absurdum	Logica formal, acertijos
Codificacion	80	Divide y venceras, Programacion dinamica, Prueba greedy	Diseno de algoritmos
Cientifica	70	Prueba de hipotesis, Experimento controlado, Inferencia causal	Fisica, biologia
Sentido comun	70	Razonamiento analogico, Contrafactual, Verificacion paso a paso	Razonamiento cotidiano

Cada plantilla contiene: una descripcion en lenguaje natural de la estrategia, una representacion formal adecuada para el ajuste fino del modelo, y ejemplos de aplicacion correcta en multiples dominios.

Como se desempena ReasonFlux frente a modelos mas grandes?

Los resultados de los benchmarks son la evidencia mas solida de la efectividad de ReasonFlux. Un modelo de 32B que utiliza la biblioteca de plantillas y entrenamiento con RL jerarquico supera a modelos muchas veces su tamano.

Benchmark	GPT-4	o1-mini	ReasonFlux (32B)	ReasonFlux (72B)
MATH-500	85.2%	91.8%	96.0%	97.1%
AIME 2024	63.4%	78.5%	82.3%	86.8%
GSM8K	92.0%	94.6%	96.2%	97.5%
MMLU-STEM	83.6%	87.2%	89.1%	91.3%
HumanEval	87.2%	90.4%	91.8%	93.5%

El modelo de 32B supera consistentemente a o1-mini en todos los benchmarks, y la variante de 72B se adelanta aun mas. Esto es particularmente notable porque los modelos ReasonFlux son de peso abierto y pueden auto-alojarse, mientras que GPT-4 y o1-mini son propietarios, servicios solo API.

Comparacion de Costos de Inferencia

flowchart LR
    A["Comparacion de\nModelos"] --> B["GPT-4\nCosto alto\nPropietario"]
    A --> C["o1-mini\nCosto medio\nPropietario"]
    A --> D["ReasonFlux 32B\nCosto bajo\nOpen source"]

    B --> E["~$15-30/M tokens\nSolo API"]
    C --> F["~$3-6/M tokens\nSolo API"]
    D --> G["~$0.5-1/M tokens\nAuto-alojado"]

    style B fill:#1e1040,color:#ceb9ff
    style C fill:#3d0c0c,color:#ff8f8f
    style D fill:#0c3a3d,color:#8ff5ff

Mas alla de la precision bruta, la ventaja de costo es dramatica. Auto-alojar un modelo ReasonFlux de 32B cuesta aproximadamente 1/30 del precio por token de GPT-4, con calidad de razonamiento comparable o superior.

Cuales son las implicaciones practicas del razonamiento aumentado con plantillas?

El enfoque de ReasonFlux tiene implicaciones mas alla del rendimiento en benchmarks.

Democratizar el razonamiento avanzado: Al permitir que modelos mas pequenos de peso abierto compitan con gigantes propietarios, ReasonFlux hace que el razonamiento de IA sofisticado sea accesible para equipos y organizaciones que no pueden permitirse modelos basados en API a escala.

Personalizacion por dominio: La biblioteca de plantillas puede extenderse con patrones de razonamiento especificos de dominio. Un modelo de razonamiento legal podria anadir plantillas para interpretacion estatutaria y analisis de precedentes. Un modelo medico podria anadir patrones de razonamiento diagnostico.

Cadenas de razonamiento interpretables: Debido a que las plantillas codifican estrategias explicitas, el proceso de razonamiento del modelo es mas interpretable que los enfoques de caja negra. Los usuarios pueden ver que plantilla fue seleccionada y como se aplico, facilitando la auditoria y depuracion de fallos de razonamiento.

FAQ

Que es ReasonFlux? ReasonFlux es un framework de razonamiento LLM jerarquico desarrollado por Gen-Verse que utiliza 500 plantillas de pensamiento seleccionadas para guiar el razonamiento del modelo. Fue aceptado en NeurIPS 2025 y demuestra que un modelo de 32B parametros puede superar a GPT-4 y o1-mini en benchmarks de razonamiento complejo.

Que es la biblioteca de plantillas de pensamiento en ReasonFlux? La biblioteca de plantillas de pensamiento es una coleccion seleccionada de 500 patrones de razonamiento diseñados por expertos que cubren matematicas, generacion de codigo, logica, ciencia y razonamiento de sentido comun. Cada plantilla codifica una estrategia de pensamiento reutilizable.

Como se compara el rendimiento de ReasonFlux con o1-mini? ReasonFlux con un modelo base de 32B supera a GPT-4 y o1-mini en MATH-500 (96.0%), AIME 2024 (82.3%) y otros benchmarks clave, logrando razonamiento superior con un modelo mas pequeno.

Que tamanos de modelo soporta ReasonFlux? ReasonFlux ha sido validado en modelos de 7B a 72B parametros. La variante de 32B ofrece el mejor equilibrio entre rendimiento y eficiencia. El framework es compatible con cualquier LLM de peso abierto.

Cuales son las innovaciones clave de ReasonFlux? ReasonFlux introduce tres innovaciones clave: entrenamiento de RL jerarquico, una biblioteca de 500 plantillas de pensamiento, y un mecanismo de recuperacion de plantillas.

Lecturas Adicionales

Repositorio GitHub de ReasonFlux – Codigo fuente, plantillas y modelos preentrenados
Organizacion Gen-Verse – Organizacion de investigacion detras de ReasonFlux
Conferencia NeurIPS 2025 – Donde ReasonFlux fue aceptado para presentacion
Estudio sobre Chain-of-Thought Prompting – Articulo fundacional sobre razonamiento LLM estructurado
Vision General del Aprendizaje por Refuerzo Jerarquico – Antecedentes tecnicos sobre la metodologia de entrenamiento

ReasonFlux: Razonamiento LLM Jerarquico mediante Plantillas de Pensamiento a Escala

Como funciona el entrenamiento de RL jerarquico de ReasonFlux?

Que contiene la biblioteca de 500 plantillas de pensamiento?

Como se desempena ReasonFlux frente a modelos mas grandes?

Comparacion de Costos de Inferencia

Cuales son las implicaciones practicas del razonamiento aumentado con plantillas?

FAQ

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES