X-R1:開源推理模型探索
語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現,是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明,使用 RL 訓練的模型可以學會逐步思考,產生思維鏈推理,從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一 …
語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現,是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明,使用 RL 訓練的模型可以學會逐步思考,產生思維鏈推理,從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一 …