ByteDance

AI May 05, 2026

VeRL：字節跳動的 LLM 強化學習框架

2025-2026 年大型語言模型研究中最令人興奮的前沿並不是讓模型變得更大。而是透過強化學習讓它們變得更聰明。DeepSeek-R1 證明了 RL 訓練——特別是 GRPO（群組相對策略最佳化）——可以顯著提升模型的推理能力，實現與更大模型相匹敵的鏈式思考推理、自我修正和結構化問題解決。 …

AI May 04, 2026

建構生產級 LLM 應用程式遠不止單一的 API 呼叫。真實世界的應用程式將多個 LLM 呼叫鏈接在一起，結合資料處理步驟，應用條件邏輯，優雅地處理錯誤，並在整個管線中管理狀態。DeerFlow 由字節跳動開發，提供了一個全面的工作流程引擎，用於建構這類複雜的 LLM 應用程式，並配備視覺 …