ByteDance

AI May 05, 2026

VeRL：字节跳动的 LLM 强化学习框架

2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO（群组相对策略优化）——可以显著提升模型的推理能力，实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字 …

AI May 04, 2026

构建生产级 LLM 应用程序远不止单一的 API 调用。现实世界的应用程序将多个 LLM 调用链接在一起，结合数据处理步骤，应用条件逻辑，优雅地处理错误，并在整个管道中管理状态。DeerFlow 由字节跳动开发，提供了一个全面的工作流引擎，用于构建这类复杂的 LLM 应用程序，并配备可视化 …