VeRL:字节跳动的 LLM 强化学习框架
2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO(群组相对策略优化)——可以显著提升模型的推理能力,实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字 …
2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO(群组相对策略优化)——可以显著提升模型的推理能力,实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字 …
LLM 驱动聊天界面的兴起造成了一个独特的用户体验问题:看着文本逐字符出现令人兴奋,但看着部分渲染的 Markdown 闪烁和跳动却令人沮丧。当 LLM 生成代码块、表格或嵌套列表时,标准的 Markdown 渲染器无法处理 Token 的增量到达。它们等待完整的输出,然后一次性渲染全部 …
传统的网页抓取依赖于脆弱的 CSS 选择器和 XPath 表达式,一旦网站更新其标记就会失效。LLM Scraper 采用了根本不同的方法:它使用大型语言模型语义理解页面内容,并以结构化 JSON 的形式精确提取你需要的数据。 由 mishushakov 构建的这个开源工具弥合了非结构化 …
现代 AI 聊天界面是工程的奇迹,但其复杂性可能掩盖了使它们运作的基本机制。nanoChat(GitHub 上的 karpathy/nanochat)是 Andrej Karpathy 刻意进行的极简主义练习——一个足够简单让开发人员可以在一次阅读中读懂并理解的 LLM 聊天界面。
提示工程已经从一门艺术发展为一门学科,但大多数从业者仍然将提示写成非结构化的自然语言,依赖直觉而非方法论。LangGPT(GitHub 上的 langgptai/LangGPT)为提示设计带来了结构、可重复性和工程严谨性,提供了一个用于创建、管理和评估 LLM 提示的全面框架。
The vision of a computer you can simply talk to has driven decades of research in natural language interfaces. Early attempts — from …