AutoDidact:LLM 自我改进的自学框架
改进 AI 模型最昂贵的部分一直是数据:收集、清理和标注数百万个示例需要巨大的人力。AutoDidact 探索了一个诱人的替代方案:如果语言模型能够自学呢?由研究员 dCaples 创建,这个开源框架实现了迭代自我改进循环,其中 LLM 生成自己的训练数据、评估自己的输出并微调自己——完全 …
改进 AI 模型最昂贵的部分一直是数据:收集、清理和标注数百万个示例需要巨大的人力。AutoDidact 探索了一个诱人的替代方案:如果语言模型能够自学呢?由研究员 dCaples 创建,这个开源框架实现了迭代自我改进循环,其中 LLM 生成自己的训练数据、评估自己的输出并微调自己——完全 …
视频生成和编辑传统上由不同的模型处理——一个模型用于文本转视频,另一个用于视频风格化,再一个用于修补。这种碎片化使得构建全面的视频制作管线变得困难,迫使从业者学习多个模型接口。VACE(Video All-to-All Creation and Editing)通过将所有视频创作和编辑任务 …
从网页中提取干净、结构化的文本是 LLM 训练数据集、研究语料库和内容分析管线的基础任务。Trafilatura 已成为此任务的黄金标准——这是一个 Python 库,在开源文本提取工具中持续取得最高的 F-Score,同时保持轻量、快速且易于集成。
AI 编码辅助领域迅速扩张,从完全集成的 IDE 插件到独立的 CLI 工具,选择多样。OpenCode 由 Anomaly 开发,占据了一个引人注目的中间地带:一个开源、终端原生的 AI 编码代理,能理解您的整个代码库、自动化复杂的开发任务,并与 Git 工作流程深度集成。
现代 GenAI 应用程序会消费多种形式的数据——PDF、电子表格、图片、录音和视频文件。建立一个能摄取所有这些格式并产生干净、一致的结构化输出的 RAG 管线,是一项重大的工程挑战。OmniParse 通过提供一个通用数据摄取平台来解决这个问题,该平台可将任何非结构化数据转换为结构化 …
大规模将 PDF 转换为干净、机器可读的文本是 LLM 数据集准备中的基本挑战之一。传统 PDF 解析器难以处理复杂布局、表格和混合内容,而商业 OCR 服务在大规模使用时成本昂贵。olmOCR 由 Allen AI(AI2)开发,使用 7B 参数的视觉语言模型解决了这个问题,能以卓越的准 …