开源

AI May 04, 2026

AutoDidact：LLM 自我改进的自学框架

改进 AI 模型最昂贵的部分一直是数据：收集、清理和标注数百万个示例需要巨大的人力。AutoDidact 探索了一个诱人的替代方案：如果语言模型能够自学呢？由研究员 dCaples 创建，这个开源框架实现了迭代自我改进循环，其中 LLM 生成自己的训练数据、评估自己的输出并微调自己——完全 …

AI May 04, 2026

视频生成和编辑传统上由不同的模型处理——一个模型用于文本转视频，另一个用于视频风格化，再一个用于修补。这种碎片化使得构建全面的视频制作管线变得困难，迫使从业者学习多个模型接口。VACE（Video All-to-All Creation and Editing）通过将所有视频创作和编辑任务 …

开源 May 04, 2026

从网页中提取干净、结构化的文本是 LLM 训练数据集、研究语料库和内容分析管线的基础任务。Trafilatura 已成为此任务的黄金标准——这是一个 Python 库，在开源文本提取工具中持续取得最高的 F-Score，同时保持轻量、快速且易于集成。

AI May 04, 2026

AI 编码辅助领域迅速扩张，从完全集成的 IDE 插件到独立的 CLI 工具，选择多样。OpenCode 由 Anomaly 开发，占据了一个引人注目的中间地带：一个开源、终端原生的 AI 编码代理，能理解您的整个代码库、自动化复杂的开发任务，并与 Git 工作流程深度集成。

AI May 04, 2026

现代 GenAI 应用程序会消费多种形式的数据——PDF、电子表格、图片、录音和视频文件。建立一个能摄取所有这些格式并产生干净、一致的结构化输出的 RAG 管线，是一项重大的工程挑战。OmniParse 通过提供一个通用数据摄取平台来解决这个问题，该平台可将任何非结构化数据转换为结构化 …

AI May 04, 2026

大规模将 PDF 转换为干净、机器可读的文本是 LLM 数据集准备中的基本挑战之一。传统 PDF 解析器难以处理复杂布局、表格和混合内容，而商业 OCR 服务在大规模使用时成本昂贵。olmOCR 由 Allen AI（AI2）开发，使用 7B 参数的视觉语言模型解决了这个问题，能以卓越的准 …