数据科学

开源 May 04, 2026

Trafilatura：适用于 LLM 数据集与研究的开源网页文本提取工具

从网页中提取干净、结构化的文本是 LLM 训练数据集、研究语料库和内容分析管线的基础任务。Trafilatura 已成为此任务的黄金标准——这是一个 Python 库，在开源文本提取工具中持续取得最高的 F-Score，同时保持轻量、快速且易于集成。

AI May 04, 2026

大规模将 PDF 转换为干净、机器可读的文本是 LLM 数据集准备中的基本挑战之一。传统 PDF 解析器难以处理复杂布局、表格和混合内容，而商业 OCR 服务在大规模使用时成本昂贵。olmOCR 由 Allen AI（AI2）开发，使用 7B 参数的视觉语言模型解决了这个问题，能以卓越的准 …

AI May 02, 2026

LightRAG 是香港大学 (HKU) 的一项研究项目，重新构想了使用知识图谱的检索增强生成（RAG）。该项目已被 EMNLP 2025 收录，以基于图形的架构取代传统的平面向量存储方法，从文档中提取实体及其关系，为 LLM 应用提供显著更好的上下文理解。

AI May 02, 2026

微调大型语言模型已成为需要特定领域 AI 性能的组织不可或缺的手段，但这个过程始终受到一个关键资源的瓶颈：高质量的训��数据。手动创建指令微调数据集既昂贵又缓慢，且需要通常短缺的领域专业知识。Easy Dataset，ConardLi 开发的开源框架，通过提供一个基于 GUI 的系统，从 …

自动驾驶 Apr 21, 2026

为什么“压缩”会成为自动驾驶竞赛的下一个军备赛点？简单回答：因为数据成本正在扼杀创新速度。当一辆自动驾驶测试车每天产生数TB的数据，而车队规模动辄上百辆时，企业面临的不再是技术问题，而是经济学问题。储存、传输、处理这些数据的基础设施成本呈指数增长，但开发迭代的速度却被数据管道（Data …