Trafilatura:适用于 LLM 数据集与研究的开源网页文本提取工具
从网页中提取干净、结构化的文本是 LLM 训练数据集、研究语料库和内容分析管线的基础任务。Trafilatura 已成为此任务的黄金标准——这是一个 Python 库,在开源文本提取工具中持续取得最高的 F-Score,同时保持轻量、快速且易于集成。
从网页中提取干净、结构化的文本是 LLM 训练数据集、研究语料库和内容分析管线的基础任务。Trafilatura 已成为此任务的黄金标准——这是一个 Python 库,在开源文本提取工具中持续取得最高的 F-Score,同时保持轻量、快速且易于集成。