每一位数据科学家都曾面对同样的挫折:花好几个小时寻找可靠的数据集,最后却只找到失效链接、过时信息或模糊不清的许可条款。根据最近的调查,数据专业人员每周平均耗费12小时在找寻和准备数据上——这大约占了标准工作周的三分之一。
Awesome Public Datasets 大规模地解决了这个问题。拥有超过59,800个 GitHub 星标和9,700个分支,它是互联网上最受信赖的社区驱动开放数据目录之一。最初由上海交通大学 OMNILab 孵化,现在由白玉兰开放 AI 社区(上海首屈一指的开放 AI 生态系统)管理,这个项目已从简单的精选列表发展成全面的数据探索平台。
Awesome Public Datasets 真正出众之处在于其广度。这份列表横跨超过35个独特类别——从农业、天文学到社交网络和体育——每个数据集条目都附带状态指示器,让您一眼就能看出该来源是否正在积极维护(绿色勾号)或需要关注(警告图标)。整个列表使用 apd-core 工具 自动生成,确保条目结构一致且经过自动验证。
该项目创立于2014年11月,持续维护至2026年4月——超过十一年的不懈筛选——已为全球的研究论文、初创公司 MVP、Kaggle 竞赛作品、大学课程和企业概念验证提供了动力。无论您是在训练大型语言模型、分析气候趋势,还是构建推荐引擎,这都是您应该最先收藏的书签。
Awesome Public Datasets 解决了什么问题?
数据探索领域是分裂的。政府门户网站、大学存储库、云供应商市场以及特定领域的档案馆各自独立运作。研究人员经常需要依赖论坛和社交媒体来了解可用的数据集。Awesome Public Datasets 将这种混乱整合成一个可浏览的单一索引。
flowchart LR
A[研究人员需要数据] --> B{浏览 Awesome<br/>Public Datasets}
B --> C[农业]
B --> D[生物学]
B --> E[气候]
B --> F[金融]
B --> G[医疗保健]
B --> H[35+ 个类别]
C --> I[已验证链接 + 状态]
D --> I
E --> I
F --> I
G --> I
H --> I
I --> J[开始分析]在这个项目之前,要找到高质量的数据集可能需要访问数十个政府门户网站、大学存储库和论坛讨论串。现在,每个主要的开放数据集都只需点击一下即可获取。
该项目的长寿证明了其实用性。自2014年11月以来,该集合已从少数链接扩展到数百个经过验证的条目,社区通过 pull request 贡献新的数据集并标记失效链接。apd-core 自动化确保贡献在合并前达到质量标准。
列表是如何组织的?
存储库采用直观的分类系统,包含35+个顶层领域。README 中的每个数据集条目都包含直接链接、简短描述和状态图标。类别按字母顺序排列,即使列表不断增长,导航也保持可预测性。
flowchart TD
subgraph Browsing["浏览流程"]
direction LR
A1[打开 README] --> A2[选择类别] --> A3[浏览条目] --> A4[检查状态 ✅⚠️] --> A5[前往链接]
end
subgraph Contributing["贡献流程"]
direction LR
B1[Fork apd-core] --> B2[编辑 YAML 元数据] --> B3[提交 PR] --> B4[自动审查] --> B5[合并]
end显示绿色勾号图标(✅)的条目表示最近已验证且链接确认有效。标有警告图标(⚠️)的条目可能链接失效或需要社区关注——这是一个透明的系统,能保持期望并鼓励贡献。
列表涵盖哪些类别?
该集合的广度是其最强的特点之一。几乎任何领域的研究人员都能找到相关内容。
| 类别 | 描述 | 示例数据集 | 大致条目数 |
|---|---|---|---|
| 农业 | 作物产量、土壤数据、食品营养 | USDA 营养数据库、全球作物产量、PLANTS 数据库 | 15+ |
| 生物学 | 基因组学、蛋白质组学、癌症数据 | 1000 Genomes、TCGA、ENCODE、GEO、PDB、COSMIC | 45+ |
| 气候与天气 | 大气、海洋、气候预测 | WorldClim、NOAA 模型、NASA GIBS、Open-Meteo | 20+ |
| 金融 | 市场数据、经济指标 | FRED、Quandl、Yahoo Finance、NASDAQ、CBOE | 25+ |
| 医疗保健 | 医学影像、生理学、流行病学 | PhysioNet、TCIA、WHO 观测站、Medicare 数据 | 30+ |
| 机器学习 | 基准数据集、ML 存储库 | ImageNet、MNIST、Kaggle、UCI ML 存储库 | 40+ |
| 自然语言 | 文本语料库、嵌入、语音 | Common Crawl、Wikipedia Dumps、LibriSpeech | 35+ |
| 社交网络 | 图数据、用户行为、平台数据 | Stanford SNAP、Twitter 数据、Reddit 数据集 | 20+ |
| 政府 | 全球开放政府门户网站 | Data.gov、欧盟开放数据门户网站、城市级门户网站 | 100+ |
| 交通运输 | 公共交通、交通流量、移动性 | NYC 出租车行程、GTFS 动态、OpenFlights | 15+ |
仅政府类别就包含超过100个子条目,连接到全球城市、州省和国家的开放数据门户网站。如果您需要人口统计、经济或行政数据,这里就是起点。
收录了哪些生物学数据集?
生物学部分是该集合中最深入的类别,细分为基因组学、功能基因组学和癌症基因组学。这些是为数千篇研究论文提供动力的基础资源。
| 数据集 | 描述 | 类型 | 访问方式 |
|---|---|---|---|
| 1000 Genomes Project | 来自多样化群体的 2,500+ 个人类基因组序列 | 基因组学 | 开放 |
| The Cancer Genome Atlas (TCGA) | 横跨 33 种癌症类型的多平台基因组数据 | 癌症基因组学 | 受控 |
| ENCODE Project | 人类基因组中的功能元件 | 功能基因组学 | 开放 |
| Gene Expression Omnibus (GEO) | 高通量基因表达与功能基因组学 | 功能基因组学 | 开放 |
| COSMIC | 人类癌症体细胞突变信息 | 癌症基因组学 | 开放 |
| Protein Data Bank (PDB) | 生物大分子的 3D 结构 | 结构生物学 | 开放 |
| PubChem | 化学分子与生物活性信息 | 化学信息学 | 开放 |
| Human Microbiome Project (HMP) | 身体各部位的微生物群落 | 宏基因组学 | 开放 |
其中许多数据集过于庞大,无法完整下载——仅 1000 Genomes 数据集就超过 200 TB。研究人员通常使用程序化访问(通过 API 或云镜像)来处理与其研究相关的子集。
收录了哪些机器学习数据集?
机器学习类别链接到该领域最广泛使用的基准数据集。无论您是在从事计算机视觉、自然语言处理还是表格数据处理,这些数据集都是行业标准。
| 数据集 | 领域 | 典型用途 | 规模 |
|---|---|---|---|
| ImageNet | 计算机视觉 | 图像分类、物体检测 | 1,400万+ 张图片,22K 类别 |
| MNIST | 计算机视觉 | 手写数字识别 | 7万张灰度图片 |
| Common Crawl | 网络文本 | LLM 预训练、NLP 语料库 | 数十亿个网页 |
| LibriSpeech | 语音 | ASR 模型训练 | 1,000 小时语音 |
| UCI ML Repository | 混合 | 基准测试算法 | 600+ 个数据集 |
| Kaggle Datasets | 混合 | 竞赛与探索 | 10万+ 个数据集 |
同时收录基础数据集(如 MNIST)和大规模语料库(如 Common Crawl),意味着这份列表能够服务从学习基础知识的学生到训练十亿参数模型的研究人员等所有人群。
apd-core 工具如何维护数据质量?
apd-core 存储库是 Awesome Public Datasets 背后的引擎。它将所有数据集元数据存储为结构化的 YAML 文件,每个文件包含数据集名称、URL、描述、类别标签和验证历史。
这种结构化格式支持多项自动化质量检查:
- 链接验证:脚本测试数据集 URL 是否正确解析
- 元数据完整性:每个条目必须包含必要字段才能被接受
- 类别一致性:条目被分类到正确的领域标题下
- 许可感知:可追踪数据集许可条款与条目信息
当您发现要贡献的新数据集时,不需直接编辑 README。而是向 apd-core 提交 pull request,附上新的 YAML 条目。自动化管线会验证您的提交,一旦合并,就会重新生成 README。这种数据与呈现的分离确保了列表的一致性和机器可读性。
为什么这个项目能持续超过十年?
对于一个开源项目而言,十一年是一段很长的时间。大多数精选列表在维护者转向其他兴趣时就会逐渐萎缩。Awesome Public Datasets 之所以能蓬勃发展,有几个原因:
首先是范围明确。通过将自己限制在公开可用的数据集,并按主题而非格式或大小进行组织,该项目避免了范围蔓延。它清楚自己定位:一个精选索引,不是数据市场、不是存储平台、也不是社区论坛。
其次是自动化。apd-core 工具链意味着添加一个新的数据集只需要写几行 YAML。维护者无需手动格式化 README 或检查链接。机器处理繁重的工作,人类负责策展判断。
第三是社区治理。从上海交通大学 OMNILab 过渡到白玉兰开放 AI 社区确保了持续性。该项目有机构支持,而非依赖单一个人的志愿时间。
Awesome Public Datasets 的未来是什么?
随着我们进入 2026 年,有几个趋势正在影响该项目的发展。大型语言模型的兴起对高质量文本语料库产生了前所未有的需求——Common Crawl、C4 和 The Pile 等数据集对于预训练至关重要。该项目可能会相应地扩展其 NLP 和多模态数据集部分。
另一个趋势是数据集版本控制和来源追踪。随着数据集被过滤、去重和转换以适应特定用例,了解来源链对于可重现性已变得至关重要。apd-core 中的 YAML 元数据可以自然地扩展以追踪这些关系。
最后,空间和气候数据类别将持续增长,因为行星尺度的环境监测产生了越来越大量的开放地球观测数据流。Awesome Public Datasets 完全有能力继续成为这些资源的入口。
常见问题
什么是 Awesome Public Datasets?
Awesome Public Datasets 是以主题分类的优质开放数据集精选列表,由社区维护,最初由上海交通大学孵化。
Awesome Public Datasets 收录了多少数据集?
这份列表涵盖数十个类别的数据集,包括农业、生物学、气候、经济学、教育、金融、政府、医疗保健、机器学习与社交网络。
Awesome Public Datasets 可以免费使用吗?
是的,这份列表完全免费并采用 MIT 许可。所列出的数据集均为公开可用,但个别数据集可能具有各自的许可条款。
Awesome Public Datasets 是如何维护的?
列表使用 apd-core 工具自动生成,并定期审查社区贡献。状态指示器显示哪些数据集仍活跃或可能需要关注。
谁应该使用 Awesome Public Datasets?
研究人员、数据科学家、机器学习工程师、学生,以及任何寻找高质量开放数据进行分析、模型训练或学术研究的人。
我如何贡献新的数据集?
Fork apd-core 存储库,在适当类别下以 YAML 文件添加数据集元数据,然后提交 pull request。自动化审查流程会在合并前验证链接和元数据。
这些数据集可以用于商业项目吗?
大多数列出的数据集都是公开可用的,但在商业使用前您必须检查每个数据集的个别许可条款。有些数据集对再分发有限制或要求标注出处。
延伸阅读
- Awesome Public Datasets on GitHub —— 包含完整列表的主要存储库
- apd-core Repository —— 生成数据集列表的元数据引擎
- BaiYuLan Open AI Community —— 目前的维护组织
- Awesome Lists —— 启发此项目的原始 awesome 列表格式
- Papers With Code Datasets —— 链接数据集与研究论文的辅助资源
- Kaggle Datasets —— 探索开放数据集并参与竞赛的平台
