每一位資料科學家都曾面對同樣的挫折:花好幾個小時尋找可靠的資料集,最後卻只找到失效連結、過時資訊或模糊不清的授權條款。根據最近的調查,資料專業人員每週平均耗費12小時在找尋和準備資料上——這大約佔了標準工作週的三分之一。
Awesome Public Datasets 大規模地解決了這個問題。擁有超過59,800個 GitHub 星標和9,700個分支,它是網路上最受信賴的社群驅動開放資料目錄之一。最初由上海交通大學 OMNILab 孵化,現在由白玉蘭開放 AI 社群(上海首屈一指的開放 AI 生態系統)管理,這個專案已從簡單的精選清單發展成全面的資料探索平台。
Awesome Public Datasets 真正出眾之處在於其廣度。這份清單橫跨超過35個獨特類別——從農業、天文學到社交網路和體育——每個資料集條目都附帶狀態指示器,讓您一眼就能看出該來源是否正在積極維護(綠色勾號)或需要關注(警告圖示)。整個清單使用 apd-core 工具 自動生成,確保條目結構一致且經過自動驗證。
該專案創立於2014年11月,持續維護至2026年4月——超過十一年的不懈篩選——已為全球的研究論文、新創 MVP、Kaggle 競賽作品、大學課程和企業概念驗證提供了動力。無論您是在訓練大型語言模型、分析氣候趨勢,還是建構推薦引擎,這都是您應該最先收藏的書籤。
Awesome Public Datasets 解決了什麼問題?
資料探索領域是分裂的。政府入口網站、大學儲存庫、雲端供應商市場以及特定領域的檔案館各自獨立運作。研究人員經常需要依賴論壇和社群媒體來了解可用的資料集。Awesome Public Datasets 將這種混亂整合成一個可瀏覽的單一索引。
flowchart LR
A[研究人員需要資料] --> B{瀏覽 Awesome<br/>Public Datasets}
B --> C[農業]
B --> D[生物學]
B --> E[氣候]
B --> F[金融]
B --> G[醫療保健]
B --> H[35+ 個類別]
C --> I[已驗證連結 + 狀態]
D --> I
E --> I
F --> I
G --> I
H --> I
I --> J[開始分析]在這個專案之前,要找到高品質的資料集可能需要造訪數十個政府入口網站、大學儲存庫和論壇討論串。現在,每個主要的開放資料集都只需點擊一下即可取得。
該專案的長壽證明了它的實用性。自2014年11月以來,該集合已從少數連結擴展到數百個經過驗證的條目,社群透過 pull request 貢獻新的資料集並標記失效連結。apd-core 自動化確保貢獻在合併前達到品質標準。
清單是如何組織的?
儲存庫採用直觀的分類系統,包含35+個頂層領域。README 中的每個資料集條目都包含直接連結、簡短描述和狀態圖示。類別按字母順序排列,即使清單不斷增長,導航也保持可預測性。
flowchart TD
subgraph Browsing["瀏覽流程"]
direction LR
A1[開啟 README] --> A2[選擇類別] --> A3[瀏覽條目] --> A4[檢查狀態 ✅⚠️] --> A5[前往連結]
end
subgraph Contributing["貢獻流程"]
direction LR
B1[Fork apd-core] --> B2[編輯 YAML 元資料] --> B3[送出 PR] --> B4[自動審查] --> B5[合併]
end顯示綠色勾號圖示(✅)的條目表示最近已驗證且連結確認有效。標有警告圖示(⚠️)的條目可能連結失效或需要社群關注——這是一個透明的系統,能保持期望並鼓勵貢獻。
清單涵蓋哪些類別?
該集合的廣度是其最強的特點之一。幾乎任何領域的研究人員都能找到相關內容。
| 類別 | 描述 | 範例資料集 | 約略條目數 |
|---|---|---|---|
| 農業 | 作物產量、土壤資料、食品營養 | USDA 營養資料庫、全球作物產量、PLANTS 資料庫 | 15+ |
| 生物學 | 基因組學、蛋白質組學、癌症資料 | 1000 Genomes、TCGA、ENCODE、GEO、PDB、COSMIC | 45+ |
| 氣候與天氣 | 大氣、海洋、氣候預測 | WorldClim、NOAA 模型、NASA GIBS、Open-Meteo | 20+ |
| 金融 | 市場資料、經濟指標 | FRED、Quandl、Yahoo Finance、NASDAQ、CBOE | 25+ |
| 醫療保健 | 醫學影像、生理學、流行病學 | PhysioNet、TCIA、WHO 觀察站、Medicare 資料 | 30+ |
| 機器學習 | 基準資料集、ML 儲存庫 | ImageNet、MNIST、Kaggle、UCI ML 儲存庫 | 40+ |
| 自然語言 | 文本語料庫、嵌入、語音 | Common Crawl、Wikipedia Dumps、LibriSpeech | 35+ |
| 社交網路 | 圖資料、使用者行為、平台資料 | Stanford SNAP、Twitter 資料、Reddit 資料集 | 20+ |
| 政府 | 全球開放政府入口網站 | Data.gov、歐盟開放資料入口網站、城市級入口網站 | 100+ |
| 交通運輸 | 大眾運輸、交通流量、移動性 | NYC 計程車行程、GTFS 動態、OpenFlights | 15+ |
僅政府類別就包含超過100個子條目,連結到全球城市、州省和國家的開放資料入口網站。如果您需要人口統計、經濟或行政資料,這裡就是起點。
收錄了哪些生物學資料集?
生物學部分是該集合中最深入的類別,細分為基因組學、功能基因組學和癌症基因組學。這些是為數千篇研究論文提供動力的基礎資源。
| 資料集 | 描述 | 類型 | 存取方式 |
|---|---|---|---|
| 1000 Genomes Project | 來自多樣化群體的 2,500+ 個人類基因組序列 | 基因組學 | 開放 |
| The Cancer Genome Atlas (TCGA) | 橫跨 33 種癌症類型的多平台基因組資料 | 癌症基因組學 | 受控 |
| ENCODE Project | 人類基因組中的功能元件 | 功能基因組學 | 開放 |
| Gene Expression Omnibus (GEO) | 高通量基因表現與功能基因組學 | 功能基因組學 | 開放 |
| COSMIC | 人類癌症體細胞突變資訊 | 癌症基因組學 | 開放 |
| Protein Data Bank (PDB) | 生物大分子的 3D 結構 | 結構生物學 | 開放 |
| PubChem | 化學分子與生物活性資訊 | 化學資訊學 | 開放 |
| Human Microbiome Project (HMP) | 身體各部位的微生物群落 | 宏基因組學 | 開放 |
其中許多資料集過於龐大,無法完整下載——僅 1000 Genomes 資料集就超過 200 TB。研究人員通常使用程式化存取(透過 API 或雲端鏡像)來處理與其研究相關的子集。
收錄了哪些機器學習資料集?
機器學習類別連結到該領域最廣泛使用的基準資料集。無論您是在從事電腦視覺、自然語言處理還是表格資料處理,這些資料集都是業界標準。
| 資料集 | 領域 | 典型用途 | 規模 |
|---|---|---|---|
| ImageNet | 電腦視覺 | 圖像分類、物體檢測 | 1,400萬+ 張圖片,22K 類別 |
| MNIST | 電腦視覺 | 手寫數字辨識 | 7萬張灰階圖片 |
| Common Crawl | 網路文本 | LLM 預訓練、NLP 語料庫 | 數十億個網頁 |
| LibriSpeech | 語音 | ASR 模型訓練 | 1,000 小時語音 |
| UCI ML Repository | 混合 | 基準測試演算法 | 600+ 個資料集 |
| Kaggle Datasets | 混合 | 競賽與探索 | 10萬+ 個資料集 |
同時收錄基礎資料集(如 MNIST)和大規模語料庫(如 Common Crawl),意味著這份清單能夠服務從學習基礎知識的學生到訓練十億參數模型的研究人員等所有族群。
apd-core 工具如何維護資料品質?
apd-core 儲存庫是 Awesome Public Datasets 背後的引擎。它將所有資料集元資料儲存為結構化的 YAML 檔案,每個檔案包含資料集名稱、URL、描述、類別標籤和驗證歷史。
這種結構化格式支援多項自動化品質檢查:
- 連結驗證:腳本測試資料集 URL 是否正確解析
- 元資料完整性:每個條目必須包含必要欄位才能被接受
- 類別一致性:條目被分類到正確的領域標題下
- 授權感知:可追蹤資料集授權條款與條目資訊
當您發現要貢獻的新資料集時,不需直接編輯 README。而是向 apd-core 送出 pull request,附上新的 YAML 條目。自動化管線會驗證您的提交,一旦合併,就會重新生成 README。這種資料與呈現的分離確保了清單的一致性和機器可讀性。
為什麼這個專案能持續超過十年?
對於一個開源專案而言,十一年是一段很長的時間。大多數精選清單在維護者轉向其他興趣時就會逐漸萎縮。Awesome Public Datasets 之所以能蓬勃發展,有幾個原因:
首先是範圍明確。透過將自己限制在公開可用的資料集,並按主題而非格式或大小進行組織,該專案避免了範圍蔓延。它清楚知道自己定位:一個精選索引,不是資料市場、不是儲存平台、也不是社群論壇。
其次是自動化。apd-core 工具鏈意味著新增一個資料集只需要寫幾行 YAML。維護者無需手動格式化 README 或檢查連結。機器處理繁重的工作,人類負責策展判斷。
第三是社群治理。從上海交通大學 OMNILab 過渡到白玉蘭開放 AI 社群確保了持續性。該專案有機構支持,而非依賴單一個人的志願時間。
Awesome Public Datasets 的未來是什麼?
隨著我們進入 2026 年,有幾個趨勢正在影響該專案的發展。大型語言模型的興起對高品質文本語料庫產生了前所未有的需求——Common Crawl、C4 和 The Pile 等資料集對於預訓練至關重要。該專案可能會相應地擴展其 NLP 和多模態資料集部分。
另一個趨勢是資料集版本控制和來源追蹤。隨著資料集被過濾、去重和轉換以適應特定用例,了解來源鏈對於可重現性已變得至關重要。apd-core 中的 YAML 元資料可以自然地擴展以追蹤這些關係。
最後,空間和氣候資料類別將持續增長,因為行星尺度的環境監測產生了越來越大量的開放地球觀測資料串流。Awesome Public Datasets 完全有能力繼續成為這些資源的入口。
常見問題
什麼是 Awesome Public Datasets?
Awesome Public Datasets 是以主題分類的優質開放資料集精選清單,由社群維護,最初由上海交通大學孵化。
Awesome Public Datasets 收錄了多少資料集?
這份清單涵蓋數十個類別的資料集,包括農業、生物學、氣候、經濟學、教育、金融、政府、醫療保健、機器學習與社交網路。
Awesome Public Datasets 可以免費使用嗎?
是的,這份清單完全免費並採用 MIT 授權。所列出的資料集均為公開可用,但個別資料集可能具有各自的授權條款。
Awesome Public Datasets 是如何維護的?
清單使用 apd-core 工具自動生成,並定期審查社群貢獻。狀態指示器顯示哪些資料集仍活躍或可能需要關注。
誰應該使用 Awesome Public Datasets?
研究人員、資料科學家、機器學習工程師、學生,以及任何尋找高品質開放資料進行分析、模型訓練或學術研究的人。
我如何貢獻新的資料集?
Fork apd-core 儲存庫,在適當類別下以 YAML 檔案新增資料集元資料,然後送出 pull request。自動化審查流程會在合併前驗證連結和元資料。
這些資料集可以用於商業專案嗎?
大多數列出的資料集都是公開可用的,但在商業使用前您必須檢查每個資料集的個別授權條款。有些資料集對再分發有限制或要求標註出處。
延伸閱讀
- Awesome Public Datasets on GitHub —— 包含完整清單的主要儲存庫
- apd-core Repository —— 生成資料集清單的元資料引擎
- BaiYuLan Open AI Community —— 目前的維護組織
- Awesome Lists —— 啟發此專案的原始 awesome 清單格式
- Papers With Code Datasets —— 連結資料集與研究論文的輔助資源
- Kaggle Datasets —— 探索開放資料集並參與競賽的平台
