資料分析從業者常會遇到這個問題:想做資料分析、資料視覺化但是手上沒有高質量的資料。今天介紹20個免費開放的資料源給大家。
如果你還想學習資料庫、SQL、BI工具相關知識,推薦你閱讀這篇全面的教學資源文章:資料庫,SQL,Tableau,FineReport,Power BI教學資源大全。
一、各國政府公開資料
各國政府都在瘋開放資料,不僅開放資料量大增,資料的質量也在改善。台灣的政府開放資料已經非常的多,人口、經濟、醫療、旅遊、氣候等等能夠很輕鬆的在相關部門的網站上獲取到。但我們常常會拿這些資料和其他國家的狀況作對比,所以掌握幾個常用國家的資料平台也非常必要。這裡列舉幾個比較常用到的:
1、台灣政府資料開放平台:https://data.gov.tw/
2、香港政府數據中心:https://data.gov.hk/en/
3、英國國家數據中心:https://data.gov.uk/
4、日本統計局:http://www.stat.go.jp/
5、中國國家數據中心:http://data.stats.gov.cn/
6、美國政府開放資料:https://www.data.gov/
7、歐盟資料平台:https://www.europeandataportal.eu/
沒有列舉出來的國家可以通過搜尋 國家+開放資料 去具體獲取。另外,每個國家不同部門也會開放資料在官網上,比如台灣除了政府資料開放平台外,還有台北市開放資料平台、台灣氣象資料開放平台······,可以去搜尋對應的內容。
8、如果你不願意在google的海洋里搜索,你也可以使用這個網站:Open Data Inception。這是一個導航性質的門戶網站,彙集了全球2600多個開放數據門戶,可以按照地圖去查找。
二、世界組織統計資料
9、世界經濟貿易合作組織資料庫:https://data.oecd.org/
可以按照國家和主題來搜索,比如一個國家的人口、稅收、進出口等經濟資料,全球經濟狀況等等。如果你需要一次性對比幾個國家的資料,在OECD上獲取比一個一個國家開放資料平台搜尋要方便許多。
10、世界銀行開放資料:https://data.worldbank.org.cn/
很方便的有中文語言提供,國家的氣候、融資、經濟、教育、人口等資料非常全面,都可以下載。
11、世界衛生組織:http://apps.who.int/gho/data/node.home
健康醫療等資料都可以在這裡獲取。近幾年智慧醫療興起,關於免疫、疾病預治、藥物、營養等方面的資料分析越來越多,WHO提供了非常多類別的最新資料。
還有諸如世界婦女兒童基金會、美國宇航局等等組織都有提供資料,可以根據需要獲取。
三、企業/平台資料庫
12、github:https://github.com/awesomedata/awesome-public-datasets
相信很多人都知道這個知名資源。農業、氣候、經濟、教育、能源、金融,非常全面。以下列舉部分資料庫目錄。
13、Google BigQuery 公開資料集:https://cloud.google.com/bigquery/public-data/
不是完全免費的,超過1T需要付費。以美國的資料居多,作為資料分析資源使用還是可以的。
14、Youtube資料集:https://research.google.com/youtube8m/index.html
對youtube資料有分析需求的可以看一下
15、GOOGLE開放資料搜索:http://www.google.com/publicdata/directory?hl=en_US&dl=en_US
中文語言下無法使用,要切換成英文。google搜索可以搜索到所有網路資料,而google開放資料搜索可以說是一個進階搜索,只搜索資料庫。
16、Google趨勢搜索:https://trends.google.com/trends/?geo=US
做市場行銷、運營等關注熱點事件的可以使用這個。通過搜索熱門關鍵字,下載這個關鍵字在google上的熱門情況資料。可以按照國家來查看狀況,比較同一個詞在不同國家的熱度等狀況。
17、亞馬遜aws:https://aws.amazon.com/cn/datasets/
來自亞馬遜的跨科學雲數據平台,包含化學、生物、經濟等多個領域的數據集。包括1000個基因組工程,試圖建立最全面的人類遺傳信息資料庫和美國宇航局的衛星圖像資料庫。
四、其他類型開放資料
18、MNIST手寫數字數據庫:http://yann.lecun.com/exdb/mnist/
手寫數據圖像識別數據集,MNIST手寫數據庫具有60,000個示例的訓練集和10,000個示例的測試集。
19、UCI機器學習資料庫:https://archive.ics.uci.edu/ml/datasets.html
UCI機器學習庫是機器學習社區用於機器學習算法的經驗分析的數據庫,領域理論和數據生成器的集合。被全世界的學生,教育工作者和研究人員廣泛用作機器學習數據集的主要來源。
20、爬蟲
還有很多資料是沒有現成的可以使用,需要用到爬蟲工具去爬取,例如網站資料的爬取。這方面的工具和方法也很多,有這種需要的可以自行學習。
更多好文推薦:
喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!