新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓體系、高于業(yè)界平均水平的工資和獎金。
加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。
【新智元導讀】有了好的數(shù)據(jù),機器學習項目也就成功了一半。希望這份資源清單有助于那些尋找機器學習項目實踐的人。對于初學者來說,這絕對是一個金礦。確保你在業(yè)余時間選擇一些項目,并在上面投入時間和精力,將對你的技術(shù)成長大有益處。
data.gov - 這是美國政府開放數(shù)據(jù)集總部。這些數(shù)據(jù)集的主題包括氣候、教育、能源、金融和更多領(lǐng)域的數(shù)據(jù)。
data.gov.in - 這是印度政府公開數(shù)據(jù)庫,你可以在這里查找關(guān)于印度各行業(yè)、氣候、醫(yī)療保健等數(shù)據(jù)。同樣,稍微改變后綴,就能查看不同地區(qū)國家政府的公開數(shù)據(jù)庫,比如
英國:data.gov.uk
澳大利亞:data.gov.au
當然,也并非全世界國家的公開數(shù)據(jù)庫都是“data.gov”加更改后綴就可以了,比如
加拿大:open.canada.ca
中國:data.stats.gov.cn
法國:etalab.gouv.fr
德國:destatis.de
總之,國家公開數(shù)據(jù)庫相關(guān)權(quán)威標準,是你進行機器學習項目實踐的一個不錯的選擇。
World Bank - 世界銀行的公開數(shù)據(jù)庫。該平臺提供了好幾個工具,比如開放數(shù)據(jù)目錄(Open Data Catalog)、世界發(fā)展指數(shù)、教育指數(shù)等等。
Five Thirty Eight Datasets - 這里是美國偏政治新聞網(wǎng)站 Five Thirty Eight 在他們的文章中使用的數(shù)據(jù)集。每個數(shù)據(jù)集里不僅包括了數(shù)據(jù),還有解釋這些數(shù)據(jù)的字典,以及相關(guān)報道鏈接。如果你想學習如何創(chuàng)建數(shù)據(jù)報道,這是你的最佳選擇。
Amazon Web Services (AWS) datasets - 亞馬遜提供了一些大數(shù)據(jù)集,可以在他們的平臺或你自己的本地計算機上使用。亞馬遜上的熱門數(shù)據(jù)集包括完整的 Enron 電子郵件數(shù)據(jù)集,Google圖書 n-gram,NASA NEX 數(shù)據(jù)集,Million Songs 數(shù)據(jù)集等等。
Google datasets - Google提供了幾個數(shù)據(jù)集作為其 Big Query 工具的一部分,包括嬰兒名字、GitHub公共存儲庫的數(shù)據(jù)、所有來自Hacker News的故事和評論等。
Youtube labeled Video Dataset - 幾個月前,谷歌發(fā)布了YouTube標記的資料集,其中包含800萬個YouTube影片ID和4800個視覺實體的相關(guān)標簽。不僅如此,這個數(shù)據(jù)集里面還配備了幾十億幀經(jīng)過預計算的、最先進的視覺feature。
UCI Machine Learning Repository - UCI機器學習庫顯然是最著名的數(shù)據(jù)庫,也是尋找與機器學習知識庫相關(guān)數(shù)據(jù)集最常去的地方之一。該數(shù)據(jù)集包括從諸如 Iris 和Titanic 等流行數(shù)據(jù)集,以及諸如空氣質(zhì)量和GPS軌跡等新建的數(shù)據(jù)集。UCI機器學習庫包含超過350個數(shù)據(jù)集,其標簽分類包括域、目的(分類、回歸)。你可以使用這些過濾器找到你所需要的數(shù)據(jù)集。
Kaggle - Kaggle 提出了一個平臺,人們可以在這里捐贈數(shù)據(jù)集,其他社區(qū)成員則可以對這些數(shù)據(jù)集進行投票或在這些數(shù)據(jù)集上運行內(nèi)核/腳本。Kaggle共有超過350個數(shù)據(jù)集,其中,超過200個作為精選數(shù)據(jù)集(Featured datasets)。 雖然一些數(shù)據(jù)集跟其他地方有重復,但在這里我也發(fā)現(xiàn)了在其他平臺沒有的一些有趣的數(shù)據(jù)集。此外,Kaggle 界面的另一個好處是,您可以在同一界面上查看社區(qū)成員的腳本和問題。
Analytics Vidhya - 這是我們自己網(wǎng)站的數(shù)據(jù)集,包括使用問題數(shù)據(jù)集和黑客馬拉松數(shù)據(jù)集。這里的數(shù)據(jù)集都是基于現(xiàn)實生活中的行業(yè)問題,并且有專為為期2 - 7天的黑客馬拉松的相對較小的數(shù)據(jù)集。雖然關(guān)于真實生活中的實際問題數(shù)據(jù)集哪里都有,但黑客馬拉松比賽之后相關(guān)數(shù)據(jù)集就不可再用。所以,你需要參加黑客馬拉松,才能獲得相關(guān)數(shù)據(jù)集。
Quandl - Quandl 通過其網(wǎng)站/ API或其他一些工具直接集成金融、財經(jīng)方面的數(shù)據(jù),分為Open 和 Premium 兩種。其中,所有 Open 數(shù)據(jù)集都是免費的。
Past KDD - Cup KDD Cup是由ACM知識發(fā)現(xiàn)和數(shù)據(jù)挖掘特別興趣小組組織舉辦的年度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)比賽。這里的存檔包括數(shù)據(jù)集和比賽說明。大多數(shù)年份的冠軍機器數(shù)據(jù)庫都能在這里找到。
Driven Data - 現(xiàn)實世界實際問題數(shù)據(jù)庫,你可以用它來創(chuàng)造積極的社會影響。Driven Data 舉行在線模擬競賽,從而讓參賽者開發(fā)出最好的模型來解決這些現(xiàn)實問題。如果你有興趣使用數(shù)據(jù)科學對社會做貢獻,這就是你該去的地方。
MNIST 數(shù)據(jù)庫 - 使用手寫數(shù)字進行圖像識別最流行的數(shù)據(jù)集,包括 6 萬個訓練樣本和 1 萬個示例測試集。MNIST數(shù)據(jù)庫是你用作練習圖像識別的第一數(shù)據(jù)集。
Chars74K - 這是 MNIST 數(shù)據(jù)庫的下一級,其中幾包括一些自然圖像中字符識別數(shù)據(jù)集。Chars74K 數(shù)據(jù)集包含 7.4 萬個圖像,這也是該數(shù)據(jù)集名稱的由來。
Frontal Face Images - 如果您已經(jīng)處理過前面的2個項目,并且能夠識別數(shù)字和字符,那么這里是圖像識別中的下一級挑戰(zhàn)。這些圖像由CMU 和 MIT 整理收集,列在四個文件夾中。
ImageNet - 這個數(shù)據(jù)集想必不用多做介紹,這里簡單說一下。ImageNet 是根據(jù) WordNet 層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫(目前只有名詞)。每個節(jié)點由數(shù)百個圖像分層次行描繪。剛想治療術(shù)了; 具有每個節(jié)點圖像平均超過500個圖像(并且持續(xù)增加中)。
Spam - Non-Spam - 一個有趣的數(shù)據(jù)集,你需要構(gòu)建一個分類器將 SMS 分類為垃圾郵件或非垃圾郵件。
Twitter Sentiment Analysis - 該數(shù)據(jù)集包含超過 157 萬條分類過的推文,正面情緒標記為1,負面情緒標記為0。這些數(shù)據(jù)基于一項 Kaggle 競賽建立的,作者是Nick Sanders。
Movie Review Data - 提供電影評論文檔資料的集合,這些資料根據(jù)內(nèi)容的情緒極性(正面或負面)或主觀評價(例如“兩顆半星”),以及根據(jù)句子的主觀性狀態(tài)(主觀或客觀 )或極性(polarity)進行了標記。
MovieLens - 幫人找電影的網(wǎng)站,有上萬的注冊用戶。這些用戶會填寫 MovieLens 在線問卷,包括自動內(nèi)容推薦、推薦界面、基于標簽的推薦等等。這些數(shù)據(jù)集可供下載,用于創(chuàng)建你自己的推薦系統(tǒng)。
Jester - 關(guān)于在線笑話推薦系統(tǒng)的數(shù)據(jù)集。
KDNuggets - KDNuggets的數(shù)據(jù)集頁面一直是尋找數(shù)據(jù)集的人的常用參考。這里有一個非常全面的列表,但有些源不再提供數(shù)據(jù)集。因此,在使用時需要對數(shù)據(jù)集及源自行判斷。
Awesome Public Datasets - GitHub 庫,包含按域分類的數(shù)據(jù)集的完整列表。數(shù)據(jù)集在各個域中被整齊地分類。但是,沒有關(guān)于庫本身的數(shù)據(jù)集的描述。
Reddit 數(shù)據(jù)集 Subreddit - 由于是社區(qū)驅(qū)動的論壇,這個數(shù)據(jù)集可能會相對有一點凌亂(與前兩個源相比)。但是,你可以按熱門程度或投票排序數(shù)據(jù)集,以查看最受歡迎的數(shù)據(jù)集。此外,Reddit 網(wǎng)站上還有一些有趣的關(guān)于數(shù)據(jù)集的討論。
我希望這份資源清單有助于那些尋找機器學習項目實踐的人。對于初學者來說,這絕對是一個金礦。確保你在業(yè)余時間選擇一些項目,并在上面投入時間和精力,這將對你的技術(shù)成長大有益處。
聯(lián)系客服