九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
機器學習項目實踐:30 必備數(shù)據(jù)庫(預測模型、圖像分類、文本分類)

新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓體系、高于業(yè)界平均水平的工資和獎金。

加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。


【新智元導讀】有了好的數(shù)據(jù),機器學習項目也就成功了一半。希望這份資源清單有助于那些尋找機器學習項目實踐的人。對于初學者來說,這絕對是一個金礦。確保你在業(yè)余時間選擇一些項目,并在上面投入時間和精力,將對你的技術(shù)成長大有益處。



大規(guī)模通用數(shù)據(jù)庫:從這里入手


data.gov - 這是美國政府開放數(shù)據(jù)集總部。這些數(shù)據(jù)集的主題包括氣候、教育、能源、金融和更多領(lǐng)域的數(shù)據(jù)。


data.gov.in - 這是印度政府公開數(shù)據(jù)庫,你可以在這里查找關(guān)于印度各行業(yè)、氣候、醫(yī)療保健等數(shù)據(jù)。同樣,稍微改變后綴,就能查看不同地區(qū)國家政府的公開數(shù)據(jù)庫,比如


  • 英國:data.gov.uk

  • 澳大利亞:data.gov.au


當然,也并非全世界國家的公開數(shù)據(jù)庫都是“data.gov”加更改后綴就可以了,比如


  • 加拿大:open.canada.ca

  • 中國:data.stats.gov.cn

  • 法國:etalab.gouv.fr

  • 德國:destatis.de


總之,國家公開數(shù)據(jù)庫相關(guān)權(quán)威標準,是你進行機器學習項目實踐的一個不錯的選擇。


World Bank - 世界銀行的公開數(shù)據(jù)庫。該平臺提供了好幾個工具,比如開放數(shù)據(jù)目錄(Open Data Catalog)、世界發(fā)展指數(shù)、教育指數(shù)等等。


Five Thirty Eight Datasets - 這里是美國偏政治新聞網(wǎng)站 Five Thirty Eight 在他們的文章中使用的數(shù)據(jù)集。每個數(shù)據(jù)集里不僅包括了數(shù)據(jù),還有解釋這些數(shù)據(jù)的字典,以及相關(guān)報道鏈接。如果你想學習如何創(chuàng)建數(shù)據(jù)報道,這是你的最佳選擇。


大型數(shù)據(jù)庫:機器學習項目必備


Amazon Web Services (AWS) datasets - 亞馬遜提供了一些大數(shù)據(jù)集,可以在他們的平臺或你自己的本地計算機上使用。亞馬遜上的熱門數(shù)據(jù)集包括完整的 Enron 電子郵件數(shù)據(jù)集,Google圖書 n-gram,NASA NEX 數(shù)據(jù)集,Million Songs 數(shù)據(jù)集等等。


Google datasets - Google提供了幾個數(shù)據(jù)集作為其 Big Query 工具的一部分,包括嬰兒名字、GitHub公共存儲庫的數(shù)據(jù)、所有來自Hacker News的故事和評論等。


Youtube labeled Video Dataset - 幾個月前,谷歌發(fā)布了YouTube標記的資料集,其中包含800萬個YouTube影片ID和4800個視覺實體的相關(guān)標簽。不僅如此,這個數(shù)據(jù)集里面還配備了幾十億幀經(jīng)過預計算的、最先進的視覺feature。


預測模型與機器學習專用數(shù)據(jù)庫


UCI Machine Learning Repository - UCI機器學習庫顯然是最著名的數(shù)據(jù)庫,也是尋找與機器學習知識庫相關(guān)數(shù)據(jù)集最常去的地方之一。該數(shù)據(jù)集包括從諸如 Iris 和Titanic 等流行數(shù)據(jù)集,以及諸如空氣質(zhì)量和GPS軌跡等新建的數(shù)據(jù)集。UCI機器學習庫包含超過350個數(shù)據(jù)集,其標簽分類包括域、目的(分類、回歸)。你可以使用這些過濾器找到你所需要的數(shù)據(jù)集。


Kaggle - Kaggle 提出了一個平臺,人們可以在這里捐贈數(shù)據(jù)集,其他社區(qū)成員則可以對這些數(shù)據(jù)集進行投票或在這些數(shù)據(jù)集上運行內(nèi)核/腳本。Kaggle共有超過350個數(shù)據(jù)集,其中,超過200個作為精選數(shù)據(jù)集(Featured datasets)。 雖然一些數(shù)據(jù)集跟其他地方有重復,但在這里我也發(fā)現(xiàn)了在其他平臺沒有的一些有趣的數(shù)據(jù)集。此外,Kaggle 界面的另一個好處是,您可以在同一界面上查看社區(qū)成員的腳本和問題。


Analytics Vidhya - 這是我們自己網(wǎng)站的數(shù)據(jù)集,包括使用問題數(shù)據(jù)集和黑客馬拉松數(shù)據(jù)集。這里的數(shù)據(jù)集都是基于現(xiàn)實生活中的行業(yè)問題,并且有專為為期2 - 7天的黑客馬拉松的相對較小的數(shù)據(jù)集。雖然關(guān)于真實生活中的實際問題數(shù)據(jù)集哪里都有,但黑客馬拉松比賽之后相關(guān)數(shù)據(jù)集就不可再用。所以,你需要參加黑客馬拉松,才能獲得相關(guān)數(shù)據(jù)集。


Quandl - Quandl 通過其網(wǎng)站/ API或其他一些工具直接集成金融、財經(jīng)方面的數(shù)據(jù),分為Open 和 Premium 兩種。其中,所有 Open 數(shù)據(jù)集都是免費的。


Past KDD - Cup KDD Cup是由ACM知識發(fā)現(xiàn)和數(shù)據(jù)挖掘特別興趣小組組織舉辦的年度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)比賽。這里的存檔包括數(shù)據(jù)集和比賽說明。大多數(shù)年份的冠軍機器數(shù)據(jù)庫都能在這里找到。


Driven Data - 現(xiàn)實世界實際問題數(shù)據(jù)庫,你可以用它來創(chuàng)造積極的社會影響。Driven Data 舉行在線模擬競賽,從而讓參賽者開發(fā)出最好的模型來解決這些現(xiàn)實問題。如果你有興趣使用數(shù)據(jù)科學對社會做貢獻,這就是你該去的地方。


圖像分類數(shù)據(jù)庫


MNIST 數(shù)據(jù)庫 - 使用手寫數(shù)字進行圖像識別最流行的數(shù)據(jù)集,包括 6 萬個訓練樣本和 1 萬個示例測試集。MNIST數(shù)據(jù)庫是你用作練習圖像識別的第一數(shù)據(jù)集。

 

Chars74K - 這是 MNIST 數(shù)據(jù)庫的下一級,其中幾包括一些自然圖像中字符識別數(shù)據(jù)集。Chars74K 數(shù)據(jù)集包含 7.4 萬個圖像,這也是該數(shù)據(jù)集名稱的由來。

 

Frontal Face Images - 如果您已經(jīng)處理過前面的2個項目,并且能夠識別數(shù)字和字符,那么這里是圖像識別中的下一級挑戰(zhàn)。這些圖像由CMU 和 MIT 整理收集,列在四個文件夾中。

 

ImageNet - 這個數(shù)據(jù)集想必不用多做介紹,這里簡單說一下。ImageNet 是根據(jù) WordNet 層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫(目前只有名詞)。每個節(jié)點由數(shù)百個圖像分層次行描繪。剛想治療術(shù)了; 具有每個節(jié)點圖像平均超過500個圖像(并且持續(xù)增加中)。


文本分類數(shù)據(jù)庫


Spam - Non-Spam - 一個有趣的數(shù)據(jù)集,你需要構(gòu)建一個分類器將 SMS 分類為垃圾郵件或非垃圾郵件。

 

Twitter Sentiment Analysis - 該數(shù)據(jù)集包含超過 157 萬條分類過的推文,正面情緒標記為1,負面情緒標記為0。這些數(shù)據(jù)基于一項 Kaggle 競賽建立的,作者是Nick Sanders


Movie Review Data - 提供電影評論文檔資料的集合,這些資料根據(jù)內(nèi)容的情緒極性(正面或負面)或主觀評價(例如“兩顆半星”),以及根據(jù)句子的主觀性狀態(tài)(主觀或客觀 )或極性(polarity)進行了標記。

推薦引擎數(shù)據(jù)庫


MovieLens - 幫人找電影的網(wǎng)站,有上萬的注冊用戶。這些用戶會填寫 MovieLens 在線問卷,包括自動內(nèi)容推薦、推薦界面、基于標簽的推薦等等。這些數(shù)據(jù)集可供下載,用于創(chuàng)建你自己的推薦系統(tǒng)。


Jester - 關(guān)于在線笑話推薦系統(tǒng)的數(shù)據(jù)集。


更多數(shù)據(jù)庫資源


KDNuggets - KDNuggets的數(shù)據(jù)集頁面一直是尋找數(shù)據(jù)集的人的常用參考。這里有一個非常全面的列表,但有些源不再提供數(shù)據(jù)集。因此,在使用時需要對數(shù)據(jù)集及源自行判斷。

 

Awesome Public Datasets - GitHub 庫,包含按域分類的數(shù)據(jù)集的完整列表。數(shù)據(jù)集在各個域中被整齊地分類。但是,沒有關(guān)于庫本身的數(shù)據(jù)集的描述。

 

Reddit 數(shù)據(jù)集 Subreddit - 由于是社區(qū)驅(qū)動的論壇,這個數(shù)據(jù)集可能會相對有一點凌亂(與前兩個源相比)。但是,你可以按熱門程度或投票排序數(shù)據(jù)集,以查看最受歡迎的數(shù)據(jù)集。此外,Reddit 網(wǎng)站上還有一些有趣的關(guān)于數(shù)據(jù)集的討論。


我希望這份資源清單有助于那些尋找機器學習項目實踐的人。對于初學者來說,這絕對是一個金礦。確保你在業(yè)余時間選擇一些項目,并在上面投入時間和精力,這將對你的技術(shù)成長大有益處。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
入門|從文本處理到自動駕駛:機器學習最常用的50大免費數(shù)據(jù)集
力薦!50 個最實用的免費機器學習數(shù)據(jù)集
頂級AI【數(shù)據(jù)】資源送給你!
機器學習高質(zhì)量數(shù)據(jù)集大合輯
20個非常好的免費數(shù)據(jù)源(免費哦!)
現(xiàn)在世界上最有價值的是數(shù)據(jù)
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服