九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
董老師開講了:系列一之大數(shù)據(jù)入門

硅谷在線教育公司 Coursera 數(shù)據(jù)工程師董飛準備在硅發(fā)布平臺開講了,課程第一系列《大數(shù)據(jù)入門》。董飛也曾在百度、LinkedIn 等公司工作。

在硅谷,大家非常熱情地談創(chuàng)業(yè)談機會,我也通過自己觀察和積累,看到不少最近幾年涌現(xiàn)的熱門創(chuàng)業(yè)公司。我先給大家一個列表,這是華爾街網(wǎng)站全世界創(chuàng)業(yè)公司融資規(guī)模的一個評選,它本來標題是“十億美金俱樂部”,可以看出不到一年時間,截至今年 1 月 17 日,排名和規(guī)模已經(jīng)發(fā)生很大變化。

首先,估值在十億美金的公司達到 7 家,而一年前都沒有;第二,第一名是中國的小米;第三,前 20 名中,絕大多數(shù)(八成在美國,在加州,在硅谷,在舊金山?。┍热?Uber、Airbnb、Dropbox、Pinterest;第四,里面也有不少相似模式成功的,比如 Flipkart 就是印度市場的淘寶,Uber 與 Airbnb 都是共享經(jīng)濟的范疇。

所以,大家還是可以在移動(Uber)、大數(shù)據(jù)(Palantir)、消費級互聯(lián)網(wǎng)、通訊(Snapchat)、支付(Square)及 O2O App 里尋找大機會。這里面,很多公司我都曾面試和感受過他們環(huán)境,下面有機會我也會給大家一一詳細介紹。

第二,在 Linkedin,每年會評選一個最有需求的創(chuàng)業(yè)公司名單,基本是結(jié)合 Linkedin 用戶訪問量和申請數(shù)做出的挖掘。下面,我列出最近 3 年數(shù)據(jù),大家可以做個判別和趨勢分析。

里面還是很靠譜的,比如不少上榜名單已成功 IPO(GoPro、Hortonworks、Splunk),里面有很多大數(shù)據(jù)領(lǐng)域公司(Splunk,、Box,、Nimble Storage、Violin Memroy, Dropbox),而除了之前看到的一些互聯(lián)網(wǎng)項目,在一些醫(yī)療健康(Theranos)、智能硬件(Leap motion、Fitbit、Jawbone)、在線教育(Coursera)也吸引很大注意力。

第三,看了那么多高估值公司,很多人都覺得非常瘋狂,是不是很大泡沫了,泡沫是不是要破了,這是很多人的疑問。在硅谷這個充滿夢想的地方,投資人鼓勵創(chuàng)業(yè)者大膽去發(fā)展同樣也助長泡沫,很多項目在幾個月時間估值就會翻 2、3 倍,例如在 Uber、Snapchat 上,我也驚訝他們的巨額融資規(guī)模和顛覆速度。

下面這張圖,就是講新事物的發(fā)展規(guī)律,這是硅谷孵化器 YCombinator 公開課 How to start a startup 提到的。一個新 Idea 加上一點點原型,就會迅速吸引眼球,然后先驅(qū)者引發(fā)潮流,在大眾爆發(fā)把泡沫吹到極致,接下來就是各種負面質(zhì)疑,名聲一落千丈,而這時離 Peak 也許才過去幾個月。

但這東西本質(zhì)沒有變,從“看山不是山”到“看山還是山”,這段重心回歸到產(chǎn)品上重新積累用戶,然后就到了可持續(xù)增長的健康軌道上。從 Quora 網(wǎng)站流量、Tesla 股票到比特幣,你都發(fā)現(xiàn)它們驚人的匹配這張圖的某個節(jié)點。背后不變的是人性,舉例在牛市,大家都很容易掙錢,但只有熬過最痛苦的時代(比如金融危機),才能體會事物發(fā)展本質(zhì)和踏實的意義。

第四,未來趨勢是什么?大家都很關(guān)心。我先提最近看的一部電影《Imitation Game》,它講的是計算機邏輯奠基者艾倫圖靈艱難的一生,當年為破譯德軍密碼制作了圖靈機為二戰(zhàn)勝利作出卓越貢獻,挽回幾千萬人的生命,可在那個時代因為同性戀被判化學(xué)閹割,自殺結(jié)束了短暫的 42 歲生命。

他的一個偉大貢獻就是在人工智能的開拓,他提出圖靈測試(Turing Test),測試某機器是否能表現(xiàn)出與人等價或無法區(qū)分的智能。我們現(xiàn)在回到今天,人工智能已有很大進步,從專家系統(tǒng)到基于統(tǒng)計的學(xué)習(xí),從支持向量機到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),每一步都帶領(lǐng)機器智能走向下一個階梯。

谷歌資深科學(xué)家吳軍博士提出當前技術(shù)發(fā)展的三個趨勢:第一,云計算和和移動互聯(lián)網(wǎng),這是正在進行時;第二,機器智能,現(xiàn)在開始發(fā)生,但對社會的影響很多人還沒意識到;第三,大數(shù)據(jù)和機器智能結(jié)合,這是未來時,一定會發(fā)生,有公司在做,但還沒太形成規(guī)模。

他認為未來機器會控制 98% 的人,而現(xiàn)在我們就要做個選擇,怎么成為剩下的 2% ?李開復(fù)在 2015 年新年展望也提出未來五年物聯(lián)網(wǎng)帶來龐大創(chuàng)業(yè)機會。

大數(shù)據(jù)入門

接下來,我講一講大數(shù)據(jù)入門。先來做個思考,以前有個國王很闊綽也很愛排場,有天,他很高興想獎賞他的寵臣,然后說,讓他來提任何獎勵。

這個大臣給國王看下面這個棋盤,是個 8*8 的方格,如果我在每個標號的格子內(nèi)放米粒,第一個格子放 1 粒米,后面格子總是前面格子的兩倍。那么問題來了,如果我把整個棋盤放滿,需要多少米粒?

我們學(xué)過級數(shù)的話,可以快速做個演算,它的推演是 1 + 2 + 4 …… + 2^63 = 2^64 - 1 .這個數(shù)字多大很多人沒印象,反正如果真要兌現(xiàn)的話,這個國家肯定是破產(chǎn)了。

其實我把這個棋盤分成上下兩半,在上一半總共需要的米粒是 2^32,這并不是個很大的數(shù),其實前幾年計算機的 32 位就是那么大,但下半場就完全不一樣了,這是個平方級別的規(guī)模,我下面會給大家一個交代?,F(xiàn)在大家也經(jīng)常聽到什么手機 64 位處理器,并無實際意義。

我們接著看看這張曲線圖是信息時代的增長,其實工業(yè)革命前(1820 年),世界人均 GDP 在 1800 年前的兩三千年里基本沒變化,而從 1820 年到 2001 年 180 年里,世界人均 GDP 從原來 667 美元增長到 6049 美元。

由此足見,工業(yè)革命帶來的收入增長的確翻天覆地。這里面發(fā)生了什么?大家可以思考一下。但人類的進步,并沒停止或者說穩(wěn)步增長,在發(fā)明了電力、電腦、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),全球年 GDP 增長 從萬分之 5 到 2%,信息也是在急劇增長。根據(jù)計算,最近兩年信息量是之前 30 年總和,最近 10 年是遠超人類所有之前累計信息量之和。

在計算機時代,有個著名摩爾定律,就是說同樣成本每隔 18 個月晶體管數(shù)量會翻倍,反過來,同樣數(shù)量晶體管成本會減半。這個規(guī)律已經(jīng)很好匹配了最近 30 年的發(fā)展,并且可以衍生到很多類似領(lǐng)域:存儲、功耗、帶寬、像素。

而最下面這個頭像是馮諾伊曼,20 世紀最重要數(shù)學(xué)家之一,在現(xiàn)代計算機、博弈論和核武器等諸多領(lǐng)域有杰出建樹的最偉大科學(xué)全才之一。他提出技術(shù)會逼近人類歷史上某種本質(zhì)的奇點,在那后,全部人類行為都不可能以我們熟悉的面貌繼續(xù)存在。

這就是著名的“奇點理論”,目前會呈越來越快的指數(shù)性增長,美國未來學(xué)家 Ray Kurzweil 稱:人類能在 2045 年實現(xiàn)數(shù)字化永生,他自己也創(chuàng)辦奇點大學(xué),相信隨信息技術(shù)、無線網(wǎng)、生物、物理等領(lǐng)域的指數(shù)級增長,將在 2029 年實現(xiàn)人工智能,人的壽命也將會在未來 15 年得到大幅延長。

我們再回到現(xiàn)在,地球上至今的數(shù)據(jù)量從 GB、TB、PB、EB 到達 ZB,我們之前提出的 2^64 就相當于 16EB 的大小。

大數(shù)據(jù)有什么用?

所謂“學(xué)以致用”,大數(shù)據(jù)領(lǐng)域在各行業(yè)都可以應(yīng)用,這里舉幾個有趣的例子。在 Linkedin 時,CEO 提出“經(jīng)濟圖譜”的概念,希望整合用戶、公司、工作機會、技能、學(xué)校和帖子變成一個復(fù)雜而有蘊含無限可能的數(shù)字化社會。

比如說找對象,有個國外極客,他抓取約會網(wǎng)站的數(shù)據(jù),根據(jù)一些指標如地理、年齡、興趣,建立下面的 3D 模型找到真愛;又如阿里巴巴通過數(shù)據(jù)魔方(它們的大數(shù)據(jù)產(chǎn)品),提煉出消費跟女生胸部成正比的結(jié)論。

在移動 App 上,今日頭條通過你的個人社會化信息,建起興趣圖譜推薦文章并隨你的使用會越來越聰明;在線教育領(lǐng)域:MOOC 中的 M 就是大規(guī)模的意思;其他如互聯(lián)網(wǎng)金融人人貸,通過大數(shù)據(jù)積累信用,釋放一些傳統(tǒng)金融體系下未被滿足而又廣泛存在的巨大需求,最近也是拿到 1.3 億美金融資。硅谷有家 Wealthfront 做大數(shù)據(jù)理財,23andMe 提供個人基因組的“大數(shù)據(jù)”等等。

大數(shù)據(jù)公司列表

下面是 2014 年別人總結(jié)的大數(shù)據(jù)公司列表,我們大致可以分成基礎(chǔ)架構(gòu)和應(yīng)用,而底層都是會用到一些通用技術(shù),如 Hadoop、Mahout、HBase 和 Cassandra,我在下面也會涵蓋。

我可以舉幾個例子,在分析這塊,Cloudera、hortonworks、mapr 作為 Hadoop 三劍客,一些運維領(lǐng)域,mangodb、couchbase 都是 nosql 代表,作為服務(wù)領(lǐng)域 AWS 和 Google BigQuery 劍拔弩張,在傳統(tǒng)數(shù)據(jù)庫,甲骨文收購了 MySQL、DB2 老牌銀行專用,Teradata 做了多年數(shù)據(jù)倉庫。

上面的 Apps 更多,比如社交消費領(lǐng)域的谷歌、亞馬遜、Netflix、Twitter、商業(yè)智能:SAP、GoodData,一些在廣告媒體領(lǐng)域:TURN、Rocketfuel,做智能運維 sumologic 等等。最后還有個去年的新星 Databricks 伴隨著 Spark 的浪潮震撼 Hadoop 的生態(tài)系統(tǒng)。

大數(shù)據(jù)之中國公司

對迅速成長的中國市場,大公司也意味大數(shù)據(jù),BAT 三家都是對大數(shù)據(jù)投入不惜余力,我 4 年前在百度時,百度就提出框計算的東東,最近兩年成立硅谷研究院,挖來 Andrew Ng 做首席科學(xué)家,研究項目就是百度大腦,在語音、圖片識別大幅提高精確度和召回率,最近還做了個無人自行車非常有趣。

騰訊作為最大社交應(yīng)用對大數(shù)據(jù)也情有獨鐘,自己研發(fā) C++ 平臺的海量存儲系統(tǒng)。淘寶去年雙十一主戰(zhàn)場,2 分鐘突破 10 億,交易額突破 571 億,背后是有很多故事,當年在百度做 Pyramid(按谷歌三輛馬車打造的金字塔三層分布式系統(tǒng))有志之士,繼續(xù)在 OceanBase 創(chuàng)造神話。

而阿里云當年備受爭議,馬云也在懷疑是不是被王堅忽悠,最后經(jīng)歷了雙十一洗禮證明 OceanBase 和阿里云的靠譜。小米的雷軍對大數(shù)據(jù)也是寄托厚望,一方面,這么多數(shù)據(jù)幾何級數(shù)增長;另一方面存儲帶寬都是巨大成本,沒價值就真破產(chǎn)。

大數(shù)據(jù)相關(guān)技術(shù)

大數(shù)據(jù)相關(guān)技術(shù),最緊密的就是云計算,我列出主要是 Amazon Web Service 和 Google Cloud Platform,在國內(nèi)還有阿里云、金山云、百度云、騰訊云、小米云、360 云、七?!總€里面都是大量技術(shù)文檔和標準,從計算到存儲,從數(shù)據(jù)庫到消息,從監(jiān)控到部署管理,從虛擬網(wǎng)絡(luò)到 CDN,把所有一切用軟件重新定義了一遍。

先來講亞馬遜的云。我本人在亞馬遜云計算部門工作過,所有還是比較了解 AWS,總體上成熟度很高,有大量創(chuàng)業(yè)公司都是基于上面開發(fā),比如有名的 Netflix、Pinterest、Coursera.

亞馬遜還是不斷創(chuàng)新,每年召開 reInvent 大會推廣新的云產(chǎn)品和分享成功案例,在這里面我隨便說幾個,像 S3 是簡單面向?qū)ο蟮拇鎯?,DynamoDB 是對關(guān)系型數(shù)據(jù)庫的補充,Glacier 對冷數(shù)據(jù)做歸檔處理,Elastic MapReduce 直接對 MapReduce 做打包提供計算服務(wù),EC2 就是基礎(chǔ)的虛擬主機,Data Pipeline 會提供圖形化界面直接串聯(lián)工作任務(wù)。

這邊還可以說一下 Redshift,它是一種(Massively Parallel Computer)架構(gòu),是非常方便的數(shù)據(jù)倉庫解決方案,就是 SQL 接口,跟各個云服務(wù)無縫連接,最大特點就是快,在 TB 到 PB 級別非常好的性能,我在工作中也直接使用,它還支持不同硬件平臺,如果想速度更快,可以使用 SSD 的,當然支持容量就小些。

在數(shù)據(jù)庫領(lǐng)域,我就列出三種代表,一類是關(guān)系型數(shù)據(jù)庫管理系統(tǒng),它的特點是 A(Atomic)、C(consistent)、I(isolation)、D(duration),連起來就是 ACID(酸)。簡單說,就是支持事務(wù)回滾和外鍵關(guān)聯(lián),而 NoSQL 是與之對應(yīng)的 Base(堿),所謂 Basic 可用,為了擴大 Scale,犧牲一些一致性和事務(wù)。而谷歌提出 F1,希望解決在大規(guī)模數(shù)據(jù)同時還要做到事務(wù)強一致性。在這里面都是非常常見的 NoSQL, 這些公司可能你都沒聽過,但它們都是融資過億,估值都非常高,在幾個 Billion 以上。

我會花一些篇幅介紹 Hadoop,首先看 Hadoop 從哪里開始的,不得不提谷歌的先進性,在 10 多年前,谷歌出了 3 篇論文論述分布式系統(tǒng)的做法,分別是 GFS、MapReduce、BigTable,非常牛逼的系統(tǒng),但沒人見過,在工業(yè)界很多人癢癢的,就想按其思想去仿作。

當時,Apache Nutch Lucene 作者 Doug Cutting 也是其中之一,后來他們被雅虎收購,專門成立團隊去投入做,就是 Hadoop 的開始和大規(guī)模發(fā)展的地方,之后隨著雅虎衰落,牛人去了 Facebook、谷歌,也有成立 Cloudera、Hortonworks 等大數(shù)據(jù)公司,把 Hadoop 的實踐帶到各個硅谷公司。

而谷歌還沒停止,又出了新的三輛馬車:Pregel、Caffeine 和 Dremel,后來又有很多步入后塵,開始新一輪開源大戰(zhàn)。

那么為啥 Hadoop 就比較適合做大數(shù)據(jù)呢?首先擴展很好,直接通過加節(jié)點就可以把系統(tǒng)能力提高,它有個重要思想是:移動計算而不是移動數(shù)據(jù),因為數(shù)據(jù)移動是很大的成本需要網(wǎng)絡(luò)帶寬。

其次,它提出的目標就是利用廉價普通計算機(硬盤),這樣雖然可能不穩(wěn)定(磁盤壞的幾率),但通過系統(tǒng)級別上的容錯和冗余達到高可靠性。并且非常靈活,可以使用各種data,二進制、文檔型、記錄型。使用各種形式(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化所謂的schemaless),在按需計算上也是個技巧。

另一個問題,我們提到 Hadoop 一般不會說某個東西,而是指生態(tài)系統(tǒng),在這里面太多交互的組件了,涉及到 IO、處理、應(yīng)用、配置、工作流。在真正的工作中,當幾個組件互相影響,你的頭疼的維護才剛剛開始。

我也簡單說幾個:Hadoop Core 就三個 HDFS、MapReduce、Common,在外圍有 NoSQL: Cassandra、HBase,有 Facebook 開發(fā)的數(shù)據(jù)倉庫 Hive,有雅虎主力研發(fā)的 Pig 工作流語言,有機器學(xué)習(xí)算法庫 Mahout,工作流管理軟件 Oozie,在很多分布式系統(tǒng)選擇 Master 中扮演重要角色的 Zookeeper.

下面是 Hortonworks 提出的數(shù)據(jù)平臺,這個公司比較強勢,它有最多的 Hadoop Committee 成員,是真正的標準制定者,而 2.0 就是由它們提出。

在 Hadoop 1.0 前,是 0.16 到 0.19、0.20,還有一只是 0.23 進化成現(xiàn)在的 2.0,應(yīng)該說,現(xiàn)在大致都被 2.0 取代了,主要區(qū)別是 1.0 只能支持 MapReduce 框架、資源和數(shù)據(jù)處理限制在一起。

而 2.0 首先抽象出 Yarn 這個資源管理器,然后上層可以支持各種插件機制,便于擴展,Hortonworks 還研發(fā)了 Tez 作為加速引擎把一些相關(guān)任務(wù)合并共享或者并行來優(yōu)化。

下面這個是英特爾給出的 Hadoop Stack,英特爾也是個對技術(shù)前沿由追求的公司,雖然它主業(yè)是處理器,但在互聯(lián)網(wǎng)的時代,為抓住一些軟件機會,它們也在積極融合,為生態(tài)系統(tǒng)做貢獻。

另外,Cloudera 是老牌 Hadoop 公司,成立 7、8 年了,當年 Hadoop 之父就是在那做首席架構(gòu),它提出的 CDH 版本是很多公司的穩(wěn)定 Hadoop 版本,一般公司也不會自己去搭 Hadoop 最新版,否則出了 Bug 會很痛苦,它提供了一個打包方便部署。

涉及技術(shù)細節(jié)甚至源代碼

下面內(nèi)容涉及技術(shù)細節(jié)甚至源代碼,可能有些枯燥,我也盡量深入淺出。我們先說 HDFS,所謂 Hadoop 的分布式文件系統(tǒng),它是能真正做到高強度容錯。并且根據(jù) locality 原理,對連續(xù)存儲做了優(yōu)化。

簡單說,就是分配大的數(shù)據(jù)塊,每次連續(xù)讀整數(shù)個。如果讓你自己來設(shè)計分布式文件系統(tǒng),在某機器掛掉還能正常訪問該怎么做?首先需要有個 master 作為目錄查找(這里就是 Namenode),那么數(shù)據(jù)節(jié)點是作為分割好一塊塊的,同一塊數(shù)據(jù)為了做備份不能放到同一個機器上,否則這臺機器掛了,你備份也同樣沒辦法找到。

HDFS 用一種機架位感知的辦法,先把一份拷貝放入同機架上的機器,然后在拷貝一份到其他服務(wù)器,也許是不同數(shù)據(jù)中心的,這樣如果某個數(shù)據(jù)點壞了,就從另一個機架上調(diào)用,而同一個機架它們內(nèi)網(wǎng)連接是非常快的,如果那個機器也壞了,只能從遠程去獲取。這是一種辦法,現(xiàn)在還有基于 erasure code 本來是用在通信容錯領(lǐng)域的辦法,可以節(jié)約空間又達到容錯的目的,大家感興趣可以去查詢。

接著說 MapReduce,首先是個編程范式,它的思想是對批量處理的任務(wù),分成兩個階段,所謂的 Map 階段就是把數(shù)據(jù)生成 key、value pair 再排序,中間有一步叫 shuffle,把同樣的 key 運輸?shù)酵粋€ reducer 上面去,而在 reducer 上,因為同樣 key 已經(jīng)確保在同一個上,就直接可以做聚合,算出一些 sum, 最后把結(jié)果輸出到 HDFS 上。對應(yīng)開發(fā)者來說,你需要做的就是編寫 Map 和 reduce 函數(shù),像中間的排序和 shuffle 網(wǎng)絡(luò)傳輸,容錯處理,框架已經(jīng)幫你做好了。但據(jù)說,谷歌內(nèi)部早不用這種,又有新的強大工具出現(xiàn)了。

HBase 就是對應(yīng)的 BigTable 的克隆版,它是基于列的存儲,可以很好的擴展型,這里面出現(xiàn)了 Zookeeper 作為它高可靠性的來源,我們在分布式系統(tǒng)中經(jīng)常怕 Single Point of Failure,它能保證在少于一半節(jié)點損害情況下,還是可以工作的。

這里的 region server 是說把數(shù)據(jù)的 key 做范圍劃分,比如 region server1 負責 key 從 1 到 1w 的,region server2 負責 1w 到 2w 的,這樣劃分之后,就可以利用分布式機器的存儲和運算能力了。

雖然 MapReduce 強大,但編寫很麻煩,在一般工作中,大家不會直接寫 MapReduce 程序。有人又開動大腦,簡化開發(fā)。Hive 的簡單介紹,它主要是 Facebook 開發(fā),確實很容易上手,如果做 data scientist,經(jīng)常也要用到這個工具。

我們想 MapReduce 模型有什么問題?第一:需要寫很多底層的代碼不夠高效,第二:所有事情必須要轉(zhuǎn)化成兩個操作,這本身就很奇怪,也不能解決所有的情況。那么下面就看看有什么可以做的更好的。

Spark 介紹

我還是介紹一些 Spark 的起源。Berkeley AMPLab,發(fā)表在 hotcloud 是一個從學(xué)術(shù)界到工業(yè)界的成功典范,也吸引了頂級 VC:Andreessen Horowitz 的注資。

AMPLab 這個實驗室非常厲害,做大數(shù)據(jù)、云計算,跟工業(yè)界結(jié)合很緊密,之前就是他們做 mesos、hadoop online,在 2013 年,這些大牛(Berkeley 系主任、MIT 最年輕的助理教授)從Berkeley AMPLab 出去成立了 Databricks,引無數(shù) Hadoop 大佬盡折腰,其實也不見得是它們內(nèi)心這么想,比如 Cloudera 也有自家的 impala,支持 Spark 肯定會讓它自家很難受,但如果你的客戶強烈要求你支持,你是沒有選擇的

另外起名字也很重要,Spark 就占了先機,它們 CTO 說 Where There‘s Spark There’s Fire,它是用函數(shù)式語言 Scala 編寫,Spark 簡單說就是內(nèi)存計算(包含迭代式計算,DAG 計算、流式計算 )框架,之前 MapReduce 因效率低下大家經(jīng)常嘲笑,而 Spark 的出現(xiàn)讓大家很清新。Reynod 作為 Spark 核心開發(fā)者, 介紹 Spark 性能超 Hadoop 百倍,算法實現(xiàn)僅有其 1/10 或 1/100.

那為啥用 Spark 呢?最直接就是快啊,你用 Hadoop 跑大規(guī)模數(shù)據(jù)幾個小時跑完,這邊才幾十秒,這種變化不僅是數(shù)量級的,并且是對你的開發(fā)方式翻天覆地的變化,比如你想驗證一個算法,你也不知道到底效果如何,但如果能在秒級就給你反饋,你可以立馬去調(diào)節(jié)。

其他的如比 MapReduce 靈活啊,支持迭代的算法,ad-hoc query,不需你費很多力氣花在軟件搭建上。如果說你用 Hadoop 組建集群、測試、部署一個簡單任務(wù)要 1 周時間,Spark 可能只要一天。在去年的 Sort benchmark 上,Spark 用了 23 分鐘跑完 100TB 的排序,刷新之前 Hadoop 保持的世界紀錄。

下面這個圖,是 Hadoop 跟 Spark 在回歸算法上比較,在 Hadoop 世界里,做迭代計算是非常耗資源,它每次的 IO 序列畫代價很大,所以每次迭代需要差不多的等待。而 Spark 第一次啟動需要載入到內(nèi)存,之后迭代直接在內(nèi)存利用中間結(jié)果做不落地的運算,所以后期迭代速度快到可以忽略不計。

此外,Spark 也是一個生態(tài)系統(tǒng),除核心組建 Spark,它也可以跑在 Hadoop 上,還提供了很多方便的庫,比如做流式計算,Spark Streaming,比如 GraphX 做圖的運算,MLBase 做機器學(xué)習(xí),Shark 類似 Hive,BinkDB 也很有意思,為達到高效,它允許你提供一個誤差概率,如果你要求精確度越低,它運算速度就越快,在做一些模糊計算時像 Twitter 的 Follower 數(shù)目,可以提高效率。

所以總體說,Spark 是一個非常精煉的 API,提供常用的集合操作,然后本身可以獨立運行,或在 Hadoop Yarn 上面,或者 Mesos,而存儲也可以用 HDFS,做到了兼容并包,敏捷高效。是不是會取代 Hadoop 或成為 Hadoop 的下一代核心,我們拭目以待!

如何學(xué)習(xí)大數(shù)據(jù)

那同學(xué)們?nèi)绻麊柸绾伍_始學(xué)習(xí)大數(shù)據(jù),我也有一些建議,首先還是打好基礎(chǔ),Hadoop 雖然火熱,但它的基礎(chǔ)原理,都是書本上很多年的積累,像 Unix 設(shè)計哲學(xué)、數(shù)據(jù)庫的原理;

其次是選擇目標,如果你想做數(shù)據(jù)科學(xué)家,我可以推薦 Coursera 的數(shù)據(jù)科學(xué)課程,通俗易懂,學(xué)習(xí) Hive、Pig 這些基本工具;如果做應(yīng)用層,主要是把 Hadoop 的一些工作流要熟悉,包括一些基本調(diào)優(yōu);如果是想做架構(gòu),除能搭建集群,對各基礎(chǔ)軟件服務(wù)很了解,還要理解計算機的瓶頸和負載管理,Linux 的一些性能工具。

最后,還是要多加練習(xí),大數(shù)據(jù)本身就是靠實踐,你可以先按 API 寫書上的例子,能夠先調(diào)試成功,在下面就是多積累,當遇到相似問題能找到對應(yīng)的經(jīng)典模式,再進一步就是實際問題,也許周邊誰也沒遇到,你需要些靈感和網(wǎng)上問問題的技巧,然后根據(jù)實際情況作出最佳選擇。

作者:董飛

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
董飛專欄:大數(shù)據(jù)入門——相關(guān)技術(shù)、Hadoop生態(tài)、LinkedIn內(nèi)部實戰(zhàn)
一篇文看懂Hadoop:風(fēng)雨十年,未來何去何從
Hadoop/Spark生態(tài)圈里的新氣象
大數(shù)據(jù)計算新貴Spark在騰訊雅虎優(yōu)酷成功應(yīng)用解析
深入淺出Spark(1)----什么是Spark
RDD:基于內(nèi)存集群計算的容錯抽象 | 簡單之美
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服