九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
2017年大數(shù)據(jù)生態(tài)圈三強榜單已出,快來看看都有誰?

近日微信訂閱號OpenFEA發(fā)布了大數(shù)據(jù)生態(tài)圈三強名單。

之所以給他們起一個簡稱SHE,一方面是因為順口,方便記憶。另一方面是因為這三大系統(tǒng)都是大數(shù)據(jù)技術(shù)圈比較有代表性的生態(tài)系統(tǒng)及框架。他們就像母親一樣,承載萬物,哺育萬物,提供了各類大數(shù)據(jù)解決方案的支撐骨架,并且關(guān)系著各類應(yīng)用的生發(fā)衰亡。

S,代表Spark;

H,代表Hadoop;

E,代表Elastic Stack;

以下將分別進行介紹,并闡述上榜原因。

第一名. Hadoop

自大數(shù)據(jù)提出時起,人們就運用各種方法來進行處理。

早期,通過不斷提升服務(wù)器的性能,增加服務(wù)器集群數(shù)量來處理大規(guī)模數(shù)據(jù),但成本和代價高昂,最終達到一個無法接受的地步,人們不得不研究其它的處理方法。

2003年,Google發(fā)表了三篇大數(shù)據(jù)技術(shù)論文:《MapReduce》、《Google File System》、《Big Table》。這三篇論文描述了采用分布式計算方式來進行大數(shù)據(jù)處理的全新思路, 其主要思想是將任務(wù)分解,然后在多臺處理能力較弱的計算節(jié)點中同時處理, 最后將結(jié)果合并從而完成大數(shù)據(jù)處理。

這種方式因為采用廉價的P C 服務(wù)器集群, 實現(xiàn)了海量數(shù)據(jù)的管理,所以成為處理大數(shù)據(jù)的主要方式。時至今日,這種將數(shù)據(jù)化大為小,分而治之的處理方法,仍然應(yīng)用廣泛。但頗為可惜的是,Google雖然通過論文的方式向大數(shù)據(jù)技術(shù)大牛們指明了方向,但并沒有將其核心技術(shù)開源。因為Google MapReduce是私有技術(shù),所以它無法被其它公司運用,這也成為阻礙它發(fā)展壯大的原因之一,無法擠入榜單。

2005年,在Google MapReduce數(shù)據(jù)處理思想的啟發(fā)下,Apache基金會推出了Hadoop。Hadoop雖然在性能方面欠佳,但它開源的格局為它注入了旺盛的生命力,Hadoop的應(yīng)用遍地開花,Yahoo、Facebook、阿里巴巴等眾多IT企業(yè)紛紛轉(zhuǎn)向Hadoop平臺,并且推動和完善(Yahoo、Facebook、阿里巴巴應(yīng)用Hadoop平臺的信息來源于:鄒捷.大數(shù)據(jù)技術(shù)發(fā)展研究綜述〔J〕.科技風,2014,7(14))。

Yahoo投入了大量的資源到Hadoop的研究中,目前Yahoo在Hadoop上的貢獻率占了70%。從2005年起,Yahoo就成立了專門的團隊,致力于推動Hadoop的研發(fā),并將集群從20個節(jié)點發(fā)展到2011年的42000個節(jié)點,初具生產(chǎn)規(guī)模。在應(yīng)用領(lǐng)域,Yahoo更是積極地將Hadoop應(yīng)用于自己的各種產(chǎn)品中,在搜索排名、內(nèi)容優(yōu)化、廣告定位、反垃圾郵件、用戶興趣預(yù)測等方面得到了充分的應(yīng)用。

Facebook擁有超過10億的活躍用戶,需要存儲和處理的數(shù)據(jù)量巨大。它使用Hadoop平臺建立日志系統(tǒng)、推薦系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)等。2012年,F(xiàn)acebook甚至宣布放棄自行研發(fā)的開源項目Cassan-dra,全面采用Hbase為郵件系統(tǒng)提供數(shù)據(jù)庫支持。Facebook目前運行著的可能是全球最大規(guī)模的基于Hadoop的數(shù)據(jù)收集平臺。另一方面,F(xiàn)acebook也以自身的強大實力,為Hadoop提供強力的支持。2012年,F(xiàn)acebook宣傳開源Corona項目,這是MapReduce的改進版本,可以更好地利用集群資源。

阿里巴巴同樣是Hadoop技術(shù)的積極應(yīng)用者。2009年,阿里推出了以Hadoop為基礎(chǔ)的分布式數(shù)據(jù)平臺,代號“云梯”。云梯為淘寶在后來的多次嚴峻挑戰(zhàn)中經(jīng)受考驗打下了堅實的技術(shù)基礎(chǔ)。2014年3月,阿里宣傳,即將用自主研發(fā)的云梯二代替代開源項目為基礎(chǔ)的云梯一代。新平臺在性能上提升更大,同時擁有更多的知識產(chǎn)權(quán)和自主性。除了IT企業(yè),金融、傳媒、零售、能源、制藥等傳統(tǒng)行業(yè)在大數(shù)據(jù)技術(shù)應(yīng)用方面也積極響應(yīng),行業(yè)應(yīng)用系統(tǒng)研發(fā)、服務(wù)需求和計算模型研究都在蓬勃開展。

因此,Hadoop以應(yīng)用最廣而入三強,并且位列第一名。

Hadoop框架最核心的設(shè)計是:HDFS和MapReduce。HDFS用于非結(jié)構(gòu)化海量數(shù)據(jù)的存儲,MapReduce則為海量數(shù)據(jù)提供了計算。

另外,還有HBASE、HIVE、YARN等核心組件。Hbase,是運行在Hadoop上的一種分布式數(shù)據(jù)庫;HIVE,提供了類SQL的HQL語言查詢存放在HDFS上的數(shù)據(jù);Yarn,可以很方便的管理諸如Hive、Hbase、Spark等應(yīng)用,而MapReduce也需要運行在Yarn上面。

一、HDFS

HDFS是分布式計算的存儲基石,對于整個集群有單一的命名空間,具有數(shù)據(jù)一致性,適合一次寫入多次讀取的模型,客戶端在文件沒有被成功創(chuàng)建之前是無法看到文件存在的。文件會被分割成多個文件塊,每個文件塊被分配存儲到數(shù)據(jù)節(jié)點上,而且會根據(jù)配置由復(fù)制文件塊來保證數(shù)據(jù)的安全性。

HDFS通過三個重要的角色來進行文件系統(tǒng)的管理:NameNode、DataNode和Client。NameNode可以看做是分布式文件系統(tǒng)中的管理者,主要負責管理文件系統(tǒng)的命名空間、集群配置信息和存儲塊的復(fù)制等。

NameNode會將文件系統(tǒng)的Metadata存儲在內(nèi)存中,這些信息主要包括文件信息、每一個文件對應(yīng)的文件塊的信息和每一個文件塊在DataNode中的信息等。

DataNode是文件存儲的基本單元,它將文件塊(Block)存儲在本地文件系統(tǒng)中,保存了所有Block的Metadata,同時周期性地將所有存在的Block信息發(fā)送給NameNode。

Client就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。

二、MapReduce

MapReduce是一個高性能的分布式計算框架,用于對海量數(shù)據(jù)進行并行分析和處理。與傳統(tǒng)數(shù)據(jù)倉庫和分析技術(shù)相比,MapReduce適合處理各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)量在 TB 和 PB 級別,在這個量級上,傳統(tǒng)方法通常已經(jīng)無法處理數(shù)據(jù)。MapReduce 將分析任務(wù)分為大量的并行Map 任務(wù)和Reduce匯總?cè)蝿?wù)兩類。Map 任務(wù)運行在多個服務(wù)器上。指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。把一堆雜亂無章的數(shù)據(jù)按照某種特征歸納起來,然后處理并得到最后的結(jié)果。Map面對的是雜亂無章的互不相關(guān)的數(shù)據(jù),它解析每個數(shù)據(jù),從中提取出key和value,也就是提取了數(shù)據(jù)的特征。經(jīng)過MapReduce的Shuffle階段之后,在Reduce階段看到的都是已經(jīng)歸納好的數(shù)據(jù)了,在此基礎(chǔ)上我們可以做進一步的處理以便得到結(jié)果。

三、YARN

Yarn是一個分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下內(nèi)存、IO、網(wǎng)絡(luò)、磁盤等資源的利用率。嚴格來說,Yarn只是一個資源管理的框架,并不是一個計算框架,MapReduce計算框架需要運行在Yarn上。

Yarn,最主要的作用是,能夠使得各種應(yīng)用可以互不干擾的運行在同一個Hadoop系統(tǒng)中,共享整個集群資源。

四、HBASE

Hbase是運行在Hadoop上的一種分布式數(shù)據(jù)庫,部署于HDFS之上,克服了HDFS在隨機讀寫方面的缺點。

HBase是一種Key/Value系統(tǒng),和Hive不一樣,Hbase能夠在它的數(shù)據(jù)庫上實時運行,而不是運行MapReduce任務(wù)。在Hbase中,行是key/value映射的集合,這個映射通過row-key來唯一標識。Hbase利用Hadoop的基礎(chǔ)設(shè)施,可以利用通用的設(shè)備進行水平的擴展。

五、HIVE

Hive是一個構(gòu)建在Hadoop基礎(chǔ)設(shè)施之上的數(shù)據(jù)倉庫。通過Hive可以使用HQL語言查詢存放在HDFS上的數(shù)據(jù)。

HQL是一種類SQL語言,這種語言最終被轉(zhuǎn)化為Map/Reduce。雖然Hive提供了SQL查詢功能,但是Hive不能夠進行交互查詢,因為它只能夠在Haoop上批量的執(zhí)行Hadoop。

Hive被分區(qū)為表格,表格又被進一步分割為列簇。列簇必須使用schema定義,列簇將某一類型列集合起來(列不要求schema定義)。例如,“message”列簇可能包含:“to”, ”from” “date”, “subject”, 和”body”. 每一個 key/value對在Hbase中被定義為一個cell,每一個key由row-key,列簇、列和時間戳。

第二名. Spark

Hadoop MapReduce計算模型雖然大行其道,并且在海量數(shù)據(jù)分析領(lǐng)域成績斐然,被很多公司廣泛采用。但是,因為Hadoop MapReduce每次操作之后將所有數(shù)據(jù)寫回到物理存儲介質(zhì)(磁盤)上,而使海量數(shù)據(jù)的處理性能大大折扣,這是一個令人頭痛的問題!

2009年,Spark誕生于伯克利AMPLab,2010年開源。

與Hadoop相比,Spark真正的優(yōu)勢在于速度。因為Spark的大部分操作都是在內(nèi)存中,內(nèi)存比硬盤的讀取速度快上了N倍,所以Spark在某些計算類型上比Hadoop快上數(shù)倍,這也正是它發(fā)展迅速的主要原因。事實上,從創(chuàng)立到如今大紅大紫,Spark只花了8年左右的時間。

但是,Spark并不會取借Hadoop。Spark只是專注于計算,而不承擔數(shù)據(jù)存儲功能,它需要第三方存儲的支持,那就是Hadoop。

目前基于Hadoop和Spark的大數(shù)據(jù)生態(tài)日趨完善,人們對于Hadoop和Spark的認識也更加完整。Hadoop確立了大數(shù)據(jù)的處理框架,而Spark則是對Hadoop框架的改進,畢竟大數(shù)據(jù)是不斷發(fā)展的,而計算模型也需要與時俱進,計算模型的不斷更新才能適應(yīng)企業(yè)數(shù)據(jù)發(fā)展的新特點。Spark豐富了企業(yè)大數(shù)據(jù)的選擇。

Spark的用戶和應(yīng)用量一直在迅速增加,其中包括傳統(tǒng)工業(yè)廠商TOYOTA和著名O2O公司Uber與Airbnb,說明Spark的用戶領(lǐng)域不斷深化到傳統(tǒng)工業(yè)界和互聯(lián)網(wǎng)與傳統(tǒng)行業(yè)交叉的領(lǐng)域。不僅如此,越來越多的大數(shù)據(jù)商業(yè)版發(fā)行商例如Cloudera以及Hortonworks也開始將Spark納入其部署范圍,這無疑對Spark的商業(yè)應(yīng)用和推廣起到巨大作用,另一方面也顯示Spark平臺技術(shù)的先進性。

因此,Spark以主流計算框架的地位而入三強,并且位列第二名。

Spark的體系結(jié)構(gòu)不同于Hadoop,Spark主要包括Spark SQL、Spark Streaming、MLlib和GraphX。

(以下對Spark各組件的解釋,來源于http://blog.csdn.net/xwc35047/article/details/51072145)

一、Spark Streaming

Spark Streaming是基于Spark的上層應(yīng)用框架,使用內(nèi)建API,能像寫批處理文件一樣編寫流處理任務(wù),易于使用,它還提供良好的容錯特性,能在節(jié)點宕機情況下同時恢復(fù)丟失的工作和操作狀態(tài)。

在處理時間方面,Spark Streaming是基于時間片準實時處理,能達到秒級延遲,吞吐量比Storm大,此外還能和Spark SQL與Spark MLlib聯(lián)合使用,構(gòu)建強大的流狀態(tài)運行即席(ad-hoc)查詢和實時推薦系統(tǒng)。

二、Spark SQL

Spark SQL僅依賴HQL Parser、Hive metastore和Hive SerDe,即說明在解析SQL生成抽象語法樹(Abstract Syntax Tree,AST)后的部分都是由Spark SQL自身的Calalyst負責,利用scala模式匹配等函數(shù)式語言的特性,讓Catalyst開發(fā)的執(zhí)行計劃優(yōu)化策略比Hive更簡潔。除了HQL以外,Spark SQL還內(nèi)建了一個精簡的SQL parser,以及一套Scala特定領(lǐng)域語言(Domain Specific Language, DSL)。也就是說,如果只是使用Spark SQL內(nèi)建的SQL方言或Scala DSL對原生RDD對象進行關(guān)系查詢,用戶在開發(fā)Spark應(yīng)用時完全不需要依賴Hive的任何東西,因而日后的發(fā)展趨勢重點在Spark SQL,對Shark的支持會逐漸淡化。

Spark SQL從Spark1.3開始支持提供一個抽象的編程結(jié)構(gòu)DataFrames,能充當分布式SQL查詢引擎。DataFrame本質(zhì)就是一張關(guān)系型數(shù)據(jù)庫中的表,但是底層有很多方面的優(yōu)化,它能從多種數(shù)據(jù)源中轉(zhuǎn)化而來,例如結(jié)構(gòu)型數(shù)據(jù)文件(如Avro, Parquet, ORC, JSON和JDBC)、Hive表、外部數(shù)據(jù)庫或已經(jīng)存在的RDD。

三、MLlib

MLlib是Spark生態(tài)系統(tǒng)在機器學(xué)習領(lǐng)域的重要應(yīng)用,它充分發(fā)揮Spark迭代計算的優(yōu)勢,能比傳統(tǒng)MapReduce模型算法快100倍以上。

MLlib 1.3實現(xiàn)了邏輯回歸、線性SVM、隨機森林、K-means、奇異值分解等多種分布式機器學(xué)習算法,充分利用RDD的迭代優(yōu)勢,能應(yīng)對大規(guī)模數(shù)據(jù)應(yīng)用機器學(xué)習模型,并能與Spark Streaming、Spark SQL進行協(xié)作開發(fā)應(yīng)用,讓機器學(xué)習算法在基于大數(shù)據(jù)的預(yù)測、推薦和模式識別等方面應(yīng)用更廣泛。

四、GraphX

GraphX是另一個基于Spark的上層的分布式圖計算框架,提供了類似Google圖算法引擎Pregel的功能,主要處理社交網(wǎng)絡(luò)等節(jié)點和邊模型的問題。因為Spark能很好的支持迭代計算,故處理效率優(yōu)勢明顯。

第三名. Elastic Stack

大數(shù)據(jù)時代,隨著存儲與計算集群的規(guī)模逐漸壯大,系統(tǒng)運維數(shù)據(jù)和設(shè)備日志也越來越龐大而重要。這些數(shù)據(jù)既能反饋系統(tǒng)運行狀態(tài),也能幫助管理員通過日志數(shù)據(jù)來挖掘價值。

日志是帶有時間戳的基于時間序列的機器數(shù)據(jù),它與Hbase等數(shù)據(jù)庫存儲的半結(jié)構(gòu)化的數(shù)據(jù)的數(shù)據(jù)格式是不一樣。因此,它無法被Hadoop Hbase庫直接處理。

技術(shù)人員在日志處理方面,運用了各種方法及方案,總結(jié)起來,按時間先后可以歸納為如下三類:

剛開始,日志只做事后追查,使用數(shù)據(jù)庫存儲日志。這種方式,需要進行解析。

后來,采用Hadoop進行日志的離線處理。這種方式的缺點是實時性差。

現(xiàn)在,采用開源日志處理平臺Elastic Stack(ElasticSearch+Logstash+Kibana+Beats)。這種方式更靈活,擴展性更強。同時可配置Logstash 和Elasticsearch 集群用于支持大集群系統(tǒng)的運維日志數(shù)據(jù)監(jiān)控和查詢。自誕生之日起,就因為處理速度快,實時而發(fā)展迅速,如今已成為大數(shù)據(jù)日志處理方面的標準解決方案。

(來源于http://www.cnblogs.com/kylecky/p/5207198.html)

一、Beats

Beats主要采集網(wǎng)絡(luò)流量、文件log等數(shù)據(jù)。采集數(shù)據(jù)之后可以直接把數(shù)據(jù)發(fā)送給Elasticsearch或者通過Logstash發(fā)送給Elasticsearch,然后進行后續(xù)的數(shù)據(jù)分析活動。

Elastic官方的Beats有Packetbeat、Topbeat和Filebeat組成。其中,Packetbeat,有于分析網(wǎng)絡(luò)報文,Topbeat是服務(wù)器監(jiān)控程序,而Filebeat用于收集日志。

Beats獲取的數(shù)據(jù)都是未經(jīng)處理的,通過Logstash發(fā)送數(shù)據(jù)給Elasticsearch,主要用于對采集數(shù)據(jù)進行二次處理。

二、ElasticSearch

根據(jù)百度百科的定義,ElasticSearch是一個基于Lucene的搜索服務(wù)器。它提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。

Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中,能夠達到實時搜索,穩(wěn)定,可靠,快速,安裝使用方便。

三、Logstash

logstash是一個日志的傳輸、處理、管理平臺??梢杂脕韺θ罩具M行收集管理,提供 Web 接口用于查詢和統(tǒng)計。

四、Kibana

Kibana是一個基于web界面的數(shù)據(jù)展示工具,有點類似于OpenFEA的KA自助功能。

總結(jié)

大數(shù)據(jù)自提出時起至今日,技術(shù)更新迭代迅速,無數(shù)昨天的技術(shù)明星成為今日黃花。大浪淘沙,經(jīng)過多年的發(fā)展,我們以擁戴粉絲及應(yīng)用廣度為評選標準,最終得出如下榜單,各位大數(shù)據(jù)愛好者,快來看看有沒有您鐘意的技術(shù)明星?

參考文獻

1、鄒捷.大數(shù)據(jù)技術(shù)發(fā)展研究綜述〔J〕.科技風,2014,7(14)

2、http://blog.csdn.net/xwc35047/article/details/51072145,2017.3.7

3、http://www.cnblogs.com/kylecky/p/5207198.html,2017.3.10

4、http://baike.baidu.com/link?url=tlQzfsOtVH0_PIgofgu6pGVokcpSG7Q5b9fPQMboOpCqvX81Yqhg9S9yMNiyW-DmJyNopNhqriTvXhufCJhOXVRxNhp_FTTLLGmearYtEdC,2017.3.10

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
盤點Hadoop生態(tài)圈:13個讓大象飛起來的開源工具
基于云計算的大數(shù)據(jù)平臺基礎(chǔ)設(shè)施建設(shè)實踐
大數(shù)據(jù)系列之Hadoop框架
工業(yè)大數(shù)據(jù)漫談10:開源工業(yè)大數(shù)據(jù)軟件簡介(下)
大數(shù)據(jù)技術(shù)入門——Hadoop Spark│教與學(xué)(教學(xué)大綱)
大數(shù)據(jù)學(xué)習環(huán)境搭建系列(一)大數(shù)據(jù)集群平臺介紹
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服