學(xué)習(xí)很重要的是能將紛繁復(fù)雜的信息進(jìn)行歸類和抽象。
對應(yīng)到大數(shù)據(jù)技術(shù)體系,雖然各種技術(shù)百花齊放,層出不窮,但大數(shù)據(jù)技術(shù)本質(zhì)上無非解決4個核心問題。
存儲,海量的數(shù)據(jù)怎樣有效的存儲?主要包括hdfs、Kafka;
計算,海量的數(shù)據(jù)怎樣快速計算?主要包括MapReduce、Spark、Flink等;
查詢,海量數(shù)據(jù)怎樣快速查詢?主要為Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解決隨機查詢,Olap技術(shù)主要解決關(guān)聯(lián)查詢;
挖掘,海量數(shù)據(jù)怎樣挖掘出隱藏的知識?也就是當(dāng)前火熱的機器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),包括TensorFlow、caffe、mahout等;
大數(shù)據(jù)技術(shù)生態(tài)其實是一個江湖....
在一個夜黑風(fēng)高的晚上,江湖第一大幫會Google三本陣法修煉秘籍流出,大數(shù)據(jù)技術(shù)江湖從此紛爭四起、永無寧日...
這三本秘籍分別為:
《Google file system》:論述了怎樣借助普通機器有效的存儲海量的大數(shù)據(jù);
《Google MapReduce》:論述了怎樣快速計算海量的數(shù)據(jù);
《Google BigTable》:論述了怎樣實現(xiàn)海量數(shù)據(jù)的快速查詢;
以上三篇論文秘籍是大數(shù)據(jù)入門的最好文章,通俗易懂,先看此三篇再看其它技術(shù);
在Google三大秘籍流出之后,江湖上,致力于武學(xué)開放的apache根據(jù)這三本秘籍分別研究出了對應(yīng)的武學(xué)巨著《hadoop》,并開放給各大門派研習(xí),Hadoop包括三大部分,分別是hdfs、MapReduce和hbase:
hdfs解決大數(shù)據(jù)的存儲問題。
mapreduce解決大數(shù)據(jù)的計算問題。
hbase解決大數(shù)據(jù)量的查詢問題。
之后,在各大門派的支持下,Hadoop不斷衍生和進(jìn)化各種分支流派,其中最激烈的當(dāng)屬計算技術(shù),其次是查詢技術(shù)。存儲技術(shù)基本無太多變化,hdfs一統(tǒng)天下。
以下為大概的演進(jìn):
1,傳統(tǒng)數(shù)據(jù)倉庫派說你mapreduce修煉太復(fù)雜,老子不會編程,老子以前用sql吃遍天下,為了將這撥人收入門下,并降低大數(shù)據(jù)修煉難度,遂出了hive,pig、impla等SQL ON Hadoop的簡易修煉秘籍;
2,伯克利派說你MapReduce只重招數(shù),內(nèi)力無法施展,且不同的場景需要修煉不同的技術(shù),太過復(fù)雜,于是推出基于內(nèi)力(內(nèi)存)的《Spark》,意圖解決所有大數(shù)據(jù)計算問題。
3,流式計算相關(guān)門派說你hadoop只能憋大招(批量計算),太麻煩,于是出了SparkStreaming、Storm,S4等流式計算技術(shù),能夠?qū)崿F(xiàn)數(shù)據(jù)一來就即時計算。
4,apache看各大門派紛爭四起,推出flink,想一統(tǒng)流計算和批量計算的修煉;
以上,如有幫助,別忘了點個贊,謝謝
聯(lián)系客服