Hadoop:分布式的文件系統(tǒng),結(jié)合其MapReduce編程模型可以用來做海量數(shù)據(jù)的批處理(Hive,Pig,HBase啥的就不說了),值得介紹的是Cloudera的Hadoop分支CDH5,基于YARN MRv2集成了Spark可直接用于生產(chǎn)環(huán)境的Hadoop,對于企業(yè)快速構(gòu)建數(shù)據(jù)倉庫非常有用。
Spark:大規(guī)模數(shù)據(jù)處理框架(可以應(yīng)付企業(yè)中常見的三種數(shù)據(jù)處理場景:復(fù)雜的批量數(shù)據(jù)處理(batch data processing);基于歷史數(shù)據(jù)的交互式查詢(interactive query);基于實時數(shù)據(jù)流的數(shù)據(jù)處理(streaming data processing))
除了Spark,其他幾個不錯的計算框架還有:Kylin,F(xiàn)link,Drill
Ignite: In-Memory Data Fabric
CarbonData: 華為的孵化項目,支持索引的列式存儲
Ceph:Linux分布式文件系統(tǒng)(特點:無中心)
Storm:實時流數(shù)據(jù)處理,可以看下IBM的一篇介紹 (還有個Yahoo的S4,也是做流數(shù)據(jù)處理的)
Druid: 實時數(shù)據(jù)分析存儲系統(tǒng)
Ambari: 大數(shù)據(jù)平臺搭建、監(jiān)控利器;類似的還有CDH
Tachyon:分布式內(nèi)存文件系統(tǒng)
Greenplum: 基于PostgreSQL的分布式MPP數(shù)據(jù)庫
Mesos:計算框架一個集群管理器,提供了有效的、跨分布式應(yīng)用或框架的資源隔離和共享
Impala:新一代開源大數(shù)據(jù)分析引擎,提供Sql語義,比Hive強(qiáng)在速度上
presto: facebook的開源工具,大數(shù)據(jù)分布式sql查詢引擎
SNAPPY:快速的數(shù)據(jù)壓縮系統(tǒng),適用于Hadoop生態(tài)系統(tǒng)中
Kafka:高吞吐量的分布式消息隊列系統(tǒng)
ActiveMQ:是Apache出品,最流行的,能力強(qiáng)勁的開源消息總線
MQTT:Message Queuing Telemetry Transport,消息隊列遙測傳輸)是IBM開發(fā)的一個即時通訊協(xié)議,有可能成為物聯(lián)網(wǎng)的重要組成部分
RabbitMQ:記得OpenStack就是用的這個東西吧
ZeroMQ:宣稱是將分布式計算變得更簡單,是個分布式消息隊列,可以看下云風(fēng)的一篇文章的介紹
開源的日志收集系統(tǒng):scribe、chukwa、kafka、flume。這有一篇對比文章
Zookeeper:可靠的分布式協(xié)調(diào)的開源項目
Databus:LinkedIn 實時低延遲數(shù)據(jù)抓取系統(tǒng)
數(shù)據(jù)源獲取:Flume、Google Refine、Needlebase、ScraperWiki、BloomReach
序列化技術(shù):JSON、BSON、Thrift、Avro、Google Protocol Buffers
NoSql:ScyllaDB(宣稱是世界上最快的NoSql)、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort、Neo4j
MapReduce相關(guān):Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum
數(shù)據(jù)處理:R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop
NLP自然語言處理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais
機(jī)器學(xué)習(xí):TensorFlow(Google出品),WEKA、Mahout、scikits.learn、SkyTree
可視化技術(shù):GraphViz、Processing、Protovis、Google Fusion Tables、Tableau、Highcharts、EChats(百度的還不錯)、Rapha?l.js
Kettle:開源的ETL工具
Pentaho:以工作流為核心的開源BI系統(tǒng)
Mondrian:開源的Rolap服務(wù)器
Oozie:開源hadoop的工作流調(diào)度引擎,類似的還有:Azkaban
開源的數(shù)據(jù)分析可視化工具:Weka、Orange、KNIME
Cobar:阿里巴巴的MySql分布式中間件
數(shù)據(jù)清洗:data wrangler, Google Refine
聯(lián)系客服