九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大數(shù)據(jù)處理、數(shù)據(jù)分析及分布式工具


  • Hadoop:分布式的文件系統(tǒng),結(jié)合其MapReduce編程模型可以用來做海量數(shù)據(jù)的批處理(Hive,Pig,HBase啥的就不說了),值得介紹的是Cloudera的Hadoop分支CDH5,基于YARN MRv2集成了Spark可直接用于生產(chǎn)環(huán)境的Hadoop,對于企業(yè)快速構(gòu)建數(shù)據(jù)倉庫非常有用。

  • Spark:大規(guī)模數(shù)據(jù)處理框架(可以應(yīng)付企業(yè)中常見的三種數(shù)據(jù)處理場景:復(fù)雜的批量數(shù)據(jù)處理(batch data processing);基于歷史數(shù)據(jù)的交互式查詢(interactive query);基于實時數(shù)據(jù)流的數(shù)據(jù)處理(streaming data processing))

  • 除了Spark,其他幾個不錯的計算框架還有:Kylin,F(xiàn)link,Drill

  • Ignite: In-Memory Data Fabric

  • CarbonData: 華為的孵化項目,支持索引的列式存儲

  • Ceph:Linux分布式文件系統(tǒng)(特點:無中心)

  • Storm:實時流數(shù)據(jù)處理,可以看下IBM的一篇介紹 (還有個Yahoo的S4,也是做流數(shù)據(jù)處理的)

  • Druid: 實時數(shù)據(jù)分析存儲系統(tǒng)

  • Ambari: 大數(shù)據(jù)平臺搭建、監(jiān)控利器;類似的還有CDH

  • Tachyon:分布式內(nèi)存文件系統(tǒng)

  • Greenplum: 基于PostgreSQL的分布式MPP數(shù)據(jù)庫

  • Mesos:計算框架一個集群管理器,提供了有效的、跨分布式應(yīng)用或框架的資源隔離和共享

  • Impala:新一代開源大數(shù)據(jù)分析引擎,提供Sql語義,比Hive強(qiáng)在速度上

  • presto: facebook的開源工具,大數(shù)據(jù)分布式sql查詢引擎

  • SNAPPY:快速的數(shù)據(jù)壓縮系統(tǒng),適用于Hadoop生態(tài)系統(tǒng)中

  • Kafka:高吞吐量的分布式消息隊列系統(tǒng)

  • ActiveMQ:是Apache出品,最流行的,能力強(qiáng)勁的開源消息總線

  • MQTT:Message Queuing Telemetry Transport,消息隊列遙測傳輸)是IBM開發(fā)的一個即時通訊協(xié)議,有可能成為物聯(lián)網(wǎng)的重要組成部分

  • RabbitMQ:記得OpenStack就是用的這個東西吧

  • ZeroMQ:宣稱是將分布式計算變得更簡單,是個分布式消息隊列,可以看下云風(fēng)的一篇文章的介紹

  • 開源的日志收集系統(tǒng):scribe、chukwa、kafka、flume。這有一篇對比文章

  • Zookeeper:可靠的分布式協(xié)調(diào)的開源項目

  • Databus:LinkedIn 實時低延遲數(shù)據(jù)抓取系統(tǒng)

  • 數(shù)據(jù)源獲取:Flume、Google Refine、Needlebase、ScraperWiki、BloomReach

  • 序列化技術(shù):JSON、BSON、Thrift、Avro、Google Protocol Buffers

  • NoSql:ScyllaDB(宣稱是世界上最快的NoSql)、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort、Neo4j

  • MapReduce相關(guān):Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum

  • 數(shù)據(jù)處理:R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop

  • NLP自然語言處理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais

  • 機(jī)器學(xué)習(xí):TensorFlow(Google出品),WEKA、Mahout、scikits.learn、SkyTree

  • 可視化技術(shù):GraphViz、Processing、Protovis、Google Fusion Tables、Tableau、Highcharts、EChats(百度的還不錯)、Rapha?l.js

  • Kettle:開源的ETL工具

  • Pentaho:以工作流為核心的開源BI系統(tǒng)

  • Mondrian:開源的Rolap服務(wù)器

  • Oozie:開源hadoop的工作流調(diào)度引擎,類似的還有:Azkaban

  • 開源的數(shù)據(jù)分析可視化工具:Weka、Orange、KNIME

  • Cobar:阿里巴巴的MySql分布式中間件

  • 數(shù)據(jù)清洗:data wrangler, Google Refine

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)之Hadoop初識篇
Hadoop大數(shù)據(jù)生態(tài)系統(tǒng)及常用組件簡介
揭秘大數(shù)據(jù)(一)從Hadoop框架討論大數(shù)據(jù)生態(tài)
最全的大數(shù)據(jù)技術(shù)大合集:Hadoop家族、Cloudera系列、spark
hadoop
用Hadoop 還是不用Hadoop?
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服