精品无人区一区二区三,爽爽窝窝午夜精品一区二区

前提和設計目標
硬件錯誤

硬件錯誤是常態(tài)而不是異常。HDFS可能由成百上千的服務器所構成，每個服務器上存儲著文件系統(tǒng)的部分數(shù)據(jù)。我們面對的現(xiàn)實是構成系統(tǒng)的組件數(shù)目是巨大的，而且任一組件都有可能失效，這意味著總是有一部分HDFS的組件是不工作的。因此錯誤檢測和快速、自動的恢復是HDFS最核心的架構目標。
流式數(shù)據(jù)訪問

運行在HDFS上的應用和普通的應用不同，需要流式訪問它們的數(shù)據(jù)集。HDFS的設計中更多的考慮到了數(shù)據(jù)批處理，而不是用戶交互處理。比之數(shù)據(jù)訪問的低延遲問題，更關鍵的在于數(shù)據(jù)訪問的高吞吐量。POSIX標準設置的很多硬性約束對HDFS應用系統(tǒng)不是必需的。為了提高數(shù)據(jù)的吞吐量，在一些關鍵方面對POSIX的語義做了一些修改。
大規(guī)模數(shù)據(jù)集

運行在HDFS上的應用具有很大的數(shù)據(jù)集。HDFS上的一個典型文件大小一般都在G字節(jié)至T字節(jié)。因此，HDFS被調節(jié)以支持大文件存儲。它應該能提供整體上高的數(shù)據(jù)傳輸帶寬，能在一個集群里擴展到數(shù)百個節(jié)點。一個單一的HDFS實例應該能支撐數(shù)以千萬計的文件。
簡單的一致性模型

HDFS應用需要一個“一次寫入多次讀取”的文件訪問模型。一個文件經(jīng)過創(chuàng)建、寫入和關閉之后就不需要改變。這一假設簡化了數(shù)據(jù)一致性問題，并且使高吞吐量的數(shù)據(jù)訪問成為可能。Map/Reduce應用或者網(wǎng)絡爬蟲應用都非常適合這個模型。目前還有計劃在將來擴充這個模型，使之支持文件的附加寫操作。
“移動計算比移動數(shù)據(jù)更劃算”

一個應用請求的計算，離它操作的數(shù)據(jù)越近就越高效，在數(shù)據(jù)達到海量級別的時候更是如此。因為這樣就能降低網(wǎng)絡阻塞的影響，提高系統(tǒng)數(shù)據(jù)的吞吐量。將計算移動到數(shù)據(jù)附近，比之將數(shù)據(jù)移動到應用所在顯然更好。HDFS為應用提供了將它們自己移動到數(shù)據(jù)附近的接口。
異構軟硬件平臺間的可移植性

HDFS在設計的時候就考慮到平臺的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應用平臺的推廣。

hdfs的結構

既然 Hadoop 守護進程已經(jīng)在運行了，現(xiàn)在看看每個守護進程在 Hadoop 框架中的作用。namenode 是 Hadoop 中的主服務器，它管理文件系統(tǒng)名稱空間和對集群中存儲的文件的訪問。還有一個 secondary namenode，它不是 namenode 的冗余守護進程，而是提供周期檢查點和清理任務。在每個 Hadoop 集群中可以找到一個 namenode 和一個 secondary namenode。

datanode 管理連接到節(jié)點的存儲（一個集群中可以有多個節(jié)點）。每個存儲數(shù)據(jù)的節(jié)點運行一個 datanode 守護進程。

最后，每個集群有一個 jobtracker，它負責調度 datanode 上的工作。每個 datanode 有一個 tasktracker，它們執(zhí)行實際工作。jobtracker 和 tasktracker 采用主-從形式，jobtracker 跨 datanode 分發(fā)工作，而 tasktracker 執(zhí)行任務。jobtracker 還檢查請求的工作，如果一個 datanode 由于某種原因失敗，jobtracker 會重新調度以前的任務。

使用jps查看進程

要想檢查守護進程是否正在運行，可以使用 jps 命令（這是用于 JVM 進程的 ps 實用程序）。這個命令列出 5 個守護進程及其進程標識符。

HDFS常用操作

hadoop dfs -ls 列出HDFS下的文件

hadoop dfs -ls in 列出HDFS下某個文檔中的文件

hadoop dfs -put test1.txt test 上傳文件到指定目錄并且重新命名，只有所有的DataNode都接收完數(shù)據(jù)才算成功

hadoop dfs -get in getin 從HDFS獲取文件并且重新命名為getin，同put一樣可操作文件也可操作目錄

hadoop dfs -rmr out 刪除指定文件從HDFS上

hadoop dfs -cat in/* 查看HDFS上in目錄的內容

hadoop dfsadmin -report 查看HDFS的基本統(tǒng)計信息，結果如下

hadoop dfsadmin -safemode leave 退出安全模式

hadoop dfsadmin -safemode enter 進入安全模式

添加節(jié)點

可擴展性是HDFS的一個重要特性，首先在新加的節(jié)點上安裝hadoop，然后修改$HADOOP_HOME/conf/master文件，加入NameNode主機名，然后在NameNode節(jié)點上修改$HADOOP_HOME/conf/slaves文件，加入新加節(jié)點主機名，再建立到新加節(jié)點無密碼的SSH連接

運行啟動命令：

start-all.sh

然后可以通過http://(Master node的主機名):50070查看新添加的DataNode

負載均衡

start-balancer.sh，可以使DataNode節(jié)點上選擇策略重新平衡DataNode上的數(shù)據(jù)塊的分布

Hadoop（包括HDFS）非常適合在商用硬件（commodity hardware）上做分布式存儲和計算，因為它不僅具有容錯性和可擴展性，而且非常易于擴展。Map-Reduce框架以其在大型分布式系統(tǒng)應用上的簡單性和可用性而著稱，這個框架已經(jīng)被集成進Hadoop中。
HDFS的可配置性極高，同時，它的默認配置能夠滿足很多的安裝環(huán)境。多數(shù)情況下，這些參數(shù)只在非常大規(guī)模的集群環(huán)境下才需要調整。
用Java語言開發(fā)，支持所有的主流平臺。
支持類Shell命令，可直接和HDFS進行交互。
NameNode和DataNode有內置的Web服務器，方便用戶檢查集群的當前狀態(tài)。
新特性和改進會定期加入HDFS的實現(xiàn)中。下面列出的是HDFS中常用特性的一部分：

    文件權限和授權。
    機架感知（Rack awareness）：在調度任務和分配存儲空間時考慮節(jié)點的物理位置。
    安全模式：一種維護需要的管理模式。
    fsck：一個診斷文件系統(tǒng)健康狀況的工具，能夠發(fā)現(xiàn)丟失的文件或數(shù)據(jù)塊。
    Rebalancer：當datanode之間數(shù)據(jù)不均衡時，平衡集群上的數(shù)據(jù)負載。
    升級和回滾：在軟件更新后有異常發(fā)生的情形下，能夠回滾到HDFS升級之前的狀態(tài)。
    Secondary Namenode：對文件系統(tǒng)名字空間執(zhí)行周期性的檢查點，將Namenode上HDFS改動日志文件的大小控制在某個特定的限度下。

具體操作可以看官方中文的示例

http://hadoop.apache.org/common/docs/r0.19.2/cn/quickstart.html

hadoop使用：

hadoop使用（一）
hadoop使用（二）
hadoop使用（三）
hadoop使用（四）
hadoop使用（五）
hadoop使用（六）

hbase實戰(zhàn)：

hbase實戰(zhàn)——（1.1 nosql介紹）

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区