前提和設計目標
硬件錯誤
硬件錯誤是常態(tài)而不是異常。HDFS可能由成百上千的服務器所構成,每個服務器上存儲著文件系統(tǒng)的部分數(shù)據(jù)。我們面對的現(xiàn)實是構成系統(tǒng)的組件數(shù)目是巨大的,而且任一組件都有可能失效,這意味著總是有一部分HDFS的組件是不工作的。因此錯誤檢測和快速、自動的恢復是HDFS最核心的架構目標。
流式數(shù)據(jù)訪問
運行在HDFS上的應用和普通的應用不同,需要流式訪問它們的數(shù)據(jù)集。HDFS的設計中更多的考慮到了數(shù)據(jù)批處理,而不是用戶交互處理。比之數(shù)據(jù)訪問的低延遲問題,更關鍵的在于數(shù)據(jù)訪問的高吞吐量。POSIX標準設置的很多硬性約束對HDFS應用系統(tǒng)不是必需的。為了提高數(shù)據(jù)的吞吐量,在一些關鍵方面對POSIX的語義做了一些修改。
大規(guī)模數(shù)據(jù)集
運行在HDFS上的應用具有很大的數(shù)據(jù)集。HDFS上的一個典型文件大小一般都在G字節(jié)至T字節(jié)。因此,HDFS被調節(jié)以支持大文件存儲。它應該能提供整體上高的數(shù)據(jù)傳輸帶寬,能在一個集群里擴展到數(shù)百個節(jié)點。一個單一的HDFS實例應該能支撐數(shù)以千萬計的文件。
簡單的一致性模型
HDFS應用需要一個“一次寫入多次讀取”的文件訪問模型。一個文件經(jīng)過創(chuàng)建、寫入和關閉之后就不需要改變。這一假設簡化了數(shù)據(jù)一致性問題,并且使高吞吐量的數(shù)據(jù)訪問成為可能。Map/Reduce應用或者網(wǎng)絡爬蟲應用都非常適合這個模型。目前還有計劃在將來擴充這個模型,使之支持文件的附加寫操作。
“移動計算比移動數(shù)據(jù)更劃算”
一個應用請求的計算,離它操作的數(shù)據(jù)越近就越高效,在數(shù)據(jù)達到海量級別的時候更是如此。因為這樣就能降低網(wǎng)絡阻塞的影響,提高系統(tǒng)數(shù)據(jù)的吞吐量。將計算移動到數(shù)據(jù)附近,比之將數(shù)據(jù)移動到應用所在顯然更好。HDFS為應用提供了將它們自己移動到數(shù)據(jù)附近的接口。
異構軟硬件平臺間的可移植性
HDFS在設計的時候就考慮到平臺的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應用平臺的推廣。
hdfs的結構
既然 Hadoop 守護進程已經(jīng)在運行了,現(xiàn)在看看每個守護進程在 Hadoop 框架中的作用。namenode 是 Hadoop 中的主服務器,它管理文件系統(tǒng)名稱空間和對集群中存儲的文件的訪問。還有一個 secondary namenode,它不是 namenode 的冗余守護進程,而是提供周期檢查點和清理任務。在每個 Hadoop 集群中可以找到一個 namenode 和一個 secondary namenode。
datanode 管理連接到節(jié)點的存儲(一個集群中可以有多個節(jié)點)。每個存儲數(shù)據(jù)的節(jié)點運行一個 datanode 守護進程。
最后,每個集群有一個 jobtracker,它負責調度 datanode 上的工作。每個 datanode 有一個 tasktracker,它們執(zhí)行實際工作。jobtracker 和 tasktracker 采用主-從形式,jobtracker 跨 datanode 分發(fā)工作,而 tasktracker 執(zhí)行任務。jobtracker 還檢查請求的工作,如果一個 datanode 由于某種原因失敗,jobtracker 會重新調度以前的任務。
使用jps查看進程
要想檢查守護進程是否正在運行,可以使用 jps 命令(這是用于 JVM 進程的 ps 實用程序)。這個命令列出 5 個守護進程及其進程標識符。
HDFS常用操作
hadoop dfs -ls 列出HDFS下的文件
hadoop dfs -ls in 列出HDFS下某個文檔中的文件
hadoop dfs -put test1.txt test 上傳文件到指定目錄并且重新命名,只有所有的DataNode都接收完數(shù)據(jù)才算成功
hadoop dfs -get in getin 從HDFS獲取文件并且重新命名為getin,同put一樣可操作文件也可操作目錄
hadoop dfs -rmr out 刪除指定文件從HDFS上
hadoop dfs -cat in/* 查看HDFS上in目錄的內容
hadoop dfsadmin -report 查看HDFS的基本統(tǒng)計信息,結果如下
hadoop dfsadmin -safemode leave 退出安全模式
hadoop dfsadmin -safemode enter 進入安全模式
添加節(jié)點
可擴展性是HDFS的一個重要特性,首先在新加的節(jié)點上安裝hadoop,然后修改$HADOOP_HOME/conf/master文件,加入NameNode主機名,然后在NameNode節(jié)點上修改$HADOOP_HOME/conf/slaves文件,加入新加節(jié)點主機名,再建立到新加節(jié)點無密碼的SSH連接
運行啟動命令:
start-all.sh
然后可以通過http://(Master node的主機名):50070查看新添加的DataNode
負載均衡
start-balancer.sh,可以使DataNode節(jié)點上選擇策略重新平衡DataNode上的數(shù)據(jù)塊的分布
Hadoop(包括HDFS)非常適合在商用硬件(commodity hardware)上做分布式存儲和計算,因為它不僅具有容錯性和可擴展性,而且非常易于擴展。Map-Reduce框架以其在大型分布式系統(tǒng)應用上的簡單性和可用性而著稱,這個框架已經(jīng)被集成進Hadoop中。
HDFS的可配置性極高,同時,它的默認配置能夠滿足很多的安裝環(huán)境。多數(shù)情況下,這些參數(shù)只在非常大規(guī)模的集群環(huán)境下才需要調整。
用Java語言開發(fā),支持所有的主流平臺。
支持類Shell命令,可直接和HDFS進行交互。
NameNode和DataNode有內置的Web服務器,方便用戶檢查集群的當前狀態(tài)。
新特性和改進會定期加入HDFS的實現(xiàn)中。下面列出的是HDFS中常用特性的一部分:
文件權限和授權。
機架感知(Rack awareness):在調度任務和分配存儲空間時考慮節(jié)點的物理位置。
安全模式:一種維護需要的管理模式。
fsck:一個診斷文件系統(tǒng)健康狀況的工具,能夠發(fā)現(xiàn)丟失的文件或數(shù)據(jù)塊。
Rebalancer:當datanode之間數(shù)據(jù)不均衡時,平衡集群上的數(shù)據(jù)負載。
升級和回滾:在軟件更新后有異常發(fā)生的情形下,能夠回滾到HDFS升級之前的狀態(tài)。
Secondary Namenode:對文件系統(tǒng)名字空間執(zhí)行周期性的檢查點,將Namenode上HDFS改動日志文件的大小控制在某個特定的限度下。
具體操作可以看官方中文的示例
http://hadoop.apache.org/common/docs/r0.19.2/cn/quickstart.html
聯(lián)系客服