【IT168評論】企業(yè)在項目中完全使用Hadoop之前,數(shù)據(jù)移動是必須解決的事情之一。如何將數(shù)千臺主機日志數(shù)據(jù)放入Hadoop?從關系型或者No/NewSQL系統(tǒng)以及Hadoop中獲取數(shù)據(jù)的最有效方法是什么?如何將Hadoop中生成的Lucene索引輸出到服務器?這些流程如何實現(xiàn)自動化?本文是《Hadoop從入門到精通》大型專題的第5章,將完全解答上述問題,讓企業(yè)走上無憂數(shù)據(jù)移動之路。
CLI專為交互式HDFS活動而設計,它也可以合并到腳本中,以用于自動執(zhí)行某些任務。CLI的缺點是級別較低,并且沒有內(nèi)置任何自動化機制。它需要為每個命令分配一個fork,如果在bash腳本中使用可能沒問題,但如果試圖將HDFS功能集成到Python或Java應用程序中,可能就會出現(xiàn)問題。在這種情況下,為每個命令啟動外部進程的開銷可能也是想要避免的。
命令語法由兩部分組成:一是路徑;二是正在執(zhí)行的操作。但是,需要提供執(zhí)行操作的用戶名,否則HDFS將假定你是一個訪問受限的匿名用戶。
圖5.1解析WebHDFSURL路徑從HDFS讀取文件只需將OPEN指定為operation:使用WebHDFS編寫文件分為兩步:第一步通知NameNode創(chuàng)建新文件的意圖,可以使用HTTPPUT命令執(zhí)行此操作:
此時,文件尚未寫入。只是讓NameNode有機會確定要寫入哪個DataNode,這是在“Location”標頭中指定的。需要獲取該URL,然后發(fā)出第二個HTTPPUT執(zhí)行實際寫入:可以通過讀取文件來驗證寫入是否成功:WebHDFS支持可以使用常規(guī)命令行執(zhí)行所有HDFS操作,它更有用,因為它可以訪問結構化JSON表單中的元數(shù)據(jù),從而更容易解析數(shù)據(jù)。值得一提的是WebHDFS提供的一些附加功能。
表5.1WebHDFS庫當客戶端可以訪問所有NameNode和DataNode時,WebHDFS非常有用。在鎖定環(huán)境中,情況可能并非如此,可能需要查看HttpFS。從防火墻后面訪問HDFS生產(chǎn)Hadoop環(huán)境通常被鎖定以保護這些集群中的數(shù)據(jù)。部分安全程序可能包括將集群置于防火墻之后,如果嘗試從防火墻外部讀取或寫入HDFS,這將是一件麻煩事。
圖5.2HttpFS網(wǎng)關架構要啟動并運行HttpFS,必須指定代理用戶。這是將運行HttpFS進程的用戶,此用戶也將在Hadoop中配置為代理用戶。假設有一個名為foxyproxy的用戶,你將其指定為代理用戶。你用以下代碼更新core-site.xml:
基本上,這表明Hadoop應該只接受來自主機localhost的代理請求,并且foxyproxy可以冒充任何用戶(你可以通過提供以逗號分隔的組列表來鎖定可以模擬的用戶集名)。更改用戶名,主機和組值,以便它們在環(huán)境中有意義。
此curl命令與先前技術中使用的curl命令的唯一區(qū)別是端口號。默認情況下,HttpFS在端口14000上運行,但可以通過編輯httpfs-env.sh來更改。表5.2中顯示了可以在文件中更改的一些有趣屬性。
表5.2HttpFS屬性可以在httpfs-site.xml中配置其他Kerberos以及用戶和組級別設置。WebHDFS和HttpFS之間的差異WebHDFS和HttpFS之間的主要區(qū)別在于客戶端對所有數(shù)據(jù)節(jié)點的可訪問性。如果客戶端可以訪問所有數(shù)據(jù)節(jié)點,那么WebHDFS將正常工作,因為讀取和寫入文件涉及客戶端直接與數(shù)據(jù)節(jié)點通信以進行數(shù)據(jù)傳輸。
圖5.3HadoopNFS接下來,需要啟動HadoopNFS服務。啟動的第一個服務是portmap,它為協(xié)議及其關聯(lián)的傳輸和端口提供注冊服務。
現(xiàn)在,需要在主機目錄上安裝HDFS。以下示例選擇/hdfs作為安裝目錄。第二個mount命令驗證是否已創(chuàng)建安裝:現(xiàn)在,可以使用掛載的文件系統(tǒng)直接操作HDFS。使用NFS網(wǎng)關時需要考慮以下幾點:HDFS是僅附加文件系統(tǒng)??梢愿郊拥轿募?,但不能執(zhí)行隨機寫入。如果需要使用支持隨機寫入的文件系統(tǒng)來使用Hadoop,那么應該看看MapR的Hadoopdistribution。
聯(lián)系客服