Crush算法是ceph的兩大創(chuàng)新之一,簡(jiǎn)單來(lái)說(shuō),ceph摒棄了傳統(tǒng)的集中式存儲(chǔ)元數(shù)據(jù)尋址的方案,轉(zhuǎn)而使用CRUSH算法完成數(shù)據(jù)的尋址操作。CRUSH在一致性哈?;A(chǔ)上很好的考慮了容災(zāi)域的隔離,能夠?qū)崿F(xiàn)各類負(fù)載的副本放置規(guī)則,例如跨機(jī)房、機(jī)架感知等。Crush算法有相當(dāng)強(qiáng)大的擴(kuò)展性,理論上支持?jǐn)?shù)千個(gè)存儲(chǔ)節(jié)點(diǎn)。
Ceph中的數(shù)據(jù)副本數(shù)量可以由管理員自行定義,并可以通過(guò)CRUSH算法指定副本的物理存儲(chǔ)位置以分隔故障域,支持?jǐn)?shù)據(jù)強(qiáng)一致性; ceph可以忍受多種故障場(chǎng)景并自動(dòng)嘗試并行修復(fù)。
Ceph不同于swift,客戶端所有的讀寫操作都要經(jīng)過(guò)代理節(jié)點(diǎn)。一旦集群并發(fā)量增大時(shí),代理節(jié)點(diǎn)很容易成為單點(diǎn)瓶頸。Ceph本身并沒有主控節(jié)點(diǎn),擴(kuò)展起來(lái)比較容易,并且理論上,它的性能會(huì)隨著磁盤數(shù)量的增加而線性增長(zhǎng)。
Ceph支持三種調(diào)用接口:對(duì)象存儲(chǔ)
,塊存儲(chǔ)
,文件系統(tǒng)掛載
。三種方式可以一同使用。在國(guó)內(nèi)一些公司的云環(huán)境中,通常會(huì)采用ceph作為openstack的唯一后端存儲(chǔ)來(lái)提升數(shù)據(jù)轉(zhuǎn)發(fā)效率。
Ceph的底層是RADOS,RADOS本身也是分布式存儲(chǔ)系統(tǒng),CEPH所有的存儲(chǔ)功能都是基于RADOS實(shí)現(xiàn)。RADOS采用C++開發(fā),所提供的原生Librados API包括C和C++兩種。Ceph的上層應(yīng)用調(diào)用本機(jī)上的librados API,再由后者通過(guò)socket與RADOS集群中的其他節(jié)點(diǎn)通信并完成各種操作。
RADOS GateWay、RBD其作用是在librados庫(kù)的基礎(chǔ)上提供抽象層次更高、更便于應(yīng)用或客戶端使用的上層接口。其中,RADOS GW是一個(gè)提供與Amazon S3和Swift兼容的RESTful API的gateway,以供相應(yīng)的對(duì)象存儲(chǔ)應(yīng)用開發(fā)使用。RBD則提供了一個(gè)標(biāo)準(zhǔn)的塊設(shè)備接口,常用于在虛擬化的場(chǎng)景下為虛擬機(jī)創(chuàng)建volume。目前,Red Hat已經(jīng)將RBD驅(qū)動(dòng)集成在KVM/QEMU中,以提高虛擬機(jī)訪問(wèn)性能。這兩種方式目前在云計(jì)算中應(yīng)用的比較多。
CEPHFS則提供了POSIX接口,用戶可直接通過(guò)客戶端掛載使用。它是內(nèi)核態(tài)的程序,所以無(wú)需調(diào)用用戶空間的librados庫(kù)。它通過(guò)內(nèi)核中的net模塊來(lái)與Rados進(jìn)行交互。
用于集群中所有數(shù)據(jù)與對(duì)象的存儲(chǔ)。處理集群數(shù)據(jù)的復(fù)制、恢復(fù)、回填、再均衡。并向其他osd守護(hù)進(jìn)程發(fā)送心跳,然后向Mon提供一些監(jiān)控信息。
當(dāng)Ceph存儲(chǔ)集群設(shè)定數(shù)據(jù)有兩個(gè)副本時(shí)(一共存兩份),則至少需要兩個(gè)OSD守護(hù)進(jìn)程即兩個(gè)OSD節(jié)點(diǎn),集群才能達(dá)到active+clean狀態(tài)。
為Ceph文件系統(tǒng)提供元數(shù)據(jù)計(jì)算、緩存與同步。在ceph中,元數(shù)據(jù)也是存儲(chǔ)在osd節(jié)點(diǎn)中的,mds類似于元數(shù)據(jù)的代理緩存服務(wù)器。MDS進(jìn)程并不是必須的進(jìn)程,只有需要使用CEPHFS時(shí),才需要配置MDS節(jié)點(diǎn)。
監(jiān)控整個(gè)集群的狀態(tài),維護(hù)集群的cluster MAP二進(jìn)制表,保證集群數(shù)據(jù)的一致性。ClusterMAP描述了對(duì)象塊存儲(chǔ)的物理位置,以及一個(gè)將設(shè)備聚合到物理位置的桶列表。
無(wú)論使用哪種存儲(chǔ)方式(對(duì)象、塊、掛載),存儲(chǔ)的數(shù)據(jù)都會(huì)被切分成對(duì)象(Objects)。Objects size大小可以由管理員調(diào)整,通常為2M或4M。每個(gè)對(duì)象都會(huì)有一個(gè)唯一的OID,由ino與ono生成,雖然這些名詞看上去很復(fù)雜,其實(shí)相當(dāng)簡(jiǎn)單。ino即是文件的File ID,用于在全局唯一標(biāo)示每一個(gè)文件,而ono則是分片的編號(hào)。比如:一個(gè)文件FileID為A,它被切成了兩個(gè)對(duì)象,一個(gè)對(duì)象編號(hào)0,另一個(gè)編號(hào)1,那么這兩個(gè)文件的oid則為A0與A1。Oid的好處是可以唯一標(biāo)示每個(gè)不同的對(duì)象,并且存儲(chǔ)了對(duì)象與文件的從屬關(guān)系。由于ceph的所有數(shù)據(jù)都虛擬成了整齊劃一的對(duì)象,所以在讀寫時(shí)效率都會(huì)比較高。
但是對(duì)象并不會(huì)直接存儲(chǔ)進(jìn)OSD中,因?yàn)閷?duì)象的size很小,在一個(gè)大規(guī)模的集群中可能有幾百到幾千萬(wàn)個(gè)對(duì)象。這么多對(duì)象光是遍歷尋址,速度都是很緩慢的;并且如果將對(duì)象直接通過(guò)某種固定映射的哈希算法映射到osd上,當(dāng)這個(gè)osd損壞時(shí),對(duì)象無(wú)法自動(dòng)遷移至其他osd上面(因?yàn)橛成浜瘮?shù)不允許)。為了解決這些問(wèn)題,ceph引入了歸置組的概念,即PG。
PG是一個(gè)邏輯概念,我們linux系統(tǒng)中可以直接看到對(duì)象,但是無(wú)法直接看到PG。它在數(shù)據(jù)尋址時(shí)類似于數(shù)據(jù)庫(kù)中的索引:每個(gè)對(duì)象都會(huì)固定映射進(jìn)一個(gè)PG中,所以當(dāng)我們要尋找一個(gè)對(duì)象時(shí),只需要先找到對(duì)象所屬的PG,然后遍歷這個(gè)PG就可以了,無(wú)需遍歷所有對(duì)象。而且在數(shù)據(jù)遷移時(shí),也是以PG作為基本單位進(jìn)行遷移,ceph不會(huì)直接操作對(duì)象。
對(duì)象時(shí)如何映射進(jìn)PG的?還記得OID么?首先使用靜態(tài)hash函數(shù)對(duì)OID做hash取出特征碼,用特征碼與PG的數(shù)量去模,得到的序號(hào)則是PGID。由于這種設(shè)計(jì)方式,PG的數(shù)量多寡直接決定了數(shù)據(jù)分布的均勻性,所以合理設(shè)置的PG數(shù)量可以很好的提升CEPH集群的性能并使數(shù)據(jù)均勻分布。
最后PG會(huì)根據(jù)管理員設(shè)置的副本數(shù)量進(jìn)行復(fù)制,然后通過(guò)crush算法存儲(chǔ)到不同的OSD節(jié)點(diǎn)上(其實(shí)是把PG中的所有對(duì)象存儲(chǔ)到節(jié)點(diǎn)上),第一個(gè)osd節(jié)點(diǎn)即為主節(jié)點(diǎn),其余均為從節(jié)點(diǎn)。
locator = object_nameobj_hash = hash(locator)pg = obj_hash % num_pgosds_for_pg = crush(pg) # returns a list of osdsprimary = osds_for_pg[0]replicas = osds_for_pg[1:]
上圖中更好的詮釋了ceph數(shù)據(jù)流的存儲(chǔ)過(guò)程,數(shù)據(jù)無(wú)論是從三中接口哪一種寫入的,最終都要切分成對(duì)象存儲(chǔ)到底層的RADOS中。邏輯上通過(guò)算法先映射到PG上,最終存儲(chǔ)近OSD節(jié)點(diǎn)里。圖中除了之前介紹過(guò)的概念之外多了一個(gè)pools的概念。
Pool是管理員自定義的命名空間,像其他的命名空間一樣,用來(lái)隔離對(duì)象與PG。我們?cè)谡{(diào)用API存儲(chǔ)即使用對(duì)象存儲(chǔ)時(shí),需要指定對(duì)象要存儲(chǔ)進(jìn)哪一個(gè)POOL中。除了隔離數(shù)據(jù),我們也可以分別對(duì)不同的POOL設(shè)置不同的優(yōu)化策略,比如副本數(shù)、數(shù)據(jù)清洗次數(shù)、數(shù)據(jù)塊及對(duì)象大小等。
數(shù)據(jù)流向介紹到這里就告一段落了,現(xiàn)在終于回到正題:osd進(jìn)程。在ceph中,每一個(gè)osd進(jìn)程都可稱作是一個(gè)osd節(jié)點(diǎn),也就是說(shuō),每臺(tái)存儲(chǔ)服務(wù)器上可能包含了眾多的osd節(jié)點(diǎn),每個(gè)osd節(jié)點(diǎn)監(jiān)聽不同的端口,類似于在同一臺(tái)服務(wù)器上跑多個(gè)mysql或redis。每個(gè)osd節(jié)點(diǎn)可以設(shè)置一個(gè)目錄作為實(shí)際存儲(chǔ)區(qū)域,也可以是一個(gè)分區(qū),一整塊硬盤。如下圖,當(dāng)前這臺(tái)機(jī)器上跑了兩個(gè)osd進(jìn)程,每個(gè)osd監(jiān)聽4個(gè)端口,分別用于接收客戶請(qǐng)求、傳輸數(shù)據(jù)、發(fā)送心跳、同步數(shù)據(jù)等操作。
如上圖所示,osd節(jié)點(diǎn)默認(rèn)監(jiān)聽tcp的6800到6803端口,如果同一臺(tái)服務(wù)器上有多個(gè)osd節(jié)點(diǎn),則依次往后排序。
在生產(chǎn)環(huán)境中的osd最少可能都有上百個(gè),所以每個(gè)osd都有一個(gè)全局的編號(hào),類似osd0,osd1,osd2……..序號(hào)根據(jù)osd誕生的順序排列,并且是全局唯一的。存儲(chǔ)了相同PG的osd節(jié)點(diǎn)除了向mon節(jié)點(diǎn)發(fā)送心跳外,還會(huì)互相發(fā)送心跳信息以檢測(cè)pg數(shù)據(jù)副本是否正常。
Journal的作用類似于mysql innodb引擎中的事物日志系統(tǒng)。當(dāng)有突發(fā)的大量寫入操作時(shí),ceph可以先把一些零散的,隨機(jī)的IO請(qǐng)求保存到緩存中進(jìn)行合并,然后再統(tǒng)一向內(nèi)核發(fā)起IO請(qǐng)求。這樣做效率會(huì)比較高,但是一旦osd節(jié)點(diǎn)崩潰,緩存中的數(shù)據(jù)就會(huì)丟失,所以數(shù)據(jù)在還未寫進(jìn)硬盤中時(shí),都會(huì)記錄到j(luò)ournal中,當(dāng)osd崩潰后重新啟動(dòng)時(shí),會(huì)自動(dòng)嘗試從journal恢復(fù)因崩潰丟失的緩存數(shù)據(jù)。因此journal的io是非常密集的,而且由于一個(gè)數(shù)據(jù)要io兩次,很大程度上也損耗了硬件的io性能,所以通常在生產(chǎn)環(huán)境中,使用ssd來(lái)單獨(dú)存儲(chǔ)journal文件以提高ceph讀寫性能。
Mon節(jié)點(diǎn)監(jiān)控著整個(gè)ceph集群的狀態(tài)信息,監(jiān)聽于tcp的6789端口。每一個(gè)ceph集群中至少要有一個(gè)Mon節(jié)點(diǎn),官方推薦每個(gè)集群至少部署三臺(tái)。Mon節(jié)點(diǎn)中保存了最新的版本集群數(shù)據(jù)分布圖(cluster map)的主副本??蛻舳嗽谑褂脮r(shí),需要掛載mon節(jié)點(diǎn)的6789端口,下載最新的cluster map,通過(guò)crush算法獲得集群中各osd的IP地址,然后再與osd節(jié)點(diǎn)直接建立連接來(lái)傳輸數(shù)據(jù)。所以對(duì)于ceph來(lái)說(shuō),并不需要有集中式的主節(jié)點(diǎn)用于計(jì)算與尋址,客戶端分?jǐn)偭诉@部分工作。而且客戶端也可以直接和osd通信,省去了中間代理服務(wù)器的額外開銷。
Mon節(jié)點(diǎn)之間使用Paxos算法來(lái)保持各節(jié)點(diǎn)cluster map的一致性;各mon節(jié)點(diǎn)的功能總體上是一樣的,相互間的關(guān)系可以被簡(jiǎn)單理解為主備關(guān)系。如果主mon節(jié)點(diǎn)損壞,其他mon存活節(jié)點(diǎn)超過(guò)半數(shù)時(shí),集群還可以正常運(yùn)行。當(dāng)故障mon節(jié)點(diǎn)恢復(fù)時(shí),會(huì)主動(dòng)向其他mon節(jié)點(diǎn)拉取最新的cluster map。
Mon節(jié)點(diǎn)并不會(huì)主動(dòng)輪詢各個(gè)osd的當(dāng)前狀態(tài),相反,osd只有在一些特殊情況才會(huì)上報(bào)自己的信息,平常只會(huì)簡(jiǎn)單的發(fā)送心跳。特殊情況包括:1、新的OSD被加入集群;2、某個(gè)OSD發(fā)現(xiàn)自身或其他OSD發(fā)生異常。Mon節(jié)點(diǎn)在收到這些上報(bào)信息時(shí),則會(huì)更新cluster map信息并加以擴(kuò)散。
cluster map信息是以異步且lazy的形式擴(kuò)散的。monitor并不會(huì)在每一次cluster map版本更新后都將新版本廣播至全體OSD,而是在有OSD向自己上報(bào)信息時(shí),將更新回復(fù)給對(duì)方。類似的,各個(gè)OSD也是在和其他OSD通信時(shí),如果發(fā)現(xiàn)對(duì)方的osd中持有的cluster map版本較低,則把自己更新的版本發(fā)送給對(duì)方。
這里的ceph除了管理網(wǎng)段外,設(shè)了兩個(gè)網(wǎng)段,一個(gè)用于客戶端讀寫傳輸數(shù)據(jù)。另一個(gè)用于各OSD節(jié)點(diǎn)之間同步數(shù)據(jù)和發(fā)送心跳信息等。這樣做的好處是可以分擔(dān)網(wǎng)卡的IO壓力。否則在數(shù)據(jù)清洗時(shí),客戶端的讀寫速度會(huì)變得極為緩慢。
Mds是ceph集群中的元數(shù)據(jù)服務(wù)器,而通常它都不是必須的,因?yàn)橹挥性谑褂胏ephfs的時(shí)候才需要它,而目在云計(jì)算中用的更廣泛的是另外兩種存儲(chǔ)方式。
Mds雖然是元數(shù)據(jù)服務(wù)器,但是它不負(fù)責(zé)存儲(chǔ)元數(shù)據(jù),元數(shù)據(jù)也是被切成對(duì)象存在各個(gè)osd節(jié)點(diǎn)中的,如下圖:
在創(chuàng)建CEPHFS時(shí),要至少創(chuàng)建兩個(gè)POOL,一個(gè)用于存放數(shù)據(jù),另一個(gè)用于存放元數(shù)據(jù)。Mds只是負(fù)責(zé)接受用戶的元數(shù)據(jù)查詢請(qǐng)求,然后從osd中把數(shù)據(jù)取出來(lái)映射進(jìn)自己的內(nèi)存中供客戶訪問(wèn)。所以mds其實(shí)類似一個(gè)代理緩存服務(wù)器,替osd分擔(dān)了用戶的訪問(wèn)壓力,如下圖:
在安裝ceph之前推薦把所有的ceph節(jié)點(diǎn)設(shè)置成無(wú)需密碼ssh互訪,配置hosts支持主機(jī)名互訪,同步好時(shí)間,并關(guān)閉iptables和selinux。
當(dāng)前實(shí)驗(yàn)環(huán)境使用了4臺(tái)主機(jī)node1~node4,node1為管理節(jié)點(diǎn)。
Ceph官方推出了一個(gè)用python寫的工具 cpeh-deploy,可以很大的簡(jiǎn)化ceph集群的配置過(guò)程,建議大家用用。它的yum倉(cāng)庫(kù)地址,下載地址如下:
http://download.ceph.com/rpm-firefly/el6/noarch/
yum install -y ceph-deploy
Mkdir /ceph;cd /ceph
http://download.ceph.com/rpm-firefly/el6/noarch/
yum install –y ceph
ceph-deploy new node1執(zhí)行完畢后,可以看到/ceph目錄中生成了三個(gè)文件,其中有一個(gè)配置文件可以做各種參數(shù)優(yōu)化,據(jù)說(shuō)ceph的優(yōu)化參數(shù)接近1000項(xiàng)。(注意,在osd進(jìn)程生成并掛載使用后,想修改配置需要使用命令行工具,修改配置文件是無(wú)效的,所以需要提前規(guī)劃好優(yōu)化的參數(shù)。)
echo 'osd pool default size = 4' >> ceph.conf echo 'osd_pool_default_min_size = 3' >> ceph.conf echo 'public network = 192.168.120.0/24' >> ceph.conf echo 'cluster network = 10.0.0.0/8' >> ceph.conf 設(shè)置每個(gè)pool默認(rèn)的副本數(shù)是兩個(gè)(所有文件一共存四份,如果不設(shè)置此項(xiàng)則默認(rèn)為三份副本);設(shè)置最小副本數(shù)為3,也就是說(shuō),4份副本的環(huán)境下有一個(gè)副本損壞了,其他osd可以照常相應(yīng)用戶的讀寫請(qǐng)求;設(shè)置公共網(wǎng)絡(luò)地址段,即用于相應(yīng)客戶讀寫的網(wǎng)段;設(shè)置集群工作網(wǎng)段,用于集群同步數(shù)據(jù)、發(fā)送心跳等使用的網(wǎng)段。
ceph-deploy mon create-initial
ceph-deploy osd prepare node2:/dev/sdb1 node3:/dev/sdb1 node4:/dev/sdb1ceph-deploy osd prepare node2:/dev/sdb1 node3:/dev/sdb1 node4:/dev/sdb1
ceph-deploy --overwrite-conf admin node{1..4}
ceph-deploy mds create node1
ceph osd pool create test1 256ceph osd pool create test2 256
ceph fs new cephfs test2 test1默認(rèn)第一個(gè)池會(huì)存儲(chǔ)元數(shù)據(jù)
ceph –s
查看,如果是HEALTH_OK
狀態(tài)說(shuō)明配置成功ceph-deploy purge node{1..4}
ceph-deploy purgedata node{1..4}
ceph-deploy forgetkeys
目前來(lái)說(shuō),ceph在開源社區(qū)還是比較熱門的,但是更多的是應(yīng)用于云計(jì)算的后端存儲(chǔ)。官方推薦使用ceph的對(duì)象式存儲(chǔ),速度和效率都比較高,而cephfs官方并不推薦直接在生產(chǎn)中使用。以上介紹的只是ceph的滄海一粟,ceph遠(yuǎn)比上面介紹的要復(fù)雜,而且支持很多特性,比如使用糾刪碼就行尋址,所以大多數(shù)在生產(chǎn)環(huán)境中使用ceph的公司都會(huì)有專門的團(tuán)隊(duì)對(duì)ceph進(jìn)行二次開發(fā),ceph的運(yùn)維難度也比較大。但是經(jīng)過(guò)合理的優(yōu)化之后,ceph的性能和穩(wěn)定性都是值得期待的。
李晏,從事運(yùn)維工作3年,之前曾在奇虎360任職,目前在尋醫(yī)問(wèn)藥網(wǎng)擔(dān)任應(yīng)用運(yùn)維工程師。
獲取更多服務(wù),給你二維碼,你懂得!
聯(lián)系客服