九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
為什么 Kafka 的吞吐量那么高?

在眾多的消息中間件中,Kafka 的性能和吞吐量絕對是頂尖級別的,那么問題來了, Kafka 是如何做到高吞吐的。在性能優(yōu)化方面,它使用了哪些技巧呢?下面我們就來分析一下。


以'批'為單位


批量處理是一種非常有效的提升系統(tǒng)吞吐量的方法,操作系統(tǒng)提供的緩沖區(qū)也是如此。在 Kafka 內(nèi)部,消息處理是以"批"為單位的,生產(chǎn)者、Broker、消費(fèi)者,都是如此。

在 Kafka 的客戶端 SDK 中,生產(chǎn)者只提供了單條發(fā)送的 send() 方法,并沒有提供任何批量發(fā)送的接口。原因是 Kafka 根本就沒有提供單條發(fā)送的功能,是的你沒有看錯,雖然它提供的 API 每次只能發(fā)送一條消息,但實(shí)際上 Kafka 的客戶端 SDK 在實(shí)現(xiàn)消息發(fā)送邏輯的時候,采用了異步批量發(fā)送的機(jī)制。

當(dāng)你調(diào)用 send() 方法發(fā)送一條消息之后,無論你是同步發(fā)送還是異步發(fā)送,Kafka 都不會立即就把這條消息發(fā)送出去。它會先把這條消息,存放在內(nèi)存中緩存起來,然后選擇合適的時機(jī)把緩存中的所有消息組成一批,一次性發(fā)給 Broker。簡單地說,就是攢一波一起發(fā)。

而 Kafka Broker 在收到這一批消息后,也不會將其還原成多條消息、再一條一條地處理,這樣太慢了。Kafka 會直接將"批消息"作為一個整體,也就是說,在 Broker 整個處理流程中,無論是寫入磁盤、從磁盤讀出來、還是復(fù)制到其他副本,在這些流程中,批消息都不會被解開,而是一直作為一條"批消息"來進(jìn)行處理的。

在消費(fèi)時,消息同樣是以批為單位進(jìn)行傳遞的,消費(fèi)者會從 Broker 拉到一批消息。然后將批消息解開,再一條一條交給用戶代碼處理。

比如生產(chǎn)者發(fā)送 30 條消息,在業(yè)務(wù)程序看來雖然是發(fā)送了 30 條消息,但對于 Kafka 的 Broker 來說,它其實(shí)就是處理了 1 條包含 30 條消息的"批消息"而已。顯然處理 1 次請求要比處理 30 次請求快得多,因?yàn)闃?gòu)建批消息和解開批消息分別在生產(chǎn)者和消費(fèi)者所在的客戶端完成,不僅減輕了 Broker 的壓力,最重要的是減少了 Broker 處理請求的次數(shù),提升了總體的處理能力。

批處理只能算是一種常規(guī)的優(yōu)化手段,它是通過減少網(wǎng)絡(luò) IO 從而實(shí)現(xiàn)優(yōu)化。而 Kafka 每天要處理海量日志,那么磁盤 IO 也是它的瓶頸。并且對于處在同一個內(nèi)網(wǎng)的數(shù)據(jù)中心來說,相比讀寫磁盤,網(wǎng)絡(luò)傳輸是非常快的。

接下來我們看一下,Kafka 在磁盤 IO 這塊兒做了哪些優(yōu)化。


磁盤順序讀寫


我們知道 kafka 是將消息存儲在文件系統(tǒng)之上的,高度依賴文件系統(tǒng)來存儲和緩存消息,因此可能有人覺得這樣做效率是不是很低呢?因?yàn)橐痛疟P打交道,而且使用的還是機(jī)械硬盤。

首先機(jī)械硬盤不適合隨機(jī)讀寫,但如果是順序讀寫,那么吞吐量實(shí)際上是不差的。在 SSD(固態(tài)硬盤)上,順序讀寫的性能要比隨機(jī)讀寫快幾倍,如果是機(jī)械硬盤,這個差距會達(dá)到幾十倍。因?yàn)椴僮飨到y(tǒng)每次從磁盤讀寫數(shù)據(jù)的時候,需要先尋址,也就是先要找到數(shù)據(jù)在磁盤上的物理位置,然后再進(jìn)行數(shù)據(jù)讀寫。如果是機(jī)械硬盤,這個尋址需要比較長的時間,因?yàn)樗苿哟蓬^,這是個機(jī)械運(yùn)動,機(jī)械硬盤工作的時候會發(fā)出咔咔的聲音,就是移動磁頭發(fā)出的聲音。

順序讀寫相比隨機(jī)讀寫省去了大部分的尋址時間,因?yàn)樗灰獙ぶ芬淮?,就可以連續(xù)地讀寫下去,所以說性能要比隨機(jī)讀寫好很多。

而 kafka 正是利用了這個特性,任何發(fā)布到分區(qū)的消息都會被追加到 "分區(qū)數(shù)據(jù)文件" 的尾部,如果一個文件寫滿了,就創(chuàng)建一個新的文件繼續(xù)寫。消費(fèi)的時候,也是從某個全局的位置開始,也就是某一個 log 文件中的某個位置開始,順序地把消息讀出來。這樣的順序?qū)懖僮髯?kafka 的效率非常高。


使用 PageCache


任何系統(tǒng),不管大小,如果想提升性能,使用緩存永遠(yuǎn)是一個不錯的選擇,而 PageCache 就是操作系統(tǒng)在內(nèi)存中給磁盤上的文件建立的緩存,它是由內(nèi)核托管的。無論我們使用什么語言,編寫的程序在調(diào)用系統(tǒng)的 API 讀寫文件的時候,并不會直接去讀寫磁盤上的文件,應(yīng)用程序?qū)嶋H操作的都是 PageCache,也就是文件在內(nèi)存中緩存的副本。

應(yīng)用程序在寫入文件的時候,操作系統(tǒng)會先把數(shù)據(jù)寫入到內(nèi)存中的 PageCache,然后再一批一批地寫到磁盤上。讀取文件的時候,也是從 PageCache 中來讀取數(shù)據(jù),這時候會出現(xiàn)兩種可能情況。

一種是 PageCache 中有數(shù)據(jù),那就直接讀取,這樣就節(jié)省了從磁盤上讀取的時間;另一種情況是,PageCache 中沒有數(shù)據(jù),這時候操作系統(tǒng)會引發(fā)一個缺頁中斷,應(yīng)用程序的讀取線程會被阻塞,操作系統(tǒng)把數(shù)據(jù)從文件復(fù)制到 PageCache 中,然后應(yīng)用程序再從 PageCache 繼續(xù)把數(shù)據(jù)讀出來,這時會真正讀一次磁盤上的文件,這個讀的過程就會比較慢。

用戶的應(yīng)用程序在使用完某塊 PageCache 后,操作系統(tǒng)并不會立刻就清除這個 PageCache,而是盡可能地利用空閑的物理內(nèi)存保存這些 PageCache,除非系統(tǒng)內(nèi)存不夠用,操作系統(tǒng)才會清理掉一部分 PageCache。清理的策略一般是 LRU 或它的變種算法,核心邏輯就是:優(yōu)先保留最近一段時間最常使用的那些 PageCache。

另外 PageCache 還有預(yù)讀功能,假設(shè)我們讀取了 1M 的內(nèi)容,但 Linux 實(shí)際讀取的卻并不止 1M,因?yàn)檫@樣你后續(xù)再讀取的時候就不需要從磁盤上加載了。因?yàn)閺拇疟P到內(nèi)存的數(shù)據(jù)傳輸速度是很慢的,如果物理內(nèi)存有空余,那么就可以多緩存一些內(nèi)容。

而 Kafka 在讀寫消息文件的時候,充分利用了 PageCache 的特性。一般來說,消息剛剛寫入到服務(wù)端就會被消費(fèi),讀取的時候,對于這種剛剛寫入的 PageCache,命中的幾率會非常高。也就是說,大部分情況下,消費(fèi)讀消息都會命中 PageCache,帶來的好處有兩個:一個是讀取的速度會非??欤硗庖粋€是,給寫入消息讓出磁盤的 IO 資源,間接也提升了寫入的性能。


ZeroCopy(零拷貝)


Kafka 還使用了零拷貝技術(shù),首先 Broker 將消息發(fā)送給消費(fèi)者的過程如下:

  • 將指定的消息日志從文件讀到內(nèi)存中;

  • 將消息通過網(wǎng)絡(luò)發(fā)送給消費(fèi)者客戶端;

這個過程會經(jīng)歷幾次復(fù)制,以及用戶空間和內(nèi)核空間的切換,示意圖如下。

整個過程大概是以上 6 個步驟,我們分別解釋一下。

1)應(yīng)用程序要讀取磁盤文件,但只有內(nèi)核才能操作硬件設(shè)備,所以此時會從用戶空間切換到內(nèi)核空間。

2)通過 DMA 將文件讀到 PageCache 中,此時的數(shù)據(jù)拷貝是由 DMA 來做的,不耗費(fèi) CPU。關(guān)于 DMA,它是一種允許硬件系統(tǒng)訪問計算機(jī)內(nèi)存的技術(shù),說白了就是給 CPU 打工的,幫 CPU 干一些搬運(yùn)數(shù)據(jù)的簡單工作。

CPU 告訴 DMA 自己需要哪些數(shù)據(jù),然后 DMA 負(fù)責(zé)搬運(yùn)到 PageCache,等搬運(yùn)完成后,DMA 控制器再通過中斷通知 CPU,這樣就極大地節(jié)省了 CPU 的資源。

但如果要讀取的內(nèi)容已經(jīng)命中 PageCache,那么這一步可以省略。

3)將文件內(nèi)容從 PageCache 拷貝到用戶空間中,因?yàn)閼?yīng)用程序在用戶空間,磁盤數(shù)據(jù)必須從內(nèi)核空間搬運(yùn)到用戶空間,應(yīng)用程序才能操作它。注意:這一步的數(shù)據(jù)搬運(yùn)不再由 DMA 負(fù)責(zé),而是由 CPU 負(fù)責(zé)。

因?yàn)?DMA 主要用于硬件設(shè)備與內(nèi)存之間的數(shù)據(jù)傳輸,例如從磁盤到 RAM,從 RAM 到網(wǎng)卡。雖然 DMA 可以減少 CPU 的負(fù)擔(dān),但通常不用于內(nèi)核空間和用戶空間之間的數(shù)據(jù)搬運(yùn),至于原因也很簡單:

  • 操作系統(tǒng)需要保護(hù)內(nèi)核空間,防止用戶程序直接訪問,以維護(hù)系統(tǒng)的安全和穩(wěn)定。通過 CPU 進(jìn)行數(shù)據(jù)拷貝,操作系統(tǒng)可以控制哪些數(shù)據(jù)和資源可以被用戶程序訪問。

  • CPU 可以處理復(fù)雜的邏輯和任務(wù)調(diào)度,更適合執(zhí)行這種涉及系統(tǒng)安全和資源管理的任務(wù)。

  • 在數(shù)據(jù)從內(nèi)核空間傳輸?shù)接脩艨臻g的過程中,可能需要進(jìn)行一些額外的處理,例如格式轉(zhuǎn)換、權(quán)限檢查等,這些都是 CPU 更擅長的。

另外用戶空間和內(nèi)核空間的切換,本質(zhì)上就是 CPU 的執(zhí)行上下文和權(quán)限級別發(fā)生了改變。

因此這一步會涉及用戶態(tài)和內(nèi)核態(tài)之間的切換,和一個數(shù)據(jù)的拷貝。

4) 文件內(nèi)容讀取之后,要通過網(wǎng)絡(luò)發(fā)送給消費(fèi)者客戶端。而內(nèi)核提供了一個 Socket 緩沖區(qū),位于用戶空間的應(yīng)用程序在發(fā)送數(shù)據(jù)時,會先通過 CPU 將數(shù)據(jù)拷貝到內(nèi)核空間的 Socket 緩沖區(qū)中,再由內(nèi)核通過網(wǎng)卡發(fā)送給消費(fèi)者。

同樣的,當(dāng)數(shù)據(jù)從網(wǎng)絡(luò)到達(dá)時,也會先被放在 Socket 緩沖區(qū)中。應(yīng)用程序從該緩沖區(qū)讀取數(shù)據(jù),數(shù)據(jù)被拷貝到用戶空間。

所以應(yīng)用程序在通過網(wǎng)絡(luò)收發(fā)數(shù)據(jù)時,其實(shí)都是在和 Socket 緩沖區(qū)打交道,具體的發(fā)送和接收任務(wù)都是由內(nèi)核來做的,因?yàn)橹挥袃?nèi)核才能操作硬件設(shè)備。用戶空間的代碼要想與硬件設(shè)備交互,必須通過系統(tǒng)調(diào)用或操作系統(tǒng)提供的其它接口,然后由內(nèi)核代為執(zhí)行。

所以通過網(wǎng)絡(luò)發(fā)送數(shù)據(jù),會涉及一次數(shù)據(jù)的拷貝,以及用戶空間和內(nèi)核空間的切換。因?yàn)?CPU 要將數(shù)據(jù)從用戶空間搬運(yùn)到內(nèi)核空間的 Socket 緩沖區(qū)中。

5) 內(nèi)核要將 Socket 緩沖區(qū)里的數(shù)據(jù)通過網(wǎng)卡發(fā)送出去,于是再將數(shù)據(jù)從 Socket 緩沖區(qū)搬到網(wǎng)卡的緩沖區(qū)里面,而這一步搬運(yùn)是由 DMA 來做的。只要不涉及用戶空間,大部分的數(shù)據(jù)搬運(yùn)都可以由 DMA 來做,而一旦涉及到用戶空間,數(shù)據(jù)搬運(yùn)就必須由 CPU 來做。

6) 發(fā)送完畢之后,再從內(nèi)核空間切換到用戶空間,應(yīng)用程序繼續(xù)干其它事情。

如果想要提升性能,那么關(guān)鍵就在于減少上下文切換的次數(shù)和數(shù)據(jù)拷貝的次數(shù),因?yàn)橛脩艨臻g和內(nèi)核空間的切換是需要成本的,至于數(shù)據(jù)拷貝就更不用說了。

而整個過程涉及了 4 次的上下文切換,因?yàn)橛脩艨臻g沒有權(quán)限操作磁盤或網(wǎng)卡,這些操作都需要交由操作系統(tǒng)內(nèi)核來完成。而通過內(nèi)核去完成某些任務(wù)的時候,需要使用操作系統(tǒng)提供的系統(tǒng)調(diào)用函數(shù)。而一次系統(tǒng)調(diào)用必然會發(fā)生兩次上下文切換:首先從用戶態(tài)切換到內(nèi)核態(tài),當(dāng)內(nèi)核執(zhí)行完任務(wù)后,再切換回用戶態(tài)交由應(yīng)用程序執(zhí)行其它代碼。

然后是數(shù)據(jù)拷貝,這個數(shù)據(jù)也被拷貝了 4 次,其中兩次拷貝由 DMA 負(fù)責(zé),另外兩次由 CPU 負(fù)責(zé)。但很明顯,CPU 的兩次拷貝沒有太大必要,先將數(shù)據(jù)從 PageCache 拷貝到用戶空間,然后再從用戶空間拷貝到 Socket 緩沖區(qū)。既然這樣的話,那直接從 PageCache 拷貝到 Socket 緩沖區(qū)不行嗎。

如果文件在讀取之后不對它進(jìn)行操作,或者說不對文件數(shù)據(jù)進(jìn)行加工,只是單純地通過網(wǎng)卡發(fā)送出去,那么就沒必要到用戶空間這里繞一圈。

此時的 4 次上下文切換就變成了 2 次,因?yàn)橄到y(tǒng)調(diào)用只有 1 次。數(shù)據(jù)搬運(yùn)也由 4 次變成了 3 次,所以總共減少了兩次上下文切換和一次數(shù)據(jù)拷貝。

而這種減少數(shù)據(jù)拷貝(特別是在用戶和內(nèi)核之間的數(shù)據(jù)拷貝)的技術(shù),便稱之為零拷貝。

Linux 內(nèi)核提供了一個系統(tǒng)調(diào)用函數(shù) sendfile(),便可以實(shí)現(xiàn)上面這個過程。

#include <sys/sendfile.h>

ssize_t sendfile(int out_fd, int in_fd, 
                 off_t *offset, size_t count)
;

out_fd 和 in_fd 均為文件描述符,分別代表要寫入的文件和要讀取的文件,offset 表示從文件的哪個位置開始讀,count 表示寫入多少個字節(jié)。返回值是實(shí)際寫入的長度。

當(dāng)然像 Python、Java 都對 sendfile 進(jìn)行了封裝,我們在使用 Python 進(jìn)行 Socket 編程時,便可以使用該方法。

當(dāng)然該方法會調(diào)用 os.sendfile(),它和 C 的 sendfile() 是一致的,如果是 Linux 系統(tǒng),那么不存在問題。如果是 Windows 系統(tǒng),os.sendfile() 則不可用,此時 Socket 的 sendfile 會退化為 send 方法。


然而目前來說,雖然實(shí)現(xiàn)了零拷貝,但還不是零拷貝的終極形態(tài)。我們看到 CPU 還是進(jìn)行了一次拷貝,并且此時雖然不涉及用戶空間,但數(shù)據(jù)搬運(yùn)依舊是 CPU 來做的。因?yàn)?DMA 主要負(fù)責(zé)硬件(例如磁盤或網(wǎng)卡)和內(nèi)存的數(shù)據(jù)傳輸,但不適用于內(nèi)存到內(nèi)存的數(shù)據(jù)拷貝。

那么問題來了,數(shù)據(jù)文件從磁盤讀到 PageCache 之后,可不可以直接搬到網(wǎng)卡緩沖區(qū)里面呢?如果你的網(wǎng)卡支持 SG-DMA 技術(shù),那么通過 CPU 將數(shù)據(jù)從 PageCache 拷貝到 socket 緩沖區(qū)這一步也可以省略。

你可以通過以下命令,查看網(wǎng)卡是否支持 SG(scatter-gather)特性:

[root@satori ~]# ethtool -k eth0 | grep scatter-gather
scatter-gather: on
 tx-scatter-gather: on
 tx-scatter-gather-fraglist: off [fixed]

Linux 內(nèi)核從 2.4 版本開始起,對于那些支持 SG-DMA 技術(shù)的網(wǎng),會進(jìn)一步優(yōu)化 sendfile() 系統(tǒng)調(diào)用的過程,優(yōu)化后的過程如下:

  • DMA 將數(shù)據(jù)從磁盤拷貝到 PageCache;

  • 將描述符和數(shù)據(jù)長度發(fā)送到 Socket 緩沖區(qū),網(wǎng)卡的 SG-DMA 控制器基于該信息直接將 PageCache 的數(shù)據(jù)拷貝到網(wǎng)卡緩沖區(qū)中;

整個過程如下:

此時便拷貝(Zero-copy技術(shù)的終極形態(tài),因?yàn)槲覀儧]有在內(nèi)存層面去拷貝數(shù)據(jù),也就是說全程沒有通過 CPU 來搬運(yùn)數(shù)據(jù),所有的數(shù)據(jù)都是通過 DMA 來進(jìn)行傳輸?shù)摹?/span>

使用零拷貝技術(shù)只需要兩次上下文切換和數(shù)據(jù)拷貝,就可以完成文件的傳輸,因?yàn)樗?span style="font-size: 15px;text-wrap: wrap;letter-spacing: 0.578px;">通過一次系統(tǒng)調(diào)用(sendfile 方法)將磁盤讀取與網(wǎng)絡(luò)發(fā)送兩個操作給合并了,從而降低了上下文切換次數(shù)。而且兩次的數(shù)據(jù)拷貝過程也不需要通過 CPU,都是由 DMA 來搬運(yùn)。所以總體來看,零拷貝技術(shù)可以把文件傳輸?shù)男阅芴岣咧辽僖槐兑陨稀?/span>

但需要注意的是,零拷貝技術(shù)不允許進(jìn)程對文件內(nèi)容作進(jìn)一步加工,比如壓縮數(shù)據(jù)再發(fā)送。如果希望對讀取的文件內(nèi)容做額外的操作,那么就只能拷貝到用戶空間了。

另外當(dāng)傳輸大文件時,不建議使用零拷貝,因?yàn)?PageCache 可能被大文件占據(jù),而導(dǎo)致「熱點(diǎn)」小文件無法利用到 PageCache,并且大文件的緩存命中率也不高,因此這種情況建議繞過 PageCache。

使用 PageCache 的 IO 叫做緩存 IO,不使用 PageCache 的 IO 叫做直接 IO。


小結(jié)


以上我們就探討了 Kafka 為什么會有如此高的吞吐量,在處理海量數(shù)據(jù)時為什么這么快。核心就在于以下幾點(diǎn):

1)消息是以 "批" 為單位的。

2)利用磁盤的順序讀寫遠(yuǎn)遠(yuǎn)快于隨機(jī)讀寫。

3)使用 PageCache。

4)使用零拷貝技術(shù)。


本文參考自:

  • 極客時間《消息隊(duì)列高手課》

  • 公眾號《小林 coding》

  • 來自 ChatGPT 的回復(fù)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一文讀懂計算機(jī)內(nèi)核態(tài)、用戶態(tài)和零拷貝技術(shù)
操作系統(tǒng)IO之零拷貝技術(shù)
「萬字長文」從Linux零拷貝深入了解Linux I/O
RabbitMQ、RocketMQ、Kafka性能為何差距如此大?
PageCache緩存機(jī)制有什么作用?
【底層原理】網(wǎng)絡(luò)數(shù)據(jù)傳輸時經(jīng)歷了哪些buffer
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服