作者 | Destiny來(lái)源 | 木東居士
0x00 前言
數(shù)據(jù)圖表的選擇(上),分享了「時(shí)序數(shù)據(jù)」和「比例數(shù)據(jù)」的可視化圖表方案。
不同的數(shù)據(jù)類型、不同的闡述目的,決定了數(shù)據(jù)可視化展現(xiàn)形式的差異。因此,今天這篇文章,主要是分享兩類不同的可視化目的及其可選擇的圖表形式。
「對(duì)比型數(shù)據(jù)」:對(duì)比兩組或兩組以上數(shù)據(jù)的差異。
「分布型數(shù)據(jù)」:研究數(shù)據(jù)分布的集中趨勢(shì)、離散程度、偏態(tài)和峰度等。
0x01 對(duì)比型數(shù)據(jù)可視化
在實(shí)際工作中,我們經(jīng)常需要對(duì)比多組數(shù)據(jù)之間的差異,而這些差異通常是通過(guò)不同的標(biāo)記和視覺(jué)通道體現(xiàn)出來(lái)。
高度差異/寬度差異:柱狀圖、條形圖。
面積差異:面積圖、氣泡圖。
字號(hào)差異:?jiǎn)卧~云圖。
形狀差異:星狀圖。
1.柱狀圖
在《數(shù)據(jù)圖表的選擇(上)》有寫(xiě)到,柱狀圖是離散時(shí)間數(shù)據(jù)可視化的方式之一,只不過(guò)這里的系列值的數(shù)據(jù)類型是「時(shí)間」而已。
柱狀圖除了可以用于離散時(shí)間數(shù)據(jù)的可視化,更多的是用于比較不同分類數(shù)據(jù)的可視化,且柱狀圖的數(shù)據(jù)條數(shù),最好不要超過(guò)12條。
以下根據(jù)數(shù)據(jù)類別的個(gè)數(shù)和可視化的目的,細(xì)化柱狀圖的圖表選擇:
單一柱狀圖:適合單一類別的數(shù)據(jù)比對(duì),也適合表示離散型時(shí)序數(shù)據(jù)的趨勢(shì)。
重疊型柱狀圖:適合兩個(gè)類別的數(shù)據(jù)對(duì)比,半透明柱形條,代表某項(xiàng)指標(biāo)的「目標(biāo)值」,內(nèi)部偏窄且不透明的柱形條表示某項(xiàng)指標(biāo)的「實(shí)際完成情況」。通常會(huì)搭配折線圖使用,折線圖則表示目標(biāo)完成率。
并列柱狀圖:適合兩個(gè)或三個(gè)數(shù)據(jù)類別的對(duì)比,若數(shù)據(jù)類別超出3個(gè),不建議使用并列柱狀圖。
堆疊柱狀圖:適合既要對(duì)比總體的數(shù)據(jù),又要對(duì)比總體各構(gòu)成項(xiàng)的數(shù)據(jù),但是總體各構(gòu)成項(xiàng)一般不要大于5個(gè),若大于5個(gè),可按占總體的比例進(jìn)行歸類,展示TOP5的分類,剩下則歸為「其他」。
2.條形圖
條形圖,可以視為是柱狀圖的一種變體,在大部分情況下,是可以互換的。那么在哪些情況下,條形圖能比柱狀圖更好的展示數(shù)據(jù)呢?
條形圖,相比柱狀圖而言,可以展示更多的數(shù)據(jù)條數(shù),一般不要超過(guò)30條。
若分類項(xiàng)的文本過(guò)長(zhǎng)時(shí),柱狀圖的文本需要進(jìn)行旋轉(zhuǎn)才能不重疊,不利于閱讀,而條形圖就就沒(méi)有這個(gè)缺點(diǎn)。
3.面積圖
面積圖,是折線圖的一種延伸,其實(shí)就是折線圖和折線圖投影到X軸的直線所圍成的面積。
按照對(duì)比方式的不同,面積圖可以分為:「重疊對(duì)比型面積圖」和「堆砌對(duì)比型面積圖」,兩者的區(qū)別如下。
重疊對(duì)比型:所有系列的面積基線都是X軸,系列之間有重疊和覆蓋的關(guān)系。
堆砌對(duì)比型:只有底層系列的面積基線和X軸重合,其他系列都是堆砌在它們下面一組的數(shù)據(jù)上面。
面積圖,一般也是用于趨勢(shì)分析中。
當(dāng)需要分析各個(gè)系列,隨時(shí)間的變化趨勢(shì)時(shí),此時(shí)使用「重疊對(duì)比型面積圖」比較合適;當(dāng)既需要分析整體隨時(shí)間的變化趨勢(shì),又要了解整體的各構(gòu)成項(xiàng)隨時(shí)間的變化趨勢(shì)時(shí),使用「堆砌對(duì)比型面積圖」比較合適。
4.氣泡圖
氣泡圖,和散點(diǎn)圖的區(qū)別是,氣泡圖一般是用于三維數(shù)據(jù)的可視化,而散點(diǎn)圖是用于二維數(shù)據(jù)的可視化。
在散點(diǎn)圖中,圓點(diǎn)的面積是相同的,主要是通過(guò)圓點(diǎn)在坐標(biāo)軸中的坐標(biāo)點(diǎn)(X,Y)確定的位置,來(lái)映射數(shù)據(jù)。
而氣泡圖,是通過(guò)氣泡的面積大小來(lái)對(duì)比數(shù)據(jù)的圖形方式,它除了可以反映散點(diǎn)圖中坐標(biāo)點(diǎn)X、Y的相關(guān)關(guān)系,還有一個(gè)維度的數(shù)據(jù)可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數(shù)據(jù)。
如上圖所示,左側(cè)的氣泡圖,每個(gè)氣泡展示了三個(gè)屬性的信息,X-代表人均GDP,Y-代表對(duì)應(yīng)國(guó)家的平均壽命,Z-即氣泡的大小,代表對(duì)應(yīng)國(guó)家的人口數(shù)量。所以,相較于散點(diǎn)圖而言,氣泡圖除了可以展示X、Y兩個(gè)變量間的相關(guān)關(guān)系,同時(shí)還可以對(duì)比主體另一個(gè)維度的數(shù)據(jù),并且這個(gè)數(shù)據(jù)是映射到氣泡的大小上的。
當(dāng)只有一個(gè)系列時(shí),只需要一種氣泡圖只需要一種顏色即可。當(dāng)有多個(gè)系列時(shí),不同系列之間可以用顏色來(lái)區(qū)別。
5.單詞云圖
單詞云圖,主要是用于網(wǎng)絡(luò)文本中詞頻數(shù)據(jù)的可視化,如關(guān)鍵詞搜索,文章高頻詞,熱點(diǎn)事件關(guān)鍵詞等。
單詞云圖,是通過(guò)單詞的字號(hào)大小來(lái)反映詞頻的大小,字號(hào)越大,詞頻越高。通常,為了達(dá)到貼合主體的特征,以及視覺(jué)美觀的目的,用戶可以自定義單詞云的配色方案、背景形狀等設(shè)計(jì)層面的個(gè)性化。
通過(guò)單詞云圖,用戶可以快速找出網(wǎng)站搜索的高頻詞匯、了解文章的主旨、get到熱點(diǎn)事件的關(guān)鍵信息。但是要注意一點(diǎn),單次云圖只適合表示一組文本數(shù)據(jù)的對(duì)比,不適合多個(gè)類別的文本數(shù)據(jù)之間的比較。
6.雷達(dá)圖/星狀圖
當(dāng)需要對(duì)比一個(gè)主體、或多個(gè)主體本身,在不同維度上的特征時(shí),雷達(dá)圖和星狀圖是不錯(cuò)的選擇。
雷達(dá)圖和星狀圖的區(qū)別是:
雷達(dá)圖是一體多維的數(shù)據(jù),即可視化的對(duì)象是一個(gè)主體,只是這個(gè)主體具有多個(gè)維度上的數(shù)據(jù)特征。對(duì)比的是,同一個(gè)主體,在不同維度上的數(shù)值,可以看出主體在不同維度上的偏向。
星狀圖是多體多維的數(shù)據(jù),即可視化的對(duì)象是多個(gè)主體,且多個(gè)主體維度相同,且單個(gè)主體具有多個(gè)維度上的數(shù)據(jù)特征。對(duì)比的是,多個(gè)主體,在同一維度上的數(shù)值,可以看出不同主體之間的差異和側(cè)重點(diǎn)。
簡(jiǎn)單理解就是,雷達(dá)圖可以視為是星狀圖中的一行記錄。而且,一般情況下,會(huì)給予不同維度上的數(shù)值一定的權(quán)重,從而算出各個(gè)主體的綜合得分,我們的芝麻信用分就是這么來(lái)的。
0x02 分布型數(shù)據(jù)可視化
數(shù)據(jù)的分布特征,是統(tǒng)計(jì)學(xué)中「描述性統(tǒng)計(jì)」模塊研究的內(nèi)容。要對(duì)數(shù)據(jù)的分布情況進(jìn)行可視化呈現(xiàn),首先需要了解數(shù)據(jù)的描述性度量(集中趨勢(shì)、離散程度、偏態(tài)和峰度),通過(guò)這些反映數(shù)據(jù)分布特征的關(guān)鍵指標(biāo),才能確定能夠使用哪些圖表來(lái)進(jìn)行可視化展示。
描述性統(tǒng)計(jì)的相關(guān)內(nèi)容,可以參考這篇文章《統(tǒng)計(jì)學(xué)第1篇 描述性統(tǒng)計(jì)》。
1.直方圖
我們常用的直方圖,主要有「頻數(shù)直方圖」和「頻率直方圖」,它們都是用于展示離散型分組數(shù)據(jù)的分布情況。
繪制直方圖,有如下幾步:
首先,要對(duì)數(shù)據(jù)進(jìn)行分組,然后統(tǒng)計(jì)每個(gè)分組內(nèi)數(shù)據(jù)元的頻數(shù)和頻率。
其次,在平面直角坐標(biāo)系中,橫軸標(biāo)出每個(gè)組數(shù)據(jù)的下限和上限,即上圖中的a和b。
最后,縱軸表示頻數(shù)或頻率,每個(gè)矩形的高代表對(duì)應(yīng)的頻數(shù)或頻率,即上圖中的h。
若縱軸表示的是頻數(shù),則是「頻數(shù)直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」,如上圖所示。
「頻數(shù)分布直方圖」中,頻數(shù)乘以組距得出每個(gè)分組的數(shù)量,可以看出頻數(shù)分布直方圖是用面積來(lái)表示頻數(shù)的,和柱狀圖(條形圖)是用長(zhǎng)方形的高度(寬度)表示數(shù)量是有本質(zhì)性區(qū)別的。
2.莖葉圖
莖葉圖一般適合數(shù)據(jù)為整數(shù)的數(shù)據(jù)的可視化,就目前而言,我工作中用得比較少,簡(jiǎn)單講下用法。
莖葉圖的原理是,將一組數(shù)據(jù)按照數(shù)據(jù)位數(shù)進(jìn)行比較,將數(shù)據(jù)中的高位數(shù)作為樹(shù)莖,低位數(shù)作為樹(shù)葉。假設(shè)有如下一組數(shù)據(jù):
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
數(shù)據(jù)范圍頻數(shù)0-9310-19320-29330-39140-495
對(duì)應(yīng)的樹(shù)莖和樹(shù)葉可以表示為:
樹(shù)莖樹(shù)葉03791456256936413569
圖形化表示為:
3.箱線圖
在描述性統(tǒng)計(jì)中,有涉及到分位數(shù)相關(guān)的知識(shí),其中比較常用的是四分位數(shù),即一組數(shù)據(jù)中的下四分位數(shù)Q1、中位數(shù)、上四分位數(shù)Q3,關(guān)于分位數(shù)的概念不清楚的同學(xué)可以自行查閱相關(guān)資料。
一組數(shù)據(jù)中的四分位數(shù),加上這組數(shù)據(jù)的最大值、最小值,這5個(gè)特征值,就可以繪制一個(gè)箱線圖。
箱線圖釋義:
箱子的中間一條線,是數(shù)據(jù)的中位數(shù),代表了樣本數(shù)據(jù)的平均水平。
箱子的上下限,分別是數(shù)據(jù)的上四分位數(shù)Q3和下四分位數(shù)Q1,這代表箱體部分包含了數(shù)據(jù)集中50%的數(shù)據(jù),因此,箱子的寬度(四分位距=Q3-Q1)在一定程度上反映了數(shù)據(jù)的離散程度。
在箱子的上方和下方,又各有一條線,有時(shí)候代表著最大最小值,有時(shí)候代表的是上下內(nèi)限。如果有點(diǎn)位于內(nèi)限之外,理解成“異常值”就好。
箱線圖常用的場(chǎng)景有如下幾類:
(1)對(duì)比多組數(shù)據(jù)的分布情況。
(2)檢測(cè)數(shù)據(jù)中的異常值或離群點(diǎn)。
4.概率密度圖
若要描述連續(xù)型隨機(jī)變量其分布規(guī)律,概率密度圖是一種很直觀表現(xiàn)形式。
在數(shù)學(xué)中,連續(xù)型隨機(jī)變量的概率密度函數(shù)是一個(gè)描述這個(gè)隨機(jī)變量的輸出值,在某個(gè)確定的取值點(diǎn)附近的可能性的函數(shù),簡(jiǎn)單理解就是,連續(xù)型隨機(jī)變量取值某個(gè)確定數(shù)值的概率,即為縱切直線與概率密度函數(shù)交點(diǎn)的縱坐標(biāo)的值。而隨機(jī)變量的取值落在某個(gè)區(qū)域之內(nèi)的概率則為概率密度函數(shù)在這個(gè)區(qū)域上的積分,也就是區(qū)間的上下限與概率密度曲線圍成的面積。
通過(guò)圖形化的方式,我們可以清楚的看到隨機(jī)變量分布的對(duì)稱性情況,以及隨機(jī)變量取值是集中還是分散,這些可以通過(guò)偏態(tài)系數(shù)和峰度系數(shù)來(lái)度量,此處不深入闡釋。
5.散點(diǎn)圖/氣泡圖
可參照上述氣泡圖描述部分,不重復(fù)贅述。
但是需要記住散點(diǎn)圖和氣泡圖的區(qū)別:
散點(diǎn)圖,一般是用于研究?jī)蓚€(gè)變量之間的相關(guān)關(guān)系,可以是一個(gè)類別數(shù)據(jù),也可以是多類別數(shù)據(jù),但是都是二維的數(shù)組(x,y)。
氣泡圖,除了具體散點(diǎn)圖的功能以外,還可以用氣泡的面積來(lái)映射第三個(gè)維度的數(shù)據(jù),對(duì)應(yīng)的數(shù)據(jù)形式是(x,y,z),同樣可以用于多組或多類別數(shù)據(jù)的比較。
6.熱力圖
熱力圖,是通過(guò)密度函數(shù)進(jìn)行可視化,用于表示地圖中點(diǎn)的密度的熱圖?,F(xiàn)階段,熱力圖在地圖、網(wǎng)頁(yè)分析、業(yè)務(wù)數(shù)據(jù)分析等其他領(lǐng)域也有較為廣泛的應(yīng)用。
熱力地圖:比如我們?nèi)粘J褂玫膶?dǎo)航APP,通過(guò)熱力圖來(lái)表示各個(gè)路況的擁擠程度,顏色越深表示人員越多,對(duì)應(yīng)路段也就越擁擠,有了熱力圖可以很直觀的看到區(qū)域內(nèi)的人群流量,方便駕車人士進(jìn)行路線規(guī)劃。
網(wǎng)頁(yè)熱力分析:常見(jiàn)的網(wǎng)頁(yè)熱力圖,有按鼠標(biāo)點(diǎn)擊位置的熱力圖、按鼠標(biāo)移動(dòng)軌跡的熱力圖、按內(nèi)容點(diǎn)擊的熱力圖。還有一種是獲取用戶眼球在屏幕上的移動(dòng)軌跡熱力圖,不過(guò)這種因?yàn)樯婕暗接脩綦[私,獲取數(shù)據(jù)的難度很大。通過(guò)網(wǎng)頁(yè)熱力分析,可以直觀清楚地看到頁(yè)面上每一個(gè)區(qū)域的訪客興趣焦點(diǎn),從而為營(yíng)銷推廣、用戶體驗(yàn)優(yōu)化提供依據(jù)。
業(yè)務(wù)數(shù)據(jù)分析:帶有地理信息屬性的數(shù)據(jù)、或者離散時(shí)間屬性的數(shù)據(jù),也可以使用熱力圖來(lái)進(jìn)行數(shù)據(jù)展示。
7.地圖
當(dāng)數(shù)據(jù)帶有地理型信息屬性時(shí),首選的可視化圖表為地圖。按照展示的數(shù)據(jù)空間劃分,地圖可以分為二維平面地圖和三維立體地圖。
比如我們常用的導(dǎo)航軟件、天氣預(yù)報(bào)、降水量、臺(tái)風(fēng)移動(dòng)路線等都和地理信息相掛鉤,這些數(shù)據(jù)一般也是在地圖上進(jìn)行呈現(xiàn),給人以直觀的視覺(jué)體驗(yàn)。
0xFF 總結(jié)
無(wú)論是要對(duì)比數(shù)據(jù),還是研究數(shù)據(jù)的分布情況,都需要根據(jù)數(shù)據(jù)的類型、數(shù)據(jù)的特征來(lái)確定可視化的最佳方式。
根據(jù)數(shù)據(jù)之間的關(guān)系、分析目的、數(shù)據(jù)特征,來(lái)選擇和確定相應(yīng)的圖表類型,這個(gè)是可視化過(guò)程中需要牢牢把握的要點(diǎn)。圖表的目的,是為了更直觀、準(zhǔn)確的呈現(xiàn)數(shù)據(jù)背后的信息和知識(shí),不同數(shù)據(jù)關(guān)系應(yīng)該選擇什么圖表都是有套路的可循的。
但是,如果只是為了使用某個(gè)覺(jué)得高大上的圖表,而不管數(shù)據(jù)的特征是否適用,則是舍本逐末的做法,最終的可視化效果也必定是不理想的。
聯(lián)系客服