「數(shù)據(jù)分析」十六種常用的數(shù)據(jù)分析方法分享,經(jīng)常有朋友問朋友們,資料分析常用的分析方法有哪些,我要學(xué)習(xí)什么,今天的資料分析整理了16種常用的資料分析方法,供大家參考。
1、說明統(tǒng)計。描述統(tǒng)計是指運用表與分類、圖表與總結(jié)等數(shù)據(jù),對數(shù)據(jù)的集中性、離散性、偏離性、高峰性進行描述。
缺失值填充法:常用的方法有:去除法、平均法、最小鄰接法、比率回歸法、決策樹法。
正態(tài)檢驗:很多統(tǒng)計方法都要求數(shù)值服從或接近正態(tài)分布,所以之前就需要正態(tài)檢驗。一般采用K-量、P-P圖、Q-Q圖、W法和動差法進行非參數(shù)檢驗。
假設(shè)檢驗:參量檢測是在已知總體分布的情況下,對一些主要參數(shù)(如均值、百分比、方差、相關(guān)系數(shù)等)進行檢測(要求總體服從正態(tài)分布)。
U型檢查使用條件:當(dāng)樣品含量n大時,樣品的值符合正態(tài)分布;T-檢查使用條件:試樣含量n小時,試樣值符合正態(tài)分布。a單樣本t檢驗:推測總體平均μ0與已知總體平均μ0(理論值準(zhǔn)值)之間是否有差異。配對樣品t檢查:當(dāng)整體平均值不能確定時,兩個樣品可以配對,在各種可能影響處理效果的條件下,兩者處理結(jié)果是相似的。c兩個獨立樣本t檢驗:當(dāng)無法找到兩個非常相似的樣本進行全面對比時使用。
2、非參數(shù)檢驗。非參量檢驗通常不考慮整體分布是否已知,而是考慮整體分布的位置是否相同,以及整體分布是否正態(tài)。
應(yīng)用:連續(xù)型數(shù)據(jù)數(shù)據(jù),這種數(shù)據(jù)的分布形式通常是未知的,A為連續(xù)數(shù)據(jù),但總體分布形態(tài)不明或錯誤,B體呈正態(tài)分布,數(shù)據(jù)也是連續(xù)的,但樣品容量很小,例如低于10,其主要檢測方法有卡方檢測、順序檢測、雙向檢測、行程檢測、K-檢測等。
3、信賴度分析。檢驗測量結(jié)果的可靠性,例如調(diào)查問卷。外部信賴度:不同時間測量時計的一致性,信任度的再測量采用常規(guī)方法,內(nèi)部信賴度是指每個測度是否只測量一個概念,同時又構(gòu)成兩個表的內(nèi)部體的一致性,常用的方法可分成一半的信任度。
4、清單分析。對離散變量和定型變量進行相關(guān)性分析。清單分析也包括對成對數(shù)據(jù)的卡片檢查,序列變量與序列變量相關(guān)的檢查。
5、相關(guān)分析。是否存在一定的依賴性,特定的依賴性對研究現(xiàn)象的相關(guān)方向和程度進行探討。
單一關(guān)系:這兩個因素之間的關(guān)系叫做單一關(guān)系,也就是研究時只涉及了一個自變量和一個變量。
復(fù)合關(guān)系:三個或更多因素的關(guān)系稱為復(fù)合關(guān)系,也就是研究時所涉及的兩個或更多自變量和變量。
偏離關(guān)系:當(dāng)某一現(xiàn)象涉及多種因素時,假定其他變量不變,其中兩個變量之間的關(guān)系叫做偏離關(guān)系。
6、方差分析法。用法:各樣本必須彼此獨立,且各樣本來自于正態(tài)分布,且整體方差相等。
類別。
一、單因素方差分析:一次試驗僅有一個影響因素或多個影響因素時,僅分析其中一個因素與反應(yīng)因素之間的關(guān)系。
三是多因素?zé)o交互差異性分析:分析多個影響因素與反應(yīng)變量之間的關(guān)系,而忽略或忽略影響因素之間的關(guān)系。
助差禱告:傳統(tǒng)的助差禱告分析有明顯缺陷,不能控制分析中存在的隨機因素,影響禱告結(jié)果的準(zhǔn)確性。在排除了各協(xié)調(diào)因素的影響后,進行方差分析,并將線性回歸與方差分析相結(jié)合,得出了修正后的主要效果。
7、回歸分析。
類別:
一元線性回歸分析:自變量x與變量y有關(guān),x和y必須是連續(xù)的,變量y和它們的差值必須服從正態(tài)分布。
二是多元線性回歸分析。
用法:分析多個自變量與變量y之間的關(guān)系,x和y必須是連續(xù)的,并且變量y和它的剩余必須服從正態(tài)分布。
一是變態(tài)篩選:選擇最佳回歸方程的變態(tài)篩選方法有全橫型法(CP法)、逐步回歸法、前入法和后出法。
二、橫向診斷方法:
a剩余檢驗:觀測值與估計值之差必須為正態(tài)分布。
b強影響點判斷:一般的搜索方法分為標(biāo)準(zhǔn)誤差法、馬哈拉諾比斯距離法。
c線性共診斷:
診斷法:耐受性、方差擴大因子法(亦稱膨脹系數(shù)VIF)、特征性根性判斷、條件指標(biāo)CI、方差比例。
處置方法:增大樣本容量,選用主成分回歸,嶺回歸等其它回歸。
三、邏輯回歸分析法。
「數(shù)據(jù)分析」十六種常用的數(shù)據(jù)分析方法分享,該模型要求變量為連續(xù)的正態(tài)分布變量,且自變量與變量呈線性關(guān)系,而邏輯回歸模型對變量的分布沒有要求,通常用于變量的離散。
類別:
邏輯回歸模型有條件和非條件兩種,條件Logistic回歸模型與非條件Logistic回歸模型的區(qū)別在于參數(shù)報價是否使用了條件概率,其它的回歸方法有非線性回歸,有序回歸,Probit回歸,權(quán)值回歸等。
8、聚類分析
通過對樣本個體或指標(biāo)變量的特征進行分類,尋找衡量事物相似度的合理統(tǒng)計量。
一、性質(zhì)的分類:
Q-類型聚類分析:對樣本進行分類,也稱為樣本聚類,是用距離系數(shù)來衡量相似性的統(tǒng)計量,例如歐式距離,極值距離,絕對距離等等。
類型聚類分析:將指標(biāo)進行分類,也稱為指標(biāo)聚類,用相似系數(shù)作為統(tǒng)計量來衡量相似度,相關(guān)系數(shù),列聯(lián)系數(shù)等等。
二、方法分類:
系統(tǒng)聚類法:適用于小樣本樣本或指標(biāo)聚類,通常采用系統(tǒng)聚類法對指標(biāo)進行聚類,也稱為分層聚類。
逐步聚類法:適用于大樣本樣本的聚類分析。
其它聚類方法:兩步聚類,K-均值聚類等。
9、鑒別分析。
第一,判別分析:根據(jù)一批分類明確的樣本,建立判別函數(shù),使誤判的案例最少,然后根據(jù)給定的新樣本,判斷它來自哪個總體。
與聚類分析的區(qū)別。
聚類分析既能對樣本進行分類,又能對指標(biāo)進行分類,而判別分析只能對樣本進行分類。
聚類分析預(yù)先不知道事物的類別,也不知道它的分類;而判別分析則預(yù)先知道事物的類別,也不知道它的分類。
第三,聚類分析不需要分類歷史數(shù)據(jù),而是直接對樣本進行分類;而判別分析則需要分類歷史數(shù)據(jù)來建立判別函數(shù),然后再對樣本進行分類。
進行分類:
(1)費舍爾鑒別分析法:
將距離作為判別標(biāo)準(zhǔn)進行分類,即對樣本而言,距離最短的一個類別被分為哪一類,適用于兩類判別;
將概率作為判別標(biāo)準(zhǔn)進行分類,即樣本屬于哪一類,概率最大分到哪一類,適用于哪一類。
適合多重鑒別診斷。
(2)BAYES判別分析:
與FISHER判別分析法相比,BAYES判別分析法更完善、更先進,不僅可以解決多分類判別分析問題,而且在分析中考慮了數(shù)據(jù)的分布狀況,因此一般更常用;
10.主元分析。
把一組相互關(guān)聯(lián)的指標(biāo)變適轉(zhuǎn)換成一組相互獨立的新的指標(biāo)變量,然后用其中少數(shù)幾個新的指標(biāo)變量來綜合對原有的多個指標(biāo)變量中的主要信息作出反應(yīng)。
11.因素分析。
一個多元統(tǒng)計分析方法,目的是尋找隱藏在多元數(shù)據(jù)中的潛在因素,這些因素不能直接觀察,但會影響或支配可測變量,并估計潛在因素對可測變量的影響程度和潛在因素之間的相關(guān)性。
同主元分析相比:
同一性:都能對多個原始變量的內(nèi)部結(jié)構(gòu)關(guān)系起到作用。
差異性:主成分分析重在綜合原始變異信息,而因子分析重在解釋原始變異之間的關(guān)系,是一種比主成分分析更深入的多元統(tǒng)計學(xué)方法。
目的:
一、減少分析變量的數(shù)目。
通過變量之間的相關(guān)關(guān)系探測,對原始變量進行分類;
12.時間序列分析。
為解決實際問題而研究隨機性數(shù)據(jù)序列遵循的統(tǒng)計規(guī)律的動態(tài)數(shù)據(jù)處理統(tǒng)計方法;時間序列通常由4個要素組成:趨勢、季節(jié)變化、周期波動和不規(guī)則波動。
研究方法:移動平均濾波與指數(shù)平滑法,ARIMA橫型,ARIMAX量化橫型,ARIMAX向自回歸橫型,ARCH族模型。
13.生存分析。
一種統(tǒng)計分析方法,用于研究生存時間的分布規(guī)律以及生存時間與相關(guān)因索的關(guān)系。
一、內(nèi)容包括:
描述生存過程,也就是研究生存時間的分配規(guī)律。
比較生存過程,即對兩組或兩組以上的生存時間分布進行研究和比較。
分析危險因素,也就是研究危險因素對生命周期的影響。
建立一個數(shù)學(xué)模型,即把生存時間與相關(guān)危險因素之間的相關(guān)性用一個數(shù)學(xué)公式來表達。
二、方法:
(1)統(tǒng)計描述:包括求生存時間的分位數(shù),中數(shù)生存時間,平均數(shù),生存函數(shù)估計,判斷生存時間的圖示法,對分析數(shù)據(jù)不作任何統(tǒng)計推斷。
二是非參數(shù)檢驗:檢驗各組變量各水平的生存曲線是否一致,對生存時間分布無要求,檢驗危險因素對生存時間的影響。
乘積正數(shù)限法(PL)
生命表分析(LT法)
三、半?yún)?shù)橫橫型回歸分析:在特定假設(shè)下,建立生存時間隨多種危險因素變化的回歸方程,以Cox比例風(fēng)險回歸為代表。
參數(shù)模型回歸分析:當(dāng)已知生存時間服從特定的參數(shù)橫型時,對相應(yīng)的參數(shù)模型進行擬合,更準(zhǔn)確地分析確定變量間的變化規(guī)律。
14.典型相關(guān)性分析。關(guān)聯(lián)分析通常是分析兩個變量之間的關(guān)系,而典型相關(guān)分析則是分析兩個變量之間關(guān)系的統(tǒng)計分析方法,例如,3個學(xué)業(yè)成績指標(biāo)和5個學(xué)業(yè)成績指標(biāo)。經(jīng)典相關(guān)分析的基本思想與主元分析的基本思想是類似的,它把單變量中一組變量的多重線性相關(guān)研究轉(zhuǎn)化為少數(shù)綜合變量間簡單線性相關(guān)的研究,而其中少數(shù)綜合變量中的線性相關(guān)信息幾乎覆蓋了原始變量組中所有的相應(yīng)信息。
15.R0C分析。該曲線是以一系列不同的二分類方式(分界值或閾值)為基礎(chǔ)的曲線,縱坐標(biāo)為真陽性率(靈敏度),橫坐標(biāo)為假陽性率(1-特異性度)。
目的:R0C曲線在任意分界值范圍內(nèi)均可方便地識別疾病;
使用;選擇最優(yōu)的診斷分界線值。越是靠近左上角的R0C曲線,測試的精確度越高;兩個或兩個以上不同診斷試驗對疾病鑒別能力的比較,以一條R0C曲線下面積來反映診斷系統(tǒng)的準(zhǔn)確性。
16.其他分析方法。多響應(yīng)分析,距離分祈法,項目分祈法,對應(yīng)分祈法,決策樹分析,神經(jīng)網(wǎng)絡(luò),系統(tǒng)方程法,蒙特卡洛模擬法等。
看到這里大家對「數(shù)據(jù)分析」十六種常用的數(shù)據(jù)分析方法分享有了進一步認(rèn)識了吧?更多的資訊請關(guān)注本站更新!
聯(lián)系客服