預(yù)備知識(shí)
*同質(zhì)(homogeneity)與變異(variation):
嚴(yán)格地講,同質(zhì)是指被研究指標(biāo)的影響因素完全相同。但在醫(yī)學(xué)研究中,有些影響因素往往是難以控制的(如遺傳、營(yíng)養(yǎng)等),甚至是未知的。因此,在實(shí)際工作中只有相對(duì)的同質(zhì)。在統(tǒng)計(jì)學(xué)中可以把同質(zhì)理解為對(duì)研究指標(biāo)影響較大的、可以控制的主要因素盡可能相同。例如研究?jī)和纳砀邥r(shí),要求影響身高的較大的、易控制的因素如性別、年齡、民族、地區(qū)要相同,而不易控制的遺傳、營(yíng)養(yǎng)以及未知的影響因素可以忽略。
同質(zhì)基礎(chǔ)上的個(gè)體差異稱為變異。如同性別、同年齡、同民族、同地區(qū)健康兒童的身高、體重不盡相同;相同病種、病程的病人,使用同一療法,卻未必有相同療效。這些不同就是變異。變異是生物體的基本屬性之一,也是統(tǒng)計(jì)研究的前提,若所研究的同質(zhì)群體中各個(gè)觀察單位都一樣,沒(méi)有差別,分析一個(gè)就夠了,無(wú)須進(jìn)行統(tǒng)計(jì)研究。
* 變量 (variable)
在搜集資料時(shí),首先要根據(jù)研究目的確定同質(zhì)觀察單位,再對(duì)每個(gè)觀察單位的某項(xiàng)特征進(jìn)行測(cè)量或觀察,這種特征稱為變量。如“身高”、“體重”、“療效”、“性別”、“職業(yè)” 等都是變量。變量的觀察結(jié)果或測(cè)量值稱為變量值,變量按其值的性質(zhì)可分為數(shù)值變量(numerical variable)和分類變量(categorical variable)。
數(shù)值變量的變量值是定量的,表現(xiàn)為數(shù)值的大小,通常是使用儀器或某種尺度測(cè)定出來(lái)的,多有度量衡單位。如身高(cm)、體重(kg)、心律(次/分)、住院天數(shù)(日)、血壓(mmHg)等。由數(shù)值變量的測(cè)量值組成的資料稱為數(shù)值變量資料(計(jì)量資料或定量資料)。大多數(shù)的數(shù)值變量為連續(xù)型變量,如身高、體重、血壓等;而有的數(shù)值變量的測(cè)定值只是正整數(shù)。如心率、白細(xì)胞計(jì)數(shù)等,在醫(yī)學(xué)統(tǒng)計(jì)學(xué)中把它們也視為連續(xù)型變量。
分類變量表現(xiàn)為互不相容的類別或?qū)傩裕喾Q定性變量。分類變量又可分為無(wú)序與有序兩類。
1、無(wú)序分類變量是所分類別或?qū)傩灾g無(wú)程度和順序上的差別。如性別(男、女);血型(O、A、B、AB)等。無(wú)序分類變量的分析應(yīng)先按類別分組,然后清點(diǎn)各組的觀察單位數(shù),編制分類資料的頻數(shù)表,所得資料為無(wú)序分類變量資料(計(jì)數(shù)資料或定性資料)。它又有二項(xiàng)分類資料和多項(xiàng)分類資料之分。
1)二項(xiàng)分類資料:僅有兩種類別或?qū)傩?。如性別(男、女),化驗(yàn)結(jié)果(陰、陽(yáng)性)等。
2)多項(xiàng)分類資料:兩種以上的類別或?qū)傩浴H缪停∣、A、B、AB),職業(yè)(工人、農(nóng)民、商人、干部、軍人、教師 …)等。
2、有序分類變量是各類別或?qū)傩灾g有程度上的差別。如尿糖化驗(yàn)結(jié)果按 -、±、+、++、+++分類;療效按治愈、好轉(zhuǎn)、無(wú)效、惡化分組。有序分類變量的分析應(yīng)先按等級(jí)順序分組,然后清點(diǎn)各組的觀察單位數(shù),編制各等級(jí)的頻數(shù)表,所得資料為有序分類變量資料(等級(jí)資料)。
除以上資料外,醫(yī)學(xué)研究中還有角度(如腦電圖)、季節(jié)月份、時(shí)間等周而復(fù)始的資料,在醫(yī)學(xué)統(tǒng)計(jì)中稱其為圓形分布資料。
另外,變量類型不是一成不變的,可根據(jù)研究分析的需要進(jìn)行轉(zhuǎn)化。例如白細(xì)胞計(jì)數(shù)原屬數(shù)值變量,若按正常、異常分組,則為無(wú)序分類變量;若按過(guò)低(<4000)、正常(4000~10000)、過(guò)高(>10000)分組,則為有序分類變量。分類變量也可數(shù)量化,如將病人的惡心反應(yīng)以0、1、2、3表示。
在做統(tǒng)計(jì)分析時(shí),無(wú)論是統(tǒng)計(jì)描述,還是統(tǒng)計(jì)推斷,都要先考慮變量類型,變量類型不同統(tǒng)計(jì)方法也各異。
* 總體(population)與樣本(sample)
總體是根據(jù)研究目的所確定的同質(zhì)研究對(duì)象中所有觀察單位的某變量值的集合。例如對(duì)2004年濟(jì)南市7歲兒童的體重參考值進(jìn)行研究,研究對(duì)象是該市7歲健康兒童,觀察單位是每個(gè)7歲健康兒童,變量是體重,變量值是體重測(cè)量值,該市2004年全體7歲健康兒童的體重值構(gòu)成一個(gè)總體。它的同質(zhì)基礎(chǔ)是同地區(qū)、同年齡、同性別、同為健康兒童;差異性則表現(xiàn)在這些兒童的體重值不相同。研究目的不同,其總體范圍也不同。醫(yī)學(xué)研究對(duì)象,可以是人、實(shí)驗(yàn)動(dòng)物、微生物等;觀察單位可以是一個(gè)地區(qū)、一個(gè)家庭、一個(gè)人、一只眼睛、一個(gè)細(xì)胞株、一個(gè)基因片段等。
若在某特定的時(shí)間與空間范圍之內(nèi),同質(zhì)研究對(duì)象的所有觀察單位的某變量值的個(gè)數(shù)為有限個(gè),則這個(gè)總體稱為有限總體。有時(shí)總體是假設(shè)的,沒(méi)有時(shí)間和空間的限制,觀察單位數(shù)是無(wú)限的,稱為無(wú)限總體。在醫(yī)學(xué)研究中,通常采用抽樣研究的方法。
樣本是按隨機(jī)化原則從同質(zhì)總體中隨機(jī)抽取的部分觀察單位的變量值的集合。所謂隨機(jī)化原則,通常是指總體中的每個(gè)個(gè)體都有同樣的機(jī)會(huì)被抽到樣本中;但不同的研究目的,所采用的抽樣方法不同,如單純隨機(jī)抽樣、系統(tǒng)隨機(jī)抽樣、整群抽樣和分層抽樣等。
在統(tǒng)計(jì)學(xué)中,描述樣本的變量值特征的指標(biāo)稱為統(tǒng)計(jì)量;描述總體變量值特征的指標(biāo)稱為參數(shù)。
※ 科研資料的分析思路
資料的分析必須包括兩部分內(nèi)容:一是統(tǒng)計(jì)描述,二是統(tǒng)計(jì)推斷。分析資料時(shí),無(wú)論何種研究目的,首先要對(duì)樣本資料進(jìn)行統(tǒng)計(jì)描述,然后根據(jù)研究目的進(jìn)行統(tǒng)計(jì)推斷。
一、統(tǒng)計(jì)描述
根據(jù)資料的變量類型及其分布特征選用恰當(dāng)?shù)拿枋鲂灾笜?biāo)和統(tǒng)計(jì)圖(表)來(lái)描述樣本特征。
* 常見(jiàn)的變量類型有:數(shù)值變量資料和分類變量資料(前文提過(guò))。
1、數(shù)值變量資料
根據(jù)變量值的頻數(shù)分布,數(shù)值變量資料有正態(tài)分布、對(duì)數(shù)正態(tài)分布和偏態(tài)分布之分。
數(shù)值變量資料的描述
分布類型
描述性指標(biāo)
正態(tài)分布 ※
均數(shù) 和標(biāo)準(zhǔn)差 ;(必要時(shí),可用 、 和 )
對(duì)數(shù)正態(tài)分布※
幾何均數(shù) 和相應(yīng)的標(biāo)準(zhǔn)差
偏態(tài)分布
中位數(shù) 和四分位數(shù)間距
※正態(tài)分布含近似正態(tài)分布; 對(duì)數(shù)正態(tài)分布含倍數(shù)資料(以下同)
表中相應(yīng)的公式: 、 ;
、 ;
、 ,其中
2、分類變量資料
應(yīng)用相對(duì)數(shù)來(lái)描述。常用的相對(duì)數(shù)有率、構(gòu)成比和相對(duì)比,可根據(jù)不同的研究目的選用。
率為頻率指標(biāo),用于說(shuō)明某現(xiàn)象發(fā)生的頻率或強(qiáng)度。其公式為
;
構(gòu)成比為構(gòu)成指標(biāo),用于說(shuō)明某一事物內(nèi)部各組成部分所占的比重或分布,常以百分?jǐn)?shù)表示。其公式為:
相對(duì)比是A、B兩個(gè)有關(guān)指標(biāo)之比,用于說(shuō)明A為B的若干倍或百分之幾。A、B兩個(gè)指標(biāo)可以是性質(zhì)相同的,也可以是性質(zhì)不同的;可以是絕對(duì)數(shù),也可以是相對(duì)數(shù)或絕對(duì)數(shù)。其公式為:
二、統(tǒng)計(jì)推斷
抽樣研究的目的是用樣本信息來(lái)推斷總體特征,即統(tǒng)計(jì)推斷。統(tǒng)計(jì)推斷又包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩部分內(nèi)容。進(jìn)行統(tǒng)計(jì)推斷時(shí),需根據(jù)研究目的、設(shè)計(jì)類型、資料類型及其分布特征,正確選用分析方法。
* 常見(jiàn)的研究目的:估計(jì)總體參數(shù)、制定醫(yī)學(xué)參考值范圍、假設(shè)檢驗(yàn)(樣本與總體的比較、兩樣本的比較、多樣本的比較)、多因素分析(含線性相關(guān)回歸)等。
* 常見(jiàn)的設(shè)計(jì)類型:完全隨機(jī)設(shè)計(jì)、配對(duì)設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì)(配伍組設(shè)計(jì));其次,還有交叉設(shè)計(jì)、拉丁方設(shè)計(jì)、析因設(shè)計(jì)、正交設(shè)計(jì)等。
* 常見(jiàn)的資料類型及其分布特征:數(shù)值變量資料(正態(tài)、對(duì)數(shù)正態(tài)、偏態(tài)分布)、分類變量資料(二項(xiàng)分布、Poisson分布)
(一)估計(jì)總體參數(shù):(均按完全隨機(jī)抽樣方法獲得的樣本)
※ 數(shù)值變量資料
數(shù)值變量資料的總體參數(shù)估計(jì)
分布類型
總體參數(shù)估計(jì)的估計(jì)方法
正態(tài)分布
*
估計(jì)總體均數(shù) 的95%可信區(qū)間
1、 已知時(shí),
2、 未知且n小時(shí),( )
3、 未知,但n足夠大時(shí),
偏態(tài)分布
估計(jì)總體中位數(shù)的95%可信區(qū)間
1、先求50%的上、下限 ,
2、再求出 ,
* 對(duì)于對(duì)數(shù)正態(tài)分布資料,1、先將變量值取對(duì)數(shù);2、應(yīng)用估計(jì)總體均數(shù) 的95%可信區(qū)間的公式求出上、下限;3、對(duì)上、下限求反對(duì)數(shù)。
※ 分類變量資料
分類變量資料的總體參數(shù)估計(jì)
類 型
總體參數(shù)估計(jì)的估計(jì)方法
二項(xiàng)分布
估計(jì)總體率 的95%可信區(qū)間
1、查表法: 50,且p遠(yuǎn)離0.5時(shí),根據(jù) 和陽(yáng)性數(shù) 查“百分率的可信區(qū)間”表;
2、正態(tài)近似法: ,且樣本率 或 均不太小(一般規(guī)定 與 均大于5)時(shí), 。
Poisson分布
估計(jì)總體平均數(shù) 的95%可信區(qū)間
1、查表法:樣本陽(yáng)性數(shù) 時(shí),用X值查Poisson分布μ的可信區(qū)間;
2、正態(tài)近似法: 時(shí),( , )。
(二)制定醫(yī)學(xué)參考值范圍(用于數(shù)值變量資料)
醫(yī)學(xué)參考值范圍的制定方法
分布類型
制定方法
正態(tài)分布
正態(tài)分布法:
雙側(cè)界值:
單側(cè)上界: ,或單側(cè)下界:
對(duì)數(shù)正態(tài)分布
對(duì)數(shù)正態(tài)分布法:
雙側(cè)界值: ;
單側(cè)上界: ,
或單側(cè)下界: 。
偏態(tài)分布
百分位數(shù)法:
雙側(cè)界值: 和 ;
單側(cè)上界: ,或單側(cè)下界: 。
(三)假設(shè)檢驗(yàn)
1、樣本與總體的比較(均按完全隨機(jī)抽樣方法獲得的樣本)
※ 數(shù)值變量資料的樣本均數(shù)與總體均數(shù)的比較
分布類型
假設(shè)檢驗(yàn)方法
正態(tài)分布
1、 未知且樣本含量 較小時(shí),用 檢驗(yàn):
,
2、 已知時(shí),用 檢驗(yàn):
3、 未知,但 大時(shí),
偏態(tài)分布
用樣本中位數(shù)與總體中位數(shù)比較的符號(hào)秩和檢驗(yàn)
(方法同配對(duì)資料的符號(hào)秩和檢驗(yàn))。
※ 分類變量資料的樣本與總體的比較
類型
假設(shè)檢驗(yàn)方法
二項(xiàng)分布
1、直接計(jì)算概率法:用于 偏離0.5較遠(yuǎn),且陽(yáng)性數(shù) 較小作單側(cè)檢驗(yàn)時(shí)。按二項(xiàng)分布概率公式直接求出累計(jì)概率,與所取檢驗(yàn)水準(zhǔn)比較,作出推斷結(jié)論。
,
2、正態(tài)近似法:用于 不太靠近0或1,且樣本含量 足夠大;或 且 時(shí),
Poisson
分布
1、直接計(jì)算概率法:用于 ,且樣本均數(shù) 較小作單側(cè)檢驗(yàn)時(shí)。按Poisson分布概率公式直接求出累計(jì)概率,與所取檢驗(yàn)水準(zhǔn)比較,作出推斷結(jié)論。
,
2、正態(tài)近似法:用于 時(shí),
2、兩樣本的比較
※ 數(shù)值變量資料的兩樣本均數(shù)的比較
分布類型
設(shè)計(jì)類型與假設(shè)檢驗(yàn)方法
正態(tài)分布
完全隨機(jī)設(shè)計(jì)(或成組設(shè)計(jì))
1、 檢驗(yàn):用于兩個(gè)小樣本,
,
,
2、 檢驗(yàn):用于兩個(gè)大樣本,
配對(duì)設(shè)計(jì)(用于兩個(gè)小樣本)
檢驗(yàn): ,
對(duì)子數(shù)-1
偏態(tài)分布
完全隨機(jī)設(shè)計(jì)(或成組設(shè)計(jì)):
1、Wilcoxon秩和檢驗(yàn);
2、Mann-Whitney檢驗(yàn)
配對(duì)設(shè)計(jì):配對(duì)設(shè)計(jì)的符號(hào)秩和檢驗(yàn)
※ 分類變量資料的兩樣本的比較
類型
假設(shè)檢驗(yàn)方法
二項(xiàng)
分布
1、 檢驗(yàn):
用于兩個(gè)樣本均滿足正態(tài)近似條件且樣本含量( )較大時(shí),可用 檢驗(yàn),其公式為:
2、 檢驗(yàn):
①四格表專用公式:
( 且所有格子的 )
②四格表的校正公式:
( 但有 時(shí))
③四格表資料的Fisher確切概率法:
當(dāng) ,或 時(shí)
④配對(duì)四格表資料的 檢驗(yàn):
, (用于 時(shí))
, (用于 時(shí))
Poisson
分布
1、 檢驗(yàn):兩樣本均數(shù) 均大于20時(shí)。
兩樣本觀察單位相同時(shí),
兩樣本觀察單位不同時(shí),
2、 檢驗(yàn):同二項(xiàng)分布。
3、多個(gè)樣本的比較
※ 數(shù)值變量資料的多個(gè)樣本均數(shù)的比較
分布類型
設(shè)計(jì)類型與假設(shè)檢驗(yàn)方法
正態(tài)分布
完全隨機(jī)設(shè)計(jì)(或成組設(shè)計(jì)):
完全隨機(jī)設(shè)計(jì)的方差分析:
把總變異分解為組間變異和組內(nèi)變異兩部分
隨機(jī)區(qū)組設(shè)計(jì)(或配伍組設(shè)計(jì)):
隨機(jī)區(qū)組設(shè)計(jì)的方差分析:
把總變異分解為處理間、區(qū)組間和誤差三部分
其它設(shè)計(jì):如交叉設(shè)計(jì)、析因設(shè)計(jì)、拉丁方設(shè)計(jì)和正交設(shè)計(jì)等。均有相應(yīng)的方差分析
偏態(tài)分布
完全隨機(jī)設(shè)計(jì)(或成組設(shè)計(jì)):
成組設(shè)計(jì)的多個(gè)樣本比較的秩和檢驗(yàn)( 檢驗(yàn));
隨機(jī)區(qū)組設(shè)計(jì)(或配伍組設(shè)計(jì)):
隨機(jī)區(qū)組設(shè)計(jì)的多個(gè)樣本比較的秩和檢驗(yàn)( 檢驗(yàn))
交叉設(shè)計(jì):
交叉設(shè)計(jì)的秩和檢驗(yàn)
※ 分類變量資料的多個(gè)樣本的比較(均為完全隨機(jī)設(shè)計(jì))
①雙向無(wú)序 表資料:兩個(gè)分類變量,即分組變量和指標(biāo)變量均是無(wú)序的。其研究目的通常是多個(gè)樣本率的比較、兩個(gè)或多個(gè)構(gòu)成比的比較可用行 列表資料的 檢驗(yàn):
, (行數(shù)-1)(列數(shù)-1)
不同療法治療某病的有效率的比較
療 法
有效
無(wú)效
合計(jì)
甲
乙
丙
合計(jì)
②單向有序 表資料:有兩種形式。一種形式是 表資料中的分組變量是有序的(如年齡),而指標(biāo)變量是無(wú)序的(如傳染病的類型)。其研究目的通常是分析不同年齡組各種傳染病的構(gòu)成情況,此種單向有序 表資料可用行 列表資料的 檢驗(yàn)進(jìn)行分析。
×× 年全國(guó)疾病監(jiān)測(cè)系統(tǒng)甲乙丙傳染病不同年齡組構(gòu)成
年齡組
霍亂
傷寒
痢疾
麻疹
出血熱
鉤體
合計(jì)
20-
40-
60-
80
合計(jì)
另一種形式是 表資料中的分組變量為無(wú)序的(如療法),而指標(biāo)變量是有序的(如療效按等級(jí)分組)。其研究目的為比較不同療法的療效,此種單向有序 表資料宜用秩和檢驗(yàn)。
不同療法治療某病的療效比較
療 法
痊愈
顯效
有效
無(wú)效
合計(jì)
甲 法
乙 法
丙 法
合計(jì)
③雙向有序?qū)傩韵嗤?表資料: 表資料中的兩個(gè)分類變量皆為有序且屬性相同。實(shí)際上是配對(duì)四格表資料的擴(kuò)展,即水平數(shù) 3的配伍資料,如用兩種檢測(cè)方法同時(shí)對(duì)同一批樣品的測(cè)定結(jié)果。其研究目的通常是分析兩種檢測(cè)方法的一致性,此時(shí)宜用一致性檢驗(yàn)或稱Kappa檢驗(yàn);也可用特殊模型分析方法(可用SAS軟件)。
④雙向有序?qū)傩圆煌?表資料: 表資料中兩個(gè)分類變量皆為有序的,但屬性不同。宜用秩和檢驗(yàn)。
(四)隨訪資料的生存分析:
生存分析多用于惡性腫瘤、白血病等嚴(yán)重疾病和慢性病的生存時(shí)間的研究。生存分析可分為非參數(shù)法、半?yún)?shù)法、參數(shù)法。
※ 非參數(shù)法:一般用于單因素分析,常用的分析方法有Kaplan-Meier法(用于小樣本的未分組資料)、壽命表法(用于大樣本的分組資料)。
※ 半?yún)?shù)法:如Cox比例風(fēng)險(xiǎn)回歸模型
第 個(gè)變量的相對(duì)危險(xiǎn)度(風(fēng)險(xiǎn)比)為
Cox比例風(fēng)險(xiǎn)回歸模型用于分析帶有伴隨變量的生存時(shí)間資料,其優(yōu)點(diǎn)是適用條件寬和便于作多因素分析,是目前廣泛用于的生存分析方法之一。主要用于腫瘤和其它慢性病的預(yù)后分析,也可用于一般的臨床療效評(píng)價(jià)和隊(duì)列研究的病因探索。
※ 參數(shù)法:如威布爾回歸模型。半?yún)?shù)的Cox比例風(fēng)險(xiǎn)回歸模型比非參數(shù)分析方法的統(tǒng)計(jì)效率高,且適用范圍也很廣,但它要求風(fēng)險(xiǎn)比 不隨時(shí)間變化;當(dāng)隨訪時(shí)間很長(zhǎng)時(shí),有些因素(如年齡)的作用強(qiáng)度是有變化的,因而Cox比例風(fēng)險(xiǎn)回歸模型的應(yīng)用受到一定限制。威布爾回歸模型基于威布爾分布,是允許風(fēng)險(xiǎn)隨時(shí)間變化的多因素生存分析參數(shù)模型。與Cox比例風(fēng)險(xiǎn)回歸相比,威布爾回歸對(duì)生存過(guò)程的描述較精確,統(tǒng)計(jì)效能更高,是生存分析中的一個(gè)重要的參數(shù)回歸模型。但它要求風(fēng)險(xiǎn)單調(diào)變化,使適用范圍受到一定限制。
(五)雙變量的相關(guān)分析
研究目的是分析兩變量之間有無(wú)關(guān)系及其關(guān)系的密切程度。
※ 數(shù)值變量資料:
1、雙變量正態(tài)分布資料:直線相關(guān)分析
2、非雙變量正態(tài)分布資料: Spearman等級(jí)相關(guān)分析:
※ 分類變量資料:
1、 雙向無(wú)序的 表資料 如測(cè)得某地5801人的ABO血型和MN血型結(jié)果如表,問(wèn)兩種血型系統(tǒng)之間是否有關(guān)聯(lián)?
表 某地5801人的血型
ABO血型
MN血型
合計(jì)
M
N
MN
O
431
490
902
1823
A
388
410
800
1598
B
495
587
950
2032
AB
137
179
32
348
合計(jì)
1451
1666
2684
5801
可用行 列表資料的 檢驗(yàn)以及Pearson列聯(lián)系數(shù)進(jìn)行分析:
先用行 列表資料的 檢驗(yàn) , (行數(shù)-1)(列數(shù)-1) 來(lái)推斷兩個(gè)分類變量之間有無(wú)關(guān)系(或關(guān)聯(lián));在有關(guān)系的前提下計(jì)算Pearson列聯(lián)系數(shù) ,進(jìn)一步分析關(guān)系的密切程度, 。
2、雙向有序?qū)傩圆煌?表資料:用Spearman等級(jí)相關(guān)分析。
不同期次矽肺患者肺門密度級(jí)別分布
矽肺期次
肺門密度級(jí)別
+
++
+++
合計(jì)
Ⅰ
Ⅱ
Ⅲ
合計(jì)
(六)雙變量的回歸分析
研究目的是分析兩變量之間的數(shù)量依存關(guān)系。
※ 數(shù)值變量資料:
1、當(dāng)兩變量為雙變量正態(tài)分布資料且呈直線關(guān)系時(shí),
應(yīng)用Ⅱ型直線回歸分析:
, , ,
2、當(dāng) 變量為給定值, 變量為正態(tài)分布資料,且兩變量呈直線關(guān)系時(shí),應(yīng)用Ⅰ型直線回歸分析:公式同上。
3、當(dāng)兩變量為等級(jí)資料但呈直線關(guān)系時(shí),應(yīng)用秩回歸分析。
(七)多變量統(tǒng)計(jì)分析方法
※1 多元線性回歸與相關(guān)分析:
多元線性回歸分析通常是研究一個(gè)因變量與多個(gè)自變量間的數(shù)量依存關(guān)系。
,
要求因變量為連續(xù)型隨機(jī)變量,且呈正態(tài)分布;各自變量為數(shù)值變量。在醫(yī)學(xué)研究中常用于疾病的預(yù)報(bào)、控制及識(shí)別影響因素。例如,研究年齡、吸煙、飲酒與體重指數(shù)等因素對(duì)收縮壓的影響。
多元線性相關(guān)分析是研究多個(gè)自變量與一個(gè)因變量間的相關(guān)關(guān)系。要求因變量與自變量均為數(shù)值變量,且服從正態(tài)分布。在醫(yī)學(xué)研究中應(yīng)用較少。
※ 2 logistic 回歸分析:
logistic 回歸模型是一種概率模型,它是以疾病、死亡、治愈、暴露等結(jié)果發(fā)生的概率為因變量,影響疾病的發(fā)生和預(yù)后的因素為自變量建立回歸模型。
第 個(gè)變量的比數(shù)比為:
該模型適用于因變量為二項(xiàng)分類、多項(xiàng)分類的資料;對(duì)自變量的要求不如多元線性回歸嚴(yán)格,可以是數(shù)值變量、有序分類變量和無(wú)序分類變量(但對(duì)無(wú)序分類變量需做合理地?cái)?shù)量化)。在醫(yī)學(xué)研究中, logistic 回歸特別適用于流行病學(xué)研究,既可用于前瞻性研究,也可用于回顧性研究。常用于疾病的病因?qū)W分析、預(yù)后分析、還可用于鑒別診斷、評(píng)價(jià)治療措施等研究。
二分類資料的logistic 回歸,根據(jù)設(shè)計(jì)的不同,可分為非條件logistic 回歸和條件logistic 回歸。非條件logistic 回歸用于成組設(shè)計(jì)資料和隊(duì)列研究資料,條件logistic 回歸用于配對(duì)設(shè)計(jì)資料。多分類資料的logistic 回歸可用多態(tài)logistic 回歸模型進(jìn)行分析。
※3 判別分析:
判別分析是根據(jù)已掌握的一批分類明確的樣品,按Bayes或Fisher準(zhǔn)則擬合一個(gè)或多個(gè)判別函數(shù)(或判別指數(shù)表),用于判別新樣品的類別,并使錯(cuò)判率最低。另外,判別分析也可分析各因素對(duì)判別的作用大小。
在醫(yī)學(xué)研究中,判別分析主要用于診斷和鑒別診斷;也可用于病因?qū)W研究以及疾病預(yù)后研究。
常用的判別分析方法有:Bayes判別、Fisher判別,可用于兩類判別和多類判別。
※4 聚類分析:
聚類分析是按照“物以類聚”的原則研究事物分類的一種多元分析方法。聚類分析的對(duì)象有2種:指標(biāo)(變量)和樣品(個(gè)體)。聚類分析也是研究對(duì)象(指標(biāo)或樣品)的分類,但和判別分析研究樣品的分類不同。判別分析是根據(jù)已知類別的一批樣品,按某種準(zhǔn)則擬合判別函數(shù)(或判別指數(shù)表)用以判別新樣品的類別;聚類分析則是把性質(zhì)相似或相近的對(duì)象(指標(biāo)或樣品)歸成類,而事先并不知道這些對(duì)象可以分成幾類及哪些對(duì)象屬于相同類。聚類分析的結(jié)果主要是經(jīng)驗(yàn)性的,使用不同的聚類方法可能得出不相同的結(jié)果,因此必須結(jié)合專業(yè)知識(shí)來(lái)判斷聚類結(jié)果。因此,與其他多元分析方法相比,聚類分析的方法較為粗糙,理論上還不完善,但它具有很高的適用性,仍在不斷地完善與發(fā)展。按照研究目的,聚類分析可分為指標(biāo)聚類分析(R型聚類分析)和樣品聚類分析(Q型聚類分析)。
R型聚類分析的目的是在存在眾多指標(biāo)的情況下,把相似指標(biāo)聚成類,每類找一個(gè)典型指標(biāo),從而可用少量的幾個(gè)典型指標(biāo)來(lái)代表原來(lái)的眾多指標(biāo)。如全口預(yù)成牙列,預(yù)定服裝、鞋和帽等。指標(biāo)聚類的聚類統(tǒng)計(jì)量為相似系數(shù)(相關(guān)系數(shù)等)。
Q型聚類分析的目的是對(duì)樣品進(jìn)行分類,作分類的比較研究;也可在分類后每類找一個(gè)典型樣品來(lái)代表各類樣品。如解剖學(xué)上依據(jù)骨骼的形狀、大小等特征來(lái)區(qū)別人和猿、性別和年齡等;又如衛(wèi)生部門依據(jù)醫(yī)院的診治水平、工作效率等指標(biāo)把若干所醫(yī)院分成幾種類型(如好、中、差),還可找出每種類型醫(yī)院的代表性醫(yī)院。樣品聚類的聚類統(tǒng)計(jì)量為距離。
聚類方法有系統(tǒng)聚類法、動(dòng)態(tài)聚類法、分解法、有序樣品聚類法等,常用的為系統(tǒng)聚類法和有序樣品聚類法。
※5 主成分分析:
主成分分析把原來(lái)多個(gè)彼此相關(guān)的指標(biāo)(原變量)線性組合為少數(shù)幾個(gè)彼此獨(dú)立的綜合指標(biāo)(新變量),且提取了原多個(gè)指標(biāo)的主要成分的統(tǒng)計(jì)信息,故稱綜合指標(biāo)為主成分。
在醫(yī)學(xué)研究中,主成分分析主要用于:
①綜合評(píng)價(jià):例如,評(píng)價(jià)兒童生長(zhǎng)發(fā)育的綜合指標(biāo)、身體素質(zhì)的綜合指標(biāo)、身體健康狀況的綜合指標(biāo)、診斷疾病的綜合指標(biāo)、治療疾病的綜合指標(biāo)等;也是對(duì)醫(yī)務(wù)工作者、對(duì)衛(wèi)生部門等的工作進(jìn)行綜合評(píng)價(jià)的的一種統(tǒng)計(jì)分析方法;
②主成分回歸,用于自變量存在多重共線時(shí)。
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=1025658