今天給大家推薦《數(shù)據(jù)挖掘:你必須知道的32個(gè)經(jīng)典案例》,并摘取書(shū)中的一些數(shù)據(jù)清洗和數(shù)據(jù)分析算法推送給大家。
1.數(shù)據(jù)清洗的作用:填充空缺值、平滑噪點(diǎn)、識(shí)別顯著離群點(diǎn)。在個(gè)別空缺值處理中通常采用人工規(guī)則、平均值、中位數(shù)、拉格郎日插值、牛頓插值、線性規(guī)則求解等方法。
2.噪聲平滑:其中箱形技術(shù)用得比較多,平滑方法有滑動(dòng)窗口法、按箱平均值/中值平滑法等。
3.離群點(diǎn)檢測(cè):其經(jīng)典算法是K近鄰算法(KNN),還有一元/多元回歸分析來(lái)擬合光滑數(shù)據(jù),從而使噪聲點(diǎn)暴露出來(lái)。
4.數(shù)據(jù)規(guī)約:用于降低數(shù)據(jù)量、提取核心信息。其中屬性/特征維度規(guī)約是刪除不相關(guān)/不重要的屬性來(lái)減少數(shù)據(jù)量,通常方法是子集選擇和樹(shù)形合并,即通過(guò)決策樹(shù)歸納、前向選擇、向后刪除等完成集合篩選。
5.數(shù)據(jù)壓縮:小波變換是數(shù)據(jù)壓縮領(lǐng)域的典型算法,對(duì)于有稀疏、傾斜等情況出現(xiàn)的數(shù)據(jù)集,基于小波變換的有損壓縮方法往往可以得到很好的結(jié)果。主成分分析方法(PCA)將原有的多維特征根據(jù)重要性排序,只提取重點(diǎn)關(guān)注的特征,它和它的擴(kuò)展算法在實(shí)際中應(yīng)用非常廣泛。
6.數(shù)值規(guī)約:小到將整型數(shù)據(jù)屬性類(lèi)型從long變?yōu)?/span>int,大到使用對(duì)數(shù)線性模型等方法將數(shù)據(jù)劃分為多維空間并進(jìn)行相應(yīng)規(guī)約。
7.數(shù)據(jù)離散:用于解決特征中連續(xù)特征比例過(guò)高的問(wèn)題,其主要思路是基于分箱或直方圖分析的方法將連續(xù)特征變?yōu)殡x散特征,從而達(dá)到減少連續(xù)特征的目的。這種方法對(duì)于處理連續(xù)特征比較困難的ID3決策樹(shù)算法,有非常大的幫助。
8.異常值:遠(yuǎn)離大部分樣本數(shù)據(jù)的數(shù)據(jù)值。
9.對(duì)比分析:常見(jiàn)的數(shù)據(jù)分析方法,通常局限于數(shù)值型數(shù)據(jù)中。它將兩個(gè)以上的相似數(shù)據(jù)進(jìn)行比較和分析。最重要的是選擇合適的對(duì)比標(biāo)準(zhǔn)。
10.相關(guān)性分析:對(duì)存在關(guān)聯(lián)關(guān)系的變量進(jìn)行分析,進(jìn)而用量化的方式判斷變量的相關(guān)性程度的分析方法。缺點(diǎn):對(duì)數(shù)值型數(shù)據(jù)分析效果較好,對(duì)其他數(shù)據(jù)則可能出現(xiàn)偏差。同時(shí)還受數(shù)據(jù)樣本量影響較大,較小的樣本相關(guān)系數(shù)常常較高。
11.相關(guān)系數(shù):經(jīng)典方法有皮爾遜相關(guān)系數(shù)、肯德?tīng)栂嚓P(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、等級(jí)相關(guān)系數(shù)、偏相關(guān)系數(shù)。
12.回歸分析法:是經(jīng)典的因果分析法。根據(jù)自變量個(gè)數(shù)的不同,將回歸分析分為一元回歸和多元回歸分析?;貧w分析通過(guò)擬合線或面乃至高維結(jié)構(gòu),使得數(shù)據(jù)點(diǎn)到線、面和高維結(jié)構(gòu)的距離最小。
13.皮爾遜相關(guān)系數(shù):也叫簡(jiǎn)單相關(guān)系數(shù),是一種用途最廣泛的相關(guān)系數(shù)。對(duì)絕大多數(shù)數(shù)值型變量都適用。皮爾遜相關(guān)系數(shù)總是在-1~1之間,系數(shù)為正表示兩個(gè)變量正相關(guān),即一個(gè)變量增大時(shí)另外一個(gè)變量也增大。系數(shù)為負(fù)表示兩個(gè)變量為負(fù)相關(guān),即一個(gè)變量增大時(shí)另外一個(gè)變量則會(huì)減小。系數(shù)大于0.6表示兩個(gè)變量為強(qiáng)關(guān)聯(lián),系數(shù)小于0.4表示兩個(gè)變量為弱關(guān)聯(lián)。
14.時(shí)間序列分析:根據(jù)過(guò)去的變化趨勢(shì)預(yù)測(cè)未來(lái)的發(fā)展,通常用于研究一定時(shí)間內(nèi)的社會(huì)事務(wù)問(wèn)題或金融經(jīng)濟(jì)問(wèn)題。在時(shí)間序列分析中,歷史數(shù)據(jù)需要滿足三條前提假設(shè):過(guò)去的數(shù)據(jù)規(guī)律會(huì)延續(xù)到未來(lái);數(shù)據(jù)呈現(xiàn)明顯的周期性;在某一周期內(nèi),數(shù)據(jù)的變化趨勢(shì)符合某種規(guī)律。根據(jù)所平均的數(shù)據(jù)是全部數(shù)據(jù)還是部分?jǐn)?shù)據(jù),時(shí)間序列模型可分為序時(shí)平均數(shù)法和移動(dòng)平均法;根據(jù)不加權(quán)還是令時(shí)間較近的數(shù)據(jù)權(quán)重更大,時(shí)間序列模型可以分為簡(jiǎn)單平均法和加權(quán)平均法。
缺點(diǎn):對(duì)于周期性和趨勢(shì)性的變化不敏感,只有周期性和趨勢(shì)性都符合固定規(guī)律的數(shù)據(jù)才能夠得到可信的時(shí)間序列模型。
15.線性回歸分析:一種研究自變量和因變量之間因果關(guān)系的分析方法。當(dāng)自變量只有一個(gè)時(shí),稱為一元線性回歸分析,自變量有多個(gè)時(shí),稱為多元線性回歸分析。線性回歸分析使用最小二乘法度量散點(diǎn)到回歸線的距離,并尋找使得直線到所有散點(diǎn)的距離之和達(dá)到最小的解,以此為依據(jù)寫(xiě)出距離所有散點(diǎn)最近的回歸線的方程。
缺點(diǎn):只能用于分析線性關(guān)系。每個(gè)自變量和因變量所成的散點(diǎn)圖都應(yīng)當(dāng)圍繞一條直線波動(dòng)。對(duì)于非線性分布,如指數(shù)分布或二次分布,就應(yīng)當(dāng)將其轉(zhuǎn)化為線性分布后再精選分析。線性回歸分析要求所有的自變量相互獨(dú)立。若自變量之間有相關(guān)性,就需要使用因子分析等方法消除自變量相關(guān)帶來(lái)的影響。
16.Logistic回歸分析:適用于因變量為分類(lèi)變量的情況。使用一個(gè)對(duì)數(shù)轉(zhuǎn)換,將事件發(fā)生的概率轉(zhuǎn)換為成因變量,是一種非線性回歸。具有靈活多變可擬合復(fù)雜的曲線的特點(diǎn)。能夠比較不同自變量對(duì)因變量影響的強(qiáng)弱。也能比較不同自變量組合有什么差別。
缺點(diǎn):適用范圍不廣泛,通常用于流行病學(xué)研究。也用于研究社會(huì)科學(xué)問(wèn)題。
17.降維算法:提取數(shù)據(jù)中重要特征并摒棄無(wú)用特征,以加快計(jì)算速度并為后序分析提供類(lèi)似數(shù)據(jù)清洗的工作。
18.線性降維算法:是降維算法中最早被使用的算法。從子集選擇(屬性選擇)開(kāi)始,慢慢演變發(fā)展出因子分析、主成分分析等可解釋性強(qiáng)且效果不錯(cuò)的算法。
缺點(diǎn):忽略了特征之間的非線性關(guān)系。
19.因子分析:基本思想是根據(jù)特征相關(guān)性將原始特征分組,使得同組內(nèi)的特征相關(guān)性盡可能高,不同組內(nèi)的特征相關(guān)性盡可能低。此算法在心理學(xué)領(lǐng)域得到廣泛應(yīng)用。由于因子分析需要預(yù)先做好的假設(shè),對(duì)誤差有特殊要求等原因,它的計(jì)算需要很多輪迭代,非常復(fù)雜。因子分析也是降維算法明星。因子分析可以提前將多個(gè)相關(guān)的自變量映射成較少的不相關(guān)的自變量,從而提高回歸分析的準(zhǔn)確性。
缺點(diǎn):構(gòu)建因子模型需要非常大的計(jì)算量,因此因子分析局限于小樣本數(shù)據(jù)分析;因子分析十分依賴數(shù)據(jù)真實(shí)性;因子分析依賴數(shù)據(jù)分析師經(jīng)驗(yàn),若將不該放在一起的變量放到一個(gè)因子中,結(jié)論就會(huì)大錯(cuò)特錯(cuò)。
20.主成分分析法:是目前典型降維算法,擴(kuò)展得到奇異值分解法以及判別分析法。在減少數(shù)據(jù)集特征維度的同時(shí),盡可能保持?jǐn)?shù)據(jù)集對(duì)方差貢獻(xiàn)最大的特征。其基本步驟:(1)數(shù)據(jù)去中心化;(2)構(gòu)建協(xié)方差矩陣;(3)做特征值分解,得到特征值和對(duì)應(yīng)的特征向量;(4)將特征值從大到小排序,特征值大的維度即對(duì)應(yīng)數(shù)據(jù)集中的重要特征,特征值小的維度即對(duì)應(yīng)數(shù)據(jù)集中的次要特征,對(duì)數(shù)據(jù)集特征進(jìn)行篩除。
21.非線性降維算法:典型的非線性降維算法有“核方法+線性降維算法”、“流形學(xué)習(xí)”等。
22.核方法+線性降維算法:通過(guò)利用核函數(shù)的性質(zhì)將低維輸入空間(歐式空間或離散集合)映射到高維特征空間(希爾伯特空間),在新的特征空間中數(shù)據(jù)即從線性不可分變成了線性可分了。
23.流形學(xué)習(xí):等距離映射是流形學(xué)習(xí)代表算法,它的作用是將流形上的位置映射到歐式空間中(如將一個(gè)三維足球的每塊格子映射到二維平面中),它是多維尺度分析方法的改進(jìn)算法,用測(cè)地線距離代替歐式距離作為空間距離的表示。
缺點(diǎn):由于流形方法是基于數(shù)據(jù)分布在一個(gè)流形上的假設(shè),而實(shí)際情況并不能確定這個(gè)假設(shè)的存在。
24.粗糙集算法:可以同時(shí)研究多個(gè)自變量和多個(gè)因變量之間的關(guān)系。使用粗糙集算法的前提是將原始數(shù)據(jù)離散化為算法可以識(shí)別的數(shù)據(jù)。粗糙集可以完成屬性簡(jiǎn)約、測(cè)度屬性重要性、提取決策規(guī)則工作。該算法具有計(jì)算速度快、準(zhǔn)確度高、結(jié)果易于理解等優(yōu)點(diǎn)。
缺點(diǎn):決策過(guò)程十分簡(jiǎn)單,決策規(guī)則不夠穩(wěn)定,不同的數(shù)據(jù)集會(huì)導(dǎo)致不同的決策規(guī)則;當(dāng)訓(xùn)練數(shù)據(jù)增多時(shí),粗糙集的精確度會(huì)得到提高,這意味著粗糙集需要大量有效的訓(xùn)練數(shù)據(jù);粗糙集只能處理離散數(shù)據(jù),如果不能較合理地將連續(xù)數(shù)據(jù)離散化,將極大影響粗糙集的結(jié)果;當(dāng)條件屬性過(guò)多時(shí),屬性組合會(huì)無(wú)限多,簡(jiǎn)約屬性將變得十分困難。
25.最優(yōu)尺度分析:通過(guò)主成分分析法來(lái)描述多個(gè)分類(lèi)變量不同水平之間的相關(guān)性,它用圖形反應(yīng)變量之間的關(guān)系,兼具理論基礎(chǔ)堅(jiān)實(shí)和結(jié)果易解讀兩方面優(yōu)點(diǎn),在市場(chǎng)細(xì)分、產(chǎn)品定位、品牌形象、顧客滿意度研究方面都有深遠(yuǎn)影響。
缺點(diǎn):不能和其他分析方法產(chǎn)生協(xié)作關(guān)系,也不能像因子分析那樣為其他分析方法進(jìn)行數(shù)據(jù)處理工作;能分析的變量數(shù)有限;不能回答定量問(wèn)題,也不能回答兩個(gè)變量的相關(guān)程度有多高。
26.遺傳算法:是一種梯度上升的最優(yōu)化算法,每次繁衍都會(huì)得到比上一次繁衍更好的結(jié)果,適合解決各類(lèi)復(fù)雜的非線性問(wèn)題。遺傳算法不作用于單獨(dú)的解,而是從一組解迭代到另一組解;遺傳算法不需要過(guò)多的先驗(yàn)知識(shí),只需設(shè)定號(hào)適應(yīng)度函數(shù)即可完成求解過(guò)程;遺傳算法不會(huì)陷入局部最優(yōu)解,而是直接得出全局最優(yōu)解;遺傳算法能提供的解不是唯一的。遺傳算法具有高度并行性,因此可以在分布式系統(tǒng)上實(shí)現(xiàn)遺傳算法,可以處理更龐大的數(shù)據(jù)量。
缺點(diǎn):遺傳算法的數(shù)學(xué)基礎(chǔ)不完善,它主要使用概率知識(shí)來(lái)求得最優(yōu)解;遺傳算法過(guò)度依賴二進(jìn)制表達(dá),不使用二進(jìn)制表達(dá)時(shí)如何推廣遺傳算法仍是一個(gè)難題。工程師嘗試使用格雷編碼和實(shí)數(shù)編碼表示染色體。
27.決策樹(shù)分析:決策樹(shù)是一種電信的分類(lèi)方法,是最著名的模式識(shí)別算法之一。它能夠從數(shù)據(jù)集中抽取有價(jià)值的規(guī)則,并廣泛用于各類(lèi)決策問(wèn)題。與粗糙集和遺傳算法不同,決策樹(shù)在判斷決策條件時(shí),是按照順序進(jìn)行判斷的。即,決策樹(shù)的最終結(jié)果和決策樹(shù)的條件羅列順序有關(guān)。即便數(shù)據(jù)集和決策變量都完全相同,但改變決策條件的順序,就有可能改變決策結(jié)果。為了得到最優(yōu)的決策結(jié)果,需要引入熵和信息增益的概念。在二分類(lèi)決策熵中,某個(gè)變量所包含的變量越單一,其熵就越低;某個(gè)變量所包含的變量越混雜,其熵就越高。只有熵還不足以確定決策樹(shù)中變量的排序,而信息增益算法則可計(jì)算每個(gè)變量的數(shù)值。在安排決策樹(shù)時(shí)可按照信息增益大到小的順序?qū)Q策變量加以排序,并從信息增益較大的變量開(kāi)始進(jìn)行決策,即可保證決策樹(shù)的結(jié)果最優(yōu)化。決策樹(shù)是一種非常實(shí)用的逼近離散函數(shù)值的方法。本質(zhì)上是一種映射關(guān)系,將對(duì)象的一組屬性和對(duì)象的值映射到一起,就是一組映射關(guān)系。決策樹(shù)能夠解決分類(lèi)問(wèn)題、預(yù)測(cè)問(wèn)題和回歸問(wèn)題。決策樹(shù)具有適合處理多類(lèi)變量、對(duì)異常值不敏感、準(zhǔn)確度高等優(yōu)點(diǎn)。
缺點(diǎn):一個(gè)決策樹(shù)僅能輸出一個(gè)結(jié)果,需要輸出多個(gè)結(jié)果時(shí),需要構(gòu)建多個(gè)決策樹(shù)。決策樹(shù)在訓(xùn)練時(shí)需要大量的數(shù)據(jù)和計(jì)算空間。為了得到最好的決策變量排序順序,決策樹(shù)需要反復(fù)計(jì)算變量的熵和信息增益。決策樹(shù)的剪枝技術(shù)幫助決策樹(shù)使用最少的節(jié)點(diǎn)完成分類(lèi)的任務(wù),但錯(cuò)誤的剪枝會(huì)使得決策樹(shù)的結(jié)果準(zhǔn)確性大幅度下降,同時(shí)剪枝過(guò)程需要大量的計(jì)算。
28.K均值聚類(lèi)分析:最簡(jiǎn)單的一種聚類(lèi)方法,在二維平面或者三維平面上,聚類(lèi)結(jié)果最直觀易理解。K均值聚類(lèi)中聚類(lèi)的個(gè)數(shù)由數(shù)據(jù)分析師手動(dòng)指定,一般是根據(jù)原始數(shù)據(jù)的形成散點(diǎn)圖觀察得到。有的很容易得到,有的需要反復(fù)嘗試。K均值聚類(lèi)是一種迭代算法,需多次調(diào)整各個(gè)類(lèi)別的中心和所屬的散點(diǎn)。K均值聚類(lèi)原理簡(jiǎn)單,實(shí)現(xiàn)程序簡(jiǎn)潔,能處理大多數(shù)的分類(lèi)問(wèn)題。優(yōu)點(diǎn)是計(jì)算速度快、易解釋性強(qiáng)、能夠處理多種數(shù)據(jù)類(lèi)型。
缺點(diǎn):只對(duì)圓形或橢圓形的散點(diǎn)分布敏感,若三代分布式不規(guī)則的月牙形或者環(huán)形,K均值聚類(lèi)就會(huì)犯錯(cuò),此時(shí)適合使用密度聚類(lèi)方法;K均值聚類(lèi)要求每個(gè)類(lèi)別中的散點(diǎn)數(shù)量都差不多。如果有一小部分點(diǎn)單獨(dú)聚成一類(lèi),K均值聚類(lèi)就會(huì)把它們打散并和其他類(lèi)別合并;K均值聚類(lèi)需要手動(dòng)設(shè)定聚類(lèi)個(gè)數(shù),當(dāng)處于二維或者三維時(shí),問(wèn)題不大,但處于更高維數(shù)時(shí),人眼就不能直觀判斷聚類(lèi)結(jié)果是否合理;K均值聚類(lèi)對(duì)噪聲點(diǎn)和離群值較為敏感,以及要求一定數(shù)據(jù)量,否則聚類(lèi)結(jié)果就不理想。
29.順序分析:是關(guān)聯(lián)分析的一種,能夠在大量數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)性或相關(guān)性。順序分析關(guān)心數(shù)據(jù)的縱向排列,即一件事情發(fā)生后緊接著會(huì)發(fā)生什么事情。順序分析所使用的頻繁模式算法是一種實(shí)用且簡(jiǎn)單的算法,比如輸入法利用順序分析挖掘用戶固有的輸入習(xí)慣。
缺點(diǎn):結(jié)果準(zhǔn)確度和計(jì)算效率是順序分析中一個(gè)不可調(diào)和的矛盾;順序分析僅能發(fā)現(xiàn)事件和事件之間的相關(guān)性,而不能發(fā)現(xiàn)一個(gè)事件引發(fā)另外一個(gè)事件的原因;順序分析只有在樣本積累足夠多時(shí)才能起到作用。
30.文本分析:是一系列算法的合稱,需要完成分詞、清洗、信息提取等工作。這些可以通過(guò)K均值算法、支持向量機(jī)或樸素貝葉斯算法完成。
31.協(xié)同過(guò)濾:是利用集體智慧編程的一種典型算法,但它保留了一定的個(gè)體特征,因此可以用于預(yù)測(cè)每個(gè)人的品味偏好。優(yōu)點(diǎn)在于能夠基于抽象概念和信息來(lái)過(guò)濾某些難以分析的內(nèi)容。為用戶瀏覽到更多感興趣的品牌提供了可能。
32.支持向量機(jī):能夠同時(shí)最小化經(jīng)驗(yàn)誤差并最大化幾何誤差,在保證分類(lèi)效果的同時(shí),讓兩個(gè)類(lèi)別的樣本盡可能遠(yuǎn)離。和線性分類(lèi)器相比,它具有較高的精度和靈敏度,因此常常應(yīng)用于對(duì)分類(lèi)結(jié)果要求較高的地方。在信息生物學(xué)、工業(yè)勘探和文本分析領(lǐng)域都有重要應(yīng)用。
33.感知器神經(jīng)網(wǎng)絡(luò):一種基礎(chǔ)神經(jīng)網(wǎng)絡(luò),使用BP算法優(yōu)化后,感知器神經(jīng)網(wǎng)絡(luò)將具有更好的非線性映射能力、泛化能力和容錯(cuò)能力,這是由于BP算法利用了誤差的反向傳播思想,將誤差平攤給隱含層。
缺點(diǎn):不能準(zhǔn)確預(yù)測(cè)較長(zhǎng)時(shí)間內(nèi)的函數(shù);神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間較長(zhǎng),當(dāng)數(shù)據(jù)較少且隱含層和神經(jīng)元都較少時(shí),神經(jīng)網(wǎng)絡(luò)能夠在幾分鐘內(nèi)訓(xùn)練好,并且能夠很好解決問(wèn)題;當(dāng)數(shù)據(jù)很多、隱含層很多、神經(jīng)元很多,即啟動(dòng)典型的深度學(xué)習(xí)模式時(shí),神經(jīng)網(wǎng)絡(luò)就需要訓(xùn)練很長(zhǎng)時(shí)間;另外神經(jīng)網(wǎng)絡(luò)的好壞依賴于初始值的設(shè)定,這是因?yàn)檎`差曲面會(huì)將神經(jīng)網(wǎng)絡(luò)引入局部最優(yōu)值。
34.自主神經(jīng)網(wǎng)絡(luò):將網(wǎng)絡(luò)切割為一個(gè)一個(gè)小的部分,每部分對(duì)應(yīng)一種模式,這種結(jié)構(gòu)使自組織神經(jīng)網(wǎng)絡(luò)在分析比較、尋找規(guī)律和正確歸類(lèi)等方面具有特殊的優(yōu)勢(shì)。其最重要的部分在于設(shè)計(jì)神經(jīng)元個(gè)數(shù)和神經(jīng)元排列方式。
35.RBM算法:全稱是受限玻爾茲曼機(jī)算法,其一個(gè)重要用途就是為神經(jīng)網(wǎng)絡(luò)做預(yù)處理,替神經(jīng)網(wǎng)絡(luò)找出最佳的初始值。RBM算法利用了統(tǒng)計(jì)熱力學(xué)的思想。它將可視層的數(shù)據(jù)轉(zhuǎn)化為隱含層的數(shù)據(jù),通過(guò)監(jiān)督學(xué)習(xí)的方法進(jìn)行分類(lèi)或回歸。由于隱含層的節(jié)點(diǎn)數(shù)一般少于可視層,因此RBM算法就完成了降維工作;通過(guò)能量函數(shù)的最優(yōu)化,RBM算法可以求出自變量和因變量之間的權(quán)重矩陣和偏移量,用兩者作為神經(jīng)網(wǎng)絡(luò)的初始值,可以是神經(jīng)網(wǎng)絡(luò)進(jìn)入全局最優(yōu)值點(diǎn),而不會(huì)陷入局部最優(yōu)值點(diǎn)處。RBM算法能夠計(jì)算自變量和因變量的聯(lián)合概率,以及兩者構(gòu)成的條件概率。有了這些概率,RBM算法可以像貝葉斯網(wǎng)絡(luò)或者隱馬爾可夫鏈那樣計(jì)算每種狀態(tài)出現(xiàn)的概率,即作為一個(gè)生成模型或分類(lèi)模型來(lái)使用。最大優(yōu)點(diǎn)是能求得全局最優(yōu)值
36.判別分析:是一種典型的以統(tǒng)計(jì)理論為基礎(chǔ)的分類(lèi)方法,它所使用的降維方法和主成分分析十分類(lèi)似,但主成分分析的目標(biāo)是將不同維度的信息整合為一個(gè)維度,而判別分析的目標(biāo)是將不同類(lèi)別的數(shù)據(jù)盡量分離。和回歸分析類(lèi)似,判別分析有十分嚴(yán)苛的假設(shè)條件。判別分析假設(shè)分組類(lèi)型在兩種以上,且每個(gè)類(lèi)別都具有一定的樣本數(shù)量;各組樣本的協(xié)方差矩陣相等,且各組樣本服從正態(tài)分布;判別分析中涉及的各個(gè)變量不能相關(guān)。判別分析擅長(zhǎng)處理那些樣本數(shù)據(jù)量介于多和少之間、自變量個(gè)數(shù)較多問(wèn)題。
聯(lián)系客服