轉(zhuǎn)自(http://blogger.org.cn/blog/more.asp?name=haonan917&id=27615)
數(shù)據(jù)挖掘及其建模:一個(gè)熱門(mén)話(huà)題的解惑
宇宙之大,萬(wàn)事萬(wàn)物概莫變化無(wú)常。模型作為一種抽象的工具,遠(yuǎn)在幾千年前我們的老祖宗就已經(jīng)意識(shí)到其作用,人們制造瓷器、陶器、銅器、金器、銀器等等,都要首先制作各種“模子”。進(jìn)而推廣之,自古以來(lái),人們就提出了各種非實(shí)物的形式模型。中國(guó)古代人們提出的“陰陽(yáng)互補(bǔ)模式”、“五行生克模式”、“天人合一模式”、“易經(jīng)卦象模式”等等,用這些思維模式去嘗試解決多種多樣的問(wèn)題。
數(shù)據(jù)挖掘作為近年來(lái)新興的一門(mén)計(jì)算機(jī)邊緣學(xué)科,在我國(guó)也逐漸引起了越來(lái)越多人的關(guān)注,各種學(xué)術(shù)及應(yīng)用文章如汗牛充棟,令人眼花繚亂。但數(shù)據(jù)挖掘究竟是什么?人們常常掛在嘴邊的數(shù)據(jù)挖掘建模本質(zhì)上又指的什么?筆者得到的反饋常是模棱兩可、凌亂抽象的時(shí)髦詞匯的堆砌。本文及后續(xù)的系列專(zhuān)欄文章無(wú)意也無(wú)力于澄清所有的概念,僅作為拋磚引玉,為渴望入門(mén)或跟作者一樣曾經(jīng)陷于學(xué)界高深莫測(cè)的概念泥潭中不能自拔的理想青年盡微薄之力。我將從以下五個(gè)方面探討。
(一)數(shù)據(jù)挖掘是什么
(二)數(shù)據(jù)挖掘不是什么
(三)數(shù)據(jù)挖掘建模的任務(wù)
(四)數(shù)據(jù)挖掘建模的思維框架
(五)數(shù)據(jù)挖掘VS統(tǒng)計(jì)學(xué)
后序?qū)⒔榻B數(shù)據(jù)挖掘常用的研究方法;建模的技巧;常用的工具;權(quán)威的教材與論文及該領(lǐng)域目前活躍的研究人員。
(一)數(shù)據(jù)挖掘是什么
定義某個(gè)名詞特別是某個(gè)學(xué)科總是特別容易引起爭(zhēng)論的事情,不同的教材、不同的學(xué)者從不同的關(guān)注角度和研究領(lǐng)域出發(fā)總會(huì)側(cè)重不同的理解。為了不糾纏于細(xì)枝末節(jié),我引用了David Hand在“Principles of Data Mining”中的定義:
數(shù)據(jù)挖掘就是對(duì)觀測(cè)到數(shù)據(jù)集合進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對(duì)其有價(jià)值的新穎方式來(lái)總結(jié)數(shù)據(jù)。
注腳:上述定義中有幾個(gè)問(wèn)題需要思考。第一,對(duì)觀測(cè)到的數(shù)據(jù)進(jìn)行分析。什么樣的數(shù)據(jù)?如何分析?化學(xué)試驗(yàn)的數(shù)據(jù)及分析也是觀測(cè)到的數(shù)據(jù)及分析,這里的數(shù)據(jù)有什么不同?分析有什么特別?實(shí)際上,沒(méi)什么不同,數(shù)據(jù)挖掘本身是高于具體的領(lǐng)域的一種方法論,物理的,化學(xué)的問(wèn)題都可以套到這個(gè)定義上,用這個(gè)方法去“分析”
第二,未知的關(guān)系。這是關(guān)鍵所在。如果一個(gè)模型分析得到的結(jié)果是已知的東西,那是驗(yàn)證。而數(shù)據(jù)挖掘重在“探索”,也就是一種unsupervised learning。我舉個(gè)自己的切身例子,某次,本人的移動(dòng)話(huà)費(fèi)出奇地高,在朋友規(guī)勸下,索取了話(huà)費(fèi)的清單,定神一看,密密麻麻叁張打印紙全是通話(huà)記錄。有這么多電話(huà)嗎?打給誰(shuí)的。我自己都搞不清楚了,也就是說(shuō),我首先知道這里肯定有問(wèn)題,但問(wèn)題在哪,到底是因?yàn)槟男┮蛩貙?dǎo)致我這個(gè)月話(huà)費(fèi)不“正常”我是不清楚的。在定睛一看,每天是午夜的時(shí)候都有一個(gè)同樣的電話(huà),時(shí)間點(diǎn)變動(dòng)很小,號(hào)碼偶爾變化,但稀奇古怪,拿朱筆重重一圈,再看,問(wèn)題就清楚了。(略去若干字......)
第三,以數(shù)據(jù)擁有者可以理解并對(duì)其有價(jià)值的新穎方式來(lái)總結(jié)數(shù)據(jù)。通俗一點(diǎn)說(shuō),就是最終的模型還得回歸到具體問(wèn)題來(lái)展示其結(jié)果。比如,無(wú)論你是聚類(lèi)算法還是分類(lèi)算法,還是關(guān)聯(lián)規(guī)則分析,最終無(wú)非要回答:哪些商品售出的時(shí)候最有可能也售出其它哪些商品?哪些人最容易買(mǎi)了手機(jī)很快又換?
文章結(jié)束的時(shí)候講一個(gè)笑話(huà),筆者的一個(gè)朋友,為某大型通迅公司作一個(gè)數(shù)據(jù)挖掘項(xiàng)目時(shí),分析得出這樣一個(gè)結(jié)論:16-24歲年齡段的人最容易流失。聰明的讀者,你笑了嗎?為什么笑?
待續(xù).....
實(shí)際上昨天開(kāi)始下決心動(dòng)筆寫(xiě)這個(gè)專(zhuān)欄的時(shí)候,我已經(jīng)能想像到一定會(huì)有熱心的朋友關(guān)注-畢竟文章起了這么一個(gè)不大不小的頗能吸引人眼球的東西(千萬(wàn)別聯(lián)想到北京地鐵里高聲叫賣(mài)的小報(bào),標(biāo)題動(dòng)輒就是中國(guó)XX日已向XX宣戰(zhàn)云云)。責(zé)任心也好、虛榮心也好,都讓我不得不誠(chéng)惶誠(chéng)恐、認(rèn)認(rèn)真真把這個(gè)系列寫(xiě)下去。raconteur 博友提的意見(jiàn)已經(jīng)虛心采納,相信不會(huì)讓你失望的。還有Beta1和Yubin ,謝謝你們的鼓勵(lì)。需要跟大家解釋一下的是:寫(xiě)這篇文章的最初目的,是想讓那些已經(jīng)看過(guò)一些有關(guān)數(shù)據(jù)挖掘的書(shū)籍或文章,但還不知所云的讀者澄清一些認(rèn)識(shí)上的誤區(qū),因此一些名詞和術(shù)語(yǔ)沒(méi)有給出定義,這也是我沒(méi)有寫(xiě)作經(jīng)驗(yàn)的緣故,見(jiàn)諒!
(二)數(shù)據(jù)挖掘不是什么
提出這個(gè)問(wèn)題很容易,回答卻沒(méi)有看起來(lái)那么簡(jiǎn)單。比如,我可以說(shuō),數(shù)據(jù)挖掘不是售貨機(jī),投入一個(gè)硬幣,吐出來(lái)一筒可樂(lè)-輸入一堆數(shù)據(jù),產(chǎn)生一個(gè)方程......等等都無(wú)助于正確回答這個(gè)問(wèn)題。那我們就索性從前文“數(shù)據(jù)挖掘是什么”,數(shù)據(jù)挖掘能干什么入手看看雙刃劍的另一面。
第一部分“數(shù)據(jù)挖掘是什么”實(shí)際上寫(xiě)的比我計(jì)劃要寫(xiě)的簡(jiǎn)單。僅僅給出了一個(gè)定義及幾條注腳而已。但不管怎樣最核心的東西畢竟寫(xiě)出來(lái)了。數(shù)據(jù)挖掘說(shuō)到底是一種方法,“對(duì)觀測(cè)到數(shù)據(jù)集合進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對(duì)其有價(jià)值的新穎方式來(lái)總結(jié)數(shù)據(jù)。”也就是說(shuō),它是對(duì)觀測(cè)數(shù)據(jù)的次級(jí)處理,往往是數(shù)據(jù)的副產(chǎn)品。比如,物流中心的批銷(xiāo)單(可以理解成訂單)歷史數(shù)據(jù),本身的目的是為了處理發(fā)貨和配送,但用數(shù)據(jù)挖掘,可以對(duì)客戶(hù)進(jìn)行分類(lèi)或聚類(lèi),進(jìn)而也許有助于銷(xiāo)售預(yù)測(cè)。這樣,“不是什么”的問(wèn)題也就來(lái)了,它的確不是專(zhuān)門(mén)性進(jìn)行的一項(xiàng)完整工作,也就是說(shuō),沒(méi)有人會(huì)說(shuō):老王,我們準(zhǔn)備預(yù)測(cè)一下下個(gè)月?tīng)I(yíng)業(yè)高峰什么時(shí)候出現(xiàn),你弄些數(shù)據(jù)來(lái)挖一挖。沒(méi)有數(shù)據(jù),挖掘是扯淡的。很多數(shù)據(jù)挖掘項(xiàng)目失敗,不在于實(shí)施者不懂算法,也往往不在于模型建立不合理不正確,而在于源頭的數(shù)據(jù)就不準(zhǔn)確不“原始”,為挖掘而挖掘。
定義的后一部分要求產(chǎn)生的結(jié)果是“新穎的”,那我們不多說(shuō),又一條“不是什么”可以這么理解:數(shù)據(jù)挖掘不是你先看一眼批銷(xiāo)單,然后說(shuō)我猜買(mǎi)《克林頓與萊溫斯基》的人一定會(huì)買(mǎi)《希拉里自傳》,我們挖一挖批銷(xiāo)單庫(kù)看看。當(dāng)然這么說(shuō)有的時(shí)候不能完全算錯(cuò),因?yàn)楫吘箍茖W(xué)探索還得要有想像力-但數(shù)據(jù)挖掘一般說(shuō)來(lái)結(jié)果都可能會(huì)讓你大跌眼鏡,不是你想當(dāng)然想出來(lái)然后驗(yàn)證。
最后再?gòu)牧硪粋€(gè)維度“數(shù)據(jù)挖掘能作什么”出發(fā)回答“數(shù)據(jù)挖掘不是什么”。
任何嚴(yán)肅的數(shù)據(jù)挖掘教科書(shū)(我列幾本,大家可以找找。J.Han ,Micheline Kambr,"Data Mining-Concepts and Techniques";David Hand "Principles of Data Mining"; Michael J.A.Berry,"Mastering Data Mining-The Art and Science of Customer Relationship Management";Adriaans,P.,and Zantige "Data Mining")都覆蓋到以下幾個(gè)區(qū)域(后續(xù)文章會(huì)詳細(xì)闡述):
1 分類(lèi)(Classification)
分類(lèi)首先要對(duì)一個(gè)新的客觀事物特征進(jìn)行描述,然后將客觀事物的觀察值分配到事先確定的類(lèi)別之中。
因此,數(shù)據(jù)挖掘不是先知,能預(yù)知新的類(lèi)別(異常探測(cè)是另一個(gè)話(huà)題),必須是事先明確的類(lèi)別,經(jīng)過(guò)訓(xùn)練后將待分類(lèi)數(shù)據(jù)歸到類(lèi)別標(biāo)簽下去。
2 估計(jì)(estimaiton)
分類(lèi)處理的是離散的結(jié)果:如“是”與“不是”,“中國(guó)”,“日本”,而估計(jì)處理的是連續(xù)的結(jié)果,因此也可以看成分類(lèi)的擴(kuò)展,二者在實(shí)踐中常常結(jié)合使用,比如銀行要決定該給哪些顧客貸款,考慮的做法是將所有顧客放入一個(gè)模型,給每個(gè)客戶(hù)一個(gè)從0到1的分?jǐn)?shù),即對(duì)貸款的響應(yīng)概率。分類(lèi)的任務(wù)轉(zhuǎn)換成建立一個(gè)分?jǐn)?shù)臨界數(shù)值,根據(jù)對(duì)顧客響應(yīng)概率的估計(jì)來(lái)對(duì)他分類(lèi)。
因此這一點(diǎn)不再闡述。
3 預(yù)測(cè)(Prediction)
有人認(rèn)為預(yù)測(cè)不是一種獨(dú)立的方法,任何預(yù)測(cè)都是分類(lèi)或者估計(jì),關(guān)鍵在于你強(qiáng)調(diào)什么。我的理解是區(qū)別點(diǎn)在于檢驗(yàn)。分類(lèi)理論上你是可以檢驗(yàn)的,而預(yù)測(cè)你只能等到事情發(fā)生之后。
但記住,數(shù)據(jù)挖掘同樣不是未卜先知,一切的神秘都在數(shù)據(jù)里,玄機(jī)是跟分類(lèi)和估計(jì)一樣,都得通過(guò)訓(xùn)練數(shù)據(jù)建立先驗(yàn)的某種模型(如樹(shù)或貝葉斯網(wǎng)絡(luò)),然后在此基礎(chǔ)和前提下預(yù)測(cè)。想想也是有道理的,現(xiàn)實(shí)生活中,我們太相信一些專(zhuān)家,學(xué)者的話(huà),老吃啞巴虧,人家說(shuō)今年房?jī)r(jià)一定升,咱就把攥的緊緊的錢(qián)拿出來(lái)去買(mǎi)房,結(jié)果好像別人的升,你的房子按兵不動(dòng)啊。“專(zhuān)家”們的預(yù)測(cè)也是有前提和模型的,只是他的模型,只在書(shū)本或他腦子里,我們這些老百姓無(wú)緣聽(tīng)到,也可能人家根本不屑講給我們這些聽(tīng)不懂的人。
4 關(guān)聯(lián)(AssociationRules)
這是數(shù)據(jù)挖掘中最常見(jiàn)的一類(lèi)問(wèn)題。幾乎所有的介紹數(shù)據(jù)挖掘概念的文章中動(dòng)輒都拿這個(gè)為例,“啤酒和尿布”,“菜籃子分析”,“購(gòu)物車(chē)”分析都是這一類(lèi)問(wèn)題的通俗說(shuō)法。
我先提醒大家一句,數(shù)據(jù)挖掘運(yùn)算的結(jié)果,即便是frequent item(也就是有意義的那些關(guān)聯(lián)項(xiàng)目)也可能是數(shù)目非常龐大的,需要進(jìn)一步分析。不是挖一通然后眼睛一亮淚流滿(mǎn)面向全世界宣布:買(mǎi)香煙最多的人買(mǎi)打火機(jī)也最多!!
5 聚類(lèi)(clustering)
聚類(lèi)跟分類(lèi)不同,對(duì)于數(shù)據(jù)會(huì)歸于哪一“類(lèi)”,事先是不知道的,完全是unsupervised學(xué)習(xí)過(guò)程,自然也就沒(méi)有什么樣本的概念。但同樣提醒大家的是,學(xué)習(xí)的時(shí)候注意,任何的聚類(lèi)方法仍然有隱性的前提在里面,就是聚類(lèi)的依據(jù),總
歸是某種“長(zhǎng)度”,“距離”,“相似性”之類(lèi)的概念或角度,而絕不是挖出來(lái)白人黑人黃種人一目了然。不同的計(jì)算方法結(jié)果會(huì)有不同。
待續(xù).......
三 數(shù)據(jù)挖掘建模的任務(wù)
數(shù)據(jù)挖掘功能可能是目標(biāo)性的,也可以是描述性的,其差異取決于指導(dǎo)數(shù)據(jù)挖掘?qū)嵺`的目標(biāo)。目標(biāo)性數(shù)據(jù)挖掘的首要任務(wù)是創(chuàng)建一個(gè)可以預(yù)測(cè),指定標(biāo)記,以及估計(jì)數(shù)值的預(yù)測(cè)模型,從而可以自動(dòng)實(shí)現(xiàn)決策過(guò)程。通常目標(biāo)性挖掘的結(jié)果可以直接應(yīng)用在行動(dòng)中,例如
依照預(yù)測(cè)模型的結(jié)果,可以決定是否給某個(gè)申請(qǐng)貸款客戶(hù)發(fā)放貸款。在這種情況下,模型的好壞與否主要在于其判斷的準(zhǔn)確性。
但多數(shù)情況下數(shù)據(jù)挖掘是描述性的。所謂“描述”的任務(wù)是通過(guò)各種直觀或有效的方式對(duì)數(shù)據(jù)得到更深入的理解,進(jìn)而了解數(shù)據(jù)所反映的領(lǐng)域背景情況。當(dāng)然描述性的數(shù)據(jù)挖掘也產(chǎn)生一些挖掘結(jié)果,但這些結(jié)果并非由模型自動(dòng)生成。此時(shí),模型的好壞并不取決于預(yù)測(cè)的準(zhǔn)確與否,而在于通過(guò)模型所得到的對(duì)數(shù)據(jù)的認(rèn)知。
我們來(lái)看兩個(gè)數(shù)據(jù)挖掘的例子,數(shù)據(jù)挖掘在這兩個(gè)項(xiàng)目中用來(lái)分析用戶(hù)對(duì)某移動(dòng)運(yùn)營(yíng)服務(wù)商促銷(xiāo)活動(dòng)的響應(yīng)程度。兩個(gè)項(xiàng)目所輸入的原始數(shù)據(jù)幾乎相同:客戶(hù)所在地域、身份、年齡段、性別等,某些客戶(hù)已標(biāo)明加入了該公司網(wǎng)絡(luò)。第一個(gè)項(xiàng)目的任務(wù)是建立一個(gè)模型,從未來(lái)類(lèi)似的潛在客戶(hù)中找出可能加入該公司網(wǎng)絡(luò)的群體,根據(jù)新客戶(hù)接受服務(wù)的可能性進(jìn)行打分,得分高于一定閥值的選定為最可能接受服務(wù)的重點(diǎn)客戶(hù)群體。另一個(gè)項(xiàng)目的任務(wù)不同,目的是尋找那些已經(jīng)選擇該公司網(wǎng)絡(luò)客戶(hù)的特征及原因,以改進(jìn)日后的促銷(xiāo)活動(dòng)。由于兩個(gè)項(xiàng)目的建模目標(biāo)不同,因而處理過(guò)程采用的技術(shù)和方法也大不一樣。
兩個(gè)項(xiàng)目都是對(duì)潛在客戶(hù)的研究,對(duì)于移動(dòng)公司來(lái)說(shuō),可用的數(shù)據(jù)只有客戶(hù)的姓名和地址(不包括那些不需要實(shí)名入網(wǎng)的客戶(hù))及是否通過(guò)促銷(xiāo)入網(wǎng)的標(biāo)記。通常的處理方法是將這些數(shù)據(jù)轉(zhuǎn)到第三方通過(guò)一些人口資料和生活形態(tài)等變量加以豐富和擴(kuò)展。但生活形態(tài)(如每月購(gòu)買(mǎi)奢侈品占消費(fèi)額比例等消費(fèi)習(xí)慣)變量中的噪聲和缺失現(xiàn)象非常嚴(yán)重,因此很難利用這個(gè)變量來(lái)構(gòu)造理想的模型。不管用神經(jīng)網(wǎng)絡(luò)還是決策樹(shù)模型,都很難從這種稀疏數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律,因而模型的預(yù)測(cè)能力很差。
但在第二個(gè)項(xiàng)目中,類(lèi)似消費(fèi)習(xí)慣這樣的變量就比較有用。盡管這類(lèi)變量分布比較稀疏,但對(duì)于稀有案例的預(yù)測(cè)較為準(zhǔn)確。原因就在于第一個(gè)項(xiàng)目假定用來(lái)訓(xùn)練的樣本數(shù)據(jù)是潛在客戶(hù)總體的代表,而第二個(gè)項(xiàng)目從另一個(gè)角度看問(wèn)題:如果有異常興趣和習(xí)慣的人對(duì)促銷(xiāo)感興趣的話(huà),那么我們所應(yīng)作的就是找出這個(gè)新的群體,從該群體中找出未來(lái)客戶(hù)的特征。第二個(gè)項(xiàng)目對(duì)有意象的客戶(hù)進(jìn)行聚類(lèi),并且把這些類(lèi)的變量與總體變量進(jìn)行比較。不管總體的稀少程度如何,只要有特殊興趣和習(xí)慣,公司就會(huì)與相關(guān)的機(jī)構(gòu)或組織聯(lián)系從中找出有關(guān)的列表提供進(jìn)一步信息,這樣該群體的比例就可能上升。
四 數(shù)據(jù)挖掘?qū)W科的分析框架
各個(gè)成熟的學(xué)科都有其分析、解決問(wèn)題的框架和方法論,一般稱(chēng)之為分析框架。譬如研究經(jīng)濟(jì)學(xué),常使用的分析框架有交易成本、博弈論、代理人等等。在數(shù)據(jù)挖掘?qū)W科當(dāng)中,由于不同問(wèn)題領(lǐng)域的背景不同,因此不存在一個(gè)放之四海都皆準(zhǔn)的研究框架。因此這里我們給出一個(gè)抽象的一般性框架僅供參考。
1 理解商業(yè)問(wèn)題
這個(gè)階段在我看來(lái)是整個(gè)分析處理過(guò)程中最重要最關(guān)鍵的一環(huán),但往往被很多人輕視了。 這個(gè)環(huán)節(jié)的根本目的在于理解業(yè)務(wù)問(wèn)題,可以通過(guò)以下問(wèn)題列表來(lái)幫助你明確目標(biāo):
是否有必要選用數(shù)據(jù)挖掘?
是否有一些感興趣的客戶(hù)群資料?
在了解客戶(hù)資料的時(shí)候應(yīng)該注意哪些約束性問(wèn)題?
領(lǐng)域?qū)<覍?duì)數(shù)據(jù)的了解程度如何?是否存在無(wú)效的數(shù)據(jù)資源?某些特別的數(shù)據(jù)可以從哪里得到?
根據(jù)領(lǐng)域?qū)<业囊庖?jiàn),哪些問(wèn)題是最重要的?
哪些數(shù)據(jù)現(xiàn)在得不到,但一旦得到就可以立即行動(dòng)?
2 數(shù)據(jù)準(zhǔn)備
(1)確認(rèn)和獲取數(shù)據(jù)。構(gòu)建模型的第一步是確認(rèn)是獲取數(shù)據(jù)。通常情況下,所謂合適的數(shù)據(jù)是可用于分析的、邏輯清楚的、易獲取的數(shù)據(jù)。其次,數(shù)據(jù)應(yīng)當(dāng)盡可能完整,使用抽樣調(diào)查之類(lèi)的數(shù)據(jù)集合顯然不行。當(dāng)然不排除個(gè)別應(yīng)用當(dāng)中專(zhuān)門(mén)針對(duì)抽樣調(diào)查數(shù)據(jù)進(jìn)行挖掘,但此時(shí)就不能簡(jiǎn)單將結(jié)果模型用于未回答調(diào)查問(wèn)卷的對(duì)象。
如果進(jìn)行數(shù)據(jù)挖掘分析的目的是進(jìn)行預(yù)測(cè),則數(shù)據(jù)中應(yīng)包括預(yù)期的輸出。舉以前的一個(gè)老案例,某通訊公司準(zhǔn)備為其客戶(hù)制定一份促銷(xiāo)優(yōu)惠的服務(wù)政策列表,例如月通話(huà)時(shí)長(zhǎng)超過(guò)100小時(shí)折扣比例、團(tuán)體入網(wǎng)折扣比例等等。該公司目前擁有下列數(shù)據(jù)資料:對(duì)所有客戶(hù)的銷(xiāo)售資料;按促銷(xiāo)政策清單入網(wǎng)接受相應(yīng)服務(wù)的客戶(hù)名單;反映客戶(hù)購(gòu)買(mǎi)情況的詳細(xì)資料。但恰恰遺漏的是到底哪些客戶(hù)收到(或看到)促銷(xiāo)清單這個(gè)數(shù)據(jù),因此根據(jù)這些數(shù)據(jù)構(gòu)建預(yù)測(cè)響應(yīng)模型毫無(wú)意義。
(2)生成有效數(shù)據(jù)、探索數(shù)據(jù)(Data Exploring)、數(shù)據(jù)清潔(Data Cleaning)
數(shù)據(jù)挖掘成功與否取決于數(shù)據(jù)質(zhì)量的好壞??紤]下列問(wèn)題列表:
字段是否充分?
缺失數(shù)據(jù)是否嚴(yán)重?
字段值是否合法?
字段值是否符合邏輯?
單個(gè)字段的分布是否有說(shuō)明?
引起數(shù)據(jù)不準(zhǔn)確的原因有很多,在通常的商業(yè)活動(dòng)里,重要字段比如價(jià)格、數(shù)量會(huì)比較準(zhǔn)確。但一些不太常用的數(shù)據(jù),如性別、所在區(qū)域可能不準(zhǔn)確。
數(shù)據(jù)探索是指在清潔數(shù)據(jù)、正式建模前通過(guò)各種方法查看數(shù)據(jù)的分布,以了解數(shù)據(jù)的質(zhì)量和特性。常用的方法有散點(diǎn)圖、卡方檢驗(yàn)等工具。在常用數(shù)據(jù)挖掘工具如SAS的Enterprise Miner、CART中都有Data Explorer工具。
如果發(fā)現(xiàn)數(shù)據(jù)中存在缺失、錯(cuò)誤、冗余等不合理現(xiàn)象,應(yīng)通過(guò)數(shù)據(jù)清潔手段進(jìn)行處理。具體的方法可參閱相關(guān)文獻(xiàn),不一一列舉。
(3)粒度轉(zhuǎn)換
粒度是建模數(shù)據(jù)的級(jí)別大小。通常情況下我們都針對(duì)原始數(shù)據(jù)的行級(jí)別進(jìn)行分析。例如同一客戶(hù)的資料放入一行進(jìn)行分析;但另外一種情形下,如有關(guān)車(chē)輛保險(xiǎn)的分析中,每輛車(chē)雖然都有其型號(hào)、索賠次數(shù)、索賠金額、設(shè)備估價(jià)等數(shù)據(jù),但保險(xiǎn)公司不大可能對(duì)每輛車(chē)感興趣,此時(shí)會(huì)將以年-車(chē)輛形式生成數(shù)據(jù),轉(zhuǎn)換成按報(bào)單格式匯總的數(shù)據(jù)。
如:
報(bào)單 年份 車(chē)輛 理賠次數(shù) 金額
00001 1998 京GF0001 1 1000
00001 1998 京GF0002
00002 1998 京GF0003
00002 1999 京GF0004
00002 1999 京GF0002
合并后
報(bào)單 幾年期 車(chē)齡 理賠次數(shù) 金額
00001 1 1 1 1000
00002 2 2 0 0
(4)加入衍生變量。衍生變量值是合并原始數(shù)據(jù)生成的結(jié)果。例如
所有交易數(shù)量和交易資金的總額;通話(huà)費(fèi)用為0的月份總數(shù);從開(kāi)始使用到使用完畢使用率的變化;國(guó)際長(zhǎng)途、普通長(zhǎng)途、市話(huà)分布比例等。
通過(guò)OLAP系統(tǒng)可以生成這些衍生變量,從這點(diǎn)也可以理解OLAP與數(shù)據(jù)挖掘之間的關(guān)系。
(5)準(zhǔn)備建模數(shù)據(jù)集
也就是用于建立數(shù)據(jù)挖掘模型的數(shù)據(jù)。在數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換及添加衍生變量后還有一些問(wèn)題需要考慮。當(dāng)根據(jù)歷史數(shù)據(jù)建立預(yù)測(cè)模型的時(shí)候,在建模數(shù)據(jù)集中,稀疏數(shù)據(jù)的比例是多少?通常我們選取15-30%的比例來(lái)建模。又比如欺詐診測(cè)模型的建立中,那些有欺詐記錄的數(shù)據(jù)所占比例不到1%。不難推測(cè),由這樣的數(shù)據(jù)集建立的幾乎所有模型中,預(yù)測(cè)成功的可能性達(dá)到99%-成功預(yù)測(cè)沒(méi)有欺詐的可能性。模型非常精確,但可能完全沒(méi)有用。因此,我們需要將建模數(shù)據(jù)集分成三部分:訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集、評(píng)估數(shù)據(jù)集