前兩天看到群里有人問,什么是數(shù)據(jù)挖掘,現(xiàn)在就數(shù)據(jù)挖掘的概念做一下分析,并且盡量用大白話說一下數(shù)據(jù)挖掘到底是個啥東西,為啥大數(shù)據(jù)來了數(shù)據(jù)挖掘也火了(其實原來就挺火)。
先看一上概念:
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘說的直白些就是在海量的數(shù)據(jù)中找到有價值的數(shù)據(jù),為企業(yè)經(jīng)營決策提供依據(jù)。
價值包括以下幾類:
1、相關(guān)性
相關(guān)性分析是指對兩個或多個具備相關(guān)性的變量元素進行分析,從而衡量兩個變量因素的相關(guān)密切程度。相關(guān)性的元素之間需要存在一定的聯(lián)系或者概率才可以進行相關(guān)性分析。相關(guān)性不等于因果性,也不是簡單的個性化,相關(guān)性所涵蓋的范圍和領(lǐng)域幾乎覆蓋了我們所見到的方方面面,相關(guān)性在不同的學科里面的定義也有很大的差異。用于確定數(shù)據(jù)之間的變化情況,即其中一個屬性或幾個屬性變化的是否會對其它屬性造成影響,影響有多大。
下圖就是相關(guān)性的示例:
2、趨勢
是指將實際達到的結(jié)果,與不同時期財務(wù)報表中同類指標的歷史數(shù)據(jù)進行比較 ,從而確定財務(wù)狀況,經(jīng)營成果和現(xiàn)金流量的變化趨勢和變化規(guī)律的一種分析方法??梢酝ㄟ^拆線圖預(yù)測數(shù)據(jù)的走向和趨勢,也可以通過環(huán)比、同比的方式對比較的結(jié)果進行說明。
如下圖所示:
3、特征
看具體分析的內(nèi)容是什么,比如互聯(lián)網(wǎng)類,就是用戶畫像這類的需求,根據(jù)不同的用戶給用戶群打相應(yīng)的標簽。
下圖是一個示意圖:
數(shù)據(jù)挖掘的結(jié)果一般有幾種展現(xiàn)形式:
1、表格
最早的一種展現(xiàn)方式,交叉表的展示,如下圖:
2、圖表
相比于圖表更具展現(xiàn)力,讓人很直觀的就能看出數(shù)據(jù)的整體情況,如下圖:
3、決策樹
套用俗語,決策樹分類的思想類似于找對象?,F(xiàn)想象一個女孩的母親要給這個女孩介紹男朋友,于是有了下面的對話:
女兒:多大年紀了?
母親:26。
女兒:長的帥不帥?
母親:挺帥的。
女兒:收入高不?
母親:不算很高,中等情況。
女兒:是公務(wù)員不?
母親:是,在稅務(wù)局上班呢。
女兒:那好,我去見見。
這個女孩的決策過程就是典型的分類樹決策。相當于通過年齡、長相、收入和是否公務(wù)員對將男人分為兩個類別:見和不見。假設(shè)這個女孩對男人的要求是:30歲以下、長相中等以上并且是高收入者或中等以上收入的公務(wù)員,那么這個可以用下圖表示女孩的決策邏輯:
數(shù)據(jù)挖掘是計算機學科中的一個交叉研究領(lǐng)域,其研究方法與多個其他科學緊密相連,如:統(tǒng)計、機2器學習、專家系統(tǒng)、信息檢索、社會網(wǎng)絡(luò)、自然語言處理和模式識別等等。
數(shù)據(jù)倉庫是一個面向主題的( Subject Oriented) 、集成的( Integrate) 、相對穩(wěn)定的(NonVolatile) 、反映歷史變化( Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理:
①數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;
②數(shù)據(jù)倉庫是對多個異構(gòu)數(shù)據(jù)源的有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
企業(yè)數(shù)據(jù)倉庫的建設(shè)是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們作出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理、歸納和重組,并及時提供給相應(yīng)的管理決策人員是數(shù)據(jù)倉庫的根本任務(wù)。
數(shù)據(jù)立斱體以多維對數(shù)據(jù)迚行建模和觀察。
下圖就是客戶、產(chǎn)品和銷售的數(shù)據(jù)立方體:
OLAP的多維分析操作包括:鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot)等。
鉆?。―rill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將匯總數(shù)據(jù)拆分到更細節(jié)的數(shù)據(jù),比如通過對2010年第二季度的總銷售數(shù)據(jù)進行鉆取來查看2010年第二季度4、5、6每個月的消費數(shù)據(jù)。
上卷(Roll-up):鉆取的逆操作,即從細粒度數(shù)據(jù)向高層的聚合,如將江蘇省、上海市和浙江省的銷售數(shù)據(jù)進行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù)。
切片(Slice):選擇維中特定的值進行分析,比如只選擇電子產(chǎn)品的銷售數(shù)據(jù),或者2010年第二季度的數(shù)據(jù)。
切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進行分析,比如選擇2010年第一季度到2010年第二季度的銷售數(shù)據(jù),或者是電子產(chǎn)品和日用品的銷售數(shù)據(jù)。
旋轉(zhuǎn)(Pivot):即維的位置的互換,就像是二維表的行列轉(zhuǎn)換,如圖中通過旋轉(zhuǎn)實現(xiàn)產(chǎn)品維和地域維的互換。
1、分類
分類技術(shù)在很多領(lǐng)域都有應(yīng)用,例如可以通過客戶分類構(gòu)造一個分類模型來對銀行貸款進行風險評估;當前的市場營銷中很重要的一個特點是強調(diào)客戶細分??蛻纛悇e分析的功能也在于此,采用數(shù)據(jù)挖掘中的分類技術(shù),可以將客戶分成不同的類別,比如呼叫中心設(shè)計時可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征;其他分類應(yīng)用如文獻檢索和搜索引擎中的自動文本分類技術(shù);安全領(lǐng)域有基于分類技術(shù)的入侵檢測等等。機器學習、專家系統(tǒng)、統(tǒng)計學和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的研究人員已經(jīng)提出了許多具體的分類預(yù)測方法。下面對分類流程作個簡要描述:
訓練:訓練集——>特征選取——>訓練——>分類器
分類:新樣本——>特征選取——>分類——>判決
下面看一個基于決策樹的分類器的示例:
2、聚類
聚類:將數(shù)據(jù)對象劃分為若干類,同一類的對象具有較高的相似度,不同類的對象相似度較低。從這個簡單的描述中,可以看出聚類的關(guān)鍵是如何度量對象間的相似性。較為常見的用于度量對象的相似度的方法有距離、密度等。
聚類分析的原理可以根據(jù)下圖來看:
對牌進行分組:
按花色分:
按符號分:
按顏色分:
按大小程度相近分:
下面就是一個聚類的示例:
3、預(yù)測
數(shù)據(jù)挖掘預(yù)測與周易預(yù)測有相似之處。周易建立在陰陽二元論基礎(chǔ)上,對天地萬物進行性狀歸類(天干地支五行論),精確到可以對事物的未來發(fā)展做出較為準確的預(yù)測。許多學者認為周易理論依據(jù)是萬事萬物的相似性、關(guān)聯(lián)性和全息性原理。這三個原理已被現(xiàn)代科學所證實。全息性是指事物的某一局部包含了整體的信息。例如,法醫(yī)工作者對一根毛發(fā)進行化驗,得出受害者或嫌疑人的許多身體特征。
周易預(yù)測通過對歷史事件的學習來積累經(jīng)驗,得出事物間的相似性和關(guān)聯(lián)性,從而對事物的未來狀況做出預(yù)測。數(shù)據(jù)挖掘預(yù)測則是通過對樣本數(shù)據(jù)(歷史數(shù)據(jù))的輸入值和輸出值關(guān)聯(lián)性的學習,得到預(yù)測模型,再利用該模型對未來的輸入值進行輸出值預(yù)測。一般地,可以通過機器學習方法建立預(yù)測模型。DM(Data Mining)的技術(shù)基礎(chǔ)是人工智能(機器學習),但是DM僅僅利用了人工智能(AI)中一些已經(jīng)成熟的算法和技術(shù),因而復(fù)雜度和難度都比AI小很多。
機器學習:假定事物的輸入、輸出之間存在一種函數(shù)關(guān)系y=f(x, β),其中β是待定參數(shù),x是輸入變量,則y=f(x, β)稱為學習機器。通過數(shù)據(jù)建模,由樣本數(shù)據(jù)(一般是歷史數(shù)據(jù),包含輸入值和輸出值)學習得到參數(shù)β的取值,就確定了具體表達式y(tǒng)=f(x, β),這樣就可以對新的x預(yù)測y了。這個過程稱作機器學習。
數(shù)據(jù)建模不同于數(shù)學建模,它是基于數(shù)據(jù)建立數(shù)學模型,它是相對于基于物理、化學和其他專業(yè)基本原理建立數(shù)學模型(即機理建模)而言的。對于預(yù)測來說,如果所研究的對象有明晰的機理,可以依其進行數(shù)學建模,這當然是最好的選擇。但是實際問題中,一般無法進行機理建模。但是歷史數(shù)據(jù)往往是容易獲得的,這時就可使用數(shù)據(jù)建模。
典型的機器學習方法包括:決策樹方法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機、正則化方法。其他常見的預(yù)測方法還有近鄰法、樸素貝葉斯(屬于統(tǒng)計學習方法)等。
預(yù)測的模型可以參考下圖:
4、關(guān)聯(lián)
分析各個物品或者商品之間同時出現(xiàn)的機率。
在各種數(shù)據(jù)挖掘算法中,關(guān)聯(lián)規(guī)則挖掘算是比較重要的一種,尤其是受購物籃分析的影響,關(guān)聯(lián)規(guī)則被應(yīng)用到很多實際業(yè)務(wù)中。
首先,和聚類算法一樣,關(guān)聯(lián)規(guī)則挖掘?qū)儆跓o監(jiān)督學習方法,它描述的是在一個事物中物品間同時出現(xiàn)的規(guī)律的知識模式,現(xiàn)實生活中,比如超市購物時,顧客購買記錄常常隱含著很多關(guān)聯(lián)規(guī)則,比如購買圓珠筆的顧客中有65%也購買了筆記本,利用這些規(guī)則,商場人員可以很好的規(guī)劃商品擺放問題。在電商網(wǎng)站中,利用關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)哪些用戶更喜歡哪類的商品,當發(fā)現(xiàn)有類似的客戶的時候,可以將其它客戶購買的商品推薦給相類似的客戶,以提高網(wǎng)站的收入。
下圖就是一個關(guān)聯(lián)的示例:
CRISP-DM 模型為一個KDD工程提供了一個完整的過程描述.該模型將一個KDD工程分為6個不同的,但順序并非完全不變的階段。
1: business understanding: 即商業(yè)理解. 在第一個階段我們必須從商業(yè)的角度上面了解項目的要求和最終目的是什么. 并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。
2: data understanding: 數(shù)據(jù)的理解以及收集,對可用的數(shù)據(jù)進行評估。
3: data preperation: 數(shù)據(jù)的準備,對可用的原始數(shù)據(jù)進行一系列的組織以及清洗,使之達到建模需求。
4: modeling: 即應(yīng)用數(shù)據(jù)挖掘工具建立模型。
5: evaluation: 對建立的模型進行評估,重點具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的。
6: deployment: 部署(方案實施),即將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式.(數(shù)據(jù)挖掘報告)。
商業(yè)理解(Business understanding):商業(yè)理解階段應(yīng)算是數(shù)據(jù)挖掘中最重要的一個部分,在這個階段里我們需要明確商業(yè)目標、評估商業(yè)環(huán)境、確定挖掘目標以及產(chǎn)生一個項目計劃。
數(shù)據(jù)理解(Data understanding):數(shù)據(jù)是我們挖掘過程的“原材料”,在數(shù)據(jù)理解過程中我們要知道都有些什么數(shù)據(jù),這些數(shù)據(jù)的特征是什么,可以通過對數(shù)據(jù)的描述性分析得到數(shù)據(jù)的特點。
數(shù)據(jù)準備(Date preparation):在數(shù)據(jù)準備階段我們需要對數(shù)據(jù)作出選擇、清洗、重建、合并等工作。選出要進行分析的數(shù)據(jù),并對不符合模型輸入要求的數(shù)據(jù)進行規(guī)范化操作。
建模(Modeling):建模過程也是數(shù)據(jù)挖掘中一個比較重要的過程。我們需要根據(jù)分析目的選出適合的模型工具,通過樣本建立模型并對模型進行評估。
模型評估(Evaluation):并不是每一次建模都能與我們的目的吻合,評價階段旨在對建模結(jié)果進行評估,對效果較差的結(jié)果我們需要分析原因,有時還需要返回前面的步驟對挖掘過程重新定義。
結(jié)果部署(Deployment):這個階段是用建立的模型去解決實際中遇到的問題,它還包括了監(jiān)督、維持、產(chǎn)生最終報表、重新評估模型等過程。
這里簡單的介紹了一下數(shù)據(jù)挖掘的概念以及數(shù)據(jù)挖掘的展現(xiàn)形式和數(shù)據(jù)挖掘到底能做一些什么。
數(shù)據(jù)倉庫和數(shù)據(jù)立方體,并且介紹了數(shù)據(jù)挖掘要解決的四大類問題,任何跟數(shù)據(jù)挖掘相關(guān)的問題都可以先歸類到這四大類問題中,然后再根據(jù)相應(yīng)的算法進行解決。
最后介紹了CRISP-DM 模型,是IBM提出的標準模型,可以對數(shù)據(jù)挖掘的過程進行理論的指導(dǎo)。在接下來會針對用戶產(chǎn)生的數(shù)據(jù)來探討如何進行用戶畫像。
聯(lián)系客服