九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【大數(shù)據(jù)微課回顧】張浩彬:數(shù)據(jù)科學(xué)的商業(yè)實(shí)踐征程


IBM

張浩彬

IBM認(rèn)知計(jì)算事業(yè)部工程師,負(fù)責(zé)大數(shù)據(jù)解決方案的分析工作,擅長企業(yè)大數(shù)據(jù)方案設(shè)計(jì),數(shù)據(jù)建模和數(shù)據(jù)分析。曾任SPSS技術(shù)工程師,有豐富的數(shù)據(jù)分析商業(yè)應(yīng)用項(xiàng)目經(jīng)驗(yàn)。




講座

提綱

1.CRISP-DM,數(shù)據(jù)挖掘中的方法論;

2.數(shù)據(jù)挖掘在實(shí)踐中的應(yīng)用,以及如何開展一個(gè)數(shù)據(jù)挖掘項(xiàng)目;

3.數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備的過程以及經(jīng)驗(yàn)原則

4.數(shù)據(jù)建模的實(shí)踐經(jīng)驗(yàn)

5.如何學(xué)習(xí)數(shù)據(jù)分析與數(shù)據(jù)挖掘




大家好,今天主要是想跟大家談?wù)勗谏虡I(yè)應(yīng)用中,我們是如何開展數(shù)據(jù)分析、數(shù)據(jù)挖掘的。也會(huì)談?wù)剰奈业慕?jīng)驗(yàn)來看,個(gè)人可以怎樣學(xué)習(xí)數(shù)據(jù)分析/數(shù)據(jù)挖掘的問題。


今天的內(nèi)容我會(huì)避免過于技術(shù)的問題,主要談?wù)勗跀?shù)據(jù)挖掘過程中的體系,以及一些經(jīng)驗(yàn)原則,也會(huì)談?wù)務(wù)麄€(gè)數(shù)據(jù)挖掘的基本框架。另外看到群里有不少熟悉的朋友,之前是有關(guān)注我的公眾號(hào),這次分享之中會(huì)從里面截取一些圖片,但是內(nèi)容上會(huì)有所不同。


先說方法論的問題:




在實(shí)踐當(dāng)中,一個(gè)數(shù)據(jù)挖掘項(xiàng)目(或者說在咱們企業(yè)內(nèi)部中一個(gè)分析研究主題),不但周期長,常常還會(huì)跨數(shù)據(jù)源,甚至跨部協(xié)助進(jìn)行,稍不留神就會(huì)陷入復(fù)雜的數(shù)據(jù)迷宮當(dāng)中,因此在為了能夠在整個(gè)項(xiàng)目階段能夠保持研究重點(diǎn),能夠持續(xù)跟蹤,一個(gè)有效的數(shù)據(jù)挖掘方法論(明確的流程模型)是非常有必要的。


商業(yè)應(yīng)用的數(shù)據(jù)挖掘會(huì)是一個(gè)持續(xù)性的項(xiàng)目過程,在這個(gè)過程中,毫無疑問的是數(shù)據(jù)挖掘的各種算法是數(shù)據(jù)挖掘過程的核心步驟,但我們也要明白算法并不是整個(gè)項(xiàng)目的全部決定性因素。商業(yè)理解真的太重要!


而為了使得整個(gè)數(shù)據(jù)挖掘過程更加標(biāo)準(zhǔn)化,也就催生出很多指數(shù)數(shù)據(jù)挖掘過程的方法論,其中比較經(jīng)典的是CRISP-DM(CRoss IndustryStandard Process- for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程),其中一共分為6個(gè)步驟:商業(yè)理解,數(shù)據(jù)理解,數(shù)據(jù)準(zhǔn)備,建模,評(píng)估,發(fā)布。 




具體流程可以見上圖。在上面的圖中,大家要注意到最外面的藍(lán)色圈。雖然我們說是六個(gè)步驟,但是實(shí)際上這是一個(gè)不斷循環(huán)往復(fù)的過程??赡芪覀?cè)诮kA段遇到問題,發(fā)現(xiàn)數(shù)據(jù)變量不夠或者理解不夠充分,那就需要返回到上一個(gè)階段。


補(bǔ)充一點(diǎn),利用指導(dǎo)方法論,我們是為了盡可能地讓流程標(biāo)準(zhǔn)化,同時(shí)可以基于各個(gè)步驟劃分不同工作小組的內(nèi)容,便于更好的合作,但不是為了造成過分的約束,實(shí)際上,在我經(jīng)歷的項(xiàng)目中,由于項(xiàng)目的要求和人員投入的約束,具體分工會(huì)有一定的出入,但是一套標(biāo)準(zhǔn)的流程是非常有必要的。


如果簡單的區(qū)分的話,我們一般也可以劃分:商業(yè)理解,數(shù)據(jù)理解和處理,建模與評(píng)估,結(jié)果發(fā)布等四個(gè)過程。


這個(gè)4階段劃分,也很常用,一般一個(gè)項(xiàng)目小組很多時(shí)候是基于這4個(gè)任務(wù)進(jìn)行劃分的。




數(shù)據(jù)挖掘過程的各個(gè)階段和任務(wù)(成果)可以見上面這張圖。


大家可能覺得每個(gè)階段劃分也要有階段成果有點(diǎn)煩,但是針對(duì)每個(gè)階段進(jìn)行適當(dāng)?shù)幕仡櫥蛘呖偨Y(jié),可以更好地避免給自己挖坑。尤其是在大型項(xiàng)目相互協(xié)助的過程中,這種方式既是保護(hù)團(tuán)隊(duì),也是保護(hù)自己。


接下來,我舉一個(gè)電信行業(yè)應(yīng)用的例子也會(huì)穿插一些其他行業(yè)的介紹:




商業(yè)理解是整個(gè)數(shù)據(jù)挖掘過程的最重要階段,大家設(shè)想一下假如我們?cè)陔娦判袠I(yè),領(lǐng)導(dǎo)會(huì)說他想做一個(gè)流失分析,這個(gè)時(shí)候,大家可以先想想我們?cè)趺蠢斫膺@個(gè)問題。


如果在我剛接觸項(xiàng)目的時(shí)候,我最直接的分析思維就是需要先理解:

(1)我們的目標(biāo)是預(yù)測(cè)哪些客戶會(huì)流失?

(2)更進(jìn)一步我們可能需要知道,哪些是影響客戶流失的重要因素?


但是我認(rèn)為我們還需要理解清楚:

(1)為什么咱們先提出的是流失分析,實(shí)際的優(yōu)先級(jí)應(yīng)該是怎樣的?

(2)對(duì)于我們企業(yè)來說,現(xiàn)在的流失問題有多嚴(yán)重?

(3)預(yù)測(cè)客戶流失并不是最終目的,客戶挽留才是最后的價(jià)值,從業(yè)務(wù)上是否可以根據(jù)挖掘結(jié)果針對(duì)性采取策略挽留流失?


為什么要做流失分析?為什么是這個(gè)時(shí)候想做流失分析?為什么想通過數(shù)據(jù)挖掘來解決流失分析?


第一階段一定要多問多想“為什么”?這些問題的答案決定了我們的項(xiàng)目是否有堅(jiān)實(shí)的業(yè)務(wù)基礎(chǔ),以及投入的力度,這里面的坑實(shí)在是太多了。


流失的定義是什么?這個(gè)問題很好,實(shí)際上,這是我們定義好商業(yè)問題之后,進(jìn)一步要做的一件事情。


我們需要把商業(yè)問題轉(zhuǎn)化為數(shù)學(xué)技術(shù)問題,例如:

(1)如何定義流失?是客戶銷戶就夠了嗎,還是客戶主要發(fā)生多個(gè)月欠費(fèi)就可以認(rèn)為流失?

(2)既然我們的目標(biāo)是挽留流失,那更重要的是在客戶流失前就找到這些人,那是否需要定義一個(gè)瀕臨流失階段(多個(gè)月沒有發(fā)生通話/只維持基本套餐費(fèi)用)?

(3)進(jìn)一步地在資源(人力,物力,時(shí)間)限制的情況下,我們需要進(jìn)一步界定:哪些高價(jià)值的客戶在流失(資源不足以覆蓋所有高流失名單)?如果對(duì)流失的客戶(或部分客戶)進(jìn)行挽留,投入是多少?收益是多少?資源有限,這個(gè)非常重要。


最后必須強(qiáng)調(diào),一個(gè)在參與項(xiàng)目或者項(xiàng)目匯報(bào)經(jīng)常忽略的問題,模型的結(jié)果并不是我們項(xiàng)目的最終結(jié)果,我們要先把商業(yè)問題轉(zhuǎn)化為數(shù)學(xué)問題,但是最后我們得把數(shù)學(xué)結(jié)果轉(zhuǎn)變?yōu)樯虡I(yè)結(jié)果,這才是在商業(yè)數(shù)據(jù)挖掘應(yīng)用中的重中之重。


再舉個(gè)例子,咱們有時(shí)候會(huì)做一些零售的項(xiàng)目,零售企業(yè)會(huì)告訴我們他們要做商品的關(guān)聯(lián)分析。大家可以想象,客戶要的真的只是關(guān)聯(lián)分析的支持度和置信度嗎,然后出一個(gè)表格嗎?


遠(yuǎn)遠(yuǎn)不止,簡單地說,他可能需要我們進(jìn)一步回答,在關(guān)聯(lián)商品當(dāng)中,哪些是同品類的關(guān)聯(lián)(超市的鹽和糖,一般咱們直覺都能猜到,這其實(shí)不太重要),哪些是同樓層跨品類關(guān)聯(lián)(例如我們發(fā)現(xiàn)汽水和干貨,因?yàn)樵摮袠巧鲜请娪霸海缙奉愱P(guān)聯(lián)(黃金和茶葉,送禮人群),最后,利用這些關(guān)聯(lián),它可以怎么指導(dǎo)業(yè)務(wù)?捆綁促銷?貨架擺放建議?招商談判等等。


我這里再詳細(xì)說一下,剛剛說,一般我們也可以劃分為商業(yè)理解,數(shù)據(jù)理解與準(zhǔn)備,建模與評(píng)估、應(yīng)用。在項(xiàng)目早期,我想說我們只能盡可能去貼近。像我剛剛所說我們要多問為什么,我再舉個(gè)例子:


例如,客戶跟我說,“我想做個(gè)關(guān)聯(lián)分析”。實(shí)際上,作為分析顧問/數(shù)據(jù)科學(xué)家,我們就要想,他為什么想要做關(guān)聯(lián)分析,另外我們也要注意一點(diǎn),關(guān)聯(lián)分析這是一個(gè)數(shù)據(jù)挖掘術(shù)語。我們要把它還原為一個(gè)業(yè)務(wù)問題,即使他明確提出他要關(guān)聯(lián)分析。


例如最后,我們就會(huì)發(fā)現(xiàn),他認(rèn)為對(duì)于會(huì)員他了解得足夠了,但是它缺乏一個(gè)商品的360度視圖。再問,360度視圖的目標(biāo)是什么,可能就會(huì)得出最近一年商品銷量下降,同時(shí)高管認(rèn)為要開展新的一期招商。


那問題就會(huì)變?yōu)?,客戶希望解決銷量問題(他已經(jīng)想到了交叉銷售,),同時(shí)他希望能夠更好自己自己的商品(為他們招商提供依據(jù)和決策,盡管暫時(shí)還沒有具體方法)


下面來說第二階段




數(shù)據(jù)提供了數(shù)據(jù)挖掘的“原材料”。該階段需要理解您的數(shù)據(jù)資源是什么,以及這些資源有何特征。


首先我們需要與業(yè)務(wù)部門以及數(shù)據(jù)管理員確定:

(1)在他們的認(rèn)知當(dāng)中,哪些數(shù)據(jù)可以用來預(yù)測(cè)客戶流失?

(2)哪些數(shù)據(jù)是已經(jīng)在咱們的系統(tǒng)當(dāng)中?

(3)是否有一些重要的影響因素還沒記錄或者需要一定代價(jià)才能獲?。?/span>


另外如果咱們的數(shù)據(jù)量特別的大,這個(gè)時(shí)候也可以借助抽樣的方式進(jìn)行一些簡單的探索。


在確定好分析的數(shù)據(jù)源后,我們還需要確定這些數(shù)據(jù)當(dāng)中每個(gè)指標(biāo)的業(yè)務(wù)含義是什么,了解業(yè)務(wù)含義和統(tǒng)計(jì)口徑對(duì)于我們后續(xù)分析非常的重要,這決定了我們對(duì)數(shù)據(jù)的處理方式,另外在很多的項(xiàng)目當(dāng)中,不同數(shù)據(jù)源獲取的同一指標(biāo)數(shù)據(jù),統(tǒng)計(jì)口徑經(jīng)常會(huì)存在一定的差異。


例如在電信行業(yè)里面會(huì)有“高峰時(shí)期電話數(shù)”這個(gè)指標(biāo),設(shè)置這個(gè)指標(biāo)的業(yè)務(wù)根據(jù)是什么?例如:高峰時(shí)期的定義是從什么時(shí)候到什么時(shí)候?這個(gè)指標(biāo)是按天統(tǒng)計(jì),按周統(tǒng)計(jì)還是按月統(tǒng)計(jì)?這個(gè)指標(biāo)是計(jì)算呼入還是呼出,還是一并統(tǒng)計(jì)?


最后,我們還需要對(duì)數(shù)據(jù)進(jìn)行一定的探索性分析。

1、一般我們會(huì)先對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分析,例如:

(1)缺失值:對(duì)于分類字段,缺失值處理我們可以選擇眾數(shù),連續(xù)字段可以選擇平均值/中位數(shù),或者通過回歸進(jìn)行插補(bǔ)。

(2)極值,離群值:查看連續(xù)字段是否擁有極值和離群值,我們一般用n倍標(biāo)準(zhǔn)差定義。對(duì)于這些離群值,我們可選擇:刪除記錄,把離群值進(jìn)行代替,一般我們可以用公式代替:




另外,如果離群值數(shù)量比較多,也可以考慮單獨(dú)把離群值數(shù)據(jù)單獨(dú)抽取出來單獨(dú)分析。

(3)我們也需要查看分類型指標(biāo)里面的種類數(shù)量有多少:例如一個(gè)分類指標(biāo)如果超過上百個(gè)分類的話,明顯就會(huì)存在問題,這時(shí)候我們可以考慮:過濾該字段,對(duì)字段采取合并等方式。這個(gè)問題在我們研究商品分類中特別常見。


以上是數(shù)據(jù)質(zhì)量的簡單介紹。


2、進(jìn)一步地,我們也可以借助分布圖,箱線圖地查看數(shù)據(jù)的分布情況,查看數(shù)據(jù)分布是否符合一般認(rèn)知。


3、還有的是,我們可以結(jié)合數(shù)據(jù)的偏度和峰度進(jìn)行輔助分析,同時(shí)也會(huì)計(jì)算算式平均值,中位數(shù),1/4分位數(shù)以及3/4分位數(shù)等常用的統(tǒng)計(jì)指標(biāo)。


4、當(dāng)然,進(jìn)行數(shù)據(jù)探索,我們?cè)谶@個(gè)階段也可以進(jìn)行一些簡單的數(shù)據(jù)分析,例如計(jì)算相關(guān)系數(shù)矩陣(統(tǒng)計(jì)指標(biāo)之間的關(guān)系),也可以簡單做一些t檢驗(yàn)以及卡方檢驗(yàn)幫助我們進(jìn)行一些變量篩選,在一個(gè)工業(yè)項(xiàng)目中,我們就試過用t檢驗(yàn)選擇連續(xù)變量,卡方檢驗(yàn)選擇分類變量。


另外值得注意的是,當(dāng)數(shù)據(jù)分布與業(yè)務(wù)認(rèn)知存在一定沖突的時(shí)候,也不一定是數(shù)據(jù)質(zhì)量存在問題,相反應(yīng)該細(xì)心求證出現(xiàn)偏差的原因,這些不一致的情況或者說異常往往代表了一個(gè)好的切入點(diǎn)。


這個(gè)切入點(diǎn)通常就是項(xiàng)目當(dāng)中比較好玩的地方了。例如我們?cè)谝粋€(gè)客戶的項(xiàng)目當(dāng)中也曾遇到過下面某地市門店他們存在大量深夜交易。(深夜11點(diǎn),一個(gè)買衣服的品牌)


最后我們就發(fā)現(xiàn),這是因?yàn)榈觊L習(xí)慣晚上下班后一次性對(duì)交易進(jìn)行錄入,她告訴我們這樣很方便。也遇到過會(huì)員系統(tǒng)當(dāng)中存在會(huì)員積分比起平均積分要高幾十倍的會(huì)員。


你以為我們找到了超級(jí)會(huì)員嗎~最后發(fā)現(xiàn)是店員把非會(huì)員的購買都算到自己偷開的會(huì)員卡中(這個(gè)事情在業(yè)務(wù)上不一定是錯(cuò)的)。另外我們也遇到了一些購買數(shù)量特別高的人群,最后我們單獨(dú)把這類人群單獨(dú)拿出來分析。




在對(duì)數(shù)據(jù)進(jìn)行充分理解的基礎(chǔ)上,我們就要生成能夠滿足數(shù)據(jù)挖掘需要的數(shù)據(jù)寬表。在此階段,我們需要集中精力在數(shù)據(jù)準(zhǔn)備上,往往一個(gè)項(xiàng)目超過60%的時(shí)間都放在數(shù)據(jù)理解和數(shù)據(jù)清洗上面。


我經(jīng)常和項(xiàng)目成員說,一個(gè)項(xiàng)目里面60%時(shí)間都是用于數(shù)據(jù)準(zhǔn)備上面,你覺得剩下的40%是什么?


你以為剩下的40%是建模分析?其實(shí)10%才是建模分析,剩下的30%都是用來吐槽數(shù)據(jù)質(zhì)量問題的。因?yàn)樵谏厦嬉呀?jīng)簡單討論了缺失值和離群值問題。一般除了這些,我們還需要:

(1)處理無效值:如未知,如年齡顯示100,一般采取與缺失值類似的方式;

(2)    修改不合規(guī)字段:如某些記錄后面出現(xiàn)空格:如套餐198  ;

(3)編碼方式/統(tǒng)計(jì)口徑不一致的問題:如統(tǒng)計(jì)方式,統(tǒng)計(jì)范圍,統(tǒng)計(jì)單位等。


進(jìn)一步地,通常我們?cè)谧龊脭?shù)據(jù)清洗后,我們要對(duì)數(shù)據(jù)進(jìn)行一系列的加工,生成一張用于數(shù)據(jù)挖掘用的寬表。


值得注意的是這是一個(gè)需要不斷調(diào)整優(yōu)化的過程,舉個(gè)例子有可能原始的變量個(gè)數(shù)有50個(gè);通過我們對(duì)變量的轉(zhuǎn)換和衍生,生成了100個(gè)變量;最后通過對(duì)業(yè)務(wù)的理解,模型的測(cè)試,從100個(gè)變量當(dāng)中選擇新的50個(gè)變量進(jìn)行分析。


這里介紹一些咱們常用數(shù)據(jù)轉(zhuǎn)換方式:

1、單變量自身轉(zhuǎn)換:

(1)連續(xù)變量轉(zhuǎn)為為連續(xù)變量:如出于計(jì)量和比較進(jìn)行轉(zhuǎn)換,如轉(zhuǎn)換單位:通話小時(shí)數(shù)->通話分鐘數(shù)的;出于對(duì)數(shù)據(jù)分布修訂的轉(zhuǎn)換,如:對(duì)數(shù)據(jù)對(duì)數(shù)轉(zhuǎn)換;為了使不同量綱或者不同數(shù)量級(jí)的數(shù)據(jù)能夠很好地進(jìn)行對(duì)比,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化(原始值-平均值)/標(biāo)準(zhǔn)差,一般在聚類的時(shí)候,對(duì)數(shù)據(jù)先進(jìn)行標(biāo)準(zhǔn)化也是一種必要手段;

(2)連續(xù)變量轉(zhuǎn)換為離散變量:一般這種轉(zhuǎn)換會(huì)損失一定的信息,但是出于業(yè)務(wù)更好理解的考慮或者算法的需要,采取的措施一般是利用分箱處理,一般可以選擇等距離分箱或者等數(shù)量分箱,也有利用分布進(jìn)行分箱的;

(3)離散變量轉(zhuǎn)換為連續(xù)變量:這種方式我比較少用,一般只是一些有序的分類變量轉(zhuǎn)換為1,2,3,4;

(4)離散變量轉(zhuǎn)換為離散變量:一般用于一個(gè)變量當(dāng)中包含有多個(gè)類別,我們對(duì)變量采取合并,例如運(yùn)營商信息的省份字段,我們可以把省份歸納為東部,西部,南部等,也可以按照經(jīng)濟(jì)水平進(jìn)行區(qū)分。


除了單變量的衍生,我們更多的還有變量之間的衍生。


2、變量之間的衍生


(1)匯總型指標(biāo):這個(gè)大家比較常見,例如我們統(tǒng)計(jì)一個(gè)客戶在過去一年當(dāng)中的消費(fèi)/通話行為,例如計(jì)算一年內(nèi)通話時(shí)長的總和,平均值,最大值,最小值,1/4分位數(shù),3/4分位數(shù),標(biāo)準(zhǔn)差,通過這些指標(biāo),我們希望整體判斷通話狀況;值得注意的是,這里面的指標(biāo)我們一般只會(huì)選擇少量假如模型,因?yàn)檫@些指標(biāo)間本身也有比較強(qiáng)的相關(guān)關(guān)系,很可能導(dǎo)致多重共線性的問題,雖然我對(duì)這個(gè)問題一般比較看得開。

(2)強(qiáng)度相對(duì)指標(biāo):簡單的如平均通話時(shí)長,就是用總的通話時(shí)間/通話次數(shù)所得,我們希望用這個(gè)指標(biāo)側(cè)面了解每個(gè)客戶的通話習(xí)慣。

(3)比例相對(duì)指標(biāo):就是直接反映總體總各部分的比例關(guān)系,這在客戶行為研究用得特別的多,例如我們分析一個(gè)客戶在閑時(shí)的通話時(shí)長占總體的比例,在周末通話時(shí)長占總體的比例等等,一般這種指標(biāo)用于區(qū)分客戶群體比較有用。

(4)時(shí)間對(duì)比指標(biāo):一般如果我們的原始數(shù)據(jù)包含幾年的數(shù)據(jù)記錄,我們就可以同比(16年5月通話時(shí)長/15年5月通話時(shí)長)或者環(huán)比(16年5月對(duì)于16年4月),這種指標(biāo)在專門的時(shí)序分析中用得比較多,相對(duì)而言在其他方面比較少,一般我們更喜歡用趨勢(shì)型指標(biāo)代替時(shí)間對(duì)比指標(biāo)。

(5)趨勢(shì)型指標(biāo):在客戶研究當(dāng)中,尤其是研究客戶價(jià)值/客戶生命周期這兩個(gè)主題當(dāng)中,趨勢(shì)類指標(biāo)特別重要,例如我們希望了解每個(gè)客戶的通話時(shí)長/交易金額從歷史到現(xiàn)在,是一個(gè)向上的趨勢(shì),還是一個(gè)向下的趨勢(shì)。這種指標(biāo)非常有助于我們判斷客戶的生命周期價(jià)值實(shí)在提升還是存在潛在的流失可能,因?yàn)闀?huì)借助回歸分析方法(月份為自變量,每月通話時(shí)長/話費(fèi)為因變量),最后得回歸系數(shù)作為該指標(biāo)。當(dāng)然,這樣的回歸分析很有可能違反回歸的前提條件,但是我們發(fā)覺這種指標(biāo)在實(shí)際應(yīng)用層面有很大的幫助。

(6)波動(dòng)指標(biāo):另外除了研究變化趨勢(shì),我們也可以研究數(shù)據(jù)的波動(dòng)情況,一般我們可以用標(biāo)準(zhǔn)差或變異系數(shù)來反映;這里大家可以消化一下。數(shù)據(jù)理解和清洗大概到這里。但是一般我們遇到的數(shù)據(jù)問題和需要的手段一般還是復(fù)雜。有時(shí)候,可能真是靠靈感突然讓你想到一個(gè)很好的衍生指標(biāo)。我真的試過有個(gè)問題一直解決不了,然后洗澡到一半突然想到一個(gè)解決方法,最后竟然解決了。就像我剛剛說的趨勢(shì)指標(biāo),這個(gè)就是明顯違反回歸的前提條件的。一般情況下,你需要根據(jù)數(shù)據(jù)理解然后發(fā)現(xiàn)一些問題,先對(duì)大面積問題批量化處理,再選擇性解決。獨(dú)立性什么的基本不能滿足的了。




我們來談一下模型

在第一次準(zhǔn)備好數(shù)據(jù)后,就可以開始嘗試建模了,接下來,我稍稍啰嗦一點(diǎn)介紹一些基本概念。很遺憾,這里我不能給大家說說每個(gè)算法,因?yàn)槊總€(gè)算法真的能講一個(gè)晚上,有時(shí)候回想,你會(huì)覺得有些設(shè)計(jì)太巧妙了。




這里咱們針對(duì)有監(jiān)督學(xué)習(xí)的。建立統(tǒng)計(jì)學(xué)習(xí)模型,簡單是指利用一個(gè)(或多個(gè))輸入變量(一般稱為為自變量,預(yù)測(cè)變量)通過擬合適當(dāng)?shù)年P(guān)系式來預(yù)測(cè)輸出變量(也稱因變量,響應(yīng)變量)的方法。其中f(x)是我們希望探求的關(guān)系式,但一般來說是固定但未知。


盡管f(x)未知,但是我們的目標(biāo)就是利用一系列的統(tǒng)計(jì)/數(shù)據(jù)挖掘方法來盡可能求出接近f(x)的形式,這個(gè)形式可以是一個(gè)簡單的線性回歸模型(y=a bx),也可能是一個(gè)曲線形式(y=a b(x的平方)),當(dāng)然也有可能是一個(gè)神經(jīng)網(wǎng)絡(luò)模型或者一個(gè)決策樹模型。


而對(duì)于隨機(jī)誤差項(xiàng),這是指測(cè)試過程中諸多因素隨機(jī)作用而形成的具有抵償性的誤差,它的產(chǎn)生因素十分復(fù)雜,可能是溫度的偶然變動(dòng),可能是氣壓的變化,也可能是零件的摩擦。例如咱們?cè)跍y(cè)量身高的時(shí)候,就可能因?yàn)闇y(cè)量人員的輕微手震帶來的隨機(jī)誤差。


和業(yè)務(wù)人員探討,調(diào)研,把這個(gè)指標(biāo)和其他相關(guān)指標(biāo)結(jié)合分析,看看是否有不明確的關(guān)聯(lián);了解這一點(diǎn)后,我們還需要更加明確我們建立模型的應(yīng)用目標(biāo),這將很大程度上決定了我們選擇什么類型的模型。一般在商業(yè)實(shí)踐當(dāng)中,我們可以把統(tǒng)計(jì)/挖掘任務(wù)簡單劃分為預(yù)測(cè)和控制。


預(yù)測(cè)還是控制,這個(gè)很重要。但是其實(shí)也可以說沒有那么重要,后面解釋。



在預(yù)測(cè)任務(wù)中,我們希望模型盡可能地精確,相反預(yù)測(cè)模型f的形式可能是一個(gè)黑箱模型(即模型的本身我們不能很好的解釋或者并不清楚,我們更加關(guān)心這當(dāng)中的輸入和輸出,并不試圖考察其內(nèi)部結(jié)構(gòu)),只要能夠提高我們的預(yù)測(cè)精度我們就認(rèn)可達(dá)到目的了。


一般認(rèn)為,神經(jīng)網(wǎng)絡(luò)模型屬于黑箱模型,如幾年前Google X實(shí)驗(yàn)室開發(fā)出一套具有自主學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)模型,它能夠從一千萬中圖片中找出那些有小貓的照片。在這里,輸入就是這一千萬張圖片,輸出就是對(duì)于這些圖片的識(shí)別。


未到18歲的請(qǐng)?zhí)^下面內(nèi)容~上周,著名人工智能公司Clarifai推出了能夠識(shí)別成人內(nèi)容的模型,該模型能夠識(shí)別出含有裸體和半裸體的圖片和視頻。這里面用到的也是卷積神經(jīng)網(wǎng)絡(luò)。




除了預(yù)測(cè)認(rèn)為,在控制任務(wù)中,我們希望盡可能地刻畫清楚X與Y的關(guān)系。




在這里,預(yù)測(cè)結(jié)果固然重要,但是我們也十分關(guān)心模型的形式具體是怎么樣,或者借助統(tǒng)計(jì)挖掘模型幫助我們生成了怎樣的判別規(guī)則。


例如在銀行業(yè),我們希望通過客戶的個(gè)人信用信息來評(píng)價(jià)個(gè)人的借貸風(fēng)險(xiǎn),這就要求我們不但能夠回答這個(gè)客戶的風(fēng)險(xiǎn)是高是低,還要求我們回答哪些因素對(duì)客戶風(fēng)險(xiǎn)高低有直接作用,每個(gè)因素的影響程度有多大。


咱們?cè)倩氐絼倓偟碾娦趴蛻袅魇Х治鲋?。在模型的選擇上,我們一般可以從業(yè)務(wù)思路,模型準(zhǔn)確性以及應(yīng)用方式考慮。


1、業(yè)務(wù)思路:針對(duì)客戶流失例子一個(gè)直觀的想法:因?yàn)槲覀兊哪繕?biāo)變量是否流失屬于分類字段,因此我們可以通過分類算法把流失客戶以及留存客戶進(jìn)行劃分;進(jìn)一步地,我們還希望了解客戶的流失特征或者流失路徑,我們也就選擇了分類算法中的決策樹C5.0進(jìn)行建模。

當(dāng)然,咱們也可以嘗試通過聚類算法將整體客戶群組進(jìn)行市場(chǎng)細(xì)分(例如k-means),嘗試能否得出具有高流失可能性的群組,不過該方法一般我們都用作補(bǔ)充研究。


2、模型準(zhǔn)確性:針對(duì)同樣的問題甚至同類型的場(chǎng)景,現(xiàn)在往往有多種算法都能夠?qū)崿F(xiàn)。具體到不同的應(yīng)用場(chǎng)景,不同模型結(jié)果的準(zhǔn)確性往往存在較大差異,因此我們應(yīng)該結(jié)合數(shù)據(jù)特征,算法優(yōu)勢(shì),針對(duì)性地選擇合適的建模技術(shù),一個(gè)數(shù)據(jù)挖掘項(xiàng)目往往需要通過多次嘗試,才能選擇出適合的算法;

例如有人喜歡SVM,因?yàn)橛兄€(wěn)定的準(zhǔn)確率,而且也有著優(yōu)美的公式。有人喜歡Logistic,因?yàn)樗年P(guān)系的刻畫特別的清楚;有人喜歡決策樹,模型能夠非常簡潔,容易解釋并且往往準(zhǔn)確率也不錯(cuò);


3、應(yīng)用方式:正如前文所說,數(shù)據(jù)挖掘任務(wù)一般分為預(yù)測(cè)任務(wù)和控制任務(wù)。在有的時(shí)候,我們可能希望用神經(jīng)網(wǎng)絡(luò)模型,盡管它更像一個(gè)黑盒子,預(yù)測(cè)結(jié)構(gòu)難以解釋,但是預(yù)測(cè)效果一般比較精確;而在有的時(shí)候,我們可能希望使用決策樹模型,因?yàn)樗砸?guī)則的方式來展現(xiàn)結(jié)果,非常易于分析人員進(jìn)行解讀。


好了,接下來就解釋,為什么剛剛說分清咱們的任務(wù)是預(yù)測(cè)還是控制這么重要。在我們幫助一些企業(yè)做項(xiàng)目的時(shí)候,盡管他們會(huì)強(qiáng)調(diào)自己的想要做預(yù)測(cè),但實(shí)際上他們對(duì)“可理解性“的要求是非常的高,這在一些非科技互聯(lián)網(wǎng)類的企業(yè)中尤其明顯。


他們希望深入理解關(guān)系式背后的業(yè)務(wù)邏輯,同時(shí)希望能夠借助數(shù)據(jù)關(guān)系幫助他們進(jìn)一步優(yōu)化改善業(yè)務(wù)體系,例如在傳統(tǒng)的信用風(fēng)險(xiǎn)評(píng)估當(dāng)中,Logistic就應(yīng)用得非常的廣泛。


關(guān)于模型的具體介紹,考慮到時(shí)間有限,每個(gè)模型都可以說一整天,我覺得咱們可以以后互相交流討論,這里我想和大家特別談的一點(diǎn)是,模型不是死板的,它可以存在多種變體,例如我們?cè)谟懻摿魇Х治龅臅r(shí)候,就嘗試使用聚類算法試圖找出一個(gè)高流失的客戶群。


這里我再舉一個(gè)大家常見的非常簡單的模型做一個(gè)舉例,RFM模型相信大家都非常熟悉了,根據(jù)最近購買時(shí)間,購買頻次以及購買金額,然后進(jìn)行評(píng)分,一般來說,每個(gè)維度打分從1-5,最后根據(jù)這個(gè)評(píng)分我們就可以評(píng)價(jià)客戶價(jià)值。


大家現(xiàn)在可以回憶一下RFM,想想RFM可以做什么。剛剛我們說我們RFM可以研究客戶價(jià)值,但是在實(shí)際應(yīng)用中可以是千差萬別的。


首先對(duì)于不同的企業(yè)來說,他們的顧客購買行為是可以差異非常大的(例如賣食品的,賣鞋的,賣家電真的差很遠(yuǎn)),那么我們對(duì)于RFM模型的三個(gè)維度,我們的權(quán)重設(shè)置得一樣合適嗎?不合適,因此我們需要根據(jù)業(yè)務(wù)需要修改三個(gè)維度的權(quán)重;更進(jìn)一步,RFM每個(gè)維度5個(gè)評(píng)級(jí),一共可以由125種分類,分類數(shù)量是不是太多?咱們是不是可以結(jié)合聚類分析,嘗試把125個(gè)子群體進(jìn)行合并再打上標(biāo)簽會(huì)更好;打上標(biāo)簽后,為了演示直觀,咱們是不是可以通過篩選更多的特征,然后用雷達(dá)圖顯示不同客戶群體的特征會(huì)更加直觀?


咱們還可以再進(jìn)一步,咱們都說RFM應(yīng)該評(píng)價(jià)顧客,那咱們是否可以用RFM評(píng)價(jià)商品價(jià)值?


完全可以!更進(jìn)一步,可能F頻率和M金額都比較好定義,但是對(duì)于定義最近購買時(shí)間對(duì)于商品來說就不合適了,大部分商品很可能一天會(huì)出售多次;那怎們辦,那咱們就可以嘗試以這個(gè)商品出現(xiàn)在每個(gè)小票的最后時(shí)間求平均作為代替。


所以我想說的是,在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目當(dāng)中,我們建立的模型絕不僅僅只是一個(gè)算法以及參數(shù)的調(diào)整,更加重要的是業(yè)務(wù)知識(shí)的結(jié)合和分析邏輯的構(gòu)建。


再來講一下模型評(píng)價(jià)



嗯,好了,通過一系列的數(shù)據(jù)挖掘工作,在咱們的客戶流失分析模型中,已經(jīng)得到一個(gè)精確率較高并且有一定業(yè)務(wù)解釋能力的決策樹C5.0模型。但是我們還不能直接部署,我們還需要對(duì)其進(jìn)行一定的評(píng)估。


一般來說從技術(shù)上,我們可以通過一系列的模型評(píng)估手段。




對(duì)于模型評(píng)估,我們可以采取一些常用的指標(biāo)進(jìn)行判讀:



這個(gè)指標(biāo)非常直觀,就是直接描述模型的總體準(zhǔn)確情況。但一般我們對(duì)于分類項(xiàng)目來說,我們其實(shí)更更加關(guān)注其中的某個(gè)特定類別,而不是整體準(zhǔn)確率?;氐嚼与娦爬颖旧恚覀兏雨P(guān)心的是對(duì)于流失客戶的預(yù)測(cè)是否正確,因此我們需要一個(gè)更加關(guān)注特定類別的指標(biāo)。




正如上面所說,我們更加關(guān)心究竟我們對(duì)于客戶流失的預(yù)測(cè)是怎樣的,所以引入一個(gè)命中率,它主要反映了我們目標(biāo)類別的預(yù)測(cè)準(zhǔn)性。例如建模人員提供了一份100人的流失名單,那命中率研究的是,在這份名單中有多少客戶是真正流失了的;




正如我們前面所說僅僅關(guān)注準(zhǔn)確率很有可能產(chǎn)生一種模型很好的幻覺。模型查全率反映的是,在我們?cè)谒械哪繕?biāo)類別當(dāng)中,我們實(shí)際找到了多少了。


舉個(gè)例子,上面咱們提到了命中率,咱們提到分析人員提供了一份100人的流失名單,假如其中準(zhǔn)確率也非常的高,有80人事真正的流失,命中率達(dá)到80%;但是假如我們的數(shù)據(jù)集里面最終是由1000人流失的話,那么我們就只是發(fā)現(xiàn)其中的8%。另外除了指標(biāo)法,技術(shù)評(píng)估上,我們一般也會(huì)借助增益圖和提升圖,采用圖形的方式也能更加直觀評(píng)估結(jié)果。




其中,紅色的線我們稱之為基線,它總是一條45度角的直線,而藍(lán)色的先我們稱之為增益線,它代表模型預(yù)測(cè)結(jié)果的優(yōu)劣。增益線下的面積越大,效果越好。


當(dāng)然,除了上述的技術(shù)評(píng)估手段,在實(shí)際項(xiàng)目當(dāng)中,我們還需要結(jié)合業(yè)務(wù)判斷。例如在咱們的流失分析中,我們可以導(dǎo)出規(guī)則特征以及流失名單與業(yè)務(wù)人員進(jìn)行分析探討,驗(yàn)證模型可靠性;


另外,在此階段,我們也應(yīng)該重新回顧整個(gè)數(shù)據(jù)挖掘過程,確保中途沒有出現(xiàn)技術(shù)偏差;


到了應(yīng)用階段:




先談基本的問題:經(jīng)過前面一系列的努力,我們已經(jīng)得到一個(gè)經(jīng)過初步驗(yàn)證認(rèn)為有效的數(shù)據(jù)挖掘模型,我們要開始設(shè)計(jì)策略進(jìn)行模型應(yīng)用及預(yù)演,可能包括的手段會(huì)有:

1、生成客戶流失名單,并結(jié)合市場(chǎng)細(xì)分以及業(yè)務(wù)經(jīng)驗(yàn),選擇重點(diǎn)關(guān)注客戶;

2、選擇并識(shí)別當(dāng)中的流失比例最高的規(guī)則以及高價(jià)值客戶的流失規(guī)則,針對(duì)該規(guī)則設(shè)計(jì)針對(duì)性的改善措施以及營銷措施;

3、根據(jù)分析結(jié)果以及挽留成本設(shè)計(jì)具體計(jì)劃,并計(jì)算預(yù)期收益;

4、設(shè)計(jì)監(jiān)測(cè)和模型維護(hù)計(jì)劃,用于后續(xù)模型優(yōu)化。千萬不要忘記這一點(diǎn)。這是經(jīng)常遺漏的一個(gè)步驟。


實(shí)際項(xiàng)目中,雖說咱們這是最后一步,但其實(shí)對(duì)于企業(yè)來說,只是完成了一半,而結(jié)果部署將是剩下來的另外一半。雖然說,咱們項(xiàng)目似乎差不多到尾聲了,但是我想說對(duì)于企業(yè)來說,真的只是一半。


首先把最后的分析結(jié)果與業(yè)務(wù)人員(或其他主導(dǎo)部門)進(jìn)行溝通并取得一致將是第一個(gè)難點(diǎn),所以在前面模型選擇那部分,很多時(shí)候咱們選擇可解釋性強(qiáng)模型的原因。


設(shè)身處地,你是一線的業(yè)務(wù)能手。有一天,有個(gè)數(shù)據(jù)分析人員(盡管你知道他學(xué)歷很高)跟你說,你這樣投廣告是錯(cuò)的,應(yīng)該是這樣這樣投,這是咱們分析過的。你是業(yè)務(wù)人員怎么想?而如果咱們選的還是一個(gè)黑盒子模型~,嗯,你懂的。


更進(jìn)一步,取得一致后,怎么落實(shí)商業(yè)策略并監(jiān)控是需要投入人力和財(cái)力成本的,所以往往一個(gè)好的分析項(xiàng)目也常常需要配套好的業(yè)務(wù)策略,實(shí)際上,很多項(xiàng)目往往會(huì)在這方面出現(xiàn)問題。


舉個(gè)例子:例如某快消企業(yè)的分析部門通過研究測(cè)試,發(fā)現(xiàn)該公司旗下某個(gè)系列產(chǎn)品的定位存在一定的偏差,建議從研發(fā)和廣告投入上需要重新定位,并且出了一份詳細(xì)的調(diào)研及分析報(bào)告并附上建議。但是很多情況下,這些建議最終只會(huì)被業(yè)務(wù)部門采納10%,甚至不到。


在實(shí)際當(dāng)中,分析團(tuán)隊(duì)與業(yè)務(wù)部門保持良好的溝通和充分的信任,是非常非常重要的一件事情。


實(shí)際上,在真正的數(shù)據(jù)挖掘應(yīng)用中,我們還會(huì)遇到很多的問題,例如數(shù)據(jù)不平衡,例如變量選擇等等,由于時(shí)間的關(guān)系,這里不能一一而足。如果要我談其中的核心,我會(huì)說的是,我們需要盡可能站在更高的角度,更有體系化的考慮問題。


這句話的詳細(xì)解釋是:我們需要有戰(zhàn)略層面的眼光去考慮,假如我們研究顧客,那我們考慮的是360度的客戶視圖,我們希望洞察客戶,希望實(shí)現(xiàn)以客戶為中心的轉(zhuǎn)型。與此同時(shí)落實(shí)到操作層面,需要考慮這些客戶畫像的分析主題(從客戶獲取,到客戶營銷響應(yīng),交叉營銷,客戶價(jià)值分析,生命周期管理,社交認(rèn)知分析,客戶流失分析等)的業(yè)務(wù)價(jià)值落腳點(diǎn)(業(yè)務(wù)應(yīng)用方式和收益)和實(shí)現(xiàn)難度(數(shù)據(jù)難度和模型難度),做好長期戰(zhàn)略規(guī)劃的同時(shí),兼顧小步快跑,快速迭代。


數(shù)據(jù)科學(xué)家要的是:業(yè)務(wù)知識(shí) 算法知識(shí) 編程技能。


關(guān)于數(shù)據(jù)科學(xué)的商業(yè)應(yīng)用大概到這里,下面還有一個(gè)部分就是我的個(gè)人學(xué)習(xí)推薦。


主要是一些推薦材料,在理論知識(shí)方面。最主要的可能是統(tǒng)計(jì)學(xué)和概率論知識(shí)。


1、統(tǒng)計(jì)學(xué)/概率教學(xué):

(1)課程:有個(gè)推薦是:可汗學(xué)院的統(tǒng)計(jì)學(xué)以及概率課程,我會(huì)評(píng)價(jià)的是,這些課程很粗暴直接。




(2)具體到一些參考書:

a.統(tǒng)計(jì)學(xué)(作者:William Mendenhall/Terry Sincich)



b.統(tǒng)計(jì)學(xué)(作者:賈俊平、何曉群、金勇進(jìn))


 *第一本偏應(yīng)用,第二本理論多點(diǎn)


較深的話,會(huì)有:


c.統(tǒng)計(jì)推斷 (作者:William Mendenhall / Terry Sincich )——非常經(jīng)典經(jīng)典的統(tǒng)計(jì)學(xué)教材,借用介紹“從概率論的基礎(chǔ)開始,通過例子與習(xí)題的旁征博引,引進(jìn)了大量近代統(tǒng)計(jì)處理的新技術(shù)和一些國內(nèi)同類教材中不常見而又廣為使用的分布。其內(nèi)容既包括工科概率入門、經(jīng)典統(tǒng)計(jì)和現(xiàn)代統(tǒng)計(jì)的基礎(chǔ),又加進(jìn)了不少近代統(tǒng)計(jì)中數(shù)據(jù)處理的實(shí)用方法和思想”。我會(huì)用“漂亮”來形容它。



2、統(tǒng)計(jì)學(xué)/概率論/機(jī)器學(xué)習(xí)需要一定的數(shù)學(xué)知識(shí),其中比較重要的數(shù)矩陣部分。

(1)課程:大家還是可以看可汗學(xué)院的線性代數(shù)課程

(2)參考書:

a.線性代數(shù)(第四版) :比較經(jīng)典的線性代數(shù)參考書了,很多學(xué)校的線代教材乃至于研究生入學(xué)考試很多人都會(huì)選用這本。這本書線性代數(shù)我個(gè)人是一半一半,我再想想可能會(huì)推薦另外一本。



3、在機(jī)器學(xué)習(xí)方面:

(1)課程:我推薦的是吳恩達(dá)的機(jī)器學(xué)習(xí),大家可以上Coursera或者網(wǎng)易公開課上面觀看,我是非常強(qiáng)烈的推薦這門課程。


另外我想談一點(diǎn),大家在看一種方法的時(shí)候要從機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)兩個(gè)方面去理解。例如我是統(tǒng)計(jì)學(xué)出身,我在看Andrew課程的時(shí)候,我就經(jīng)常有恍然大悟的感覺。反過來,你是cs出身的,我希望你不要忽視統(tǒng)計(jì)學(xué)中的一些精華,舉個(gè)例子,p值雖然被用爛了,但是遠(yuǎn)遠(yuǎn)未到不值得重視的地步。


(2)機(jī)器學(xué)習(xí)的書籍上:

a.數(shù)據(jù)挖掘?qū)д摚哼@本書優(yōu)點(diǎn)是很全,缺點(diǎn)也是很全,但卻難得一見的入門教材,有一定難度,但是對(duì)于我們構(gòu)建自身的統(tǒng)計(jì)挖掘體系有很大幫助。體系很重要!



b.《統(tǒng)計(jì)學(xué)習(xí)方法》(作者:李航):這本書也是我的心頭好



c.《機(jī)器學(xué)習(xí)》(作者:周志華)

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
客戶流失專題挖掘 - 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí) - 中國統(tǒng)計(jì)技術(shù)論壇 - 因?yàn)閷W?所以專業(yè)! ...
數(shù)據(jù)挖掘與分析理論
數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)方法 - 研發(fā)月報(bào)
數(shù)據(jù)挖掘大企業(yè)成功案例少 中小企業(yè)需求小
騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里
數(shù)據(jù)挖掘與企業(yè)管理
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服