2006-12-08 10:33:44
臺資餐飲企業(yè)“一茶一座”在內(nèi)陸發(fā)展迅猛,幾年下來已經(jīng)開了34家連鎖店,歷史數(shù)據(jù)累積到三千多萬條;本土生產(chǎn)型企業(yè)“樂百氏”的門店幾乎已鋪遍全國,總部十分重視原始數(shù)據(jù)的采集,為加強對各區(qū)域門店和經(jīng)銷商的管理,需要上一套分銷系統(tǒng)。
兩家企業(yè)都是中等規(guī)模,信息基礎設施較為完備,信息化項目的負責人也既懂業(yè)務又懂技術(shù);巧的是,他們今年都選擇了部署商務智能系統(tǒng)。接受采訪時兩位CIO均表示,迄今為止企業(yè)的數(shù)據(jù)主要集中在銷售方面,財務、庫存數(shù)據(jù)還沒有整合到系統(tǒng)中,以企業(yè)目前的運營規(guī)模和數(shù)據(jù)流量來看,沒有實施數(shù)據(jù)挖掘的必要。
1998 年,數(shù)據(jù)挖掘帶著“啤酒加尿布”的光環(huán)來到中國,引起理論界一陣熱炒;緊接著,一些大牌IT企業(yè)也加入炒作的行列,大有企業(yè)救世主的風范。然而經(jīng)過幾年的實踐,數(shù)據(jù)挖掘的應用和實施仍處困境,即便在電信、稅務、金融等領(lǐng)域,成功案例也屈指可數(shù)。數(shù)據(jù)挖掘何以炒著熱吃著冷?數(shù)據(jù)挖掘是大忽悠還是懵懂少年?
尷尬處境:大企業(yè)成功案例少 中小企業(yè)需求小
“一茶一座”和樂百氏公司的看法,頗有代表性。至今,企業(yè)普遍使用的數(shù)據(jù)挖掘手段仍然只是報表分析或OL
AP信息鉆取,情況好點的也不過是一些第三方建立的在實際運用中效果相當有限的客戶流失預測模型。
中科院研究生院軟件學院潘辛平教授一直關(guān)注著數(shù)據(jù)挖掘技術(shù)的進展,他常問項目參與者:哪些信息是真正通過挖掘才展現(xiàn)出來的,而哪些信息是本來就已知的,往往得不到令人滿意的答復。期間還有人告訴他,某證券公司數(shù)據(jù)挖掘項目的結(jié)論之一竟然是:凡在深交所開戶的投資者必然也在上交所開戶,消息傳開,圈里的朋友都拿它當飯桌上的笑話講。
笑話歸笑話,對于企業(yè)客戶而言,數(shù)據(jù)挖掘的應用存在大量天然障礙是不爭的事實!日處理數(shù)據(jù)達到Tb(1024G)級才有意義;平臺軟件或解決方案動不動得花費上千萬元,哪怕租用兩年也得幾百萬;企業(yè)必須專門配備一支IT隊伍,在項目建成后負責數(shù)據(jù)分析與挖掘工作。如果企業(yè)的經(jīng)營規(guī)模不夠大,年營業(yè)額不夠高,沒有一定的信息技術(shù)基礎,是不敢染指數(shù)據(jù)挖掘的。因此,更多的企業(yè)最終選擇的是把數(shù)據(jù)倉庫、在線分析處理(OLAP)、數(shù)據(jù)挖掘等技術(shù)打包在內(nèi)的整套商務智能系統(tǒng),而這種商務智能系統(tǒng)的數(shù)據(jù)挖掘能力偏弱。
數(shù)據(jù)是數(shù)據(jù)挖掘應用的依據(jù),中科院金融科技研究中心首席科學家劉世平認為,即便在大型企業(yè),由于數(shù)據(jù)搜集起步普遍比較晚,數(shù)據(jù)可得性和完備性都不高。很多行業(yè)的生產(chǎn)、財務、銷售等敏感數(shù)據(jù),由于用戶的選擇性輸入或漏輸、錯輸,難以為數(shù)據(jù)挖掘工具所用。
企業(yè)需要具備什么基礎才能應用數(shù)據(jù)挖掘技術(shù)呢?SPSS數(shù)據(jù)挖掘項目經(jīng)理戴慶祝表示,理想的起點是建立一個數(shù)據(jù)倉庫,里面保存好所有客戶的數(shù)據(jù),以及市場競爭對手的相關(guān)數(shù)據(jù)。如果數(shù)據(jù)倉庫還沒有建起來就直接上數(shù)據(jù)挖掘應用,結(jié)果很可能中途夭折,因為數(shù)據(jù)挖掘前期幾乎80%的工作都是在準備數(shù)據(jù),把數(shù)據(jù)整合、抽取、清洗、轉(zhuǎn)換、裝載。如果給出的最初數(shù)據(jù)質(zhì)量不高,模型再好,最后做出的預測也難如人意。
另一方面,開發(fā)商提供的軟件自身也存在缺陷,例如模型與實際要求偏差大,缺乏主動預警機制等。數(shù)據(jù)挖掘工具引入國內(nèi)時間不長,并沒有分行業(yè)推出不同版本,很多系統(tǒng)實施顧問也只能夠提供簡單通用的算法,用起來似隔靴搔癢。在流行的數(shù)據(jù)挖掘解決方案中,多以“頁面瀏覽”的方式將信息傳達給用戶,缺乏主動出擊、危險預警的理念。例如某企業(yè)財務指標超出正常范圍時,系統(tǒng)頁面會采用指示燈閃爍的形式提示危險信息,如果相關(guān)人員沒有瀏覽該數(shù)據(jù)分析頁面,就無法獲取這一重要信息。
復合型項目人才一將難求
目前的數(shù)據(jù)挖掘市場,基本處在跨國巨頭的壟斷之下,至今未出現(xiàn)類似于ERP、SCM等領(lǐng)域的本土知名企業(yè),連提供解決方案與咨詢的廠商,其骨干及項目經(jīng)驗也多來自外企或國外。無論是軟件開發(fā)商、咨詢服務提供商或?qū)嵤┓?,人才匱乏問題成為企業(yè)發(fā)展的一大瓶頸。
劉世平對這點深有體會。他本是
IBM全球銀行數(shù)據(jù)挖掘咨詢組組長,有豐富的數(shù)據(jù)挖掘項目經(jīng)驗,懷著創(chuàng)業(yè)的夢想,他從IBM出來,在中科院帶研究生的同時,也辦了一家提供數(shù)據(jù)挖掘解決方案和咨詢業(yè)務的公司――吉貝克信息技術(shù)(北京)有限公司。劉世平遇到的最大難題不是找不著業(yè)務需求,而是招不到合格的項目從業(yè)人員,哪怕是跑到國內(nèi)頂尖院校,見著的仍是流于書本理論毫無項目實踐的高才生。沒辦法,他只好立足于自己培養(yǎng),現(xiàn)在的數(shù)據(jù)挖掘團隊都是劉世平花了幾年心血一手帶出來的。這樣的例子在業(yè)界舉不勝舉。
如果說成功的數(shù)據(jù)挖掘項目是一串鉆石項鏈,那么數(shù)據(jù)收集和整理是挑選含有鉆石的礦石,統(tǒng)計建模和數(shù)據(jù)分析則是鉆石的開采,而項目管理就是把一顆顆鉆石連接起來的金線。與其他信息系統(tǒng)對項目管理人員的要求不同,數(shù)據(jù)挖掘要求項目管理者不僅具備項目管理能力、軟件設計能力、超強的理解和溝通能力,還要具備相當?shù)臄?shù)據(jù)分析能力。
數(shù)據(jù)挖掘項目的實施人員,除了項目管理者之外,還需要三類具有不同專長的人員,一是業(yè)務分析人員,精通業(yè)務,能夠解釋業(yè)務對象,并根據(jù)業(yè)務對象確定用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求;二是數(shù)據(jù)分析人員,精通數(shù)據(jù)分析技術(shù),熟練掌握統(tǒng)計學,能把業(yè)務需求轉(zhuǎn)化為具體操作,并為每步操作選擇合適的技術(shù);三是數(shù)據(jù)管理人員,精通數(shù)據(jù)管理技術(shù),了解數(shù)據(jù)源,負責數(shù)據(jù)準備過程。
同樣,要成功完成一次數(shù)據(jù)挖掘過程,用戶也既要熟悉業(yè)務,也要熟悉算法和模型,才能知道取出來的數(shù)據(jù)代表什么,算出來的結(jié)果又代表什么。而電信、金融等行業(yè)主導數(shù)據(jù)挖掘系統(tǒng)建設的大都是工科出身,不但業(yè)務不熟悉,對統(tǒng)計學也很生疏。由于雙方面都對復合型人才有極大的需求,以致常出現(xiàn)用戶挖廠商墻角、廠商再花大價錢回挖的人才拉鋸戰(zhàn)。
國內(nèi)大型企業(yè)的數(shù)據(jù)挖掘成功案例鳳毛麟角,很大一部分原因就在于用戶過分依賴廠商,自身沒有形成一支懂技術(shù)、懂業(yè)務、懂管理的核心團隊。這點可以從寶鋼的例子中吸取一點經(jīng)驗。寶鋼領(lǐng)導普遍都很重視數(shù)據(jù)倉庫的項目建設,親自參與項目的整體或階段性規(guī)劃,并狠抓IT團隊建設。幾年下來,寶鋼培養(yǎng)出一批掌握SAS 核心技術(shù)的員工,保證了數(shù)據(jù)挖掘在業(yè)務上的較好應用。
實施過程中CEO的心頭疙瘩
數(shù)據(jù)挖掘本身并不產(chǎn)生價值,實施數(shù)據(jù)挖掘后產(chǎn)生的結(jié)果才有價值。項目實施過程中,用戶與廠商之間存在著某些解不開的結(jié)。數(shù)據(jù)挖掘人員口里念叨的盡是些稀奇古怪的技術(shù)名詞,他們的出身復雜,既不完全是學計算機的,也不像統(tǒng)計學家,更不像營銷策劃人員,他們搭建的模型五花八門,他們挖掘的結(jié)果不容易理解。商業(yè)直覺強烈的企業(yè)用戶CEO們很容易產(chǎn)生抵觸情緒,常常在四方面向數(shù)據(jù)挖掘人員開炮。
其一,爭議自變量的選擇權(quán)。企業(yè)CEO一般對預測模型的建立都比較感興趣,預測的目標也比較好確定,比如要預測客戶流失,那么“客戶是否流失”就是目標變量;要預測股票漲跌,那么“收市價是否上升”就是目標變量。但確定哪些變量作為自變量則頗費周折,換句話說,要確定哪些因素與目標變量有關(guān)系,往往是雙方各執(zhí)一詞。
自變量該由企業(yè)用戶一方來決定,還是該由數(shù)據(jù)挖掘人員決定呢?企業(yè)用戶人員擁有長期的業(yè)務經(jīng)驗,能敏銳感覺到哪些因素與目標變量密切相關(guān),不過他們有時會遺漏很多表面無關(guān)但實際上很重要的因素,這正是數(shù)據(jù)挖掘人員可以發(fā)揮作用的地方。理想的方式是雙方結(jié)合決定,但誰主誰輔則常常爭執(zhí)不休。
其二,CEO喜歡把客戶群體分得越細越好。與傳統(tǒng)的經(jīng)驗細分相比,數(shù)據(jù)挖掘產(chǎn)生的客戶細分能夠考慮客戶更多的行為屬性,每個客戶群體具有更鮮明的行為特征。但什么樣的客戶細分結(jié)果才算好的?將客戶分成多少個群體是最合適的?群體之間的人數(shù)相差懸殊是否就意味著細分結(jié)果不夠好?
預測性模型的好壞有很多衡量指標,上述問題卻沒有一定的衡量標準。客戶細分模型的好壞,更多地要從業(yè)務角度來評判。CEO喜歡將客戶分成上百個群體,總想更細致地了解各群體客戶的行為特征,但客戶經(jīng)理多半要忙吐血也顧不過來,現(xiàn)有的客戶管理系統(tǒng)也很難支撐過多客戶群體的處理。因此,數(shù)據(jù)挖掘人員的應對措施就難以讓CEO滿意。
第三,質(zhì)疑數(shù)據(jù)挖掘的結(jié)果。數(shù)據(jù)挖掘建立的預測模型,是對真實世界的模擬,依據(jù)企業(yè)
數(shù)據(jù)庫中儲存的客戶行為信息建立的預測模型無法得出確定性結(jié)果,只能以概率值示人。例如,電信運營商要求挖掘出某個客戶流失究竟是因為對網(wǎng)絡質(zhì)量不滿、對服務質(zhì)量不悅、還是對資費政策有怨言,但挖掘出來的結(jié)果只會是諸如“如果最近一個月漫游通話次數(shù)小于25次、交往圈人數(shù)三個月均值小于97個則符合這樣條件的客戶其流失概率為46%”的判斷。
這樣以概率值提交的結(jié)果最容易招來企業(yè)CEO的不滿。他們通常會問,我要對我的客戶流失做出預測,為什么不能準確告訴我究竟是哪些客戶下個月會流失?只告訴我每個客戶流失的概率,這樣的數(shù)值叫我如何使用?
第四,還有數(shù)據(jù)挖掘不能解決的問題?CEO在指示業(yè)務需求時,常會提出如何優(yōu)化自己的網(wǎng)絡資源、如何對有眾多隨機因素的不確定系統(tǒng)(物流、供應鏈、排隊系統(tǒng)等)提出最優(yōu)操作方案、如何根據(jù)現(xiàn)狀推演未來市場份額的變化等問題。由于相關(guān)技術(shù)在國內(nèi)的應用很少,數(shù)據(jù)挖掘人員會告訴CEO:上述問題分別屬于運籌學、離散事件仿真、系統(tǒng)動力學仿真的領(lǐng)域,超出了數(shù)據(jù)挖掘的能力。這樣的回答很容易讓CEO憤憤不平,難以釋懷。
挖掘結(jié)果未必能改善現(xiàn)狀
數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)知識相結(jié)合才能對其做出判斷。說白了,數(shù)據(jù)挖掘只是一個工具,它可以發(fā)現(xiàn)一些潛在的用戶,但不會告訴使用者為什么,也不能保證這些潛在的用戶成為現(xiàn)實。
實際上,數(shù)據(jù)挖掘只能找出數(shù)據(jù)上的關(guān)聯(lián),還不能把這種數(shù)據(jù)關(guān)聯(lián)關(guān)系當成因果關(guān)系。例如挖掘發(fā)現(xiàn),“大多數(shù)車禍出現(xiàn)在中等行駛速度當中,極少的事故出在高于 150公里/小時的速度上。”人們當然不能認為“高速行駛比較安全”,它的真實原因在于“多數(shù)人是以中速行駛,因此多數(shù)車禍出在中速行駛的車輛上”。
數(shù)據(jù)挖掘的成功要求CEO對期望解決問題的領(lǐng)域有深刻的理解,理解數(shù)據(jù),理解其過程,才能對數(shù)據(jù)挖掘的結(jié)果找出合理的解釋。拿啤酒和尿布這一經(jīng)典例子來說,如何去解釋這種現(xiàn)象,是應該將兩者放在一起還是分開銷售?需要摸透消費者的心理才能做出決定,而無法靠數(shù)據(jù)挖掘得出結(jié)論。
美國有家冰激凌生產(chǎn)商,總是聽到顧客對產(chǎn)品的抱怨,而產(chǎn)品的質(zhì)量又檢查不出什么問題,企業(yè)CEO也一直不明就里。后來市場部用上數(shù)據(jù)挖掘軟件,通過分析知道問題出在產(chǎn)品的外包裝上,由于包裝上冰激凌圖片里的水果數(shù)量較多,而實際產(chǎn)品沒有那么多,導致了顧客的不滿。市場部隨即換上新的包裝,顧客的抱怨也就停止了,但銷量并沒有明顯增加。數(shù)據(jù)挖掘的結(jié)果幫助企業(yè)解決了一個表面問題,但沒有改善企業(yè)的經(jīng)營狀況。
數(shù)據(jù)挖掘提供的是一個輔助決策的系統(tǒng),它不能代替CEO來進行決策。人在所有的信息系統(tǒng)包括數(shù)據(jù)挖掘平臺中的作用始終是第一位的。不能快速、準確地制定決策方針等于將市場送給對手,不能及時發(fā)現(xiàn)業(yè)務的潛在信息等于浪費自己的資源。數(shù)據(jù)挖掘給出的結(jié)論仍然只是參考,而不是最終結(jié)論,事情的決斷和執(zhí)行仍然要靠 CEO的智慧。(it168)