九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)挖掘失敗的根源

這是傅一平的第315篇原創(chuàng)


“與數(shù)據(jù)同行”開通了微信群,現(xiàn)已匯聚了3500位小伙伴了,長按以下二維碼發(fā)送“入群”后加入。

正文開始

出租車司機識別模型是去年我們接到的一個挖掘需求,這個案例經(jīng)歷了數(shù)據(jù)挖掘工作幾乎所有的挑戰(zhàn)(除了算法),這里筆者結合這個案例系統(tǒng)梳理下這些挑戰(zhàn),并嘗試給出這些挑戰(zhàn)的深層次原因和解決建議。

1、目標難以達成事實上的共識

去年接到出租車司機識別挖掘需求的時候,自己并不知道對方的預期是多少,就急著安排人員去推進,這個為后續(xù)的模型反復埋下了禍根,你會發(fā)現(xiàn),建模師不停的改,業(yè)務人員不停的提要求,啟啟停停,沒有盡頭。

直到最近才摸到了業(yè)務人員的底線,比如達到XX%的準確率可投入生產(chǎn),但為什么開始的目標沒有定呢,想來有三個原因:

第一、業(yè)務人員提數(shù)據(jù)挖掘需求的時候應該是有個大致預期的,理論上需要有成本的考量,比如數(shù)據(jù)達到多高的精度才能cover住這次營銷的投放成本,但業(yè)務人員總是會想越高越好。

第二、建模方在實際探索前很難給出準確的預估,因為缺乏足夠的依據(jù),互聯(lián)網(wǎng)公司可能會好一點,畢竟它們有大量的歷史經(jīng)驗值可以參考,但對于大多數(shù)公司來講沒有。

第三、數(shù)據(jù)挖掘的結果是個概率值,比如要準確一點,覆蓋率就會降低一點,這種數(shù)據(jù)上的“彈性”使得雙方要達成目標上的共識更困難了。

因此筆者經(jīng)歷的大多數(shù)的數(shù)據(jù)挖掘其實是在未達成業(yè)務目標共識的前提下開展探索的,業(yè)務人員期待著一個最好的結果,建模師則抱著試試看得心態(tài)。

經(jīng)驗告訴我,為了節(jié)省你團隊寶貴的挖掘資源,啟動一個數(shù)據(jù)挖掘工作事先還是要盡量與業(yè)務方達成一個共識,比如業(yè)務上能容忍的底線是多少,這個業(yè)務方應是有數(shù)的,或者是有辦法給出的(比如基于歷史的營銷經(jīng)驗等等),否則就不會提所謂的精準需求了,不愿意認真對待目標的業(yè)務方不值得接收他的需求。

業(yè)務目標達成共識后,一個很大的好處是對于建模師的工作有個基本的指引,比如第一次挖掘的結果如果大大低于最低目標,就要考慮是否建模方法上出現(xiàn)了重大偏差,或者是數(shù)據(jù)質量不足以支持目標的達成,或者直接升級問題說明情況,沒有基本預期的建模師有點像無頭的蒼蠅,走到哪算到哪。

2、缺乏生產(chǎn)驗證的方案和業(yè)務承諾

出租車司機模型的第一個版本出來后,建模師希望立刻去做驗證,但業(yè)務方告知外呼驗證需要排期,大概要等1-2個禮拜才能拿到確認的結果,這種情況在企業(yè)內(nèi)司空見慣。

為什么互聯(lián)網(wǎng)公司的數(shù)據(jù)挖掘效率就比較高呢?筆者覺得一個主要原因就是其具備的在線AB測試的能力,大多數(shù)傳統(tǒng)企業(yè)尚不具備這種快速發(fā)布模型并進行生產(chǎn)驗證的條件。

為什么?

因為大多企業(yè)的營銷投放流程有大量的線下、人工環(huán)節(jié),做一次精準營銷的投放代價很大,流程也很長,而這個跟數(shù)據(jù)挖掘的快速迭代要求相悖。

機器學習、人工智能面臨的最大挑戰(zhàn)就是先進的生產(chǎn)力跟企業(yè)的落后的生產(chǎn)關系的矛盾,你要讓數(shù)據(jù)挖掘快速迭代就意味著要重塑企業(yè)的營銷管理流程,這個談何容易。

但即使是這樣,我們因地制宜也有提升的空間。

既然企業(yè)投放生產(chǎn)的限制條件這么多,那么就要未雨綢繆,提前給出模型大致的發(fā)布時間和驗證方案,業(yè)務人員提前做好準備,比如配備的渠道、產(chǎn)品和政策資源等等,這樣就能改善問題。

雙方都應該為數(shù)據(jù)挖掘的快速推進承擔具體的責任,很多數(shù)據(jù)挖掘無法快速推進往往是前端的業(yè)務問題(比如協(xié)調不動相關資源),這個時候就要升級問題,而不是到時再說。

3、缺乏有效的信息獲取方式

出租車司機模型迭代了四個版本,每個版本最大的變化是什么呢?

筆者發(fā)現(xiàn)并不是算法做了什么變更,參數(shù)做了多大的調優(yōu),而是在于隨著數(shù)據(jù)探索和業(yè)務理解的深入,特征的選擇增加了,特征變量的表征加強了。

在一次分享會上,筆者特意就出租車司機識別的特征變量選擇隨機問了部分團隊成員(1分鐘內(nèi)),如果讓你去做建模,你會選擇哪些影響變量?

一位產(chǎn)品經(jīng)理回答了5個,一位開發(fā)工程師回答了3個。

然后筆者在3500人的9個微信群提出了同樣的問題,共有15位熱心的群友給出了回復,他們提供了多少變量?

30個。

頂級的信息獲取能力,就是讓全網(wǎng)的數(shù)據(jù)從業(yè)者為你貢獻智慧。

筆者在《數(shù)據(jù)挖掘軍規(guī)》一文中提出了一系列管理提升的建議,重要的一點就是確保你能站在巨人的肩膀上去做事,你一定要想到自己的業(yè)務常識肯定受限于自己的經(jīng)歷,因此一定要善于采用各種手段從外部獲取更多的信息,在參數(shù)調優(yōu)階段你可以做孤獨的舞者,但在方案設計階段,一定要努力成為一個連接者。

下圖顯示了某個版本的部分變量選擇示意:


4、缺乏足夠的數(shù)據(jù)分析經(jīng)驗

我們發(fā)現(xiàn)前三次的模型中存在大量的誤識別問題,比如外賣員、物流配送人員、公交車、班車司機有很高的概率被識別成出租車司機,建模人員還是習慣于用技術的手段去解決這種問題,但調優(yōu)的結果往往并不是很好。

有的建模師就會沮喪的說已經(jīng)做到極致了,真的提升不了了,但事實真的是這樣?

筆者做過數(shù)據(jù)分析,發(fā)現(xiàn)很多數(shù)據(jù)建模師其實缺乏足夠的數(shù)據(jù)分析訓練,不善于采用比較鑒別的手段去洞悉數(shù)據(jù)上的一些規(guī)律,自己寫過一篇文章《經(jīng)驗,套路還是邏輯?從我的一次數(shù)據(jù)分析經(jīng)歷中能得到什么?》說過分析的方法,建模師會算法、會調參不等于會數(shù)據(jù)分析,而數(shù)據(jù)分析能鍛煉你的常識能力,比如數(shù)據(jù)的敏感度。

下面的視頻顯示了出租車司機、外賣員、物流配送人員、公交車、班車司機在軌跡上的特征,其實很容易分析出之間的差異,然后設計合適的指標去表征這個差異,比如:出租車司機的活動軌跡、不固定、較雜亂,外賣員有較固定的軌跡發(fā)散點,公交車、班車司機則有較固定的活動區(qū)域、活動軌跡、往返點等等。

出租車司機典型路徑

外賣員典型路徑

公交車司機典型路徑

下圖示例了用新的位置變量來表征正負樣本活動區(qū)域的不固定性程度,很好的解決了誤識別問題。


5、缺乏足夠的數(shù)據(jù)質量稽核

在第四次建模的時候我們發(fā)現(xiàn)了大量的樣本問題,比如在業(yè)務部門提供的2148個司機原始清單中,近20%的司機位置軌跡行為不顯著,處于低水平,甚至有60余人無行動軌跡,核實發(fā)現(xiàn)很多人的確曾經(jīng)是滴滴司機,但已經(jīng)不干了,樣本的時效性問題突出。

即使是將前三次外呼的結果作為樣本,也發(fā)現(xiàn)在84個正樣本中,還有25個正樣本活動軌跡非出租車司機,誰都無法保證外呼的結果是絕對準確的。

因此,相對于互聯(lián)網(wǎng)較好的在線數(shù)據(jù),傳統(tǒng)企業(yè)的數(shù)據(jù)建模師其實面臨更多的數(shù)據(jù)質量的挑戰(zhàn),只要有業(yè)務驗證的可能,就要對于樣本進行常識的分析和判斷,機械的進行樣本清洗、過濾和轉化是簡單的,但如果樣本的真實性出現(xiàn)了問題,那是比較致命的。

數(shù)據(jù)建模師對一切數(shù)據(jù)都要持懷疑態(tài)度,然后老老實實的去驗證,不要想著走捷徑。

6、缺乏合理的機制流程保障

出租車司機的四次模型迭代,并不是依靠團隊力量的一個有機協(xié)調的逐步推進的一個過程,而是非?;靵y的,無論是目標的設定,設計的評審,效果的反饋,后續(xù)的優(yōu)化,都存在管理的缺位。

雖然數(shù)據(jù)建模師似乎也能稱為碼農(nóng),但其并不是純粹意義上的碼農(nóng),你會看到大多數(shù)企業(yè)的數(shù)據(jù)建模師實際要兼顧開發(fā)者、建模者、分析者、運營者等諸多角色,筆者寫過一篇文章《數(shù)據(jù)挖掘師,要從一個人活成一支隊伍》說明過這個道理,這些角色要完成工作需要依賴大量的周邊資源,這個需要機制和流程的保障。

因此筆者近期寫了篇《數(shù)據(jù)挖掘軍規(guī)》的文章,列出了數(shù)據(jù)挖掘中的一些關鍵節(jié)需要在流程上進行強行的控制,確保其能夠高效低成本的進行,包括需求可行性匯報、設計方案匯報、問題升級匯報、試點結果匯報、推廣評估匯報等等,下面是一張流程圖示意,請仔細研讀。


當然數(shù)據(jù)挖掘失敗的原因遠不止于上面提到的這些,從技術的角度來講還有更多,但考慮到大多數(shù)企業(yè)基于數(shù)據(jù)挖掘驅動業(yè)務還處于起步階段,在大多的應用場景,算法能力的高低還沒有成為決定性的因素,我們可以考慮先把上面提到的一些低垂的果實摘了,然后再對算法去攻堅克難,這可能是性價比更高的方式。

作者:傅一平 
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【回顧】大數(shù)據(jù)微課 | 郭鵬程:如何獲得有生命力的數(shù)據(jù)
如何構建有指導的數(shù)據(jù)挖掘模型
大數(shù)據(jù)與數(shù)據(jù)挖掘(3)
完成一個預測建模項目一般需要多長時間?
RapidMiner數(shù)據(jù)挖掘入門之一:概要
數(shù)據(jù)挖掘中易犯的11大錯誤
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服