選自 towardsdatascience,作者:Andrew Lukyanenko,機(jī)器之心編譯,參與:高璇、王淑婷。
成為一名數(shù)據(jù)科學(xué)家,Course 或 MOOC 上的廣告說幾個(gè)月就行。然而本文作者說,這是不存在。以下是作者根據(jù)自身經(jīng)歷寫的經(jīng)驗(yàn)(雞湯)貼,內(nèi)容詳實(shí)豐富 ↓↓
關(guān)于做一名數(shù)據(jù)科學(xué)家,我有一些想法。成為一名數(shù)據(jù)科學(xué)家并不容易,需要付出很多努力,但如果你對(duì)數(shù)據(jù)科學(xué)充滿興趣,那一切都是值得的。
時(shí)常有人問我:如何成為一名數(shù)據(jù)科學(xué)家?必修的課程是什么?需要多長(zhǎng)時(shí)間?你是怎么成為數(shù)據(jù)科學(xué)家的?我已多次回答過這些問題。所以在我看來,寫一篇匯總的文章也許能幫助那些想要成為數(shù)據(jù)科學(xué)家的人。
關(guān)于我自己
我(俄羅斯,莫斯科)在密歇根州立大學(xué)經(jīng)濟(jì)學(xué)院獲得碩士學(xué)位,并在 ERP 系統(tǒng)規(guī)劃領(lǐng)域做了 4 年的分析師和顧問。我的工作涉及與客戶交談,討論他們的需求并將其落地,編寫文檔,向程序員說明任務(wù),測(cè)試結(jié)果,組織項(xiàng)目和許多其它事情。
這是一項(xiàng)壓力很大的工作,需要處理很多問題。更重要的是,我并不喜歡它。盡管我喜歡處理數(shù)據(jù),但我做的大多數(shù)事情還是令人索然無味。所以,在 2016 年的春夏之交,我開始另謀出路。我通過了精益六西格瑪(Lean Six Sigma)的綠帶測(cè)試,但還未找到新的就業(yè)機(jī)會(huì)。有一天我發(fā)現(xiàn)了大數(shù)據(jù)(BigData)。在 google 上搜索和閱讀了許多文章后,我意識(shí)到這可能是我的夢(mèng)想職業(yè)。
我辭去工作,并在八個(gè)月后在一家銀行找到了第一份數(shù)據(jù)科學(xué)家的工作。從那之后,我先后就職了幾家公司,但我對(duì)數(shù)據(jù)科學(xué)的熱情日益增加。我完成了一些關(guān)于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的課程,實(shí)踐了一些項(xiàng)目(如聊天機(jī)器人或數(shù)字識(shí)別 APP),先后參加了許多機(jī)器學(xué)習(xí)的比賽和活動(dòng),在 Kaggle 上獲得了三枚銀牌。總之,我有一些學(xué)習(xí)數(shù)據(jù)科學(xué)和作為數(shù)據(jù)科學(xué)家工作的經(jīng)驗(yàn)。當(dāng)然,我還有很多技能需要學(xué)習(xí)。
免責(zé)聲明
本文所述僅為我自己的觀點(diǎn)。可能有些人會(huì)對(duì)其中的內(nèi)容持反對(duì)態(tài)度,但我無意冒犯任何人。我認(rèn)為想成為一名數(shù)據(jù)科學(xué)家必須投入大量的時(shí)間和精力,否則將一事無成。Course 或 MOOC 聲稱可以讓你在幾周或幾個(gè)月內(nèi)成為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/數(shù)據(jù)科學(xué)專家的廣告語并不是真的。你可以在數(shù)周/數(shù)月內(nèi)獲得一些知識(shí)和技能。但如果沒有廣泛的實(shí)踐(大多數(shù)課程內(nèi)不包含這一部分),你無法真正掌握它。
你確實(shí)需要內(nèi)在的動(dòng)力,但更重要的是,你需要嚴(yán)格地規(guī)范自己,這樣你可以在動(dòng)力消失后繼續(xù)努力。
再說一遍——你需要自己動(dòng)手動(dòng)腦。如果你在提出最基礎(chǔ)的問題之前沒有用 Google/ StackOverflow 或思考幾分鐘,那你將永遠(yuǎn)無法趕上專業(yè)人士。
在我參加的大多數(shù)課程中,只有大約 10-20%的人完成了這些課程。半途而廢的人基本都缺乏耐心和決心。
什么樣的人能成為數(shù)據(jù)科學(xué)家?
上圖顯示了數(shù)據(jù)科學(xué)家所需的一些核心技能,比如:數(shù)學(xué)和統(tǒng)計(jì)學(xué),編程和開發(fā),領(lǐng)域相關(guān)知識(shí)和軟技能。
這么多技能!怎么可能完全掌握呢?嗯,需要花費(fèi)很多時(shí)間。但告訴你一個(gè)好消息:沒必要掌握全部。
2018 年 10 月 21 日,Yandex 上有一個(gè)有趣的演講,其中提到數(shù)據(jù)科學(xué)專家類型有很多,他們只是擁有上述技能中的某幾種而已。
數(shù)據(jù)科學(xué)家應(yīng)該處于圖片中間的位置,但實(shí)際上他們可以處于三角形的任何位置,不同位置對(duì)應(yīng)了不同的專家能力。
在本文中,我將討論的一類數(shù)據(jù)科學(xué)家是那些可以與客戶交談,進(jìn)行分析,構(gòu)建模型并實(shí)施項(xiàng)目的人。
轉(zhuǎn)行?這意味著你已有所了解!
有人說轉(zhuǎn)行相當(dāng)困難。雖然這是事實(shí),但轉(zhuǎn)行也通常意味著你對(duì)現(xiàn)在工作已經(jīng)有所了解。也許你有編程和開發(fā)經(jīng)驗(yàn),也許你在數(shù)學(xué)/統(tǒng)計(jì)學(xué)領(lǐng)域工作過,或者你每天鍛煉你的軟技能。至少你擁有一些自己領(lǐng)域的專業(yè)知識(shí)。你可以揚(yáng)長(zhǎng)避短。
來自 Reddit 的數(shù)據(jù)科學(xué)路線圖
實(shí)際上這里有兩個(gè)路線圖:)
第一個(gè)來自 Reddit:
首先,閱讀 Hastie、Tibshirani 和 Jerome Friedman 所著的《The Elements of Statistical Learning》第 1-4 章和 7-8 章。就算暫時(shí)不理解,也要堅(jiān)持閱讀。
如果需要,你可以閱讀該書的其它部分。假設(shè)你對(duì)全書都已有所了解。
觀看 Andrew Ng 的 Coursera 課程。用 python 和 R 語言完成所有練習(xí)。確保你能寫出正確答案。
然后閱讀一本深度學(xué)習(xí)書。在 Linux 系統(tǒng)中運(yùn)行 tensorflow 和 pytorch 框架并實(shí)踐示例項(xiàng)目,直到完成。嘗試使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)。
完成所有這些后,繼續(xù)在 arXiv 上閱讀最新的有用論文。文獻(xiàn)不斷在更新,所以要跟上大部隊(duì)。
完成這些的你現(xiàn)在會(huì)被大多數(shù)公司錄取。如果你需要完善簡(jiǎn)歷,可以參加一些 Kaggle 比賽。如果你有調(diào)試問題,請(qǐng)使用 StackOverflow。如果在數(shù)學(xué)方面有問題,請(qǐng)多讀文獻(xiàn)。如果生活上問題,自己看著辦吧。(以上引用)
《The Elements of Statistical Learning》地址:https://web.stanford.edu/~hastie/ElemStatLearn//printings/ESLII_print10.pdf
其中一條評(píng)論:
這些還不夠。還有一個(gè)新問題:沒有訓(xùn)練數(shù)據(jù),想想怎么收集。學(xué)會(huì)寫 scraper,然后做一些標(biāo)注和特征提取。在 EC2 上完成所有安裝并實(shí)現(xiàn)自動(dòng)化。嘗試編寫代碼,以便有新數(shù)據(jù)時(shí),在生產(chǎn)中不斷重新訓(xùn)練和部署模型。
雖然這些聽起來很簡(jiǎn)短,但很嚴(yán)苛且非常困難,如果做到了,它可以讓你有個(gè)飯碗。
當(dāng)然,還有許多其它的數(shù)據(jù)科學(xué)方法,我提供的只是我自己的方法。它并不完美,但卻是基于我的個(gè)人經(jīng)驗(yàn)。
我的路線圖:
有一項(xiàng)技能可以讓你走得很遠(yuǎn)。如果你還沒擁有這項(xiàng)技能,希望你盡快掌握。這項(xiàng)技能是——獨(dú)立構(gòu)思,檢索信息,發(fā)現(xiàn)信息,理解信息。有些人無法獨(dú)立構(gòu)思,有些人無法找到最基本問題的解決方案,有些人甚至不知道如何正確使用谷歌搜索。這是一項(xiàng)必備的基礎(chǔ)技能,你必須掌握它!
學(xué)習(xí)深度學(xué)習(xí)是另一個(gè)全新的話題。
這僅僅是個(gè)開始。遵循這個(gè)路線圖(或做相似的事)將幫助你開啟數(shù)據(jù)科學(xué)家之路。剩下的路要靠你自己走!
聯(lián)系客服