一個門外漢的資料科學學習之旅

『嗯,就決定去試看看了』那年大三,系上瀰漫著一股有意無意互相試探畢業專題指導教授的詭譎氛圍。

大概在幾個月前,我在偶然的機會下看到一則世界最大的超市集團沃爾瑪(Walmart)的網路文章。他們用資料探勘技術分析會員資料,偶然發現週五晚上男性的結帳清單中啤酒和尿布具有高度相關性,深入解析原因發現是因為年輕爸爸抓住到超市採購小朋友尿布的機會,順手拿了幾罐啤酒好迎接將到來的週末。沃爾瑪於是調整商品陳列,將啤酒與尿布擺放在鄰近的位置,進而提升商品30%的銷售率。那是我第一次接觸到資料探勘這個名詞。就因為這樣?資料探勘?成長30%?我覺得很神奇。

於是在毫無任何先備知識的狀況下,硬著頭皮主動詢問教授能不能有機會執行相關主題且獲得同意後,開始了人生的第一個資料科學相關實作。是的,毫無任何先備知識,沒有學過任何關於統計、機器學習的知識。

被神化而不得其門而入的資料科學

很多人神化了資料科學。過度膨脹的謠傳使得資料科學與普羅大眾之間築起了一道牢不可破的高牆。要不覺得非得要是程式天才或是數學神童才算是真的有能力踏進資料科學領域,要不就是三不五時報章雜誌報導資料科學預測出誰會當選美國總統、機器學習和人工智慧又一次打敗人類棋王等等的新聞而產生出一些半信半疑的幻想。

大家都在談,但卻沒有人真的知道它是什麼。我相信很多人腦海中曾經躍躍欲試想稍加了解,但卻又因為某種光怪陸離的說法讓資料科學在心裡慢慢變成比較接近玄學的不切實際,然後就漸漸演變為想接近卻又不得其門而入,望之卻步。

其實我想只是需要一點點好奇心跟傻勁就夠了。搜尋資料科學,找一段教學影片、瀏覽一個已經完成的競賽看看別人的做法,然後找份資料動手試試看,幾十個、幾百個長度的小小資料,從excel開始也無所謂。資料科學只是一種用資料解決問題的方法罷了。

“我不是一個真的工程師。我把東西弄一弄,弄到能跑之後就不管了。真的工程師會說「這段程式能跑,但記憶體沒管理好,我們來修好它」。我只會說,一直重新開機不就好了。” 很難想像這段話是出自世界上最頂尖的工程師之一: PHP之父Rasmus Lerdorf的嘴裡。但是資料科學也一樣,不用什麼天分或熱情,也同樣是可以學習的,並沒有想像中的難以接近。

從眾迷思的漩渦

『我不懂,所以資料科學到底能幫我們公司做些什麼,為什麼一定要資料科學?』

幾年後,我在一家新創公司每月底的全公司例行分享會中,談到當時業界最火熱的資料科學話題,一個精通三國語言承接海內外業務的PM問。

『事情該發生,它就會發生,自然而然就會知道了。』印象中,公司的資料科學家是這麼回答的。

『我想,他的意思是當事情水到渠成時,該產生幫助時就會產生幫助,也非得一定要資料科學,而只是剛好被它實現。』看著那位PM仍一臉狐疑後,CEO補充道。

我知道會議結束後,那位PM仍然沒有真的理解他們的回答。

我確定我想舉起手補充一點什麼,但很意外的我語塞了,做過大大小小的專案,我一直以為我很清楚資料科學在做些什麼。

資料科學浪潮

進入資料科學領域的歷程似乎一切都來得太過自然。自然的就像企業間無不戰戰兢兢的爭相仿效並大張旗鼓聲明要投資多少資金在資料科學領域一樣。沒有太多原因,只因為不做,好像會被所謂的“大數據浪潮”吞噬。

試著從頭釐清我的學習歷程,給一個說服自己的說法。資料科學,必須建構在資料可以被輕鬆且大量存取的技術成熟之後。受益於雲端化的普及,當今的企業幾乎都能輕鬆存取資料,而就因為資料夠多夠齊全,我們便能試著從這些資料中用一些科學化的方法產生可以被公司利用的價值,進而將資料轉化為知識。

也許是預測公司下一季的財報,幫助財務部門編列預算。也許是分析生產線機台的工作數據,預測出未來一周內可能故障的機台,提早一步檢修以降低產品良率不佳的風險。甚至是分析客戶資料將不同特徵的客戶分類,並進一步針對不同分類的客戶給予適合的行銷手段等等。當然,我絕對同意上述的例子都不見得需要資料科學也可以完成。資料科學,是一種透過資料為媒介,講求流程性與科學化的方法來輔助、驗證甚至主導這些目標更有效率且更準確的被達成。

『其實,資料科學只是一種讓公司的某些策略不全然只是依靠主觀意識判斷的方法而已,它一樣是一種提出問題、驗證問題進而解決問題的方法,和多數的方法唯一的不同只是它的載體可以是公司中的任何資料罷了。』我仔細的思考後給了自己這樣的答案。

那趟回家的路途,是踏實而滿足的。

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

Create a website or blog at WordPress.com

向上 ↑

%d 位部落客按了讚: