資料科學門外漢的學習之旅-領域知識的累積

打從我誤打誤撞的進入資料科學領域後,我便對分析預測的結果要如何被實際應用在企業中產生極大的興趣。這是我第一次感受到領域知識(Domain Knowledge)的重要。因為我認為沒有相關知識,就沒辦法知道分析出的結果要如何被使用。

大錯特錯。

數年後我才知道,原來領域知識無所不在,不只是知道結果要如何被使用這麼簡單而已。

“If you torture the data long enough, it will confess.” —Ronald H. Coase, 1991 Nobel Economics Prize winner

實地觀察,才能真的看透資料

『學長,為什麼過年檔期的線上訂位量總是低得離譜,這不該是正常熱門檔期該有的數字吧?』在這之前,我拿到一手線上訂位服務的餐廳、會員資料。我矇著頭和這堆資料相處了一個月,但卻對於這樣的問題百思不得其解,即使資料的豐富程度在我看來還算多元完整,但我就是沒有辦法從這堆資料中找到可能的原因。

『和我們簽約的餐廳都保有隨時控制線上訂位數量的權利,像餐飲業這樣的傳統產業仍然有很大一部分習慣傳統的方式,多數的餐廳會選擇在過年檔期將線上訂位量減少,將主要的訂位管道留給電話訂位或是保留直接登門的客人。』帶領成長流量團隊的學長說。

事實上,這只是後來我在分析過程中得到透過實地觀察訪談才有辦法理解的其中一個例子。

我一直相信完全依賴資料不是一個好主意,也相信觀察的能力與領域知識確實能帶來很多幫助。也許是因為閉門造車了一個月,自信自己已經把這些資料徹底摸透;也許是因為遲遲無法排除沒來由的超低過年檔期線上訂位量影響我的預測過程,最後得到一個沒有想像中深奧的原因,當下的我是相當震撼的。

我才明白,資料的洞見(Data insight)除了本身的分析能力之外,需要實際觀察與領域知識相結合,才能協助資料科學的分析過程不斷往更深入的層次邁進。而這樣的歷程,是循環且持續的。

追根究底,深化洞見

一段時間後,我做了一份簡報分享當時完成的預測歷程與結果。在進會議室前,還記得我設想過無數個預測結果不盡理想的可能原因,以預防提問時間可預期的砲火。

『直接預測這些餐廳整體線上訂位需求結果並不理想,考量到慶祝重要節日是一個線上訂位的重要原因,因此我將預測序列切為兩個部分,分別為有節慶的時間和沒有節慶的時間。看來沒有節慶的時間預測結果成效不錯,但在有節慶的時間序列上我仍然沒有辦法準確地預測….』

『我發誓我到發表前一分鐘還在想往後的階段我該如何改善節日影響整體需求這個棘手的難題。』我一邊報告簡報內容心裡一邊OS。

『做得不錯。』報告完後,公司的資料科學家和成長流量團隊負責人笑著說。

『謝謝。雖然分成兩個部分預測,但很明顯有節日的部分不甚理想,我會繼續思考可行的辦法。』我承認我說這句話的時候腦中其實非常意外他們的回應。

『不,我喜歡你用簡單的方法解決困難的問題。我見過太多失敗的案例來自於預測的過程無所不用其極組合各式各樣的複雜模型,但成效卻非常有限。』公司的資料科學家說。

會議結束後,我仍然不相信剛剛發生的事是真的。

往後的幾週,我一邊著手繼續預期的進度,一邊思考會議的內容。

『餐飲業者其實很想知道非節日時的需求量,因為熱門節日檔期他們知道自己的座位會爆滿,因此在人員配置、食材準備各方面都有既定的目標。反而是一般週間的日子,業主完全無所適從。』後來,我為了更瞭解產業運作,參加某個也是相關產業的工作坊無意間得知這件事。

『那就對了!餐廳之所以會在重要節日關閉線上訂位就是因為他們不需要!他們早就知道將到來的節日會生意興隆,所以他們對於知道重要節日的線上訂位需求也就相對不那麼重要了。』我終於明白,為什麼當初沒有被挑戰反而被稱讚的原因了。

雖然我之後基於完整性依舊試圖加強有節日時間序列的預測準確性,但對於釐清洞見背後更深層的意義仍感到雀躍。

 

被需要的資料科學

很多時候我們身陷在資料科學盲點中而不自知。可能是好不容易預測出好結果而產生成就感,也可能是深陷其中不知如何解決問題而產生挫折感。但我認為真正該思考的,仍然是真的被“人”需要的資料科學。說到底,資料科學是一門解決問題的學問。而領域知識,不單單只是讓預測結果更準確這麼簡單而已。領域知識,幫助我們創造真正被需要的資料科學。而實地觀察,無論行為研究也好、田野調查也罷,則讓我們知道透過資料科學,我們能解決什麼樣的現實問題。

畢竟,無論來自好結果的成就感與舉步維艱的棘手問題可能都並沒有真的被需要。

 

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

Create a website or blog at WordPress.com

向上 ↑

%d 位部落客按了讚: