大數據、資料科學、機器學習、資料探勘、統計方法差在哪?

相信很多第一次接觸相關領域的朋友們一定非常好奇這些東西的差別到底在哪裡,但在談這些名詞的差別之前,我想先談一點時事新聞。

唐鳳接任內閣數位政委

唐鳳,十月一日正式接任行政院的數位政務委員,成為歷史上最年輕的政務委員,而她的目標,是希望能透過新興的網際網路、科技創新、數位經濟等等, 督導台灣的新興科技產業與政府數位化能有一番新的作為。她曾積極參與的公民團體g0v致力於落實開放政府與公民參與,進而落實數位民主。而其中一個可行也一直都在實踐的辦法,就是開放政府資料 (Open data)。

2012年,當時g0v在初步階段希望利用開放資料讓政府透明,這是許多人第一次聽到“開放資料”這個名詞。

從政府開放資料談大數據

政府開放資料,其實就是公開透過一定程度的挑選與整合的資料,而這些資料不受著作權等等機制控制,讓全民都能隨時取用,因為上述的條件,這些資料不會涉及個人隱私權的問題,所有涉及個資的資料都會被加以處理或清除直到可以公開。例如2014年,g0v推出全國重度級急救責任醫院急診即時訊息看板(http://er.mohw.g0v.tw/#/dashboard/file/all.json),公開各大醫院急診室的病床統計,卻不會公開隱私的病人資料。而大數據,其實是類似的概念,只是並不限制於政府且不一定公開,大數據也可以從企業、學校、交通等等途徑取得。一般而言,只要收集到的資料量夠大,大到個人電腦無法負載處理的程度,就是最簡單定義大數據的方式。

因此我們也可以說,大數據,其實就是足夠大量的資料集合而成,而所謂“足夠大量”,雖然有簡單的定義方式,但並沒有既定的標準。

有了大數據之後呢?

有了數據其實就像是有了一整個冰箱的充足備料可以提供我們計畫要如何烹調出一桌好菜;有了大數據,代表著我們擁有一整間超市的生鮮、熟食或是乾貨供我們準備一道道美味的料理。而機器學習、資料探勘、統計分析等等,就類似如何將這些料理烹調好並讓客人吃的開心愉快的各種不同方法。而資料科學,就是包含從食材挑選、事前處理、料理烹調、擺盤等等不同技巧的統稱。

有了一點初步概念,讓我們講得稍微細節一些:

機器學習、資料探勘、統計分析的相似處

這裏提到的三個領域其實可以說彼此是孿生兄弟姊妹、唇亡齒寒、缺一不可的!舉例來說,在這三個領域,同樣都有回歸模型、分類方法、類神經網路等等不勝枚舉的主題,且同樣都是以分析資料進而得到需要的結果為目標。當目標不同,會需要不同的觀點和角度來看待這些目標。

也可以說,這些領域分別是台式小吃、港式糕點和中式料理,同樣都有煎炒滷拌烤,樣樣不能少!當然,彼此間也會互相引用、承襲或是結合,最後產生出一道道美味的料理。

機器學習、資料探勘、統計分析的相異處

這些領域最大的差異,筆者認為是想要強調的事情不同。雖然這些方法都會利用相同的方法、工具,但是想要的結果或過程,卻可能不盡相同。

例如機器學習強調的是建置一個完整的體系或演算機制來幫助電腦或系統自我學習,進而達到預測效果不斷提升的過程。資料探勘強調的是找到一個最合適的方法或演算機制,產生出最符合目標的預測以及解讀我們為什麼要運用這些方法。而統計分析,則是強調解釋這些資料或是驗證預期的假設是否屬實,偏向於產生模型以勾勒並形容資料的過程。

同樣以料理為例,雖然台菜、港菜、中菜都有相同煎炒滷拌烤等等的料理方式,但卻會因為文化或是喜好不同而有所變化,端看客人們喜好的口味而調整。

異中求同、同中求變

異中求同、同中求變是我認為資料科學之所以重視跨領域的原因,看似相同的方法,卻會因為需要的目標不同而有極大的差異,但卻又必須同時精通各個領域以通盤了解目標是否合乎預期?過程是否完整?等等不同的訴求。

就像一個美食家,若只懂台式小吃,是不足以辨別台式小吃和各大菜系的異同甚至從中抽絲剝繭、去蕪存菁進而幫助台菜變得更符合大家的胃口的!

廣告

迴響已關閉。

Create a website or blog at WordPress.com

向上 ↑