文/黃大維|目前在台灣大學就讀統計碩士學位學程。我的研究領域是特徵表達與降維分析、序列決策模型、以及財務時間序列,我喜歡用商業的觀點切入大數據與資料科學!
我曾經在在粉絲專頁「大鼻觀點」針對 ptt 八卦版的一篇問卦文「[問卦] 統計系是文組最強科系嗎」分享一些看法,反映出乎意料的好。一般大眾好像對於「統計」有著不少迷思,像是以前有一次剪頭髮,設計師問我讀什麼科系,我說我讀的是統計,設計師居然回答:「喔,跟會計差不多對嗎?」當下白眼真的要翻到後腦勺了 XD
泛科學一直有在經營的一個區塊叫「科學教育,科學嗎?」,裡面會不時邀請一些相關科系的學生來談他們自己科系的各種大小事,也是給將來要選系的高中生一些了解這個科系的參考。因此我決定也寫一篇文章,來跟大家分享我在統計這個領域打混一陣子的心得。
統計不就是按計算機嗎?你所不知道的統計
首先,我想先談談「統計不是什麼」。許多人聽到「統計」,第一件事情就是想到「按計算機」,就算大學有修統計課程的學生,課程也不外乎是按計算機算算平均數、標準差,頂多算點變異數分析或回歸。事實上,統計的本質並不是計算、也不是數學,統計界的大師 John Tukey 說過:
“Statistics is a science, not a branch of mathematics, but uses mathematical models as an essential tool.”
統計學會讓一般人認為是數學的主要原因,是需要用到大量的數學、程式設計、科學計算等做為解決問題的工具。因此,對於接觸統計不深的人時常會以為統計是數學的一個分支,其實並不是如此。
那麼,統計的本質是什麼呢?我非常喜歡 R Studio 首席資料科學家 Hadley Wickham 的詮釋:
“Statistics is an important tool in the data analysis/science toolbox. Statistics provides a coherent framework for thinking about random variation, and tools to partition data into signal and noise.”
從他的話中我們可以知道,「統計」其實有兩個功能:一是作為在充滿隨機性(randomness)的世界中,思考資料變異(data variation)的架構,二是作為從資料變異區分出真實信號(signal)與隨機雜訊(noise)的工具。 如果用更一般化的講法,就是提供分析資料的思考架構,從具有隨機性的資料中找出重要的、有意義的資訊,並將協助各個領域的人將這些資訊凝鍊成真正的「知識」。
接下來,我想了一些時常會有人問的問題,我想要花點篇幅談一談。
疑問 1:統計系是文組還是理組?
有很多人會想要問:統計系是文組還是理組?我覺得其實很難界定,文組並不是純粹只有閱讀、思考與寫作,像是「統計機器翻譯」(Statistical Machine Translation)就是一個跨領域的議題,需要語言學家、電腦科學家、數學家、統計學家一起來解決。而「財務工程」雖然屬於商學院,但本質與電腦科學、統計學、數學等密切相關,所以統計系大多掛在不同的學院底下,有的學校會掛在商學院下、有的會掛在理學院下、也有的會掛在工學院底下。所以,如果是要用文組/理組來分的話,其實很難直接把統計分在其中一個底下。
不過,如果以必備技能來看的話,統計可能比較像是一般工學院或理學院的學生。首先,統計非常吃重數學,尤其是機率與數學分析(主要是實分析)的基礎要很好,才能夠了解怎麼樣用數學的工具去架構問題。二是統計很吃重程式設計的能力,我們不會負責去做系統架構或是前端介面,但我們非常倚賴運用程式工具去整理、運算並分析資料,因此寫程式是不可避免的。三是我們最好要對某個/某些特定領域有足夠的了解,統計不是一個可以引領一代人命運的學問,而是在方向確定後建立穩固根基並持續發展的工具,因此我們通常的角色支援某個領域的專家將他們的專業往前推進,此時你對於你支援的領域要有一定的認識才能發揮所長,將統計模型運用於這些領域問題中。
疑問 2:統計系畢業之後可以幹嘛?
《哈佛商業評論》將資料科學家評為 21 世紀最性感的職業,因此讀統計的前景相當看好。其實統計系畢業之後的發展方向很多,金融、工程、消費品、製造、行銷等各個領域都很需要量化分析的人。
然而我必須跟大家講兩個個現實。首先,因為台灣強勢產業的因素,統計系畢業的學生往往是去(1)金融業(2)藥廠(3)工業製程 做統計分析師,這些行業給的起薪都不錯,但你如果想做物流、電商、應用程式的話,台灣每年的缺滿有限的,必須有往外走的決心。
此外,如果大學你讀的是統計,你可能會跟數學系畢業生遇到同樣的難題,容易找不到畢業之後的方向。但你有了這些統計工具之後,其實很容易轉往其他領域。因此我會建議如果未來想念統計/你正在念統計系,最好輔系或雙主修一個未來就業時你希望投入的領域。如果你想做產品中數據模型的建置者,輔個資工/資管學學軟體設計是很重要的;如果你想做計量交易員,對於債券、股票、期貨、衍生性商品、總體經濟的了解會很有幫助;如果你想去藥廠做統計分析師,對臨床試驗有一定的認識將會幫助很大。
重點在於,你必須找到你運用這些方法的領域,並對這些領域有一定的了解,千萬不要有「我進去再學」就好的心態,因為對於原本就在該領域深耕的人來說,「統計方法」也是可以進去在學的。
疑問 3:統計要在台灣念還是在國外念?
這個問題是個假議題,台灣也有很好的統計學家與教育,如果想補 programming 的技能的話也可以去資工那邊修課,其實要不要出國的問題是取決於「你想要獲得什麼」,以及很現實的「出國讀哪一所學校」。其實要讀統計我覺得重點是在於——你把自己當成一個統計系學生還是統計學家。
我在台灣幾所很好的學校上過統計系所的課,大部分都是在教怎麼使用統計軟體或是推導統計理論,在碩班聽到老師上課說「你們碰實際的資料就會知道很有趣」時,我第一個反應就是:實際資料難道是要讀到碩班才開始碰的嗎?另外,很多時候我們會太過著重於要用哪個 model 去解,但其實重點是「你要解決什麼問題?」將領域的問題重新定義成資料分析問題是非常重要也非常有價值的能力,但說真的這很難在課堂上學到。
我不覺得上面的問題是出在教授,或是在台灣還是在國外,其實根本問題是在學統計時,我們有沒有不斷的去探索不同的領域,不停思考這些領域的問題我們怎麼樣轉成資料分析的問題,怎麼樣去設計實驗或蒐集資料,運用哪些模型才能夠解決問題,最後怎麼樣視覺化分析得到的 insight,並用一般人可以理解的語言說給不懂統計理論的人。這串過程必須反覆的練習,才能夠讓自己資料分析的功力不斷進步。
小結:如果想當資料科學家,統計是個好選擇!
雖然資料科學的夯度最近小輸人工智慧,但不要忘了《紐約時報》曾經如此評論「資料科學」(Data Science):
“This hot new field promises to revolutionize industries from business to government, health care to academia.”
可見這個領域絕對是前景大好。那麼如果想做個資料科學家,是不是一定要讀統計呢?我個人不負責任的認為,如果你想做的資料科學家是分析事情的關連與因果,找出問題的本質,以及透過數據做出更好的決策,我相信統計是一個不錯的選擇。當然,如果你想要做機器學習跟預測科學,統計也有不少人在做,但 computer science 可能是另外一個很棒的選擇,如果能夠跨統計與 CS 兩個領域的話更好。
資料科學家需要領域知識、程式設計、數學與統計三大能力,常有人會問我說「當資料科學家的數學統計和程式能力一定要很好嗎?」我給自己的答案是:這兩項能力越強,能做的事情越多,老實講如果這兩個領域的能力都不好的話,那怎麼能說是個資料科學家呢?所以說,要走資料科學的路,你可以從三大能力中挑一項能力專精,但另外兩樣也不可以太差,才能夠走的長久!
本文同步刊登於作者部落格「大鼻觀點」,喜歡他的文章也可以追蹤同名臉書粉絲專頁。