0

1
0

文字

分享

0
1
0

「統計不就是按按計算機嗎?」讀統計系到底能做什麼?

活躍星系核_96
・2017/01/21 ・3510字 ・閱讀時間約 7 分鐘 ・SR值 493 ・六年級

文/黃大維|目前在台灣大學就讀統計碩士學位學程。我的研究領域是特徵表達與降維分析、序列決策模型、以及財務時間序列,我喜歡用商業的觀點切入大數據與資料科學!

統計系到底在學什麼?圖/pixabay, CC0
統計系到底在學什麼?圖/pixabay, CC0

我曾經在在粉絲專頁「大鼻觀點」針對 ptt 八卦版的一篇問卦文「[問卦] 統計系是文組最強科系嗎」分享一些看法,反映出乎意料的好。一般大眾好像對於「統計」有著不少迷思,像是以前有一次剪頭髮,設計師問我讀什麼科系,我說我讀的是統計,設計師居然回答:「喔,跟會計差不多對嗎?」當下白眼真的要翻到後腦勺了 XD

泛科學一直有在經營的一個區塊叫「科學教育,科學嗎?」,裡面會不時邀請一些相關科系的學生來談他們自己科系的各種大小事,也是給將來要選系的高中生一些了解這個科系的參考。因此我決定也寫一篇文章,來跟大家分享我在統計這個領域打混一陣子的心得。

統計不就是按計算機嗎?你所不知道的統計

357px-casio-fx115es-5564
許多人聽到「統計」,第一件事情就是想到「按計算機」。事實上,統計的本質並不是計算、也不是數學。圖/By Loadmaster David R. Tribble, 創用CC 姓名標示-相同方式分享 3.0, wikimedia commons

首先,我想先談談「統計不是什麼」。許多人聽到「統計」,第一件事情就是想到「按計算機」,就算大學有修統計課程的學生,課程也不外乎是按計算機算算平均數、標準差,頂多算點變異數分析或回歸。事實上,統計的本質並不是計算、也不是數學,統計界的大師 John Tukey 說過:

“Statistics is a science, not a branch of mathematics, but uses mathematical models as an essential tool.”

統計學會讓一般人認為是數學的主要原因,是需要用到大量的數學、程式設計、科學計算等做為解決問題的工具。因此,對於接觸統計不深的人時常會以為統計是數學的一個分支,其實並不是如此。

那麼,統計的本質是什麼呢?我非常喜歡 R Studio 首席資料科學家 Hadley Wickham 的詮釋:

“Statistics is an important tool in the data analysis/science toolbox. Statistics provides a coherent framework for thinking about random variation, and tools to partition data into signal and noise.”

從他的話中我們可以知道,「統計」其實有兩個功能:一是作為在充滿隨機性(randomness)的世界中,思考資料變異(data variation)的架構,二是作為從資料變異區分出真實信號(signal)與隨機雜訊(noise)的工具。 如果用更一般化的講法,就是提供分析資料的思考架構,從具有隨機性的資料中找出重要的、有意義的資訊,並將協助各個領域的人將這些資訊凝鍊成真正的「知識」。

84967293_6e4c727e4d_z
「統計」其實有兩個功能:一是作為在充滿隨機性的世界中,思考資料變異的架構,二是作為從資料變異區分出真實信號與隨機雜訊的工具。圖/By duncan c @ flickr, CC BY-NC 2.0

接下來,我想了一些時常會有人問的問題,我想要花點篇幅談一談。

疑問 1:統計系是文組還是理組?

有很多人會想要問:統計系是文組還是理組?我覺得其實很難界定,文組並不是純粹只有閱讀、思考與寫作,像是「統計機器翻譯」(Statistical Machine Translation)就是一個跨領域的議題,需要語言學家、電腦科學家、數學家、統計學家一起來解決。而「財務工程」雖然屬於商學院,但本質與電腦科學、統計學、數學等密切相關,所以統計系大多掛在不同的學院底下,有的學校會掛在商學院下、有的會掛在理學院下、也有的會掛在工學院底下。所以,如果是要用文組/理組來分的話,其實很難直接把統計分在其中一個底下。

不過,如果以必備技能來看的話,統計可能比較像是一般工學院或理學院的學生。首先,統計非常吃重數學,尤其是機率與數學分析(主要是實分析)的基礎要很好,才能夠了解怎麼樣用數學的工具去架構問題。二是統計很吃重程式設計的能力,我們不會負責去做系統架構或是前端介面,但我們非常倚賴運用程式工具去整理、運算並分析資料,因此寫程式是不可避免的。三是我們最好要對某個/某些特定領域有足夠的了解,統計不是一個可以引領一代人命運的學問,而是在方向確定後建立穩固根基並持續發展的工具,因此我們通常的角色支援某個領域的專家將他們的專業往前推進,此時你對於你支援的領域要有一定的認識才能發揮所長,將統計模型運用於這些領域問題中。

疑問 2:統計系畢業之後可以幹嘛?

《哈佛商業評論》將資料科學家評為 21 世紀最性感的職業,因此讀統計的前景相當看好。其實統計系畢業之後的發展方向很多,金融、工程、消費品、製造、行銷等各個領域都很需要量化分析的人。

然而我必須跟大家講兩個個現實。首先,因為台灣強勢產業的因素,統計系畢業的學生往往是去(1)金融業(2)藥廠(3)工業製程 做統計分析師,這些行業給的起薪都不錯,但你如果想做物流、電商、應用程式的話,台灣每年的缺滿有限的,必須有往外走的決心。

此外,如果大學你讀的是統計,你可能會跟數學系畢業生遇到同樣的難題,容易找不到畢業之後的方向。但你有了這些統計工具之後,其實很容易轉往其他領域。因此我會建議如果未來想念統計/你正在念統計系,最好輔系或雙主修一個未來就業時你希望投入的領域。如果你想做產品中數據模型的建置者,輔個資工/資管學學軟體設計是很重要的;如果你想做計量交易員,對於債券、股票、期貨、衍生性商品、總體經濟的了解會很有幫助;如果你想去藥廠做統計分析師,對臨床試驗有一定的認識將會幫助很大。

重點在於,你必須找到你運用這些方法的領域,並對這些領域有一定的了解,千萬不要有「我進去再學」就好的心態,因為對於原本就在該領域深耕的人來說,「統計方法」也是可以進去在學的。

疑問 3:統計要在台灣念還是在國外念?

這個問題是個假議題,台灣也有很好的統計學家與教育,如果想補 programming 的技能的話也可以去資工那邊修課,其實要不要出國的問題是取決於「你想要獲得什麼」,以及很現實的「出國讀哪一所學校」。其實要讀統計我覺得重點是在於——你把自己當成一個統計系學生還是統計學家。

我在台灣幾所很好的學校上過統計系所的課,大部分都是在教怎麼使用統計軟體或是推導統計理論,在碩班聽到老師上課說「你們碰實際的資料就會知道很有趣」時,我第一個反應就是:實際資料難道是要讀到碩班才開始碰的嗎?另外,很多時候我們會太過著重於要用哪個 model 去解,但其實重點是「你要解決什麼問題?」將領域的問題重新定義成資料分析問題是非常重要也非常有價值的能力,但說真的這很難在課堂上學到。

我不覺得上面的問題是出在教授,或是在台灣還是在國外,其實根本問題是在學統計時,我們有沒有不斷的去探索不同的領域,不停思考這些領域的問題我們怎麼樣轉成資料分析的問題,怎麼樣去設計實驗或蒐集資料,運用哪些模型才能夠解決問題,最後怎麼樣視覺化分析得到的 insight,並用一般人可以理解的語言說給不懂統計理論的人。這串過程必須反覆的練習,才能夠讓自己資料分析的功力不斷進步。

小結:如果想當資料科學家,統計是個好選擇!

雖然資料科學的夯度最近小輸人工智慧,但不要忘了《紐約時報》曾經如此評論「資料科學」(Data Science):

“This hot new field promises to revolutionize industries from business to government, health care to academia.”

可見這個領域絕對是前景大好。那麼如果想做個資料科學家,是不是一定要讀統計呢?我個人不負責任的認為,如果你想做的資料科學家是分析事情的關連與因果,找出問題的本質,以及透過數據做出更好的決策,我相信統計是一個不錯的選擇。當然,如果你想要做機器學習跟預測科學,統計也有不少人在做,但 computer science 可能是另外一個很棒的選擇,如果能夠跨統計與 CS 兩個領域的話更好。

14276846526_6fc181cd56_z
如果想當資料科學家,統計是個好選擇!圖/By NASA Goddard Space Flight Center @ flickr, CC BY 2.0

資料科學家需要領域知識、程式設計、數學與統計三大能力,常有人會問我說「當資料科學家的數學統計和程式能力一定要很好嗎?」我給自己的答案是:這兩項能力越強,能做的事情越多,老實講如果這兩個領域的能力都不好的話,那怎麼能說是個資料科學家呢?所以說,要走資料科學的路,你可以從三大能力中挑一項能力專精,但另外兩樣也不可以太差,才能夠走的長久!

本文同步刊登於作者部落格「大鼻觀點」,喜歡他的文章也可以追蹤同名臉書粉絲專頁

文章難易度
活躍星系核_96
752 篇文章 ・ 100 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

1
0

文字

分享

0
1
0
用這劑補好新冠預防保護力!免疫功能低下病患防疫新解方—長效型單株抗體適用於「免疫低下族群預防」及「高風險族群輕症治療」
鳥苷三磷酸 (PanSci Promo)_96
・2023/01/19 ・2882字 ・閱讀時間約 6 分鐘

國民法官生存指南:用足夠的智識面對法庭裡的一切。

本文由 台灣感染症醫學會 合作,泛科學企劃執行。

  • 審稿醫生/ 台灣感染症醫學會理事長 王復德

「好想飛出國~」這句話在長達近 3 年的「鎖國」後終於實現,然而隨著各國陸續解封、確診消息頻傳,讓民眾再度興起可能染疫的恐慌,特別是一群本身自體免疫力就比正常人差的病友。

全球約有 2% 的免疫功能低下病友,包括血癌、接受化放療、器官移植、接受免疫抑制劑治療、HIV 及先天性免疫不全的患者…等,由於自身免疫問題,即便施打新冠疫苗,所產生的抗體和保護力仍比一般人低。即使施打疫苗,這群病人一旦確診,因免疫力低難清除病毒,重症與死亡風險較高,加護病房 (ICU) 使用率是 1.5 倍,死亡率則是 2 倍。

進一步來看,部分免疫低下病患因服用免疫抑制劑,使得免疫功能與疫苗保護力下降,這些藥物包括高劑量類固醇、特定免疫抑制之生物製劑,或器官移植後預防免疫排斥的藥物。國外臨床研究顯示,部分病友打完疫苗後的抗體生成情況遠低於常人,以器官移植病患來說,僅有31%能產生抗體反應。

疫苗保護力較一般人低,靠「被動免疫」補充抗新冠保護力

為什麼免疫低下族群打疫苗無法產生足夠的抗體?主因為疫苗抗體產生的機轉,是仰賴身體正常免疫功能、自行激化主動產生抗體,這即為「主動免疫」,一般民眾接種新冠疫苗即屬於此。相比之下,免疫低下病患因自身免疫功能不足,難以經由疫苗主動激化免疫功能來保護自身,因此可採「被動免疫」方式,藉由外界輔助直接投以免疫低下病患抗體,給予保護力。

外力介入能達到「被動免疫」的有長效型單株抗體,可改善免疫低下病患因原有治療而無法接種疫苗,或接種疫苗後保護力較差的困境,有效降低確診後的重症風險,保護力可持續長達 6 個月。另須注意,單株抗體不可取代疫苗接種,完成單株抗體注射後仍需維持其他防疫措施。

長效型單株抗體緊急授權予免疫低下患者使用 有望降低感染與重症風險

2022 年美、法、英、澳及歐盟等多國緊急使用授權用於 COVID-19 免疫低下族群暴露前預防,台灣也在去年 9 月通過緊急授權,免疫低下患者專用的單株抗體,在接種疫苗以外多一層保護,能降低感染、重症與死亡風險。

從臨床數據來看,長效型單株抗體對免疫功能嚴重不足的族群,接種後六個月內可降低 83% 感染風險,效力與安全性已通過臨床試驗證實,證據也顯示該藥品針對 Omicron、BA.4、BA.5 等變異株具療效。

六大類人可公費施打 醫界呼籲民眾積極防禦

台灣提供對 COVID-19 疫苗接種反應不佳之免疫功能低下者以降低其染疫風險,根據 2022 年 11 月疾管署公布的最新領用方案,符合施打的條件包含:

一、成人或 ≥ 12 歲且體重 ≥ 40 公斤,且;
二、六個月內無感染 SARS-CoV-2,且;
三、一周內與 SARS-CoV-2 感染者無已知的接觸史,且;
四、且符合下列條件任一者:

(一)曾在一年內接受實體器官或血液幹細胞移植
(二)接受實體器官或血液幹細胞移植後任何時間有急性排斥現象
(三)曾在一年內接受 CAR-T 治療或 B 細胞清除治療 (B cell depletion therapy)
(四)具有效重大傷病卡之嚴重先天性免疫不全病患
(五)具有效重大傷病卡之血液腫瘤病患(淋巴肉瘤、何杰金氏、淋巴及組織其他惡性瘤、白血病)
(六)感染HIV且最近一次 CD4 < 200 cells/mm3 者 。

符合上述條件之病友,可主動諮詢醫師。多數病友施打後沒有特別的不適感,少數病友會有些微噁心或疲倦感,為即時處理發生率極低的過敏性休克或輸注反應,需於輸注時持續監測並於輸注後於醫療單位觀察至少 1 小時。

目前藥品存放醫療院所部分如下,完整名單請見公費COVID-19複合式單株抗體領用方案

  • 北部

台大醫院(含台大癌症醫院)、台北榮總、三軍總醫院、振興醫院、馬偕醫院、萬芳醫院、雙和醫院、和信治癌醫院、亞東醫院、台北慈濟醫院、耕莘醫院、陽明交通大學附設醫院、林口長庚醫院、新竹馬偕醫院

  • 中部

         大千醫院、中國醫藥大學附設醫院、台中榮總、彰化基督教醫療財團法人彰化基督教醫院

  • 南部/東部

台大雲林醫院、成功大學附設醫院、奇美醫院、高雄長庚醫院、高雄榮總、義大醫院、高雄醫學大學附設醫院、花蓮慈濟

除了預防 也可用於治療確診者

長效型單株抗體不但可以增加免疫低下者的保護力,還可以用來治療「具重症風險因子且不需用氧」的輕症病患。根據臨床數據顯示,只要在出現症狀後的 5 天內投藥,可有效降低近七成 (67%) 的住院或死亡風險;如果是3天內投藥,則可大幅減少到近九成 (88%) 的住院或死亡風險,所以把握黃金時間盡早治療是關鍵。

  • 新冠治療藥物比較表:
藥名Evusheld
長效型單株抗體
Molnupiravir
莫納皮拉韋
Paxlovid
帕克斯洛維德
Remdesivir
瑞德西韋
作用原理結合至病毒的棘蛋白受體結合區域,抑制病毒進入人體細胞干擾病毒的基因序列,導致複製錯亂突變蛋白酵素抑制劑,阻斷病毒繁殖抑制病毒複製所需之酵素的活性,從而抑制病毒增生
治療方式單次肌肉注射(施打後留觀1小時)口服5天口服5天靜脈注射3天
適用對象發病5天內、具有重症風險因子、未使用氧氣之成人與兒童(12歲以上且體重至少40公斤)的輕症病患。發病5天內、具有重症風險因子、未使用氧氣之成人與兒童(12歲以上且體重至少40公斤)的輕症病患。發病5天內、具有重症風險因子、未使用氧氣之成人(18歲以上)的輕症病患。發病7天內、具有重症風險因子、未使用氧氣之成人與孩童(年齡大於28天且體重3公斤以上)的輕症病患。
*Remdesivir用於重症之適用條件和使用天數有所不同
注意事項病毒變異株藥物交互作用孕婦哺乳禁用輸注反應

免疫低下病友需有更多重的防疫保護,除了戴口罩、保持社交距離、勤洗手、減少到公共場所等非藥物性防護措施外,按時接種COVID-19疫苗,仍是最具效益之傳染病預防介入措施。若有符合施打長效型單株抗體資格的病患,應主動諮詢醫師,經醫師評估用藥效益與施打必要性。

文章難易度

0

2
2

文字

分享

0
2
2
什麼是抽樣誤差?老師和媒體都沒教你的那些事
tml_96
・2020/11/19 ・3758字 ・閱讀時間約 7 分鐘 ・SR值 550 ・八年級

國民法官生存指南:用足夠的智識面對法庭裡的一切。

本文原文刊登時間為2020年11月6日,原文標題為《什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?

美國總統大選進入最後一周時,許多媒體紛紛在搖擺州進行民調,其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張,許多州出現極小的得票差距。圖/Pixabay

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示:在 824 位可能投票的選民中,川普領先拜登 50−48個百分點,因為抽樣誤差為 ± 4.0 %,報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示:在1,451位可能投票的選民中,拜登領先川普47−44個百分點,其抽樣誤差為 ± 3.2%

兩個民調相隔只 2−3 天,拜登從落後 2 個百分點轉為領先 3 個百分點,這領先程度有統計顯著性嗎?(佛州開票 96% 的結果是川普 51.2% 拜登 47.8%)

弗羅里達州的民調與開票96%後的實際結果。圖/作者提供。

這裡有兩個相關問題要先解決:

  • 第一、樣本數 N=1,451 為何抽樣誤差是 ±3.2%?這個數字對嗎?一般民調若樣本數在N=1,000左右,抽樣誤差不是大約 ±3% 嗎?為何紐時的樣本數高達 N=1,451,抽樣誤差不是更低?反而更高?
  • 第二、如果抽樣誤差低於±3%,那拜登在佛州領先川普超過抽樣誤差,便可以說這差距有統計顯著性嗎

 什麼是「抽樣誤差」?

首先解釋第一個問題:所謂「抽樣誤差」(margin of error)的是當母體比例為π時,重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說:當母體比例為π時,重複抽取許多樣本數為 N 的樣本會得到許多不同的P值,這些 P 值的分佈稱作 P 的「抽樣分佈」(sampling distribution)。

根據中央極限定裡,P 的抽樣分佈是以π為中心的常態分佈,其變異量是 π(1-π)/N。我們若以π為中心取一個區間(π-m, π+m)讓 P 落在區間內的機率為 95%,則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差,其公式為:

雖然這個公式可以適用於任何的π值,在沒有特別資訊的情況下,一般以 π=0.5 來計算 MOE。

舉例來說,聯合報在 2019 年 12 月 12-14 日實施了一個民調,它在報導中特別就調查方法報告如下:

「調查於十二月十二日至十四日晚間進行,成功訪問一千一百一十位合格選民,另二百九十一人拒訪;在百分之九十五信心水準下,抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣,藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點,調查結果依廿歲以上性別、年齡及縣市人口結構加權,調查經費來自聯合報社。」

同樣的,蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到:

「本次民調由《蘋果新聞網》委託台灣指標公司執行,經費來源是《蘋果新聞網》,調查對象為設籍在全國22縣市且年滿20歲民眾,調查期間為12月27日至29日,採用市內電話抽樣調查,並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法,再以電話號碼後2碼隨機抽出,成功訪問1,069位受訪者,在95%信心水準下,抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE=2.94%、3.00%,正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多,為何它所報告的抽樣誤差反而較大?我們若把 N=1,451 套入上式,不是應該得到 MOE=2.57%嗎?為何紐時說是 3.2%?

其實不只紐時,華郵/ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣?華郵/ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」(including design effects)之後計算所得;什麼是「設計效應」?

什麼是「設計效應」?

這個問題牽涉到「有效樣本數」(effective sample size)的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」(valid N),而是在調整受訪者代表性之後的「加權樣本數」(weighted sample size)。

下面我會說明:紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差,也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」(simple random sampling)得到的結果,母體中每人被抽到的機率並不一致。因此,樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致,樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數,其數值代表樣本中每個受訪者所代表族群的權重。

例如「台灣選舉與民主化研究」2020年民調資料合併檔(TEDS2020)中便有這樣的一個權值變數w,它的值介於0.295至3.474之間,其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係,原來的樣本數已不能有效反映加權後的樣本數,因此有所謂「有效樣本數」(effective sample size)的概念,有效樣本數的計算方式因加權方式而異,抽樣理論大師 Leslie Kish 建議了一個粗略的算法:

除非根本沒有加權,否則這個公式一定小於N,也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例,ESS=2,359,也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差,則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異,可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果,我們定義「設計效應」(design effect)為:

由於抽樣誤差之平方與樣本數成反比,上式也可導出:

再以TEDS2020為例,DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差,我們可以算出佛州民調的設計效應:

這設計效應比TEDS2020要高出很多!這可能是因為TEDS採用分層隨機抽樣面訪,其設計比起新聞媒體採用電話+手機有所不同。有了設計效應的估計值,我們就可以算紐時佛州民調的有效樣本數了:它的 ESS=936,只有原樣本數的三分之二。相對而言,華郵/ABC的佛州民調的設計效應是 DE=1.37,其有效樣本數是ESS=600.

如果我們以 N=936 算基於簡單隨機抽樣設計的抽樣誤差,它會恰恰是紐時所報告的 3.2%。以 N=600 來算的話,抽樣誤差就剛好是ABC/華郵所報告的 4.0%。

值得注意的是: 如果紐時效仿聯合報用原樣本數 N=1,451 計算抽樣誤差,這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差,因而具有統計上的顯著性。紐約時報的分析家沒有這樣做,這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題:一般媒體通常只報告單一比例的抽樣誤差,而對比式民調著重的不是單一比例,而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣,它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差,我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀,並提出一個計算正確抽樣誤差的公式。

這篇文章請見:對比式選舉民調的錯誤解讀 

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

計算的結果是抽樣誤差高達 6.03 %:拜登領先的差距其實還在誤差範圍之內。

注意:如果以原樣本數 N=1,451 代入速算表,則抽樣誤差為 4.91%,比 6.03% 要小得多。

關於民調報導,還有很多進步空間

台灣的媒體在報導對比式民調的結果時,似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差,而未考慮設計效應。這個抽樣誤差本來就太小,再加上對比所產生的問題,可以說是雙重的誤導!

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外,有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章:5 Key Things to Know about the Margin of Error in Election Polls

tml_96
35 篇文章 ・ 228 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

7
0

文字

分享

0
7
0
統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》
臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供

圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供

圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供

圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

臉譜出版_96
67 篇文章 ・ 245 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。