0

1
1

文字

分享

0
1
1

P 值已死,嗎?莫須有罪名的最大受害者!

活躍星系核_96
・2017/01/12 ・4364字 ・閱讀時間約 9 分鐘 ・SR值 550 ・八年級

-----廣告,請繼續往下閱讀-----

文/黃大維|目前在台灣大學就讀統計碩士學位學程。我的研究領域是特徵表達與降維分析、序列決策模型、以及財務時間序列,我喜歡用商業的觀點切入大數據與資料科學!

最近在泛科學上看到一篇非常精彩的文章〈p 值的陷阱〉,是在談論「值」在研究上的問題,其實看完之後滿有感觸的,儘管 值是個在初等統計學就會談到的統計量,但大部分的學生(甚至某些研究人員)學完後只記得:值 < 0.05 的話就拒絕虛無假設。因為這個條件非常簡單好記,而且大多數的統計軟體都會報告 值,所以不少人會直接看 值就做出結論。

P 值的陷阱系列

p 值的陷阱(上):p 值是什麼?又不是什麼

p 值的陷阱(下):「摘櫻桃」問題

圖/pixabay, CC0
圖/pixabay, CC0

其實 值本人是相當無辜的,美國統計協會(American Statistical Association, ASA)在 2016 年的聲明中提到一段有趣的對話:

Q: Why do so many colleges and grad schools teach p = 0.05?
A: Because that’s still what the scientific community and journal editors use.
Q: Why do so many people still use p = 0.05?
A: Because that’s what they were taught in college or grad school.

坦白說,值的誤用本質上可說是因為「教學」本身出了問題。我一直到大四為止也都覺得 值 <0.05,拒絕虛無假設,世界圓滿,現在看到許多學弟妹作分析,也會直接寫「值 <0.05,拒絕虛無假設,資料證明了 A 因子是 B 結果的重要原因」,其實這樣的推論是非常危險的。所以,我決定了寫一篇介紹 值的文章。

-----廣告,請繼續往下閱讀-----

假設檢定:Neyman-Pearson Paradigm

在探討 值的意義前,我們必須先了解假設檢定的基本精神。現在有一個統計模型(這個模型就是真理),裡面有個參數 θ,傳統統計的目標是希望去「推論」參數 θ 的性質,比如說:θ 的值為多少?(估計)現在有個假設/宣稱是 θ 落在某個區域 Θθ Θ,根據蒐集的資料這個假設是不是正確的?(檢定)

所謂的假設檢定(Hypothesis Test)便是如上所說:有個假設(hypothesis)是「參數 θ 落在區域 Θθ Θ」,希望根據蒐集到的資料,驗證上述假設的真實性。我們稱「參數 θ 落在區域 Θθ Θ」這個假設被稱為虛無假設(null hypothesis,H0,也就是無中生有的假設。

同時,也有對立假設(alternative hypothesis,H1),是與虛無假設完全相反的假設,也就是「參數 θ 並不落在區域 Θθ Θ」。因此,真實情況下只有兩種可能,「H為真」或是「H0 為假」。同時,我們觀察資料後也只能得到兩種結果:「資料有充分證據證明 H0 為假」以及「資料沒有充分證據證明 H為假」。

在假設檢定中有三個重要的要素:統計模型(真理)、虛無假設、資料。舉個例子吧!有一個好事者說:「大鼻長得帥。」大家當然會想要問:你憑什麼這麼說?有何證據?因此,好事者就說:好吧!那我就來隨機問問台北市的路人大鼻帥不帥,把第 i 個人的回答紀錄成 Xi,假設全台北市的人中覺得大鼻帥的人的比率為 θ,如果有超過 50% 的人說大鼻帥(也就是 θ> 0.5),如此一來我們就可以進行假設檢定了:

-----廣告,請繼續往下閱讀-----
  • 統計模型:Xi~Bernoulli(θ),其中每個人的回答都是獨立的。
  • 資料:隨機詢問 100 個台北市的路人,蒐集到了樣本 ( X1, …, X100 )。 。
  • 假設:H0: θ ≤ 0.5 (虛無假設為大鼻不帥,好事者想利用資料去證明虛無假設不是真的)。

在假設檢定中,我們可以考量兩個維度,其中一個維度是「真實情況下虛無假設是否為真」,另一個維度則是「根據蒐集來的資料,是否拒絕虛無假設」,由此我們可以得出在進行假設檢定時會有以下四種情況:

%e5%9c%96%e7%89%87-4

由於每一次抽出的樣本都會不同,比如說:好事者每天遇到的 100 個路人應該都不一樣,我們沒辦法保證每一次抽出的樣本都能反映出真實情況,因此在進行假設檢定時可能會犯兩種錯誤:

  1. 第一型錯誤(Type I Error):虛無假設為真,樣本卻顯示我們應該拒絕虛無假設。
  2. 第二型錯誤(Type II Error):虛無假設為偽,樣本卻顯示我們應該接受虛無假設。

理想上,我們希望能夠讓第一型錯誤與第二型錯誤的機率越低越好,最好都是 0,但假設檢定的天性,使得這件事無法發生。如果我們希望第一型錯誤發生的機率比較小(上圖紅色區域的面積),代表我們應當將「拒絕虛無假設」的標準訂得更嚴格一點(拒絕域比較窄),才不會一不小心就拒絕了虛無假設。然而,這麼一來就有可能在虛無假設為假的情況下,仍然不拒絕虛無假設,也就是第二型錯誤發生的機率(上圖藍色區域的面積)變高了!反之,如果我們希望第二型錯誤發生的機率比較小(下圖藍色區域的面積),代表我們應當將「拒絕虛無假設」的標準訂得寬鬆一點(拒絕域比較寬),但這樣一來第一型錯誤的機率(下圖紅色區域的面積)就會上升。

%e5%9c%96%e7%89%871-1

在第一型錯誤與第二型錯誤的機率存在抵讓(trade-off)關係時,統計學家決定:不如我們先限制其中一項錯誤的機率,再去看看要如何找出拒絕的標準,使得另一項錯誤發生的機率越低越好。因此,在進行假設檢定時,我們的首先會確保第一型錯誤的機率不超過一個很小的數值 α,一般習慣將 α 訂為 10%、5%、或是 1%(只是習慣),確保第一型錯誤發生的機率很低。接著,我們找出一個拒絕的標準,使得第二型錯誤發生的機率越小越好。通常,我們將「拒絕虛無假設的標準」寫成一個區域的型式,稱為拒絕域 RR(rejection region),當我們蒐集到的樣本落於拒絕域 RR 時,我們便拒絕虛無假設。

-----廣告,請繼續往下閱讀-----

因此,當第一型錯誤的機率 P( X1, …, X100 ) ∈ RRH0 is true≤  α α 控制住後,我們就可以依照某些方法,計算出實際得拒絕域 RR。一旦拒絕域決定了,我們便可以計算出第二型錯誤的機率 β = P( X1, …, X100 ) ∉ RRH0 is false)。此時,我們將一個假設檢定的檢定力(power)定義為 1- β。統計學家期待能夠在控制住第一型錯誤發生機率的情況下,得到一個拒絕域 RR*,使得第二型錯誤發生的機率最小,也就是使得檢定力最強。這樣利用 α 控制住第一型錯誤的方法,就是所謂的 Neyman-Pearson Paradigm。而針對給定的虛無假設,「拒絕域為 RR*」的檢定方法,就稱為「最強檢定力檢定」(most powerful test)。

值:幫助我們決定是否拒絕 H的好工具

前面講了一大串都沒有談到 值是什麼,現在終於要開始了!值最早是在 1900 年在 Pearson卡方檢定的論文中被提出的(皮爾森大大真是了不起 RRRR),其實 值本身有一個更一般化的定義,但在這裡我用的是平常我們看見的 值的定義。

假設現在好事者已經問完 100 個路人,得到了一組樣本。值的定義是,「在虛無假設為真的情況下,如果好事者明天再去蒐集一次樣本,得出的新樣本比目前的樣本更能拒絕虛無假設的機率。」

大鼻阿,你到底在說什麼啊…… 讓我來畫個圖跟大家說明。在下圖中,資料越靠近右邊,代表拒絕虛無假設的傾向越強,而灰色的線是今天好事者抽到的一組樣本,紅色的曲線是在虛無假設為真的情況下,樣本的機率密度(probability density),那麼落在這組樣本右手邊的紅色面積,就是所謂的 值:在做一次調查,得到一組與目前資料相比,「更傾向拒絕虛無假設」樣本的機率值。

-----廣告,請繼續往下閱讀-----

%e5%9c%96%e7%89%871-2

如果我們得到的 值很小,就代表著:目前這組樣本拒絕虛無假設的傾向已經非常強了,幾乎不可能再得到更傾向於拒絕虛無假設的樣本了,因此 值只要夠小,我們就可以拒絕虛無假設。

這時我們很自然會想問,值到底要多小,才算是夠小呢?其實我們可以 值跟 α 來比較,下圖中資料落於拒絕域的機率(藍色區域面積)為 α,我們可以很清楚的看到如果 值(紅色區域面積)比 α 還小,就代表今天蒐集到的樣本落於拒絕域。這就是為什麼我們常說 值 < 0.05 就拒絕虛無假設的原因。

%e5%9c%96%e7%89%872-720x416

小結:定義有說的才能,沒說的就不能

在大家了解 值的定義之後,我們就可以來看看美國統計協會的聲明中提供的 值使用指引:

P-values can indicate how incompatible the data are with a specified statistical model.

大家如果只單看這句話,可能會覺得「p-值可以用指出實際資料與預設統計模型的差異性」,但如果仔細看 ASA 文章裡的敘述,會知道「預設統計模型」是指「虛無假設為真情況下的統計模型」。

-----廣告,請繼續往下閱讀-----

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

聲明中提到,值並不是用來衡量「虛無假設不為真」的機率,若硬要談到「虛無假設不為真」的機率,其實要嘛是 1 (虛無假設不為真),要嘛是 0(虛無假設為真),值用來衡量的是在虛無假設為真的情況下,我再重新蒐集樣本,新的樣本比現有樣本更能拒絕虛無假設證據的機率。

Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.

從來每有一個統計學家會說,只要 值 < 0.05(或可說是達成統計顯著),就天下太平了。 值只是眾多統計指標中的一個衡量方法而已,如果在最初設計統計模型時就設計錯了,而沒有去檢驗最初模型設定的合理性,那麼 值 < 0.05 甚至會為你帶來一場災難!

Proper inference requires full reporting and transparency.

對於統計這麼學問掌握純熟的人,其實說到底很容易去「操弄 值」,說到底這是一個非常糟糕的行為,但就跟小時候做實驗掰數據一樣,很快就能產生好結果。真正要驗證一個理論的正確性時,是需要做許多不同的統計測試的,像是財務界頂尖期刊 Journal of Finance 裡面的統計驗證方法就非常嚴謹,值得效法。

A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.

在迴歸裡面,我們時常會去檢定一個解釋變數的係數是否為 0,有些人會覺得 值越小代表這個變數越重要,錯!其實只要你的樣本數大一點,任何的解釋變數係數是否為 0 的檢定都很容易得到足夠小的 值。有興趣的朋友可以看看這一篇論文,有詳細解釋大樣本時 值的問題。

-----廣告,請繼續往下閱讀-----

我自己習慣是,假設現在有 30 萬個資料,我可能會從裡面隨機抽出 10,000 組樣本數為 100 的小樣本,然後在每個小樣本上去跑回歸,看看 值 < 0.05 的比率有多高,但我不確定這個手法有沒有很嚴謹的統計證明,如果有朋友有方法的話還請告訴我!

By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.

簡單來說,其實 值並不能完全代表真實資料與模型之間的差距,仍然需要進行更縝密的資料分析才能做到品質比較高的統計推論。其實很簡單,如果只是看看值就萬事大吉,還要這麼多統計學家幹嘛 XD

 

希望大家看完這篇文章,有更了解 值的本質。 值本人是相當無辜的,而且也從來沒人說 α = 0.05 是真理,需要依據你的問題與蒐集到的資料,來判斷 α 應該要落在哪個水準比較合理。在抨擊  值本人前,要想想世上無完人,他能夠做的就是他的本分,不要再逼迫已經年齡過百的他了 QAQ

本文轉載自作者部落格「大鼻觀點」,喜歡他的文章也可以追蹤同名臉書粉絲專頁

-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
752 篇文章 ・ 122 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

所有討論 2
天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

2
1

文字

分享

0
2
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

1

4
4

文字

分享

1
4
4
什麼是抽樣誤差?老師和媒體都沒教你的那些事
林澤民_96
・2020/11/19 ・3758字 ・閱讀時間約 7 分鐘 ・SR值 550 ・八年級

-----廣告,請繼續往下閱讀-----

本文原文刊登時間為2020年11月6日,原文標題為《什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?

美國總統大選進入最後一周時,許多媒體紛紛在搖擺州進行民調,其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張,許多州出現極小的得票差距。圖/Pixabay

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示:在 824 位可能投票的選民中,川普領先拜登 50−48個百分點,因為抽樣誤差為 ± 4.0 %,報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示:在1,451位可能投票的選民中,拜登領先川普47−44個百分點,其抽樣誤差為 ± 3.2%

兩個民調相隔只 2−3 天,拜登從落後 2 個百分點轉為領先 3 個百分點,這領先程度有統計顯著性嗎?(佛州開票 96% 的結果是川普 51.2% 拜登 47.8%)

弗羅里達州的民調與開票96%後的實際結果。圖/作者提供。

這裡有兩個相關問題要先解決:

  • 第一、樣本數 N=1,451 為何抽樣誤差是 ±3.2%?這個數字對嗎?一般民調若樣本數在N=1,000左右,抽樣誤差不是大約 ±3% 嗎?為何紐時的樣本數高達 N=1,451,抽樣誤差不是更低?反而更高?
  • 第二、如果抽樣誤差低於±3%,那拜登在佛州領先川普超過抽樣誤差,便可以說這差距有統計顯著性嗎

 什麼是「抽樣誤差」?

首先解釋第一個問題:所謂「抽樣誤差」(margin of error)的是當母體比例為π時,重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說:當母體比例為π時,重複抽取許多樣本數為 N 的樣本會得到許多不同的P值,這些 P 值的分佈稱作 P 的「抽樣分佈」(sampling distribution)。

-----廣告,請繼續往下閱讀-----

根據中央極限定裡,P 的抽樣分佈是以π為中心的常態分佈,其變異量是 π(1-π)/N。我們若以π為中心取一個區間(π-m, π+m)讓 P 落在區間內的機率為 95%,則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差,其公式為:

雖然這個公式可以適用於任何的π值,在沒有特別資訊的情況下,一般以 π=0.5 來計算 MOE。

舉例來說,聯合報在 2019 年 12 月 12-14 日實施了一個民調,它在報導中特別就調查方法報告如下:

「調查於十二月十二日至十四日晚間進行,成功訪問一千一百一十位合格選民,另二百九十一人拒訪;在百分之九十五信心水準下,抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣,藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點,調查結果依廿歲以上性別、年齡及縣市人口結構加權,調查經費來自聯合報社。」

-----廣告,請繼續往下閱讀-----

同樣的,蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到:

「本次民調由《蘋果新聞網》委託台灣指標公司執行,經費來源是《蘋果新聞網》,調查對象為設籍在全國22縣市且年滿20歲民眾,調查期間為12月27日至29日,採用市內電話抽樣調查,並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法,再以電話號碼後2碼隨機抽出,成功訪問1,069位受訪者,在95%信心水準下,抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE=2.94%、3.00%,正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多,為何它所報告的抽樣誤差反而較大?我們若把 N=1,451 套入上式,不是應該得到 MOE=2.57%嗎?為何紐時說是 3.2%?

-----廣告,請繼續往下閱讀-----

其實不只紐時,華郵/ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣?華郵/ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」(including design effects)之後計算所得;什麼是「設計效應」?

什麼是「設計效應」?

這個問題牽涉到「有效樣本數」(effective sample size)的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」(valid N),而是在調整受訪者代表性之後的「加權樣本數」(weighted sample size)。

下面我會說明:紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差,也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」(simple random sampling)得到的結果,母體中每人被抽到的機率並不一致。因此,樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致,樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數,其數值代表樣本中每個受訪者所代表族群的權重。

-----廣告,請繼續往下閱讀-----

例如「台灣選舉與民主化研究」2020年民調資料合併檔(TEDS2020)中便有這樣的一個權值變數w,它的值介於0.295至3.474之間,其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係,原來的樣本數已不能有效反映加權後的樣本數,因此有所謂「有效樣本數」(effective sample size)的概念,有效樣本數的計算方式因加權方式而異,抽樣理論大師 Leslie Kish 建議了一個粗略的算法:

除非根本沒有加權,否則這個公式一定小於N,也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例,ESS=2,359,也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差,則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異,可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果,我們定義「設計效應」(design effect)為:

-----廣告,請繼續往下閱讀-----

由於抽樣誤差之平方與樣本數成反比,上式也可導出:

再以TEDS2020為例,DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差,我們可以算出佛州民調的設計效應:

這設計效應比TEDS2020要高出很多!這可能是因為TEDS採用分層隨機抽樣面訪,其設計比起新聞媒體採用電話+手機有所不同。有了設計效應的估計值,我們就可以算紐時佛州民調的有效樣本數了:它的 ESS=936,只有原樣本數的三分之二。相對而言,華郵/ABC的佛州民調的設計效應是 DE=1.37,其有效樣本數是ESS=600.

-----廣告,請繼續往下閱讀-----

如果我們以 N=936 算基於簡單隨機抽樣設計的抽樣誤差,它會恰恰是紐時所報告的 3.2%。以 N=600 來算的話,抽樣誤差就剛好是ABC/華郵所報告的 4.0%。

值得注意的是: 如果紐時效仿聯合報用原樣本數 N=1,451 計算抽樣誤差,這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差,因而具有統計上的顯著性。紐約時報的分析家沒有這樣做,這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題:一般媒體通常只報告單一比例的抽樣誤差,而對比式民調著重的不是單一比例,而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣,它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差,我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀,並提出一個計算正確抽樣誤差的公式。

這篇文章請見:對比式選舉民調的錯誤解讀 

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

-----廣告,請繼續往下閱讀-----

計算的結果是抽樣誤差高達 6.03 %:拜登領先的差距其實還在誤差範圍之內。

注意:如果以原樣本數 N=1,451 代入速算表,則抽樣誤差為 4.91%,比 6.03% 要小得多。

關於民調報導,還有很多進步空間

台灣的媒體在報導對比式民調的結果時,似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差,而未考慮設計效應。這個抽樣誤差本來就太小,再加上對比所產生的問題,可以說是雙重的誤導!

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外,有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章:5 Key Things to Know about the Margin of Error in Election Polls

所有討論 1
林澤民_96
37 篇文章 ・ 241 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。