0

1
1

文字

分享

0
1
1

P 值已死,嗎?莫須有罪名的最大受害者!

活躍星系核_96
・2017/01/12 ・4364字 ・閱讀時間約 9 分鐘 ・SR值 550 ・八年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

文/黃大維|目前在台灣大學就讀統計碩士學位學程。我的研究領域是特徵表達與降維分析、序列決策模型、以及財務時間序列,我喜歡用商業的觀點切入大數據與資料科學!

最近在泛科學上看到一篇非常精彩的文章〈p 值的陷阱〉,是在談論「值」在研究上的問題,其實看完之後滿有感觸的,儘管 值是個在初等統計學就會談到的統計量,但大部分的學生(甚至某些研究人員)學完後只記得:值 < 0.05 的話就拒絕虛無假設。因為這個條件非常簡單好記,而且大多數的統計軟體都會報告 值,所以不少人會直接看 值就做出結論。

P 值的陷阱系列

p 值的陷阱(上):p 值是什麼?又不是什麼

p 值的陷阱(下):「摘櫻桃」問題

圖/pixabay, CC0
圖/pixabay, CC0

其實 值本人是相當無辜的,美國統計協會(American Statistical Association, ASA)在 2016 年的聲明中提到一段有趣的對話:

Q: Why do so many colleges and grad schools teach p = 0.05?
A: Because that’s still what the scientific community and journal editors use.
Q: Why do so many people still use p = 0.05?
A: Because that’s what they were taught in college or grad school.

坦白說,值的誤用本質上可說是因為「教學」本身出了問題。我一直到大四為止也都覺得 值 <0.05,拒絕虛無假設,世界圓滿,現在看到許多學弟妹作分析,也會直接寫「值 <0.05,拒絕虛無假設,資料證明了 A 因子是 B 結果的重要原因」,其實這樣的推論是非常危險的。所以,我決定了寫一篇介紹 值的文章。

假設檢定:Neyman-Pearson Paradigm

在探討 值的意義前,我們必須先了解假設檢定的基本精神。現在有一個統計模型(這個模型就是真理),裡面有個參數 θ,傳統統計的目標是希望去「推論」參數 θ 的性質,比如說:θ 的值為多少?(估計)現在有個假設/宣稱是 θ 落在某個區域 Θθ Θ,根據蒐集的資料這個假設是不是正確的?(檢定)

所謂的假設檢定(Hypothesis Test)便是如上所說:有個假設(hypothesis)是「參數 θ 落在區域 Θθ Θ」,希望根據蒐集到的資料,驗證上述假設的真實性。我們稱「參數 θ 落在區域 Θθ Θ」這個假設被稱為虛無假設(null hypothesis,H0,也就是無中生有的假設。

同時,也有對立假設(alternative hypothesis,H1),是與虛無假設完全相反的假設,也就是「參數 θ 並不落在區域 Θθ Θ」。因此,真實情況下只有兩種可能,「H為真」或是「H0 為假」。同時,我們觀察資料後也只能得到兩種結果:「資料有充分證據證明 H0 為假」以及「資料沒有充分證據證明 H為假」。

在假設檢定中有三個重要的要素:統計模型(真理)、虛無假設、資料。舉個例子吧!有一個好事者說:「大鼻長得帥。」大家當然會想要問:你憑什麼這麼說?有何證據?因此,好事者就說:好吧!那我就來隨機問問台北市的路人大鼻帥不帥,把第 i 個人的回答紀錄成 Xi,假設全台北市的人中覺得大鼻帥的人的比率為 θ,如果有超過 50% 的人說大鼻帥(也就是 θ> 0.5),如此一來我們就可以進行假設檢定了:

  • 統計模型:Xi~Bernoulli(θ),其中每個人的回答都是獨立的。
  • 資料:隨機詢問 100 個台北市的路人,蒐集到了樣本 ( X1, …, X100 )。 。
  • 假設:H0: θ ≤ 0.5 (虛無假設為大鼻不帥,好事者想利用資料去證明虛無假設不是真的)。

在假設檢定中,我們可以考量兩個維度,其中一個維度是「真實情況下虛無假設是否為真」,另一個維度則是「根據蒐集來的資料,是否拒絕虛無假設」,由此我們可以得出在進行假設檢定時會有以下四種情況:

%e5%9c%96%e7%89%87-4

由於每一次抽出的樣本都會不同,比如說:好事者每天遇到的 100 個路人應該都不一樣,我們沒辦法保證每一次抽出的樣本都能反映出真實情況,因此在進行假設檢定時可能會犯兩種錯誤:

  1. 第一型錯誤(Type I Error):虛無假設為真,樣本卻顯示我們應該拒絕虛無假設。
  2. 第二型錯誤(Type II Error):虛無假設為偽,樣本卻顯示我們應該接受虛無假設。

理想上,我們希望能夠讓第一型錯誤與第二型錯誤的機率越低越好,最好都是 0,但假設檢定的天性,使得這件事無法發生。如果我們希望第一型錯誤發生的機率比較小(上圖紅色區域的面積),代表我們應當將「拒絕虛無假設」的標準訂得更嚴格一點(拒絕域比較窄),才不會一不小心就拒絕了虛無假設。然而,這麼一來就有可能在虛無假設為假的情況下,仍然不拒絕虛無假設,也就是第二型錯誤發生的機率(上圖藍色區域的面積)變高了!反之,如果我們希望第二型錯誤發生的機率比較小(下圖藍色區域的面積),代表我們應當將「拒絕虛無假設」的標準訂得寬鬆一點(拒絕域比較寬),但這樣一來第一型錯誤的機率(下圖紅色區域的面積)就會上升。

%e5%9c%96%e7%89%871-1

在第一型錯誤與第二型錯誤的機率存在抵讓(trade-off)關係時,統計學家決定:不如我們先限制其中一項錯誤的機率,再去看看要如何找出拒絕的標準,使得另一項錯誤發生的機率越低越好。因此,在進行假設檢定時,我們的首先會確保第一型錯誤的機率不超過一個很小的數值 α,一般習慣將 α 訂為 10%、5%、或是 1%(只是習慣),確保第一型錯誤發生的機率很低。接著,我們找出一個拒絕的標準,使得第二型錯誤發生的機率越小越好。通常,我們將「拒絕虛無假設的標準」寫成一個區域的型式,稱為拒絕域 RR(rejection region),當我們蒐集到的樣本落於拒絕域 RR 時,我們便拒絕虛無假設。

因此,當第一型錯誤的機率 P( X1, …, X100 ) ∈ RRH0 is true≤  α α 控制住後,我們就可以依照某些方法,計算出實際得拒絕域 RR。一旦拒絕域決定了,我們便可以計算出第二型錯誤的機率 β = P( X1, …, X100 ) ∉ RRH0 is false)。此時,我們將一個假設檢定的檢定力(power)定義為 1- β。統計學家期待能夠在控制住第一型錯誤發生機率的情況下,得到一個拒絕域 RR*,使得第二型錯誤發生的機率最小,也就是使得檢定力最強。這樣利用 α 控制住第一型錯誤的方法,就是所謂的 Neyman-Pearson Paradigm。而針對給定的虛無假設,「拒絕域為 RR*」的檢定方法,就稱為「最強檢定力檢定」(most powerful test)。

值:幫助我們決定是否拒絕 H的好工具

前面講了一大串都沒有談到 值是什麼,現在終於要開始了!值最早是在 1900 年在 Pearson卡方檢定的論文中被提出的(皮爾森大大真是了不起 RRRR),其實 值本身有一個更一般化的定義,但在這裡我用的是平常我們看見的 值的定義。

假設現在好事者已經問完 100 個路人,得到了一組樣本。值的定義是,「在虛無假設為真的情況下,如果好事者明天再去蒐集一次樣本,得出的新樣本比目前的樣本更能拒絕虛無假設的機率。」

大鼻阿,你到底在說什麼啊…… 讓我來畫個圖跟大家說明。在下圖中,資料越靠近右邊,代表拒絕虛無假設的傾向越強,而灰色的線是今天好事者抽到的一組樣本,紅色的曲線是在虛無假設為真的情況下,樣本的機率密度(probability density),那麼落在這組樣本右手邊的紅色面積,就是所謂的 值:在做一次調查,得到一組與目前資料相比,「更傾向拒絕虛無假設」樣本的機率值。

%e5%9c%96%e7%89%871-2

如果我們得到的 值很小,就代表著:目前這組樣本拒絕虛無假設的傾向已經非常強了,幾乎不可能再得到更傾向於拒絕虛無假設的樣本了,因此 值只要夠小,我們就可以拒絕虛無假設。

這時我們很自然會想問,值到底要多小,才算是夠小呢?其實我們可以 值跟 α 來比較,下圖中資料落於拒絕域的機率(藍色區域面積)為 α,我們可以很清楚的看到如果 值(紅色區域面積)比 α 還小,就代表今天蒐集到的樣本落於拒絕域。這就是為什麼我們常說 值 < 0.05 就拒絕虛無假設的原因。

%e5%9c%96%e7%89%872-720x416

小結:定義有說的才能,沒說的就不能

在大家了解 值的定義之後,我們就可以來看看美國統計協會的聲明中提供的 值使用指引:

P-values can indicate how incompatible the data are with a specified statistical model.

大家如果只單看這句話,可能會覺得「p-值可以用指出實際資料與預設統計模型的差異性」,但如果仔細看 ASA 文章裡的敘述,會知道「預設統計模型」是指「虛無假設為真情況下的統計模型」。

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

聲明中提到,值並不是用來衡量「虛無假設不為真」的機率,若硬要談到「虛無假設不為真」的機率,其實要嘛是 1 (虛無假設不為真),要嘛是 0(虛無假設為真),值用來衡量的是在虛無假設為真的情況下,我再重新蒐集樣本,新的樣本比現有樣本更能拒絕虛無假設證據的機率。

Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.

從來每有一個統計學家會說,只要 值 < 0.05(或可說是達成統計顯著),就天下太平了。 值只是眾多統計指標中的一個衡量方法而已,如果在最初設計統計模型時就設計錯了,而沒有去檢驗最初模型設定的合理性,那麼 值 < 0.05 甚至會為你帶來一場災難!

Proper inference requires full reporting and transparency.

對於統計這麼學問掌握純熟的人,其實說到底很容易去「操弄 值」,說到底這是一個非常糟糕的行為,但就跟小時候做實驗掰數據一樣,很快就能產生好結果。真正要驗證一個理論的正確性時,是需要做許多不同的統計測試的,像是財務界頂尖期刊 Journal of Finance 裡面的統計驗證方法就非常嚴謹,值得效法。

A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.

在迴歸裡面,我們時常會去檢定一個解釋變數的係數是否為 0,有些人會覺得 值越小代表這個變數越重要,錯!其實只要你的樣本數大一點,任何的解釋變數係數是否為 0 的檢定都很容易得到足夠小的 值。有興趣的朋友可以看看這一篇論文,有詳細解釋大樣本時 值的問題。

我自己習慣是,假設現在有 30 萬個資料,我可能會從裡面隨機抽出 10,000 組樣本數為 100 的小樣本,然後在每個小樣本上去跑回歸,看看 值 < 0.05 的比率有多高,但我不確定這個手法有沒有很嚴謹的統計證明,如果有朋友有方法的話還請告訴我!

By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.

簡單來說,其實 值並不能完全代表真實資料與模型之間的差距,仍然需要進行更縝密的資料分析才能做到品質比較高的統計推論。其實很簡單,如果只是看看值就萬事大吉,還要這麼多統計學家幹嘛 XD

 

希望大家看完這篇文章,有更了解 值的本質。 值本人是相當無辜的,而且也從來沒人說 α = 0.05 是真理,需要依據你的問題與蒐集到的資料,來判斷 α 應該要落在哪個水準比較合理。在抨擊  值本人前,要想想世上無完人,他能夠做的就是他的本分,不要再逼迫已經年齡過百的他了 QAQ

本文轉載自作者部落格「大鼻觀點」,喜歡他的文章也可以追蹤同名臉書粉絲專頁

文章難易度
活躍星系核_96
752 篇文章 ・ 97 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

2
1

文字

分享

0
2
1
什麼是抽樣誤差?老師和媒體都沒教你的那些事
tml_96
・2020/11/19 ・3758字 ・閱讀時間約 7 分鐘 ・SR值 550 ・八年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

本文原文刊登時間為2020年11月6日,原文標題為《什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?

美國總統大選進入最後一周時,許多媒體紛紛在搖擺州進行民調,其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張,許多州出現極小的得票差距。圖/Pixabay

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示:在 824 位可能投票的選民中,川普領先拜登 50−48個百分點,因為抽樣誤差為 ± 4.0 %,報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示:在1,451位可能投票的選民中,拜登領先川普47−44個百分點,其抽樣誤差為 ± 3.2%

兩個民調相隔只 2−3 天,拜登從落後 2 個百分點轉為領先 3 個百分點,這領先程度有統計顯著性嗎?(佛州開票 96% 的結果是川普 51.2% 拜登 47.8%)

弗羅里達州的民調與開票96%後的實際結果。圖/作者提供。

這裡有兩個相關問題要先解決:

  • 第一、樣本數 N=1,451 為何抽樣誤差是 ±3.2%?這個數字對嗎?一般民調若樣本數在N=1,000左右,抽樣誤差不是大約 ±3% 嗎?為何紐時的樣本數高達 N=1,451,抽樣誤差不是更低?反而更高?
  • 第二、如果抽樣誤差低於±3%,那拜登在佛州領先川普超過抽樣誤差,便可以說這差距有統計顯著性嗎

 什麼是「抽樣誤差」?

首先解釋第一個問題:所謂「抽樣誤差」(margin of error)的是當母體比例為π時,重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說:當母體比例為π時,重複抽取許多樣本數為 N 的樣本會得到許多不同的P值,這些 P 值的分佈稱作 P 的「抽樣分佈」(sampling distribution)。

根據中央極限定裡,P 的抽樣分佈是以π為中心的常態分佈,其變異量是 π(1-π)/N。我們若以π為中心取一個區間(π-m, π+m)讓 P 落在區間內的機率為 95%,則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差,其公式為:

雖然這個公式可以適用於任何的π值,在沒有特別資訊的情況下,一般以 π=0.5 來計算 MOE。

舉例來說,聯合報在 2019 年 12 月 12-14 日實施了一個民調,它在報導中特別就調查方法報告如下:

「調查於十二月十二日至十四日晚間進行,成功訪問一千一百一十位合格選民,另二百九十一人拒訪;在百分之九十五信心水準下,抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣,藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點,調查結果依廿歲以上性別、年齡及縣市人口結構加權,調查經費來自聯合報社。」

同樣的,蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到:

「本次民調由《蘋果新聞網》委託台灣指標公司執行,經費來源是《蘋果新聞網》,調查對象為設籍在全國22縣市且年滿20歲民眾,調查期間為12月27日至29日,採用市內電話抽樣調查,並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法,再以電話號碼後2碼隨機抽出,成功訪問1,069位受訪者,在95%信心水準下,抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE=2.94%、3.00%,正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多,為何它所報告的抽樣誤差反而較大?我們若把 N=1,451 套入上式,不是應該得到 MOE=2.57%嗎?為何紐時說是 3.2%?

其實不只紐時,華郵/ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣?華郵/ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」(including design effects)之後計算所得;什麼是「設計效應」?

什麼是「設計效應」?

這個問題牽涉到「有效樣本數」(effective sample size)的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」(valid N),而是在調整受訪者代表性之後的「加權樣本數」(weighted sample size)。

下面我會說明:紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差,也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」(simple random sampling)得到的結果,母體中每人被抽到的機率並不一致。因此,樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致,樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數,其數值代表樣本中每個受訪者所代表族群的權重。

例如「台灣選舉與民主化研究」2020年民調資料合併檔(TEDS2020)中便有這樣的一個權值變數w,它的值介於0.295至3.474之間,其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係,原來的樣本數已不能有效反映加權後的樣本數,因此有所謂「有效樣本數」(effective sample size)的概念,有效樣本數的計算方式因加權方式而異,抽樣理論大師 Leslie Kish 建議了一個粗略的算法:

除非根本沒有加權,否則這個公式一定小於N,也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例,ESS=2,359,也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差,則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異,可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果,我們定義「設計效應」(design effect)為:

由於抽樣誤差之平方與樣本數成反比,上式也可導出:

再以TEDS2020為例,DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差,我們可以算出佛州民調的設計效應:

這設計效應比TEDS2020要高出很多!這可能是因為TEDS採用分層隨機抽樣面訪,其設計比起新聞媒體採用電話+手機有所不同。有了設計效應的估計值,我們就可以算紐時佛州民調的有效樣本數了:它的 ESS=936,只有原樣本數的三分之二。相對而言,華郵/ABC的佛州民調的設計效應是 DE=1.37,其有效樣本數是ESS=600.

如果我們以 N=936 算基於簡單隨機抽樣設計的抽樣誤差,它會恰恰是紐時所報告的 3.2%。以 N=600 來算的話,抽樣誤差就剛好是ABC/華郵所報告的 4.0%。

值得注意的是: 如果紐時效仿聯合報用原樣本數 N=1,451 計算抽樣誤差,這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差,因而具有統計上的顯著性。紐約時報的分析家沒有這樣做,這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題:一般媒體通常只報告單一比例的抽樣誤差,而對比式民調著重的不是單一比例,而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣,它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差,我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀,並提出一個計算正確抽樣誤差的公式。

這篇文章請見:對比式選舉民調的錯誤解讀 

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

計算的結果是抽樣誤差高達 6.03 %:拜登領先的差距其實還在誤差範圍之內。

注意:如果以原樣本數 N=1,451 代入速算表,則抽樣誤差為 4.91%,比 6.03% 要小得多。

關於民調報導,還有很多進步空間

台灣的媒體在報導對比式民調的結果時,似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差,而未考慮設計效應。這個抽樣誤差本來就太小,再加上對比所產生的問題,可以說是雙重的誤導!

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外,有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章:5 Key Things to Know about the Margin of Error in Election Polls

tml_96
34 篇文章 ・ 227 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

7
0

文字

分享

0
7
0
統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》
臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供

圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供

圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供

圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

臉譜出版_96
67 篇文章 ・ 244 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。

0

2
2

文字

分享

0
2
2
假裝在笑,可能讓你更快樂,也可能不會──2019搞笑諾貝爾心理學獎
寒波_96
・2019/09/27 ・3323字 ・閱讀時間約 6 分鐘 ・SR值 561 ・九年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

搞笑諾貝爾獎每年都是新的開始,2019 年也不例外。今年「第 29 次第一屆搞笑諾貝爾獎」一共頒發 10 個獎項,心理學獎得主 Fritz Strack 的得獎理由是:

「發現嘴上咬著一支筆表現出笑的樣子,會讓人變快樂—然後又發現沒這回事(for discovering that holding a pen in one’s mouth makes one smile, which makes one happier — and for then discovering that it does not.)」。1

裝出笑臉會變得快樂?圖/取自 IMDb

哈哈哈哈哈還真的 hen 好笑,不過就像大部分獲得搞笑諾貝爾獎的研究,這也是個很認真,毫無搞笑意圖的研究。這個獎的背後,可以牽連到最近幾年熱門的「重複性危機」(又稱「再現性危機」),以及一些值得科學界深思的問題。

「臉部回饋假說」測試:一支筆,一部片

整個問題的根本,在於情緒表情的關係。一個人心情好會表現笑臉,心情不好則表現哭臉,是非常符合直覺,也早已被證實的現象。然而,有人認為反過來也成立:不只情緒影響表情,表情也會影響情緒;一個人假如表現出笑的樣子,將感到更快樂;如果表現沮喪的樣子,也會變得更加沮喪。

此一假說被稱作「臉部回饋假說(facial feedback hypothesis)」,一個人快樂的時候會笑,笑了又會更快樂!但是該如何測試快樂正回饋假說呢?

1988 年的時候,Fritz Strack 與他快樂的夥伴們 Leonard Martin 和 Sabine Stepper,一同發表了一道經典實驗,證實臉部回饋假說正確。他們設計的實驗非常簡單,裝備只需要一支筆,以及一部卡通。2

一支筆與一部片,但不是這種的!圖/取自 yourprops

研究人員用了些技巧,在不影響情緒的狀況下,讓受測者表現出笑臉或愁眉苦臉。他們將受測者分為兩群:一群用牙齒咬著筆,如此臉部動作就會類似快樂的笑;另一群則是用嘴唇含著筆,臉部就會呈現類似愁眉苦臉的樣貌。

接著,再播放同一部卡通,讓受測者判斷卡通有多好笑,由最難笑的 0 分給到最好笑的 9 分。最終統計結果是,牙齒咬筆組比起嘴唇含筆組,評分會更高 0.82 分,達到顯著差異。意謂臉部展現出笑的表情,會讓人情緒感到更快樂,證實了臉部回饋假說。

是這樣才對:左邊是牙齒咬筆,右邊是嘴唇含筆 。圖/取自 ref2

無法重複的實驗

對心理學有點認識的人應該知道,許多學界最近面臨「重複性危機」,而心理學是這個爭議的主要戰場之一。某些心理學實驗的結果,換組人做就不一樣。那麼這些結論到底可不可信,相關的衍生研究及應用又該如何看待?

一部片一支筆實驗支持臉部回饋假說,在 1988 年發表以後成為心理學的經典實驗,被學界普遍接受,至今被引用高達 2042 次,卻長期沒有被人用一樣的方法重複過。後來有人復刻這個經典實驗,發表於 2016 年,重複實驗的結果卻與原本的結論不一致。3

更大規模的新測試中,共有世界各地 17 組研究者參加,總共紀錄到 1894 位受測者。結果 17 組中只有 9 組的效果是正面的,另外 8 組反而是負面影響。

復刻實驗 17 組的結果,有些研究有證明有些沒有……到底是怎樣啦。圖/取自 ref2

所有受測者一起分析的結果是,笑臉牙齒咬筆組與哭臉嘴唇含筆組,兩邊只差 0.03 分,標準差則是介於 -0.11 到 0.16;也就是說,臉部表現出笑的表情,不會讓人覺得卡通更好笑,反之亦然。

因此最終結論:「發現嘴上咬著一支筆表現出笑的樣子,會讓人變快樂──然後又發現沒這回事。」

結果無法重複怎麼辦?Why so serious?

然而,無法重複當年的結果,不直接意謂當年的實驗就是錯的,也不等於臉部回饋假說是錯的。當初經典實驗的作者之一 Fritz Strack 在 2017 年發表一篇很認真的文章,探討相關的議題,然後使他獲得 2019 年的搞笑諾貝爾獎。4 ????

為什麼心理學實驗無法重複?Fritz Strack 認為有三個可能性,第一是蓄意造假,當然 1988 年的三位作者並沒有造假。另外還有兩種可能,第二個可能是:原本的結果不是真的,並非正確的效應;第三種可能是:原本的效應太弱,由於不夠強,導致在不同的實驗脈絡下無法重現。

這兩種可能性的差異在於,無法重複的舊結論,一種是假的,另一種是真的。倘若舊實驗得到的結果是假的,又不是蓄意造假,那麼可能是偽陽性所致,也就是機率問題。

新舊實驗的對照。圖/取自 ref2

也有可能舊實驗看到的結果,事實上是正確的,影響力卻太過微弱,會受到每次實驗時不同的外在條件影響,導致無法每一次重複都成功。

驗證假說採取的實驗效果該有多強,又取決於目的。比方說,假如目的是測試臨床藥物,那麼排除不同條件的外在影響,找到強效的測試辦法就很重要;但是如果目的是檢驗理論的基礎研究,實驗方法的強度就相對沒那麼要緊。

重複性危機其實被高估?

考量到研究的發表,又是另一個層面。眾所皆知,會被期刊接受發表的論文,多半報告的是有差異的結果(positive result),假如做出的研究品質非常好,卻是沒有差異的結果(negative result),被接受的機率將低得多。

同樣的道理,在重複前人的研究中,會被接受而問世的論文,大部分不是順利重複,得到與前人一致的結果,而是無法複製,推翻過往的研究。也因此,我們會見到「很高比例論文的結果無法再現」這類新聞的標題,而實際狀況或許沒有這麼嚴重。

對科學發展更有建設性的思考方向或許是:

無法再現的研究能有什麼意義?

讓心理學再次偉大,該怎麼做?

有關於自己的實驗無法被重複,造成的影響,Fritz Strack 感到不樂觀,不過理由大概不是你想的那樣。

心理學家應該要勇於探索各種人類行為,拓展知識疆界!圖/取自 polygon

他的想法是,效果強的實驗容易被重複,效果弱的實驗不容易複製;假如心理學家們因此被鼓勵去多做強效的實驗,將使得心理學轉往更偏應用性的方向,與創新理論漸行漸遠。

倘若心理學研究結果只是單純考慮效果強弱,不能導引出批判性的辯論,那麼這樣的研究,對於了解科學問題的內涵,將無法帶來太多幫助。另一方面,過度強調重複性危機,也會讓公眾對心理學研究失去信心。

2016 年《Annual Review of Psychology》的序言中提到:

「再現失敗不是科學的問題;而是找出條件限制與情境效應的良機。(A replication failure is not a scientific problem; it is an opportunity to find limiting conditions and contextual effects.)」

新的研究如果無法重複舊的結果,將是重新審視此一問題,引發討論的機會,若是能藉此帶來新的想法更好。證實之前的實驗方法在一種情境適用,另一種狀況不能用,比單純打臉以前結果是錯的更有意義。

Fritz Strack 認為如今的心理學,真正面臨的危機其實是「知識論危機(epistemological crisis)」,將科學論述限制於概率模型(probabilistic model),期望由數據直接獲取真相。心理學在這套觀點下或許會退化為,只重視一系列有強有弱的效應與現象,而不再探索人類行為的基本定律。心理學界必需著重在有意義的科學問題,才能開創更好的科學。

每一位科學研究者都應該質問自己:科學研究的目的究竟是什麼,我們該研究怎麼樣的科學?不論你認同不認同 Fritz Strack 的看法,都可以思考思考他的觀點。

話說回來,這個搞笑諾貝爾奬還真的有夠嚴肅的,沒辦法,科學家的搞笑就是這麽樸實無華且枯燥。

2019 年搞笑諾貝爾獎頒獎典禮(心理學獎從 1:09:51 開始)

延伸閱讀

參考文獻

  1. The 2019 Ig Nobel Prize Winners
  2. Strack, F., Martin, L. L., & Stepper, S. (1988). Inhibiting and facilitating conditions of the human smile: a nonobtrusive test of the facial feedback hypothesis. Journal of personality and social psychology, 54(5), 768.
  3. Wagenmakers, E. J., Beek, T., Dijkhoff, L., Gronau, Q. F., Acosta, A., Adams Jr, R. B., … & Bulnes, L. C. (2016). Registered Replication Report: Strack, Martin, & Stepper (1988). Perspectives on Psychological Science, 11(6), 917-928.
  4. Strack, F. (2017). From Data to Truth in Psychological Science. A Personal Perspective. Frontiers in psychology, 8, 702.

本文亦刊載於作者部落格《盲眼的尼安德塔石匠》暨其 facebook 同名專頁

寒波_96
175 篇文章 ・ 676 位粉絲
生命科學碩士、文學與電影愛好者、戳樂黨員,主要興趣為演化,希望把好東西介紹給大家。部落格《盲眼的尼安德塔石器匠》、同名粉絲團《盲眼的尼安德塔石器匠》。