0

2
1

文字

分享

0
2
1

什麼是抽樣誤差?老師和媒體都沒教你的那些事

tml_96
・2020/11/19 ・3758字 ・閱讀時間約 7 分鐘 ・SR值 550 ・八年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

本文原文刊登時間為2020年11月6日,原文標題為《什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?

美國總統大選進入最後一周時,許多媒體紛紛在搖擺州進行民調,其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張,許多州出現極小的得票差距。圖/Pixabay

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示:在 824 位可能投票的選民中,川普領先拜登 50−48個百分點,因為抽樣誤差為 ± 4.0 %,報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示:在1,451位可能投票的選民中,拜登領先川普47−44個百分點,其抽樣誤差為 ± 3.2%

兩個民調相隔只 2−3 天,拜登從落後 2 個百分點轉為領先 3 個百分點,這領先程度有統計顯著性嗎?(佛州開票 96% 的結果是川普 51.2% 拜登 47.8%)

弗羅里達州的民調與開票96%後的實際結果。圖/作者提供。

這裡有兩個相關問題要先解決:

  • 第一、樣本數 N=1,451 為何抽樣誤差是 ±3.2%?這個數字對嗎?一般民調若樣本數在N=1,000左右,抽樣誤差不是大約 ±3% 嗎?為何紐時的樣本數高達 N=1,451,抽樣誤差不是更低?反而更高?
  • 第二、如果抽樣誤差低於±3%,那拜登在佛州領先川普超過抽樣誤差,便可以說這差距有統計顯著性嗎

 什麼是「抽樣誤差」?

首先解釋第一個問題:所謂「抽樣誤差」(margin of error)的是當母體比例為π時,重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說:當母體比例為π時,重複抽取許多樣本數為 N 的樣本會得到許多不同的P值,這些 P 值的分佈稱作 P 的「抽樣分佈」(sampling distribution)。

根據中央極限定裡,P 的抽樣分佈是以π為中心的常態分佈,其變異量是 π(1-π)/N。我們若以π為中心取一個區間(π-m, π+m)讓 P 落在區間內的機率為 95%,則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差,其公式為:

雖然這個公式可以適用於任何的π值,在沒有特別資訊的情況下,一般以 π=0.5 來計算 MOE。

舉例來說,聯合報在 2019 年 12 月 12-14 日實施了一個民調,它在報導中特別就調查方法報告如下:

「調查於十二月十二日至十四日晚間進行,成功訪問一千一百一十位合格選民,另二百九十一人拒訪;在百分之九十五信心水準下,抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣,藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點,調查結果依廿歲以上性別、年齡及縣市人口結構加權,調查經費來自聯合報社。」

同樣的,蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到:

「本次民調由《蘋果新聞網》委託台灣指標公司執行,經費來源是《蘋果新聞網》,調查對象為設籍在全國22縣市且年滿20歲民眾,調查期間為12月27日至29日,採用市內電話抽樣調查,並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法,再以電話號碼後2碼隨機抽出,成功訪問1,069位受訪者,在95%信心水準下,抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE=2.94%、3.00%,正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多,為何它所報告的抽樣誤差反而較大?我們若把 N=1,451 套入上式,不是應該得到 MOE=2.57%嗎?為何紐時說是 3.2%?

其實不只紐時,華郵/ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣?華郵/ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」(including design effects)之後計算所得;什麼是「設計效應」?

什麼是「設計效應」?

這個問題牽涉到「有效樣本數」(effective sample size)的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」(valid N),而是在調整受訪者代表性之後的「加權樣本數」(weighted sample size)。

下面我會說明:紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差,也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」(simple random sampling)得到的結果,母體中每人被抽到的機率並不一致。因此,樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致,樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數,其數值代表樣本中每個受訪者所代表族群的權重。

例如「台灣選舉與民主化研究」2020年民調資料合併檔(TEDS2020)中便有這樣的一個權值變數w,它的值介於0.295至3.474之間,其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係,原來的樣本數已不能有效反映加權後的樣本數,因此有所謂「有效樣本數」(effective sample size)的概念,有效樣本數的計算方式因加權方式而異,抽樣理論大師 Leslie Kish 建議了一個粗略的算法:

除非根本沒有加權,否則這個公式一定小於N,也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例,ESS=2,359,也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差,則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異,可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果,我們定義「設計效應」(design effect)為:

由於抽樣誤差之平方與樣本數成反比,上式也可導出:

再以TEDS2020為例,DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差,我們可以算出佛州民調的設計效應:

這設計效應比TEDS2020要高出很多!這可能是因為TEDS採用分層隨機抽樣面訪,其設計比起新聞媒體採用電話+手機有所不同。有了設計效應的估計值,我們就可以算紐時佛州民調的有效樣本數了:它的 ESS=936,只有原樣本數的三分之二。相對而言,華郵/ABC的佛州民調的設計效應是 DE=1.37,其有效樣本數是ESS=600.

如果我們以 N=936 算基於簡單隨機抽樣設計的抽樣誤差,它會恰恰是紐時所報告的 3.2%。以 N=600 來算的話,抽樣誤差就剛好是ABC/華郵所報告的 4.0%。

值得注意的是: 如果紐時效仿聯合報用原樣本數 N=1,451 計算抽樣誤差,這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差,因而具有統計上的顯著性。紐約時報的分析家沒有這樣做,這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題:一般媒體通常只報告單一比例的抽樣誤差,而對比式民調著重的不是單一比例,而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣,它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差,我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀,並提出一個計算正確抽樣誤差的公式。

這篇文章請見:對比式選舉民調的錯誤解讀 

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

計算的結果是抽樣誤差高達 6.03 %:拜登領先的差距其實還在誤差範圍之內。

注意:如果以原樣本數 N=1,451 代入速算表,則抽樣誤差為 4.91%,比 6.03% 要小得多。

關於民調報導,還有很多進步空間

台灣的媒體在報導對比式民調的結果時,似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差,而未考慮設計效應。這個抽樣誤差本來就太小,再加上對比所產生的問題,可以說是雙重的誤導!

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外,有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章:5 Key Things to Know about the Margin of Error in Election Polls

文章難易度
tml_96
34 篇文章 ・ 227 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

1
0

文字

分享

0
1
0
準備出國啦!Surfshark VPN 快趁黑五買起來,上網購物最安心
鳥苷三磷酸 (PanSci Promo)_96
・2022/11/01 ・2113字 ・閱讀時間約 4 分鐘

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

本文由 Surfshark VPN 贊助。

兩、三年以來的防疫生活,終於迎來全面 0+7 的這一天啦!返國之後不再需要隔離的一天來了,冰友們,你是不是已經收拾好心情、收拾好行李,在進行機+酒的比價了呢?除了規劃好出國行程、找好景點與美食店家,想要讓自己不可或缺的網路生活也更加安全,一定要趁即將到來了感恩節黑五期間,把超優惠的 Surfshark VPN 服務買起來,為自己的網路生活加買最平安的保險!

Surfshark 黑五限時 18 折折扣,額外加送兩個月
專屬連結:https://lihi2.cc/8XwRN

在疫情下,網購成為了更多人的日常。不僅各樣的在地購物節為網友帶來眾多優惠,全球化的購物活動,台灣當然也不會缺席!美國感恩節(Thanksgiving)都是 11 月第四個星期四,但是感恩節後的週五,便是聖誕節前的購物佳期啟動日,這一天通常都會業績超標(在收支表上呈現正向收入(顯示為黑色字體,而非赤字的紅色字體),各家的瘋狂優惠都會在黑五祭出!相信許多精打細算的朋友,對黑五購物節絕對不陌生(很可能還搶過很多優惠!!)

網購怎能漏掉「亞馬遜」!

雅虎奇摩之於台灣,就像是亞馬遜(Amazon.com)之於美國那麼的有名!絕對也是什麼都賣、什麼都不奇怪的最佳代表。

如果你平常就很喜愛一些美國品牌,趁著黑五的日子到亞馬遜清空購物車,覺對優惠不會讓你失望。這時候,透過 Surfshark 連線到亞馬遜美國站,絕對會顯示的價格絕對讓你眼睛為之一亮,這時候最新搭載 M2 晶片的 iPad Pro,獨家支援動態島顯示的 iPhone 14 Pro,絕對是最好入手的時機。除此之外,亞馬遜平台經典的 Kindle 閱讀器,也是超合適的禮物,送禮自用兩相宜啊!另外要特別留意,購買時可以確認商品有沒有幫忙送到台灣,如果還沒有,可以先跟美國的朋友確認一下,邀請他們回國時幫你一起帶回來!

跨國追劇最爽快

對於喜愛追劇的朋友,品味可能相當豐富且多元,畢竟欣賞優秀影視作品,不現語言,更是不限地區啊!只不過,若是你訂閱 Netflix 等跨國 OTT 服務,都會有各地不同的上架影視作品,可能會讓你無法在第一時間就能夠立即「追」到劇,讓你等得心癢癢!還好這一切只要連上 Surfshark VPN 都能解決,Surfshark 支援超過 100 國的 VPN 連線,無論你想看韓國、日本還是哪一國的最新戲劇,通通讓你一秒追到最新進度!

Surfshark 黑五限時 18 折折扣,額外加送兩個月

專屬連結:https://lihi2.cc/8XwRN

出差大陸翻牆超方便

在過往出國、返國都需要隔離的階段,肯定讓不少工作上需要經常往返多國之間的朋友,感到生活驟變。所幸,在防疫政策解封之後,一切都可逐漸恢復正常。對於經常有需要到中國大陸出差的朋友,肯定都會感受到網路斷聯的不方便,因為無論是 LINE、Facebook Messenger、YouTube、Gmail 等你可很能天天都在使用的網路服務,大陸都無法使用。這還不打緊,連跟家人、朋友報平安也很不便。這時候 Surfshark 連上,就可以幫助你輕鬆「翻牆」,跟台灣親人網路無距離!

 

上網不留痕跡,不被追蹤最自由

對於一個人來說,最私密的資料之一,除了你的個資,就屬我們每天耗費大量時間逗留的網路。我們所在網路上留下的痕跡,絕對是超真實的自己,當然你不會期待這樣的自己被「搜尋引擎」、「網路廣告」公司了解得太透徹,好像你在網路上的一言一行,都被監視著。

..0000000\0;也可隱藏IP位置,避免被廣告商追蹤;更可以為你我阻擋惡意程式、釣魚軟體等,讓你防止被攻擊,以及被網路充斥的廣告打擾,好處多又多!

如果對於 Surfshark 還覺得不夠熟悉的話,不得不告訴大家,今年 Surfshark 榮獲第六屆 CyberSecurity Breakthrough 頒發的「VPN 年度最佳解決方案」(VPN Solution of the Year),也就是成為今年最推薦的 VPN 方案。CyberSecurity Breakthrough 是全球領先的獨立市場情報組織,致力於表揚當今全球資訊安全市場上的頂尖企業、技術和產品。有了他們「掛保證」,代表 Surfshark 絕對是品質、信譽都讓你安心的VPN 服務。

講了這麼多,是不是讓你感到很心動了。如果你原本就是網路重度使用者,用來上網的設備是樣樣都有,Surfshark 一個帳號就能支援所有設備,CP 值超高!趁著年度超狂黑五購物節的到來,送給你自己兩年安心無虞的網路生活,肯定是送自己的最好禮物!

Surfshark 黑五限時 18 折折扣,額外加送兩個月
專屬連結:https://lihi2.cc/8XwRN

文章難易度
鳥苷三磷酸 (PanSci Promo)_96
155 篇文章 ・ 268 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

7
0

文字

分享

0
7
0
統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》
臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供

圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供

圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供

圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

臉譜出版_96
67 篇文章 ・ 244 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。

0

2
2

文字

分享

0
2
2
假裝在笑,可能讓你更快樂,也可能不會──2019搞笑諾貝爾心理學獎
寒波_96
・2019/09/27 ・3323字 ・閱讀時間約 6 分鐘 ・SR值 561 ・九年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

搞笑諾貝爾獎每年都是新的開始,2019 年也不例外。今年「第 29 次第一屆搞笑諾貝爾獎」一共頒發 10 個獎項,心理學獎得主 Fritz Strack 的得獎理由是:

「發現嘴上咬著一支筆表現出笑的樣子,會讓人變快樂—然後又發現沒這回事(for discovering that holding a pen in one’s mouth makes one smile, which makes one happier — and for then discovering that it does not.)」。1

裝出笑臉會變得快樂?圖/取自 IMDb

哈哈哈哈哈還真的 hen 好笑,不過就像大部分獲得搞笑諾貝爾獎的研究,這也是個很認真,毫無搞笑意圖的研究。這個獎的背後,可以牽連到最近幾年熱門的「重複性危機」(又稱「再現性危機」),以及一些值得科學界深思的問題。

「臉部回饋假說」測試:一支筆,一部片

整個問題的根本,在於情緒表情的關係。一個人心情好會表現笑臉,心情不好則表現哭臉,是非常符合直覺,也早已被證實的現象。然而,有人認為反過來也成立:不只情緒影響表情,表情也會影響情緒;一個人假如表現出笑的樣子,將感到更快樂;如果表現沮喪的樣子,也會變得更加沮喪。

此一假說被稱作「臉部回饋假說(facial feedback hypothesis)」,一個人快樂的時候會笑,笑了又會更快樂!但是該如何測試快樂正回饋假說呢?

1988 年的時候,Fritz Strack 與他快樂的夥伴們 Leonard Martin 和 Sabine Stepper,一同發表了一道經典實驗,證實臉部回饋假說正確。他們設計的實驗非常簡單,裝備只需要一支筆,以及一部卡通。2

一支筆與一部片,但不是這種的!圖/取自 yourprops

研究人員用了些技巧,在不影響情緒的狀況下,讓受測者表現出笑臉或愁眉苦臉。他們將受測者分為兩群:一群用牙齒咬著筆,如此臉部動作就會類似快樂的笑;另一群則是用嘴唇含著筆,臉部就會呈現類似愁眉苦臉的樣貌。

接著,再播放同一部卡通,讓受測者判斷卡通有多好笑,由最難笑的 0 分給到最好笑的 9 分。最終統計結果是,牙齒咬筆組比起嘴唇含筆組,評分會更高 0.82 分,達到顯著差異。意謂臉部展現出笑的表情,會讓人情緒感到更快樂,證實了臉部回饋假說。

是這樣才對:左邊是牙齒咬筆,右邊是嘴唇含筆 。圖/取自 ref2

無法重複的實驗

對心理學有點認識的人應該知道,許多學界最近面臨「重複性危機」,而心理學是這個爭議的主要戰場之一。某些心理學實驗的結果,換組人做就不一樣。那麼這些結論到底可不可信,相關的衍生研究及應用又該如何看待?

一部片一支筆實驗支持臉部回饋假說,在 1988 年發表以後成為心理學的經典實驗,被學界普遍接受,至今被引用高達 2042 次,卻長期沒有被人用一樣的方法重複過。後來有人復刻這個經典實驗,發表於 2016 年,重複實驗的結果卻與原本的結論不一致。3

更大規模的新測試中,共有世界各地 17 組研究者參加,總共紀錄到 1894 位受測者。結果 17 組中只有 9 組的效果是正面的,另外 8 組反而是負面影響。

復刻實驗 17 組的結果,有些研究有證明有些沒有……到底是怎樣啦。圖/取自 ref2

所有受測者一起分析的結果是,笑臉牙齒咬筆組與哭臉嘴唇含筆組,兩邊只差 0.03 分,標準差則是介於 -0.11 到 0.16;也就是說,臉部表現出笑的表情,不會讓人覺得卡通更好笑,反之亦然。

因此最終結論:「發現嘴上咬著一支筆表現出笑的樣子,會讓人變快樂──然後又發現沒這回事。」

結果無法重複怎麼辦?Why so serious?

然而,無法重複當年的結果,不直接意謂當年的實驗就是錯的,也不等於臉部回饋假說是錯的。當初經典實驗的作者之一 Fritz Strack 在 2017 年發表一篇很認真的文章,探討相關的議題,然後使他獲得 2019 年的搞笑諾貝爾獎。4 ????

為什麼心理學實驗無法重複?Fritz Strack 認為有三個可能性,第一是蓄意造假,當然 1988 年的三位作者並沒有造假。另外還有兩種可能,第二個可能是:原本的結果不是真的,並非正確的效應;第三種可能是:原本的效應太弱,由於不夠強,導致在不同的實驗脈絡下無法重現。

這兩種可能性的差異在於,無法重複的舊結論,一種是假的,另一種是真的。倘若舊實驗得到的結果是假的,又不是蓄意造假,那麼可能是偽陽性所致,也就是機率問題。

新舊實驗的對照。圖/取自 ref2

也有可能舊實驗看到的結果,事實上是正確的,影響力卻太過微弱,會受到每次實驗時不同的外在條件影響,導致無法每一次重複都成功。

驗證假說採取的實驗效果該有多強,又取決於目的。比方說,假如目的是測試臨床藥物,那麼排除不同條件的外在影響,找到強效的測試辦法就很重要;但是如果目的是檢驗理論的基礎研究,實驗方法的強度就相對沒那麼要緊。

重複性危機其實被高估?

考量到研究的發表,又是另一個層面。眾所皆知,會被期刊接受發表的論文,多半報告的是有差異的結果(positive result),假如做出的研究品質非常好,卻是沒有差異的結果(negative result),被接受的機率將低得多。

同樣的道理,在重複前人的研究中,會被接受而問世的論文,大部分不是順利重複,得到與前人一致的結果,而是無法複製,推翻過往的研究。也因此,我們會見到「很高比例論文的結果無法再現」這類新聞的標題,而實際狀況或許沒有這麼嚴重。

對科學發展更有建設性的思考方向或許是:

無法再現的研究能有什麼意義?

讓心理學再次偉大,該怎麼做?

有關於自己的實驗無法被重複,造成的影響,Fritz Strack 感到不樂觀,不過理由大概不是你想的那樣。

心理學家應該要勇於探索各種人類行為,拓展知識疆界!圖/取自 polygon

他的想法是,效果強的實驗容易被重複,效果弱的實驗不容易複製;假如心理學家們因此被鼓勵去多做強效的實驗,將使得心理學轉往更偏應用性的方向,與創新理論漸行漸遠。

倘若心理學研究結果只是單純考慮效果強弱,不能導引出批判性的辯論,那麼這樣的研究,對於了解科學問題的內涵,將無法帶來太多幫助。另一方面,過度強調重複性危機,也會讓公眾對心理學研究失去信心。

2016 年《Annual Review of Psychology》的序言中提到:

「再現失敗不是科學的問題;而是找出條件限制與情境效應的良機。(A replication failure is not a scientific problem; it is an opportunity to find limiting conditions and contextual effects.)」

新的研究如果無法重複舊的結果,將是重新審視此一問題,引發討論的機會,若是能藉此帶來新的想法更好。證實之前的實驗方法在一種情境適用,另一種狀況不能用,比單純打臉以前結果是錯的更有意義。

Fritz Strack 認為如今的心理學,真正面臨的危機其實是「知識論危機(epistemological crisis)」,將科學論述限制於概率模型(probabilistic model),期望由數據直接獲取真相。心理學在這套觀點下或許會退化為,只重視一系列有強有弱的效應與現象,而不再探索人類行為的基本定律。心理學界必需著重在有意義的科學問題,才能開創更好的科學。

每一位科學研究者都應該質問自己:科學研究的目的究竟是什麼,我們該研究怎麼樣的科學?不論你認同不認同 Fritz Strack 的看法,都可以思考思考他的觀點。

話說回來,這個搞笑諾貝爾奬還真的有夠嚴肅的,沒辦法,科學家的搞笑就是這麽樸實無華且枯燥。

2019 年搞笑諾貝爾獎頒獎典禮(心理學獎從 1:09:51 開始)

延伸閱讀

參考文獻

  1. The 2019 Ig Nobel Prize Winners
  2. Strack, F., Martin, L. L., & Stepper, S. (1988). Inhibiting and facilitating conditions of the human smile: a nonobtrusive test of the facial feedback hypothesis. Journal of personality and social psychology, 54(5), 768.
  3. Wagenmakers, E. J., Beek, T., Dijkhoff, L., Gronau, Q. F., Acosta, A., Adams Jr, R. B., … & Bulnes, L. C. (2016). Registered Replication Report: Strack, Martin, & Stepper (1988). Perspectives on Psychological Science, 11(6), 917-928.
  4. Strack, F. (2017). From Data to Truth in Psychological Science. A Personal Perspective. Frontiers in psychology, 8, 702.

本文亦刊載於作者部落格《盲眼的尼安德塔石匠》暨其 facebook 同名專頁

寒波_96
174 篇文章 ・ 672 位粉絲
生命科學碩士、文學與電影愛好者、戳樂黨員,主要興趣為演化,希望把好東西介紹給大家。部落格《盲眼的尼安德塔石器匠》、同名粉絲團《盲眼的尼安德塔石器匠》。