0

0
0

文字

分享

0
0
0

一切盡在計算中

科學人_96
・2014/05/28 ・937字 ・閱讀時間約 1 分鐘 ・SR值 598 ・九年級

國小高年級科普文,素養閱讀就從今天就開始!!

sm147-102

除了打擊率、上壘率,還有整體攻擊指數、最終守備指數……

撰文 / 米爾斯基(Steve Mirsky
翻譯 / 周坤毅

青翠的草地綿延至外野區、馬皮棒球落進牛皮手套時發出的清脆響聲、檢方搜索選手亂扔的禁藥注射器沒錯,棒球球季已經展開。

在我開始看棒球的純真年代,棒球統計數據只有三種:打擊率、全壘打與打點,現在多了上壘率、整體攻擊指數、最終守備指數、勝場貢獻指數等不知所云的數據。

我為了解這些數據的意義,今年1月前往曼哈頓東11街一家「伯吉諾棒球俱樂部」蒐藏品專賣店,聆聽史密斯學院經濟學教授辛巴里斯特的演說,他與紐約大都會棒球隊的前數據分析專家、現任史密斯學院數學系訪問教授鮑默合著《棒球統計學革命:分析棒球數據的崛起》。沒錯,他們分析別人的分析結果。誰來監視分析者?就是他們。

究竟什麼是棒球統計學?辛巴里斯特解釋:「棒球統計學利用統計分析來了解並評估球員表現、球隊戰術與行銷策略。」可惜數據不會告訴你,當球隊戰績差到什麼程度時,經理便得切腹自殺。

由2003年小說改編的電影「魔球」,讓棒球統計學家喻戶曉。故事描述2002年意外成功的奧克蘭運動家隊,關鍵策略便是利用統計數據發掘實力被低估的低薪球員,其中最重要的數據是上壘率,約等於安打加上保送次數除以打席。誠如古老的棒球諺語:「保送就跟安打一樣好。」

但實際上安打比保送更好,特別是這個安打是全壘打時。然而在計算打擊率時,全壘打跟安打沒什麼兩樣。這也是為什麼目前最受歡迎的打擊數據之一是整體攻擊指數(上壘率加長打率)以凸顯長打能力。因此路蓋里在1928年世界大賽對上聖路易紅雀隊時,儘管打擊率只有不起眼的0.545,但整體攻擊指數卻高達瘋狂的2.433。

辛巴里斯特指出「魔球」有許多不合理之處,譬如要是上壘率這麼重要,為何奧克蘭運動家隊的上壘率,一路從2000年的0.360降到2001年的0.345,戰績最佳的2002年甚至只有0.339?但他最尖銳的評論是針對我們這些引用愛因斯坦跟艾普斯坦(知名球隊經理人)一樣頻繁的人。

辛巴里斯特與鮑默在書中寫道,「魔球」的主題除了鹹魚翻身外,還呼應了另一個現代文化中常見的迷思:量化分析便是科學。如果你只會算數,即使清點了100萬顆從樹上掉下來的蘋果,依然想不出萬有引力。

SA原文:When It Comes to the Baseball Stat Rage, Quantification Doesn’t Always Make It Science

刊載於《科學人》2014年第147期5月號

文章難易度
科學人_96
39 篇文章 ・ 3 位粉絲
《科學人》雜誌-遠流出版公司於2002年3月發行Scientific American中文版,除了翻譯原有文章更致力於本土科學發展與關懷。

0

2
1

文字

分享

0
2
1
什麼是抽樣誤差?老師和媒體都沒教你的那些事
tml_96
・2020/11/19 ・3758字 ・閱讀時間約 7 分鐘 ・SR值 550 ・八年級

國小高年級科普文,素養閱讀就從今天就開始!!

本文原文刊登時間為2020年11月6日,原文標題為《什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?

美國總統大選進入最後一周時,許多媒體紛紛在搖擺州進行民調,其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張,許多州出現極小的得票差距。圖/Pixabay

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示:在 824 位可能投票的選民中,川普領先拜登 50−48個百分點,因為抽樣誤差為 ± 4.0 %,報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示:在1,451位可能投票的選民中,拜登領先川普47−44個百分點,其抽樣誤差為 ± 3.2%

兩個民調相隔只 2−3 天,拜登從落後 2 個百分點轉為領先 3 個百分點,這領先程度有統計顯著性嗎?(佛州開票 96% 的結果是川普 51.2% 拜登 47.8%)

弗羅里達州的民調與開票96%後的實際結果。圖/作者提供。

這裡有兩個相關問題要先解決:

  • 第一、樣本數 N=1,451 為何抽樣誤差是 ±3.2%?這個數字對嗎?一般民調若樣本數在N=1,000左右,抽樣誤差不是大約 ±3% 嗎?為何紐時的樣本數高達 N=1,451,抽樣誤差不是更低?反而更高?
  • 第二、如果抽樣誤差低於±3%,那拜登在佛州領先川普超過抽樣誤差,便可以說這差距有統計顯著性嗎

 什麼是「抽樣誤差」?

首先解釋第一個問題:所謂「抽樣誤差」(margin of error)的是當母體比例為π時,重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說:當母體比例為π時,重複抽取許多樣本數為 N 的樣本會得到許多不同的P值,這些 P 值的分佈稱作 P 的「抽樣分佈」(sampling distribution)。

根據中央極限定裡,P 的抽樣分佈是以π為中心的常態分佈,其變異量是 π(1-π)/N。我們若以π為中心取一個區間(π-m, π+m)讓 P 落在區間內的機率為 95%,則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差,其公式為:

雖然這個公式可以適用於任何的π值,在沒有特別資訊的情況下,一般以 π=0.5 來計算 MOE。

舉例來說,聯合報在 2019 年 12 月 12-14 日實施了一個民調,它在報導中特別就調查方法報告如下:

「調查於十二月十二日至十四日晚間進行,成功訪問一千一百一十位合格選民,另二百九十一人拒訪;在百分之九十五信心水準下,抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣,藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點,調查結果依廿歲以上性別、年齡及縣市人口結構加權,調查經費來自聯合報社。」

同樣的,蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到:

「本次民調由《蘋果新聞網》委託台灣指標公司執行,經費來源是《蘋果新聞網》,調查對象為設籍在全國22縣市且年滿20歲民眾,調查期間為12月27日至29日,採用市內電話抽樣調查,並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法,再以電話號碼後2碼隨機抽出,成功訪問1,069位受訪者,在95%信心水準下,抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE=2.94%、3.00%,正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多,為何它所報告的抽樣誤差反而較大?我們若把 N=1,451 套入上式,不是應該得到 MOE=2.57%嗎?為何紐時說是 3.2%?

其實不只紐時,華郵/ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣?華郵/ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」(including design effects)之後計算所得;什麼是「設計效應」?

什麼是「設計效應」?

這個問題牽涉到「有效樣本數」(effective sample size)的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」(valid N),而是在調整受訪者代表性之後的「加權樣本數」(weighted sample size)。

下面我會說明:紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差,也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」(simple random sampling)得到的結果,母體中每人被抽到的機率並不一致。因此,樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致,樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數,其數值代表樣本中每個受訪者所代表族群的權重。

例如「台灣選舉與民主化研究」2020年民調資料合併檔(TEDS2020)中便有這樣的一個權值變數w,它的值介於0.295至3.474之間,其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係,原來的樣本數已不能有效反映加權後的樣本數,因此有所謂「有效樣本數」(effective sample size)的概念,有效樣本數的計算方式因加權方式而異,抽樣理論大師 Leslie Kish 建議了一個粗略的算法:

除非根本沒有加權,否則這個公式一定小於N,也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例,ESS=2,359,也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差,則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異,可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果,我們定義「設計效應」(design effect)為:

由於抽樣誤差之平方與樣本數成反比,上式也可導出:

再以TEDS2020為例,DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差,我們可以算出佛州民調的設計效應:

這設計效應比TEDS2020要高出很多!這可能是因為TEDS採用分層隨機抽樣面訪,其設計比起新聞媒體採用電話+手機有所不同。有了設計效應的估計值,我們就可以算紐時佛州民調的有效樣本數了:它的 ESS=936,只有原樣本數的三分之二。相對而言,華郵/ABC的佛州民調的設計效應是 DE=1.37,其有效樣本數是ESS=600.

如果我們以 N=936 算基於簡單隨機抽樣設計的抽樣誤差,它會恰恰是紐時所報告的 3.2%。以 N=600 來算的話,抽樣誤差就剛好是ABC/華郵所報告的 4.0%。

值得注意的是: 如果紐時效仿聯合報用原樣本數 N=1,451 計算抽樣誤差,這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差,因而具有統計上的顯著性。紐約時報的分析家沒有這樣做,這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題:一般媒體通常只報告單一比例的抽樣誤差,而對比式民調著重的不是單一比例,而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣,它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差,我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀,並提出一個計算正確抽樣誤差的公式。

這篇文章請見:對比式選舉民調的錯誤解讀 

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

計算的結果是抽樣誤差高達 6.03 %:拜登領先的差距其實還在誤差範圍之內。

注意:如果以原樣本數 N=1,451 代入速算表,則抽樣誤差為 4.91%,比 6.03% 要小得多。

關於民調報導,還有很多進步空間

台灣的媒體在報導對比式民調的結果時,似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差,而未考慮設計效應。這個抽樣誤差本來就太小,再加上對比所產生的問題,可以說是雙重的誤導!

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外,有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章:5 Key Things to Know about the Margin of Error in Election Polls

tml_96
34 篇文章 ・ 225 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

7
0

文字

分享

0
7
0
統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》
臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供

圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供

圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供

圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

臉譜出版_96
64 篇文章 ・ 244 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。

0

2
3

文字

分享

0
2
3
假裝在笑,可能讓你更快樂,也可能不會──2019搞笑諾貝爾心理學獎
寒波_96
・2019/09/27 ・3323字 ・閱讀時間約 6 分鐘 ・SR值 561 ・九年級

搞笑諾貝爾獎每年都是新的開始,2019 年也不例外。今年「第 29 次第一屆搞笑諾貝爾獎」一共頒發 10 個獎項,心理學獎得主 Fritz Strack 的得獎理由是:

「發現嘴上咬著一支筆表現出笑的樣子,會讓人變快樂—然後又發現沒這回事(for discovering that holding a pen in one’s mouth makes one smile, which makes one happier — and for then discovering that it does not.)」。1

裝出笑臉會變得快樂?圖/取自 IMDb

哈哈哈哈哈還真的 hen 好笑,不過就像大部分獲得搞笑諾貝爾獎的研究,這也是個很認真,毫無搞笑意圖的研究。這個獎的背後,可以牽連到最近幾年熱門的「重複性危機」(又稱「再現性危機」),以及一些值得科學界深思的問題。

「臉部回饋假說」測試:一支筆,一部片

整個問題的根本,在於情緒表情的關係。一個人心情好會表現笑臉,心情不好則表現哭臉,是非常符合直覺,也早已被證實的現象。然而,有人認為反過來也成立:不只情緒影響表情,表情也會影響情緒;一個人假如表現出笑的樣子,將感到更快樂;如果表現沮喪的樣子,也會變得更加沮喪。

此一假說被稱作「臉部回饋假說(facial feedback hypothesis)」,一個人快樂的時候會笑,笑了又會更快樂!但是該如何測試快樂正回饋假說呢?

1988 年的時候,Fritz Strack 與他快樂的夥伴們 Leonard Martin 和 Sabine Stepper,一同發表了一道經典實驗,證實臉部回饋假說正確。他們設計的實驗非常簡單,裝備只需要一支筆,以及一部卡通。2

一支筆與一部片,但不是這種的!圖/取自 yourprops

研究人員用了些技巧,在不影響情緒的狀況下,讓受測者表現出笑臉或愁眉苦臉。他們將受測者分為兩群:一群用牙齒咬著筆,如此臉部動作就會類似快樂的笑;另一群則是用嘴唇含著筆,臉部就會呈現類似愁眉苦臉的樣貌。

接著,再播放同一部卡通,讓受測者判斷卡通有多好笑,由最難笑的 0 分給到最好笑的 9 分。最終統計結果是,牙齒咬筆組比起嘴唇含筆組,評分會更高 0.82 分,達到顯著差異。意謂臉部展現出笑的表情,會讓人情緒感到更快樂,證實了臉部回饋假說。

是這樣才對:左邊是牙齒咬筆,右邊是嘴唇含筆 。圖/取自 ref2

無法重複的實驗

對心理學有點認識的人應該知道,許多學界最近面臨「重複性危機」,而心理學是這個爭議的主要戰場之一。某些心理學實驗的結果,換組人做就不一樣。那麼這些結論到底可不可信,相關的衍生研究及應用又該如何看待?

一部片一支筆實驗支持臉部回饋假說,在 1988 年發表以後成為心理學的經典實驗,被學界普遍接受,至今被引用高達 2042 次,卻長期沒有被人用一樣的方法重複過。後來有人復刻這個經典實驗,發表於 2016 年,重複實驗的結果卻與原本的結論不一致。3

更大規模的新測試中,共有世界各地 17 組研究者參加,總共紀錄到 1894 位受測者。結果 17 組中只有 9 組的效果是正面的,另外 8 組反而是負面影響。

復刻實驗 17 組的結果,有些研究有證明有些沒有……到底是怎樣啦。圖/取自 ref2

所有受測者一起分析的結果是,笑臉牙齒咬筆組與哭臉嘴唇含筆組,兩邊只差 0.03 分,標準差則是介於 -0.11 到 0.16;也就是說,臉部表現出笑的表情,不會讓人覺得卡通更好笑,反之亦然。

因此最終結論:「發現嘴上咬著一支筆表現出笑的樣子,會讓人變快樂──然後又發現沒這回事。」

結果無法重複怎麼辦?Why so serious?

然而,無法重複當年的結果,不直接意謂當年的實驗就是錯的,也不等於臉部回饋假說是錯的。當初經典實驗的作者之一 Fritz Strack 在 2017 年發表一篇很認真的文章,探討相關的議題,然後使他獲得 2019 年的搞笑諾貝爾獎。4 ????

為什麼心理學實驗無法重複?Fritz Strack 認為有三個可能性,第一是蓄意造假,當然 1988 年的三位作者並沒有造假。另外還有兩種可能,第二個可能是:原本的結果不是真的,並非正確的效應;第三種可能是:原本的效應太弱,由於不夠強,導致在不同的實驗脈絡下無法重現。

這兩種可能性的差異在於,無法重複的舊結論,一種是假的,另一種是真的。倘若舊實驗得到的結果是假的,又不是蓄意造假,那麼可能是偽陽性所致,也就是機率問題。

新舊實驗的對照。圖/取自 ref2

也有可能舊實驗看到的結果,事實上是正確的,影響力卻太過微弱,會受到每次實驗時不同的外在條件影響,導致無法每一次重複都成功。

驗證假說採取的實驗效果該有多強,又取決於目的。比方說,假如目的是測試臨床藥物,那麼排除不同條件的外在影響,找到強效的測試辦法就很重要;但是如果目的是檢驗理論的基礎研究,實驗方法的強度就相對沒那麼要緊。

重複性危機其實被高估?

考量到研究的發表,又是另一個層面。眾所皆知,會被期刊接受發表的論文,多半報告的是有差異的結果(positive result),假如做出的研究品質非常好,卻是沒有差異的結果(negative result),被接受的機率將低得多。

同樣的道理,在重複前人的研究中,會被接受而問世的論文,大部分不是順利重複,得到與前人一致的結果,而是無法複製,推翻過往的研究。也因此,我們會見到「很高比例論文的結果無法再現」這類新聞的標題,而實際狀況或許沒有這麼嚴重。

對科學發展更有建設性的思考方向或許是:

無法再現的研究能有什麼意義?

讓心理學再次偉大,該怎麼做?

有關於自己的實驗無法被重複,造成的影響,Fritz Strack 感到不樂觀,不過理由大概不是你想的那樣。

心理學家應該要勇於探索各種人類行為,拓展知識疆界!圖/取自 polygon

他的想法是,效果強的實驗容易被重複,效果弱的實驗不容易複製;假如心理學家們因此被鼓勵去多做強效的實驗,將使得心理學轉往更偏應用性的方向,與創新理論漸行漸遠。

倘若心理學研究結果只是單純考慮效果強弱,不能導引出批判性的辯論,那麼這樣的研究,對於了解科學問題的內涵,將無法帶來太多幫助。另一方面,過度強調重複性危機,也會讓公眾對心理學研究失去信心。

2016 年《Annual Review of Psychology》的序言中提到:

「再現失敗不是科學的問題;而是找出條件限制與情境效應的良機。(A replication failure is not a scientific problem; it is an opportunity to find limiting conditions and contextual effects.)」

新的研究如果無法重複舊的結果,將是重新審視此一問題,引發討論的機會,若是能藉此帶來新的想法更好。證實之前的實驗方法在一種情境適用,另一種狀況不能用,比單純打臉以前結果是錯的更有意義。

Fritz Strack 認為如今的心理學,真正面臨的危機其實是「知識論危機(epistemological crisis)」,將科學論述限制於概率模型(probabilistic model),期望由數據直接獲取真相。心理學在這套觀點下或許會退化為,只重視一系列有強有弱的效應與現象,而不再探索人類行為的基本定律。心理學界必需著重在有意義的科學問題,才能開創更好的科學。

每一位科學研究者都應該質問自己:科學研究的目的究竟是什麼,我們該研究怎麼樣的科學?不論你認同不認同 Fritz Strack 的看法,都可以思考思考他的觀點。

話說回來,這個搞笑諾貝爾奬還真的有夠嚴肅的,沒辦法,科學家的搞笑就是這麽樸實無華且枯燥。

2019 年搞笑諾貝爾獎頒獎典禮(心理學獎從 1:09:51 開始)

延伸閱讀

參考文獻

  1. The 2019 Ig Nobel Prize Winners
  2. Strack, F., Martin, L. L., & Stepper, S. (1988). Inhibiting and facilitating conditions of the human smile: a nonobtrusive test of the facial feedback hypothesis. Journal of personality and social psychology, 54(5), 768.
  3. Wagenmakers, E. J., Beek, T., Dijkhoff, L., Gronau, Q. F., Acosta, A., Adams Jr, R. B., … & Bulnes, L. C. (2016). Registered Replication Report: Strack, Martin, & Stepper (1988). Perspectives on Psychological Science, 11(6), 917-928.
  4. Strack, F. (2017). From Data to Truth in Psychological Science. A Personal Perspective. Frontiers in psychology, 8, 702.

本文亦刊載於作者部落格《盲眼的尼安德塔石匠》暨其 facebook 同名專頁

寒波_96
172 篇文章 ・ 613 位粉絲
生命科學碩士、文學與電影愛好者、戳樂黨員,主要興趣為演化,希望把好東西介紹給大家。部落格《盲眼的尼安德塔石器匠》、同名粉絲團《盲眼的尼安德塔石器匠》。

0

0
0

文字

分享

0
0
0
一切盡在計算中
科學人_96
・2014/05/28 ・937字 ・閱讀時間約 1 分鐘 ・SR值 598 ・九年級

國小高年級科普文,素養閱讀就從今天就開始!!

sm147-102

除了打擊率、上壘率,還有整體攻擊指數、最終守備指數……

撰文 / 米爾斯基(Steve Mirsky
翻譯 / 周坤毅

青翠的草地綿延至外野區、馬皮棒球落進牛皮手套時發出的清脆響聲、檢方搜索選手亂扔的禁藥注射器沒錯,棒球球季已經展開。

在我開始看棒球的純真年代,棒球統計數據只有三種:打擊率、全壘打與打點,現在多了上壘率、整體攻擊指數、最終守備指數、勝場貢獻指數等不知所云的數據。

我為了解這些數據的意義,今年1月前往曼哈頓東11街一家「伯吉諾棒球俱樂部」蒐藏品專賣店,聆聽史密斯學院經濟學教授辛巴里斯特的演說,他與紐約大都會棒球隊的前數據分析專家、現任史密斯學院數學系訪問教授鮑默合著《棒球統計學革命:分析棒球數據的崛起》。沒錯,他們分析別人的分析結果。誰來監視分析者?就是他們。

究竟什麼是棒球統計學?辛巴里斯特解釋:「棒球統計學利用統計分析來了解並評估球員表現、球隊戰術與行銷策略。」可惜數據不會告訴你,當球隊戰績差到什麼程度時,經理便得切腹自殺。

由2003年小說改編的電影「魔球」,讓棒球統計學家喻戶曉。故事描述2002年意外成功的奧克蘭運動家隊,關鍵策略便是利用統計數據發掘實力被低估的低薪球員,其中最重要的數據是上壘率,約等於安打加上保送次數除以打席。誠如古老的棒球諺語:「保送就跟安打一樣好。」

但實際上安打比保送更好,特別是這個安打是全壘打時。然而在計算打擊率時,全壘打跟安打沒什麼兩樣。這也是為什麼目前最受歡迎的打擊數據之一是整體攻擊指數(上壘率加長打率)以凸顯長打能力。因此路蓋里在1928年世界大賽對上聖路易紅雀隊時,儘管打擊率只有不起眼的0.545,但整體攻擊指數卻高達瘋狂的2.433。

辛巴里斯特指出「魔球」有許多不合理之處,譬如要是上壘率這麼重要,為何奧克蘭運動家隊的上壘率,一路從2000年的0.360降到2001年的0.345,戰績最佳的2002年甚至只有0.339?但他最尖銳的評論是針對我們這些引用愛因斯坦跟艾普斯坦(知名球隊經理人)一樣頻繁的人。

辛巴里斯特與鮑默在書中寫道,「魔球」的主題除了鹹魚翻身外,還呼應了另一個現代文化中常見的迷思:量化分析便是科學。如果你只會算數,即使清點了100萬顆從樹上掉下來的蘋果,依然想不出萬有引力。

SA原文:When It Comes to the Baseball Stat Rage, Quantification Doesn’t Always Make It Science

刊載於《科學人》2014年第147期5月號

文章難易度
科學人_96
39 篇文章 ・ 3 位粉絲
《科學人》雜誌-遠流出版公司於2002年3月發行Scientific American中文版,除了翻譯原有文章更致力於本土科學發展與關懷。