0

文字

繁 | 简

0

數學妙用活得科學社會群體

p 值的陷阱（下）：「摘櫻桃」問題

林澤民・2017/01/07 ・8458字・閱讀時間約 17 分鐘・SR值 545

・八年級

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

編按：本文係林澤民老師在2016年中進行的相關系列演講之一的逐字稿修訂版，本場次為2016/6/6在政大社科院的演講，題目為《看電影學統計：p 值的陷阱》。原文刊於《社會科學論叢》2016年10月第十卷第二期。

此篇文章為下篇，建議先收看上篇文章：〈 p 值的陷阱(上)：p值是什麼？又不是什麼？〉

Source：SONY DSC — Source：Vicente Villamón

「摘櫻桃」問題

再來我們講到「摘櫻桃」問題，如同剛剛所提到，研究假設的先驗機率是如此重要，我們要如何去判定？要怎麼知道它是多少？我們必須要做文獻的分析、要建構我們的理論，在這種情況之下，會出現摘櫻桃的問題。這裡就是要呈現給大家看，譬如我們作 20 個統計檢定，從作第一個開始，本來有一個 model，但是 p 值不顯著，我們就改一下model，加一個變數、減一個變數，或是把一個變數平方，或是把一個變數取 log，或者把樣本除去一些，增加一些，這樣慢慢去試驗，最後終於得到一個顯著的結果了！但這裡告訴你，做了 20 個這樣的檢定，我們以為每一個檢定的 Type I error 控制在 0.05，可是 20 個裡面最少有一個顯著的或然率是多少？是 0.64。（圖八）

為了讓大家能夠進一步了解這個問題，再給大家看一部電影，這部電影是《班傑明的奇幻旅程》。

讓大家看這部電影，我們可以注意到，這部電影所講的，跟上一部《玉蘭花》很類似，也在討論是這樣發生車禍到底是 by accident 還是 by design。它的議論應該是：這種車禍的發生，其實有一連串的因果鏈，只要這因果鏈其中有一個環節稍微不一樣、或是沒有發生的話，可能車禍就不會發生。因此它的敘述者暗示說其實是 by design，而不是 by accident。然而現在要跟大家說明，這個結論是錯的。電影要說明這是 by design 而不是 by accident 的話，是完全錯誤的。為什麼？大家只要想想看，我們政大門前有條交通繁忙的馬路，你一邊跳舞一邊過街，看會不會被車撞上，不是極有可能會嗎？為什麼？因為車禍是 by accident，它是說被某一輛特定車子撞到的機率很低，譬如是 0.05，可是如果有 20 輛車子經過的話，被其中最少一輛撞到的機率就會很大，剛才已經算給各位看，所以電影是錯誤的。

類似這種問題，其實我們日常生活中所在多有。再以大樂透為例：你買了一注大樂透，你中頭獎的機率是 1 / 13,980,000。如果你自己中獎，你也許會說這是命運，不是機率，因為中獎的機率近乎 0。但全台灣賣了5,000,000 注的大樂透，最少有一注中頭獎的機率其實是 0.30。你不能舉出有人中獎的事實就否定大樂透開獎的隨機機制。

-----廣告，請繼續往下閱讀-----

這就是 cherry-picking，只抓住發生的事件，就來說因為有這麼多因果鏈，如果稍微有一點不一樣，這種事情就不會發生，這是錯誤的，因為它有很多其他的可能性同時存在。現在在統計學裡面，很多人很不在意這個問題，甚至主張這種問題不存在，而其實它可能比 p 值的誤用還要嚴重。這種問題叫做多重假說檢定（multiple hypothesis test）、多重比較（multiple comparison），我有同事對這種問題的反應十分強烈，主張所有的研究都必須要事先登記，什麼叫做事先登記？並非申請研究經費、寫一個研究計畫這麼簡單，所謂事先登記（pre-registration）的觀念，就是在做任何研究之前，研究者必須要把研究計畫 post 在網站上，而且 post 上之後就不能改，現在其實已經有很多這種網站存在，將來研究者發表文章，如果跟預先登記的研究設計不一樣，其他人就可以對你發表的結果提出質疑。

只從單一結果去回推的因果論其實是不正確的，因為事情在發生時其實是多重可能性並存。圖／Marcus Pink @ Flickr — *只從單一結果去回推的因果論其實是不正確的，因為它有很多其他的可能性同時存在。圖／Marcus Pink @ Flickr*

小結：在多重假說檢定的情況下，即使 H₀為真，「至少有一 p 值檢定顯著」的機率常會甚大於單一 p 值檢定的顯著水平 α。以「摘櫻桃」的方式只報告顯著的檢定結果常會導致錯誤的統計推論。

結語

圖九是 ASA 建議取代 p 值的其它途徑，在此沒有時間細講，大致上是要用其它方法，比如貝式統計學。（圖九）這邊提到的很多方法都跟貝式統計學有關係。我們現場有貝式統計學的專家，他們懂得怎麼用貝式統計學來分析資料。但對於還沒有學到貝式統計學的朋友，這邊 ASA 特別提到的 confidence intervals（信心區間）是傳統統計學的方法。ASA 似乎認為使用信心區間比使用 p 值檢定要來得好，但是信心區間其實是連續性的 p 值檢定，如果只是看看虛無假設的理論值有沒有在信心區間之內，則檢定的結果跟 p 值檢定是一樣的。但如果把信心區間畫出來，至少有一個好處，它會清楚呈現出效應的大小，讓你不但能看出檢定結果的統計顯著性（statistical significance），也能看出估計值的實質顯著性或重要性（substantive significance）。我們使用信心區間，總比只用一顆星兩顆星來標明統計顯著性要好。

如果一定要用幾顆星的話，大家就不要再用 α = 0.10 了；p <0.10 就不要再加星星了。我知道 American Journal of Political Science(AJPS) 已經不接受 α = 0.10 這個顯著水準的統計檢定了；不管是單尾檢定或是雙尾檢定，用 α = 0.10 已經不被接受了。0.05 還可以，最好能用 0.01，審稿人對你較難有所批評。

但是最重要的，如果我們不得不用傳統的統計方法，我們必須要增強我們的理論論述和脈絡描述，因為增強理論論述和脈絡描述，即會增強研究假設的先驗機率。當研究假設的先驗機率比較高時，其後驗機率–偽陽性的反機率–就會比較低。這好比你健康檢查某種疾病的篩檢出現陽性時，好的醫生會從你的性別、年齡、生活習慣、飲食作息、家庭病史、乃至於居住環境等脈絡來判斷你是否有充分的病因，以之來詮釋篩檢的陽性結果。這其實就是貝氏更新的道理。

-----廣告，請繼續往下閱讀-----

我讀這些文獻後的想法是：統計學很快就會有很重大的改變，傳統的作法、用 p 值來作統計檢定的作法，大概再過幾年，就不容易再存在。所以大家必須要應變，這也是我在回國來，希望能夠提醒大家注意的一個問題。

Q&A 時間

發問１

林老師您好，謝謝您今天很精彩的演講，也很謝謝上禮拜六參加計劃時，您給我們的文章有很大的啟發與提升。今天聽了這個演講以後，我覺得我們對於 p-value 的使用可能要有心理準備，未來就算不是被全部淘汰，大部分也要被丟到另外一邊去。我在想的一個問題是，因為老師提到使用 confidence intervals，我們在寫作時，有一個習慣是會比較傾向去解釋那些在 p-value 上顯著的變數，如果說未來使用 confidence intervals 的話，我們是不是應該在文章裡面，每一個變數都要去解釋它對 dependent variable 的重要性？或是說應該怎樣去作結果的討論以及處理？謝謝！

林澤民：我想你的自變數應該也有所謂的解釋變項與控制變項吧。我覺得如果控制變項不是麼重要的話，也許就不用太費勁去討論，就著重在解釋變項。解釋變項就是不管作傳統的統計顯著或不顯著，都要加以討論。不只是討論統計的顯著性，更要討論實質的顯著性，而實質的顯著性或重要性是比較能從 confidence intervals 看出來的。其實 p 值的問題是兩面刃，說不定對我們也有好處，就是將來得到不顯著的結果，說不定都可以 publish，都可以呈現在你的論文裡面，而不用怕被人家說：明明就不顯著為什麼還要報告。

發問２

林老師您好，我是經濟系的學生，謝謝林老師今天很精彩的說明，這邊至少有兩個點想跟林老師請教，以及跟大家分享。第一個就是如您剛才所說，我們在作實證研究的時候，不管是我們自己或是長期的訓練，或是目前的期刊的要求，關切的都比較是顯著的結果，所以過去在經濟學界也有對這方面的討論，談到為什麼要去關切那些不顯著的結果；同樣的道理，那些不顯著的結果要被期刊接受的機會也是非常非常低。你唯一可以被接受的理由大概就是，我們看到這個人所作的東西，以後就不要再作了，大概就是樣子。我第一點要說的是，我們目前有這樣的困境。您剛提到一個很好的論點，未來也許大家會有一個共識，就是不顯著的結果反而是更重要的。

-----廣告，請繼續往下閱讀-----

我的第二點是一個問題：您剛剛提到，確實在醫學或自然科學部分，要去找到一些理論上的基礎，可能相對來講比較容易。在社會科學裡面，如果要去找到一些所謂的因果關係，或是比較扎實的理論，可能比較困難，因為人的行為無法像自然科學的實驗室般重複去作，且控制到所有條件都一樣。針對此部分，您剛認為要加強理論的論述，好讓 prior 來的比較 solid 一點，就社會科學部分不知道有沒有更好的一些方法，或至少不會差自然科學太多？這部分確實對我們社會科學的人來講比較困擾一點。

林澤民：我先從第二個問題來回答。我不敢說整個社會科學啦，但在政治學界大概很多人會跟你說：你可能要用賽局理論。

美國政治學在過去十幾年來有一個概念叫作 EITM－Empirical Implications for Theoretical Models。名稱有點奇怪，但它的用意是把統計分析跟理論結合，講 EITM 的人特別強調的就是形式理論，特別是賽局理論。就是作一些對人性的基本假設，然後用賽局理論的數學分法去 deduce，用邏輯去導出一些結果出來，然後再把這些結果用統計方法加以檢定。這在政治學過去十幾年來，已經變成一個很普及的概念。

這有它的好處，就是在形式理論部分，只要基本假設大家能接受，它的邏輯都是沒有爭議的。嚴格來講，形式理論只要大家接受你的假設和邏輯推演，就要接受你的結果，用統計來檢定結果是多餘的。但是我們知道，比如假設行為者是理性的，然而真實的人不一定理性，所以經驗檢定還是重要的。EITM 用形式理論來增強理論的先驗機率，我想這是很不錯的。

-----廣告，請繼續往下閱讀-----

*在社會科學理論生成的背後，對於人性的基本假設只要大眾大致能同意，對於推論的結果也就能接受。圖／Adrian Hu @ Flickr*

你前面第一點提到關於不顯著的結果，當然我也不是說將來學術期刊會大量接受不顯著的檢定結果，我想也不至於，可能只是要求你把這些不顯著的結果都 post 在網頁上；然而對於教授升等，這些作品算不算也不一定，但是我想某種程度上這是合理的預期，一旦不需要使用幾顆星的話，不顯著的結果也可以放進文章裡去，期刊會從整篇文章的研究設計、立論、方法、和結果，來衡量決定到底能不能發表，而不會斤斤計較是一顆星、兩顆星，還是沒星星，所以我對這點倒是有點樂觀。其實，現在已經有很多期刊採取「預約接受刊登」（pre-acceptance）的編輯政策，也就是審查你的研究計劃就可以決定要刊登你計劃執行後的完稿，條件是不論經驗資料支持不支持你的研究假設，完稿都不得改變當初的研究設計，包括 model specification，這就是說不顯著的結果也要刊登了。

其實可以跟大家預告一下，八月四日在中央研究院政治學研究所，為了慶祝所慶，有一個學術討論會。討論會的主題是「甚麼是研究發現」？引言人有朱雲漢、吳玉山兩位院士跟我三個人。我的任務就是報告 p-value 的問題。傳統來講，統計上顯著的結果才叫做 findings，不顯著的結果是 non-findings，但是這觀念可能要有所改變了。這等到八月四日再專門來講。

發問３

謝謝林老師很深入淺出的演講，之前在上統計課的時候，雖然有講到 p-value 的問題，但每次在上大學部課程時，我常常都沒辦法把這一塊講得這麼清楚。在我還是研究生的時候，我們就有很多這方面的討論，而這幾年這問題特別地被突顯，我認為很大的原因，大概是電腦技術越來越好、作 testing 的困擾已經越來越少；另一方面，如果你相信 Bayesian 的話，你應該相信所有的 parameters 都該是 probability term，而不是 deterministic term，說它是顯著還是不顯著。我也有一個問題想請教林老師，您如今在基礎統計的教學裡面，對 p-value 是用傳統 frequentist 的講法，還是像現在等於把它推翻？因為我常有這樣的困擾，就是在初級的課用 frequentist 的方式講，然後到了進階的課，再拿 Bayesian 的 approach 去推翻自己原本以前講的。我不知道林老師您目前在授課時，是用什麼樣的方式？特別是針對 frequentist 的邏輯。

林澤民：我想你對 p 值問題的了解應該比我更早。我是這幾年來才慢慢地逐步了解這個問題。在教學上要採取立即的改變，其實很不容易，我完全了解。我們有一個同事後來就在抱怨，ASA 為什麼要發表這個東西？他說現在所有的journal articles，還有教材、教科書，全部－至少百分之九十幾－都是傳統的統計學，你怎麼來教大學生新的東西？所以這是很困難的。今天我在這裡演講，如果有一點點是我自己觀察來的結果，而不是完全從文獻上得到的，我想是關於 prior－H_A 的 prior－怎樣去影響到偽陽性的反機率，這我覺得很重要。

-----廣告，請繼續往下閱讀-----

我目前教學仍是會用傳統方法，畢竟要把一本教科書重新編輯、作講義，是很大的工程。此外，我自己跟你不一樣，我是 frequentist，你來教 Bayesian 比我容易多了。我以前會放電影，跟學生講 p 值是什麼。我現在也放電影，跟學生講 p 值有什麼問題，讓他們了解。然後我會對他們說，在還沒學習貝式統計學之前，要比較強調 prior。也就是你用傳統的統計方法作研究，如果研究假設沒有很高的 prior 的話，也許你就不要作了。

發問（接續）：我只是有時候會有點精神錯亂，之前跟學生講過的東西，在比較進階的課程時就要把它推翻掉。

林澤民：在座如果有老師教統計學，請你不要說：林老師今天講的就代表我上課講的都錯了。學生也不要說我上課學的都錯了。不是這麼一回事，這不是我的用意。因為 p 值本身它並沒有錯，錯的是大家對它的誤解誤用。至於傳統的教學方法要怎麼改，我們要慢慢試，但是我們要了解這個問題的存在。我自己到最近教學還是用傳統方法，如果今天請我的學生來聽我演講，他們會說：老師你以前教的都錯了。但事實上，不只是我們教書的，有多少科學、商業或政策上的決定，都是奠基於 p 值檢定的結果之上，我們能說他們都錯了嗎？我想不能說他們都是錯的，可是我們要改變。

發問４

林老師好，我是理學院資科系的老師。非常謝謝林老師，很高興今天上老師的課。關於剛剛幾位老師的討論，我覺得在我們資科系，很多人的直覺，一個方法要嘛是對、要嘛是錯。你們搞機率的卻是：它可能百分之八十對、百分之二十錯。我覺得應該講清楚的是，就 prior 來講，只要 prior 夠強，過去 p-value 的方法大概是對的。這應該有range，大部分問題，只要 prior 在 range 裡面，或許 p-value 的方法是相當可靠的。我不會推翻過去的教學方法，說一切都是錯的，其實沒有麼嚴重。在大部分的問題裡面，過去的方法也許是可用的，只是今天我們面對一些方法，單獨的 p-value 並不是麼可靠，也就是一個漸進式的改變，這樣我們不會打自己嘴巴。

-----廣告，請繼續往下閱讀-----

*大部分問題，只要仍在某一可接受範圍內，就不必因為新方法產生而被全盤推翻，只要慢慢漸進調整即可。圖／Marcus Mailov @ Flickr*

林澤民：對，我完全同意。這就是為什麼我做了這三個圖表，可以看到雖然影響偽陽性反機率的因素包括 prior 和 power，但其實主要是 prior。即使 power 低到 0.50，只要 prior 也有 0.50，偽陽性的反機率也不過是 0.09。如果你願意用 0.10 的顯著水準，0.09 還是顯著的！要給一個可接受的 range，我覺得 prior 大於 0.50 的話，其實都還好。最怕的就是 prior 很低很低，像 ESP 這種研究假設。這也是為什麼在 p-value 問題的討論上，那一篇知名心理學家對 ESP 作的研究會被拿出來討論，因為它的 prior 幾乎是零，但是這只能夠很粗略的估計。

發問５

老師，這邊有一個小問題是：假設現在有十篇從舊到新的文章，它們的先驗機率都不太一樣，我如果要寫一篇文章，我要用最新一篇的先驗嗎？還是由自己發展出來、自己認定？

林澤民：當然你說先驗機率不太一樣，它為什麼會不一樣？是因為理論根本不一樣嗎？還是說因為時間的關係，大家有越來越多的研究發表，先驗機率就會逐步改變？如果已經有一個文獻，通常是建議你要作後設研究，叫 meta-analysis，就是把過去發表的文章統一起來作一個研究。但坦白說我個人也沒有作過這種 meta-analysis，可能可以在這方面的文獻去看一下。Eric，你可以就 meta-analysis 這點再作補充？

俞振華：嘗試把各種不同的 model 的係數，最後統整，變成有點類似老師您剛提的，試很多的 model 的 specification，然後組成一個結果。

-----廣告，請繼續往下閱讀-----

林澤民：對，我讀的這些 p-value 的文獻裡面，其實有些文章就是作 meta-analysis。

發問６

我有兩個關於寫作的問題，因為從老師的演講得到非常多心得。其中一個問題是，如果能強調理論先驗機率的強度，老師剛有提到用 EITM 看能不能夠結合形式理論的一些邏輯去增強強度，此外，我在思考是否有可能，至少就我自己在寫作時，會提出一些案例，然後再稍微說明，我有些案例，當然這些案例可證的是少數，因為全世界有一百多個國家，我們只有一兩個案例而已，說服力有限，但多多少少還是有些用處。我在想這樣作是否 Okay？這是為了提升理論先驗機率的說服力，而提出一些案例來作討論。

*只可證明少數的案例是否能用來提升理論先驗機率的說服力？圖／lee vickers @ Flickr*

第二，剛剛老師提到有關 non-findings，這些發現，相信以後應該越來越多人至少在文中會提到，可能一段、或幾句話。就老師的想法來說，要提是要怎麼提？是跟目前為止像跟大家講的一樣，要提的話就只能說，結果顯示並不是 statistically significant，就這樣子很平鋪直敘的描述？還是要稍微把重點放在跟理論的連結，即便結果沒有很顯著，但也不代表我的理論是錯的。我不曉得能不能這樣講，也許不行，因為太武斷。只是不曉得未來大家在強調沒有統計顯著水準的結果時，是要怎麼表達？是要平鋪直敘地講，還是要有些焦點？有些要強調、有些不一樣？

林澤民：我想先講第二個問題，而其實這在 Bayesian 根本就不是問題，Bayesian 就把 posterior distributions 畫出來就好，你根本也不需要去提是否顯著，因為「顯著」的概念本來就是 frequentist 的概念，它不是 Bayesian 的概念。所以要是你看過一些 Bayesian 的文章，你會看到它畫很多圖，每個圖都很小，一小格就一個圖，然後圖就畫上 posterior distributions，甚至連 credible intervals 也不一定要畫出。

俞振華：但是為了要跟 frequentist 對話，現在還是會有 95 % 的 credible intervals。

林澤民：對，不過需要 95 % 嗎？因為我最近寫一篇文章，合作者說 68 % 就可以。所以我想可能就不需要去談什麼顯著不顯著，你就把圖畫出來就好。你若不是 Bayesian，就用 confidence intervals，然後你去畫圖，每一個變數的係數你就把 confidence intervals 畫出來。至於 0 有沒有在 confidence intervals 裡面，我想不必然是唯一的重要標準，當然就實際情況來說，仍要看你的 reviewers 有沒有接受你的結果。我必須要強調，在網路上你還是可以找到一些文章，它們要替 p-value 辯護。要是碰到這樣的評論者，可能就必須要小心。

你第一個問題是說，提出實質案例而不一定是理論，我覺得也可以，我個人會接受，因為所謂文獻，除了理論之外，還有這種實質的知識、地方性的知識。我個人認為這些知識可以幫助我們加強 prior，特別是當這些案例能夠增加我們了解自己研究假設的脈絡時。ASA 的聲明特別提到脈絡（context）的重要性，我剛剛也有提到醫生詮釋陽性反應時，通常要參考病人所處的脈絡。但是我必須要說，我今天特別強調 prior 的重要性，我不知道在座是否有其他學者可以肯定我這一點，我覺得我個人強調 prior，可能與文獻上的這些在講 p-value 的危險性的 articles 相較時，我強調的可能比較多一點。我不能保證所有的統計學者都會同意我的看法，所以要是碰到我來評審你的文章就好了。但是我希望我講的還是有點說服力吧？要是你研究假設的 prior 夠強，可能 p-value 的問題就不是這麼大。

發問７

聽了很多同仁的問題，還有老師的回答以後，我這邊另外的問題是，因為在一開始，老師提到一個期刊－Basic and Applied Social Psychology，也講了 ASA 在今年提出的聲明，我想問，ASA 它的官方期刊─ JASA，是否已經有接受，或是應該說拒絕這種只報 p-value 的文章？還是說他們政策現在是做一個調整，同時都接受兩種？

林澤民：很抱歉，JASA 的文章我不是經常在看，我不能回答你的問題。但是我剛剛已經講了，BASP 在他們政策制定之後，ASA 有一個回應，不是那個 official statement，是在發表 official statement 之前的一個回應。那個回應只說 ASA 正在籌擬一個 official statement。而最後這 official statement 其實跟 BASP 的決定是不一樣的。因為 ASA 的 official statement，第一點在說明 p-value 是什麼，它並沒有說 p-value 錯誤，只是把 p-value 的正確意義講出來。換句話說，只要是使用正確的意義，p-value 並沒有問題，只是不要去誤用它。不要只是著重在統計顯著性，因為 model 對錯的機率跟 p-value 不一樣，要使用 p-value 作檢定，要把它跟 α 來做比較，所以問題不只是 p-value，而是 α。界定了 α 之後，才知道結果是不是顯著。當得到一個顯著的結果以後，必須再來衡量偽陽性反機率的問題，也就是 model 後設機率的問題，這就不是 p-value 可以告訴你的。

本文《看電影學統計：p 值的陷阱》轉載自 Tse-min Lin 的部落格。

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

林澤民

37 篇文章・ 247 位粉絲

台大電機系畢業，美國明尼蘇達大學政治學博士，現任教於美國德州大學奧斯汀校區政府系。林教授每年均參與中央研究院政治學研究所及政大選研中心「政治學計量方法研習營」(Institute for Political Methodology)的教學工作，並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

TRENDING 熱門討論

即時熱門

4

3

文字

0

4

3

看電影學統計：「多重宇宙」與統計學「隨機變異」的概念

林澤民・2023/03/15 ・2854字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

本文轉載自林澤民的部落格

「多重宇宙」是我教統計時常用到的名詞，我用它來解釋隨機變異（stochastic variation）的概念：

例如民調抽得一個樣本，此樣本的受訪者固然是一群特定人士，但理論上我們可以抽出許多許多樣本，這些樣本之間雖然會有隨機變異，但樣本彼此的宏觀性質仍會相近。這些不同的隨機樣本，可以以「多重宇宙」一詞來形容。即使事實上只有一個樣本（一個宇宙），我們可以想像在多重宇宙的每個宇宙裡，都有一個微觀上隨機變異的樣本存在。

一個樣本（一個宇宙），在多重宇宙裡，每個宇宙都有一個微觀上隨機變異的樣本存在。圖／IMDb

什麼是隨機樣本？

其實，數理統計學中「隨機樣本」（random sample）的概念指的是「一組獨立且同一分布的隨機變數」（a set of independently and identically distributed random variables）。

在這個定義之下，樣本的每一個單位（資料點）都不是固定不變的數值，而是一個依循某機率分布的隨機變數。「隨機樣本」的要求是樣本所有的Ｎ個單位不但要互相獨立，而且要依循同一的機率分布。

我們可以想像我們平常所謂「一個樣本」的Ｎ個觀察值，每一個觀察值背後都有一個產生這個數值的隨機變數，也可以說所謂「一個樣本」其實只是這「一組獨立且同一分布的隨機變數」的一個「實現」（realization）。那麼，不同的樣本就是這「一組獨立且同一分布的隨機變數」的不同「實現」。這樣了解之下的不同樣本、不同「實現」，我喜歡把它們稱為「多重宇宙」。

-----廣告，請繼續往下閱讀-----

多重宇宙中的隨機變異，是我們在分析一個樣本的資料時必須作統計推論的原因。

比如我們分析本屆所有 113 位立委的議事行為，既然立委一共只有 113 人，我們分析的對象不就是立委的母體嗎？那是不是就不必做統計推論？

不是！原因是我們仍然可以想像有多重宇宙存在，每個宇宙都有 113 位立委，而同一位立委在不同的宇宙裡其議事行為會有隨機變異。正是因為這隨機變異的緣故，我們即使分析的是所謂「母體」，我們仍然要做統計推論。

「多重宇宙」的概念可以說就是「假如我們可以重來」的反事實思想實驗。被分析的單位不是在時間中重來一次，而是在多重宇宙的空間中展現「假如我們可以重來」的隨機變異的可能性。

名為 Monday 的這集 X 檔案電視劇中，主角的夢境不斷重複，每次夢境的結構大致類似，但細節卻有所不同，這正是「多重宇宙—隨機變異」概念的戲劇化。

-----廣告，請繼續往下閱讀-----

【媽的多重宇宙】（Everything Everywhere All at Once）也是。

「看，這是你的宇宙，一個漂浮在存在宇宙泡沫中的泡泡。周圍的每個氣泡都有細微的變化。但你離你的宇宙越遠，差異就越大。」——【媽的多重宇宙】對白

這是說：變異程度越小的是離你越近的宇宙，程度越大的是離你越遠的宇宙。這裡所謂變異的程度，在統計學裡可以用誤差機率分布的標準差來衡量。

什麼是隨機變異？

關於「隨機變異」這個概念，我最喜歡的例子是研究所入學申請的評審。

例如有 120 人申請入學，我詳細閱讀每人投遞的申請資料（包括性別、年齡等個人特質還有 SOP、大學成績單、GRE 分數、推薦信等），然後打一個 Y=0～100 的分數。全部評閱完畢，我便得到一份 N=120 的資料。這個資料包括了所有的申請者，那麼它是樣本呢？還是母體？

-----廣告，請繼續往下閱讀-----

如果我要分析我自己評分的決定因素，我會把分數 Y 回歸到性別、年齡等個人特質以及資料中可以量化的變數，例如大學成績平均分數（GPA）和 GRE 分數。跑這個迴歸時，需不需要做統計推論，看迴歸係數是不是有統計的顯著性？

我的看法是這份 N=120 的資料是樣本而不是母體，做迴歸分析當然要做統計推論。

那麼我資料的母體是什麼？

迴歸分析資料的母體其實是所謂「母體迴歸函數」（population regression function），也就是通常所說的「資料產生過程」（data generating process, DGP）。

這個 DGP 就是我在評閱每份資料時腦海中的思考機制，它考量了許多量化和質化的變數，賦予不同的權重，然後加總起來產生 Y。

分析資料的母體，也就是常說的「資料產生過程」。圖／envato.elements

量化變數的權重就是母體迴歸函數的係數，質化變數則是母體迴歸函數的係數的誤差項。如果有很多質化變數攏總納入誤差項，我們通常可以根據中央極限定理，假設誤差項是呈現常態分布的隨機變數。這個誤差項就是「隨機變異」的來源。

評審入學申請，我通常只把所有資料評閱一次。這一次評審結果，會有幾家歡樂幾家愁，這便構成了一個「宇宙」。如果我第二天又把所有 120 份資料重新評分一遍，得到第二個樣本。因為我腦中的「資料產生過程」包括隨機變數，這個新樣本保證跟第一個樣本會有差異。用白話說：我的評分機制不精確，我自己甚至不知道我給每個量化變數多少權重，而且第二次評閱所用的權重也會跟第一次不盡相同，更不用說質化變數如何影響我的評分了。

-----廣告，請繼續往下閱讀-----

這第二個樣本，申請者的排比不會跟第一個樣本一樣，雖然也是幾家歡樂幾家愁，歡樂與愁悶的人也可能不一樣。這是第二個宇宙。依此類推，我們可以想像同樣的120位申請者，因為我「資料產生過程」的隨機變異，活在多重宇宙裡。

這些宇宙有的差異不大，根據【媽的多重宇宙】的說法，它們的泡泡互相之間的距離就較近，差異較大的宇宙，距離就較遠。如果申請者可以像電影所述那樣做宇宙跳躍，他們會看到自己在不同宇宙裡的命運。

我擔任德州大學政府系的研究部主任時，常耽心有申請者拿我們入學評審委員的評分資料去做迴歸分析。如果分析結果顯示種族、性別等變數有統計顯著性，說不定會被拿去控告我違反所謂「平權行動」（affirmative action）的相關法律。如果沒有顯著性，我就不耽心了。

多重宇宙之間會不會有「蝴蝶效應」？也就是宇宙跳躍時，隨機變異產生的微小差異，會不會造成新舊宇宙生命路徑的決然不同？

-----廣告，請繼續往下閱讀-----

在【媽的多重宇宙】中，伊芙琳只要當初做了一個不同的決定，以後的生命便可能跟現世（home universe）有很不一樣的命運。這在統計學也不是不可能。時間序列分析中，有些非線性模式只要初始值稍微改變，其後在時間中的路徑便會與原來的路徑發散開來。

你做時間序列分析時，會不會想想：時間序列資料究竟是樣本還是母體？如果你的研究興趣就只限於資料期間，那要不要做統計推論？當然要的，因為隨機變異的緣故。

如果你今年申請外國研究所不順利，也許在另一個宇宙裡，你不但獲名校錄取，得到鉅額獎學金，而且你的人生旅途將自此一路順遂，事業婚姻兩得意呢。

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

林澤民

37 篇文章・ 247 位粉絲

台大電機系畢業，美國明尼蘇達大學政治學博士，現任教於美國德州大學奧斯汀校區政府系。林教授每年均參與中央研究院政治學研究所及政大選研中心「政治學計量方法研習營」(Institute for Political Methodology)的教學工作，並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

TRENDING 熱門討論

即時熱門

2

文字

0

2

假藥也能治療？安慰劑效應的原因：「不」隨機化實驗！——《統計，讓數字說話》

天下文化・2023/03/03 ・1932字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

作者：墨爾 David S. Moore、諾茨 William I. Notz
譯者：鄭惟厚、吳欣蓓

實驗法中「隨機化」的必要性

隨機化比較實驗是統計學裡面最重要的概念之一。它的設計是要讓我們能夠得到釐清因果關係的結論。我們先來弄清楚隨機化比較實驗的邏輯：

用隨機化的方法將受試者分組，所分出的各組在實施處理之前，應該各方面都類似。
之所以用「比較」的設計，是要確保除了實驗上的處理外，其他所有因素都會同樣作用在所有的組身上。
因此，反應變數的差異必定是處理的效應所致。

我們用隨機方法選組，以避免人為指派時可能發生的系統性偏差。例如在鐮形血球貧血症的研究中，醫師有可能下意識就把最嚴重的病人指派到羥基脲組，指望這個正在試驗的藥能對他們有幫助。那樣就會使實驗有偏差，不利於羥基脲。

從受試者中取簡單隨機樣本來當作第一組，會使得每個人被選入第一組或第二組的機會相等。我們可以預期兩組在各方面都接近，例如年齡、病情嚴重程度、抽不抽菸等。舉例來說，隨機性通常會使兩組中的吸菸人數差不多，即使我們並不知道哪些受試者吸菸。

實驗組與對照組除主要測量變數外，其餘條件必需盡可能相似。圖／envatoelements。

新藥研究上不隨機分組帶來的後果：安慰劑效應

如果實驗不採取隨機方式，潛藏變數會有什麼影響呢？安慰劑效應就是潛藏變數，只有受試者接受治療後才會出現。如果實驗組別是在當年不同時間進行治療，所以有些組別是在流感季節治療，有些則不是，那麼潛藏變數就是有些組別暴露在流感的程度較多。

-----廣告，請繼續往下閱讀-----

在比較實驗設計中，我們會試著確保這些潛藏變數對全部的組別都有相似的作用。例如為了確保全部的組別都有安慰劑效應，他們會接受相同的治療，全部的組別會在相同的時間接受相同的治療，所以暴露在流感的程度也相同。

要是告訴你，醫學研究者對於隨機化比較實驗接受得很慢，應該不會讓你驚訝，因為許多醫師認為一項新療法對病人是否有用，他們「只要看看」就知道。但事實才不是這樣。有很多醫療方法只經過單軌實驗後就普遍使用，但是後來有人起疑，進行了隨機化比較實驗後，卻發覺其效用充其量不過是安慰劑罷了，這種例子已經不勝枚舉。

曾有人在醫學文獻裡搜尋，經過適當的比較實驗研究過的療法，以及只經過「歷史對照組」實驗的療法。用歷史對照組做的研究不是把新療法的結果和控制組比，而是和過去類似的病人在治療後的效果做比較。結果，納入研究的 56 種療法當中，用歷史對照組來比較時，有 44 種療法顯示出有效。然而在經過使用合適的隨機化比較實驗後，只有 10 種通過安慰劑測試。即使有跟過去的病人比，醫師的判斷仍過於樂觀。

過去醫學史上常出現新藥實際沒療效，只能充當安慰劑效果的情況。圖／envatoelements。

目前來說，法律已有規定，新藥必須用隨機化比較實驗來證明其安全性及有效性。但是對於其他醫療處置，比如手術，就沒有這項規定。上網搜尋「comparisons with historical controls」（以歷史對照組來比較）這個關鍵字，可以找到最近針對曾使用歷史對照組試驗的其他醫療處置，所做的研究。

-----廣告，請繼續往下閱讀-----

對於隨機化實驗有一件重要的事必須注意。和隨機樣本一樣，隨機化實驗照樣要受機遇法則的「管轄」。就像抽一個選民的簡單隨機樣本時，有可能運氣不好，抽到的幾乎都是相同政治傾向一樣，隨機指派受試者時，也可能運氣不好，把抽菸的人幾乎全放在同一組。

我們知道，如果抽選很大的隨機樣本，樣本的組成和母體近似的機會就很大。同樣的道理，如果我們用很多受試者，加上利用隨機指派方式分組，也就有可能與實際情況非常吻合。受試者較多，表示實驗處理組的機遇變異會比較小，因此實驗結果的機遇變異也比較小。「用足夠多的受試者」和「同時比較數個處理」以及「隨機化」，同為「統計實驗設計」的基本原則。

實驗設計的原則
統計實驗設計的基本原則如下：
1. 要控制潛在變數對反應的影響，最簡單的方法是同時比較至少兩個處理。
2. 隨機化：用非人為的隨機方法指派受試者到不同的實驗處理組。
3. 每一組的受試者要夠多，以減低實驗結果中的機遇變異。

——本文摘自《統計，讓數字說話》，2023 年 1 月，天下文化出版，未經同意請勿轉載。

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

天下文化

142 篇文章・ 626 位粉絲

天下文化成立於1982年。一直堅持「傳播進步觀念，豐富閱讀世界」，已出版超過2,500種書籍，涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫，也持續引領台灣社會與國際重要管理潮流同步接軌。

TRENDING 熱門討論

即時熱門

10

2

文字

0

10

2

鑑識故事系列：Lucia de Berk 值班死幾人？荷蘭護理冤案

胡中行・2023/02/27 ・2983字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

前言：本文為鑑識系列中，罕見提及統計學的故事。不過，繁複的計算過程全部省略，僅討論統計概念和辦案原理。請害怕數學的讀者放心。

護理人員 Lucia de Berk。圖／Carole Edrich on Wikimedia Commons（CC BY-SA 3.0）

荷蘭護理人員 Lucia de Berk，長年於海牙茱莉安娜兒童醫院（Juliana Kinderziekenhuis）的 1 個病房，與紅十字醫院（Rode Kruis Ziekenhuis）的 2 個病房工作。2001 年 12 月，她因謀殺罪嫌被捕。^[1]

超幾何分佈

警方起先偵辦 2 名住院病患的死因，發現是中毒身亡；後來連帶調查 1997 至 2001 年間，幾家醫院可能的謀殺案件，於是找上了她。^[2]在法庭上，司法心理學家 Henk Elffers 用機率的概念，證明 Lucia de Berk 有罪。簡單來說，就是計算嫌犯現身出事班次的機率。他採取的統計方法，叫做超幾何分佈（又稱「超幾何分配」；hypergeometric distribution）。^[1]

超幾何分佈適合用在從一個母數中，隨機抽取樣本，不再放回的情形。例如：袋子裝有 N 顆球，其中 L 顆為紅球。一把抓出 n 顆球，不特別挑選的話，紅球碰巧被抓到的機率為 X。^{[3, 4]}以此類推，在此案被調查的時間範圍內，病房總共有 N 個班次，其中 Lucia de Berk 值了 L 班，而有醫療事故的班次共 n 個。如果不刻意安排，則她正好出現在事故班次的機率為 X。^[1]（公式介紹。^[4]）

此處實際帶入數據後得到的答案，說明 Lucia de Berk 理論上應該只有 3 億 4 千 2 百萬分之一（X = 1 / 3.42 x 10⁸）的機率，會剛好在醫療事故發生的班次值班。因此，法庭認定她的頻繁出現（> 1 / 3.42 x 10⁸），絕非巧合。^{[1, 2, 5, 6]}2003 年，Lucia de Berk因 7 起謀殺和 3 次殺人未遂，^[2]被判終身監禁。^[5]

茱利安納兒童醫院（Juliana Kinderziekenhuis）外觀。圖／Joris on Wikimedia Commons（CC BY-SA 3.0）

紅十字醫院（Rode Kruis Ziekenhuis）已於 2021 年關閉。圖／1Veertje on Wikimedia Commons（CC BY-SA 4.0）。

統計謬誤

當時有位醫師任職於 Lucia de Berk 待過的一家醫院。他的女性姻親 Metta de Noo-Derksen 醫師，以及 Metta 的兄弟 Ton Derksen 教授，都覺得事有蹊蹺。^[7]Metta 和 Ton 檢視死者的病歷紀錄，並指出部份醫療事故的類型和事發時間，與判決所用的數據對不起來。因為後者大半仰賴記憶，他們甚至發現有些遭指控的班次，Lucia de Berk 其實不在現場。然而，光是這些校正，還不足以推翻判決。^{[1, 7]}

-----廣告，請繼續往下閱讀-----

所幸出生於英國的荷蘭萊頓大學（Universiteit Leiden）統計學榮譽教授 Richard Gill，也伸出援手。^[2]在協助此案的多年後，他的團隊發表了一篇論文，解釋不該使用超幾何分佈的理由，例如：^[1]

護理人員不可互換：所有受訪醫師都說，護理人員可以相互替換；但是護理人員覺得，他們無法取代彼此。由於各別的個性與行事風格迥異，他們對病患的影響也不同。^[1]
醫療事故通報機率：既然每個護理人員都有自己的個性，他們判定某事件為醫療事故，並且通報醫師的機率也不一樣。^[1]畢竟醫院的通報規定是一回事；符合標準與否，都由護理人員判斷。比方說，有個病患每次緊張，血壓就破表。那就讓他坐著冷靜會兒，再登記第二次測量的正常結果即可。不過，難免會有菜鳥護士量一次就嚇到通報，分明給病房添亂。
班次與季節事故率：夜間與週末只剩護理人員和少數待命的醫師；季節性的特定病例增減；以及病患的生理時鐘等，都會影響出事的機率。^[1]
護理排班並不平均：護理人員的班次安排，理想上會有帶狀的規律。可能連續幾天都是白班，接著是幾個小夜班之類的，^[1]比較方便調整作息。此外，護理人員的資歷和個性，通常也會被納入考量。^[1]以免某個班次全是資深人員；但另個班次緊急事故發生時，卻只剩不會臨機應變的新手。在這樣的排班原則下，如果單看某個時期的班表，每個人所輪到的各類班次總數，應該不會完全相同。
出院政策曾經改變：茱莉安娜兒童醫院在案發期間，曾經針對確定救不活的小病患，是否該在家中或病房離世，做過政策上的調整。帳面上來說，算在病房裡的事故量絕對會有變化。^[1]

總之，太多因素會影響護理排班，或是干擾醫療事故的通報率，因此不能過度簡化成抽取紅球那樣的隨機概念。更嚴重的是，Henk Elffers 在計算過程中，分開處理 3 個病房的機率，然後再相乘。Richard Gill 的團隊強調，這樣會造成在多處上班的護理人員，比只為一處服務者，看起來有較高的嫌疑。^[1]

帕松分佈

因應這種情境，Richard Gill 教授建議採用帕松分佈（又譯「布阿松分配」；Poisson distribution），^[1]一種描述特定時間內，事件發生率的統計模型。^[8]有別於先前的計算方法，在這裡事故傾向（accident proneness），以及整體排班狀況等變因，都納入了考量。前者採計護理人員通報醫療事故的意願強度；後者則為輪班的總次數。這個模型通常是拿來推估非尖峰時段的來電、大城市的火災等，也適用於 Lucia de Berk 的案子。^[1]（深入瞭解公式和計算（p. 4 – 6）。^{[1, 8]}）

雖然此模型的細節複雜，統計學家得大費周章解釋給法官聽，但是考慮的條件比較趨近真實。倘若套用原始判決的數據，這個計算最後的答案是 0.0206161，意即醫療事故本來就有 49 分之 1 的機率，會與 Lucia de Berk 的班次重疊。如果帶入 Mettade Noo-Derksen 和 Ton Derksen 校正過的數據，機率更高達 9 分之 1。^{[1, 9]}換句話說，她單純是倒楣出現在那裡，就被當作連續殺人犯。^[6]

其他證據與翻案

大相逕庭的計算結果，顯示出選擇正確統計模型的重要性。然而，最不合理的，是以機率作為判決的主要根據。就謀殺案件來說，怎能不忠於病歷或驗屍報告？Richard Gill 教授接受美國犯罪學講師 Jon Robins 的訪問時，表示後來由醫師和毒物學家組成的獨立團隊，被允許瀏覽當初沒送上法庭的關鍵資料。^[2]他們發現原本被視為受害者的病患，根本都喪命於自然死因。^{[2, 6]}

在各方人士的協助下，Lucia de Berk 還是歷經兩次上訴失敗。^[6]她曾於 2008 年，被允許在家等候重審結果。^[1]但直到 2010 年 4 月，司法才還她清白。^[7]Ton Derksen 認為，在荷蘭像這樣誤判的案件，約佔總判決數的 4 至 11%，也就是每年 1,000 人左右。不過，2006 到 2016 年間被判刑的 2 萬 3 千人裡，只有 5 個上訴到最高法院，而且僅 Lucia de Berk 的案子得以平反。^[10]

-----廣告，請繼續往下閱讀-----