0

3
1

文字

分享

0
3
1

看電影學統計:「多重宇宙」與統計學「隨機變異」的概念

tml_96
・2023/03/15 ・2854字 ・閱讀時間約 5 分鐘

「多重宇宙」是我教統計時常用到的名詞,我用它來解釋隨機變異(stochastic variation)的概念:

例如民調抽得一個樣本,此樣本的受訪者固然是一群特定人士,但理論上我們可以抽出許多許多樣本,這些樣本之間雖然會有隨機變異,但樣本彼此的宏觀性質仍會相近。這些不同的隨機樣本,可以以「多重宇宙」一詞來形容。即使事實上只有一個樣本(一個宇宙),我們可以想像在多重宇宙的每個宇宙裡,都有一個微觀上隨機變異的樣本存在。

一個樣本(一個宇宙),在多重宇宙裡,每個宇宙都有一個微觀上隨機變異的樣本存在。 圖/IMDb

什麼是隨機樣本?

其實,數理統計學中「隨機樣本」(random sample)的概念指的是「一組獨立且同一分布的隨機變數」(a set of independently and identically distributed random variables)

在這個定義之下,樣本的每一個單位(資料點)都不是固定不變的數值,而是一個依循某機率分布的隨機變數。「隨機樣本」的要求是樣本所有的 N 個單位不但要互相獨立,而且要依循同一的機率分布。

我們可以想像我們平常所謂「一個樣本」的 N 個觀察值,每一個觀察值背後都有一個產生這個數值的隨機變數,也可以說所謂「一個樣本」其實只是這「一組獨立且同一分布的隨機變數」的一個「實現」(realization)。那麼,不同的樣本就是這「一組獨立且同一分布的隨機變數」的不同「實現」。這樣了解之下的不同樣本、不同「實現」,我喜歡把它們稱為「多重宇宙」。

多重宇宙中的隨機變異,是我們在分析一個樣本的資料時必須作統計推論的原因。

比如我們分析本屆所有 113 位立委的議事行為,既然立委一共只有 113 人,我們分析的對象不就是立委的母體嗎?那是不是就不必做統計推論?

不是!原因是我們仍然可以想像有多重宇宙存在,每個宇宙都有 113 位立委,而同一位立委在不同的宇宙裡其議事行為會有隨機變異。正是因為這隨機變異的緣故,我們即使分析的是所謂「母體」,我們仍然要做統計推論。

圖/IMDb

「多重宇宙」的概念可以說就是「假如我們可以重來」的反事實思想實驗。被分析的單位不是在時間中重來一次,而是在多重宇宙的空間中展現「假如我們可以重來」的隨機變異的可能性。

名為 Monday 的這集 X 檔案電視劇中,主角的夢境不斷重複,每次夢境的結構大致類似,但細節卻有所不同,這正是「多重宇宙—隨機變異」概念的戲劇化。

【媽的多重宇宙】(Everything Everywhere All at Once)也是。

「看,這是你的宇宙,一個漂浮在存在宇宙泡沫中的泡泡。周圍的每個氣泡都有細微的變化。但你離你的宇宙越遠,差異就越大。」——【媽的多重宇宙】對白

這是說:變異程度越小的是離你越近的宇宙,程度越大的是離你越遠的宇宙。這裡所謂變異的程度,在統計學裡可以用誤差機率分布的標準差來衡量。

什麼是隨機變異?

關於「隨機變異」這個概念,我最喜歡的例子是研究所入學申請的評審。

例如有 120 人申請入學,我詳細閱讀每人投遞的申請資料(包括性別、年齡等個人特質還有 SOP、大學成績單、GRE 分數、推薦信等),然後打一個 Y=0~100 的分數。全部評閱完畢,我便得到一份 N=120 的資料。這個資料包括了所有的申請者,那麼它是樣本呢?還是母體?

如果我要分析我自己評分的決定因素,我會把分數 Y 回歸到性別、年齡等個人特質以及資料中可以量化的變數,例如大學成績平均分數(GPA)和 GRE 分數。跑這個迴歸時,需不需要做統計推論,看迴歸係數是不是有統計的顯著性?

我的看法是這份 N=120 的資料是樣本而不是母體,做迴歸分析當然要做統計推論。

那麼我資料的母體是什麼?

迴歸分析資料的母體其實是所謂「母體迴歸函數」(population regression function),也就是通常所說的「資料產生過程」(data generating process, DGP)。

這個 DGP 就是我在評閱每份資料時腦海中的思考機制,它考量了許多量化和質化的變數,賦予不同的權重,然後加總起來產生 Y。

分析資料的母體,也就是常說的「資料產生過程」。 圖/envato.elements

量化變數的權重就是母體迴歸函數的係數,質化變數則是母體迴歸函數的係數的誤差項。如果有很多質化變數攏總納入誤差項,我們通常可以根據中央極限定理,假設誤差項是呈現常態分布的隨機變數。這個誤差項就是「隨機變異」的來源。

評審入學申請,我通常只把所有資料評閱一次。這一次評審結果,會有幾家歡樂幾家愁,這便構成了一個「宇宙」。如果我第二天又把所有 120 份資料重新評分一遍,得到第二個樣本。因為我腦中的「資料產生過程」包括隨機變數,這個新樣本保證跟第一個樣本會有差異。用白話說:我的評分機制不精確,我自己甚至不知道我給每個量化變數多少權重,而且第二次評閱所用的權重也會跟第一次不盡相同,更不用說質化變數如何影響我的評分了。

這第二個樣本,申請者的排比不會跟第一個樣本一樣,雖然也是幾家歡樂幾家愁,歡樂與愁悶的人也可能不一樣。這是第二個宇宙。依此類推,我們可以想像同樣的120位申請者,因為我「資料產生過程」的隨機變異,活在多重宇宙裡。

這些宇宙有的差異不大,根據【媽的多重宇宙】的說法,它們的泡泡互相之間的距離就較近,差異較大的宇宙,距離就較遠。如果申請者可以像電影所述那樣做宇宙跳躍,他們會看到自己在不同宇宙裡的命運。

我擔任德州大學政府系的研究部主任時,常耽心有申請者拿我們入學評審委員的評分資料去做迴歸分析。如果分析結果顯示種族、性別等變數有統計顯著性,說不定會被拿去控告我違反所謂「平權行動」(affirmative action)的相關法律。如果沒有顯著性,我就不耽心了。

多重宇宙之間會不會有「蝴蝶效應」?也就是宇宙跳躍時,隨機變異產生的微小差異,會不會造成新舊宇宙生命路徑的決然不同?

在【媽的多重宇宙】中,伊芙琳只要當初做了一個不同的決定,以後的生命便可能跟現世(home universe)有很不一樣的命運。這在統計學也不是不可能。時間序列分析中,有些非線性模式只要初始值稍微改變,其後在時間中的路徑便會與原來的路徑發散開來。

你做時間序列分析時,會不會想想:時間序列資料究竟是樣本還是母體?如果你的研究興趣就只限於資料期間,那要不要做統計推論?當然要的,因為隨機變異的緣故。

如果你今年申請外國研究所不順利,也許在另一個宇宙裡,你不但獲名校錄取,得到鉅額獎學金,而且你的人生旅途將自此一路順遂,事業婚姻兩得意呢。

文章難易度
tml_96
36 篇文章 ・ 232 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

2
2

文字

分享

0
2
2
假藥也能治療?安慰劑效應的原因:「不」隨機化實驗!——《統計,讓數字說話》
天下文化_96
・2023/03/03 ・1932字 ・閱讀時間約 4 分鐘

  • 作者:墨爾 David S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

實驗法中「隨機化」的必要性

隨機化比較實驗是統計學裡面最重要的概念之一。它的設計是要讓我們能夠得到釐清因果關係的結論。我們先來弄清楚隨機化比較實驗的邏輯:

  • 用隨機化的方法將受試者分組,所分出的各組在實施處理之前,應該各方面都類似。
  • 之所以用「比較」的設計,是要確保除了實驗上的處理外,其他所有因素都會同樣作用在所有的組身上。
  • 因此,反應變數的差異必定是處理的效應所致。

我們用隨機方法選組,以避免人為指派時可能發生的系統性偏差。例如在鐮形血球貧血症的研究中,醫師有可能下意識就把最嚴重的病人指派到羥基脲組,指望這個正在試驗的藥能對他們有幫助。那樣就會使實驗有偏差,不利於羥基脲。

從受試者中取簡單隨機樣本來當作第一組,會使得每個人被選入第一組或第二組的機會相等。我們可以預期兩組在各方面都接近,例如年齡、病情嚴重程度、抽不抽菸等。舉例來說,隨機性通常會使兩組中的吸菸人數差不多,即使我們並不知道哪些受試者吸菸。

實驗組與對照組除主要測量變數外,其餘條件必需盡可能相似。圖/envatoelements

新藥研究上不隨機分組帶來的後果:安慰劑效應

如果實驗不採取隨機方式,潛藏變數會有什麼影響呢?安慰劑效應就是潛藏變數,只有受試者接受治療後才會出現。如果實驗組別是在當年不同時間進行治療,所以有些組別是在流感季節治療,有些則不是,那麼潛藏變數就是有些組別暴露在流感的程度較多。

在比較實驗設計中,我們會試著確保這些潛藏變數對全部的組別都有相似的作用。例如為了確保全部的組別都有安慰劑效應,他們會接受相同的治療,全部的組別會在相同的時間接受相同的治療,所以暴露在流感的程度也相同。

要是告訴你,醫學研究者對於隨機化比較實驗接受得很慢,應該不會讓你驚訝,因為許多醫師認為一項新療法對病人是否有用,他們「只要看看」就知道。但事實才不是這樣。有很多醫療方法只經過單軌實驗後就普遍使用,但是後來有人起疑,進行了隨機化比較實驗後,卻發覺其效用充其量不過是安慰劑罷了,這種例子已經不勝枚舉。

曾有人在醫學文獻裡搜尋,經過適當的比較實驗研究過的療法,以及只經過「歷史對照組」實驗的療法。用歷史對照組做的研究不是把新療法的結果和控制組比,而是和過去類似的病人在治療後的效果做比較。結果,納入研究的 56 種療法當中,用歷史對照組來比較時,有 44 種療法顯示出有效。然而在經過使用合適的隨機化比較實驗後,只有 10 種通過安慰劑測試。即使有跟過去的病人比,醫師的判斷仍過於樂觀。

過去醫學史上常出現新藥實際沒療效,只能充當安慰劑效果的情況。圖/envatoelements

目前來說,法律已有規定,新藥必須用隨機化比較實驗來證明其安全性及有效性。但是對於其他醫療處置,比如手術,就沒有這項規定。上網搜尋「comparisons with historical controls」(以歷史對照組來比較)這個關鍵字,可以找到最近針對曾使用歷史對照組試驗的其他醫療處置,所做的研究。

對於隨機化實驗有一件重要的事必須注意。和隨機樣本一樣,隨機化實驗照樣要受機遇法則的「管轄」。就像抽一個選民的簡單隨機樣本時,有可能運氣不好,抽到的幾乎都是相同政治傾向一樣,隨機指派受試者時,也可能運氣不好,把抽菸的人幾乎全放在同一組。

我們知道,如果抽選很大的隨機樣本,樣本的組成和母體近似的機會就很大。同樣的道理,如果我們用很多受試者,加上利用隨機指派方式分組,也就有可能與實際情況非常吻合。受試者較多,表示實驗處理組的機遇變異會比較小,因此實驗結果的機遇變異也比較小。「用足夠多的受試者」和「同時比較數個處理」以及「隨機化」,同為「統計實驗設計」的基本原則。

實驗設計的原則
統計實驗設計的基本原則如下:
1. 要控制潛在變數對反應的影響,最簡單的方法是同時比較至少兩個處理。
2. 隨機化:用非人為的隨機方法指派受試者到不同的實驗處理組。
3. 每一組的受試者要夠多,以減低實驗結果中的機遇變異。

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
122 篇文章 ・ 604 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

8
0

文字

分享

0
8
0
鑑識故事系列:Lucia de Berk 值班死幾人?荷蘭護理冤案
胡中行_96
・2023/02/27 ・2983字 ・閱讀時間約 6 分鐘

前言:本文為鑑識系列中,罕見提及統計學的故事。不過,繁複的計算過程全部省略,僅討論統計概念和辦案原理。請害怕數學的讀者放心。

護理人員 Lucia de Berk。圖/Carole Edrich on Wikimedia Commons(CC BY-SA 3.0)

荷蘭護理人員 Lucia de Berk,長年於海牙茱莉安娜兒童醫院(Juliana Kinderziekenhuis)的 1 個病房,與紅十字醫院(Rode Kruis Ziekenhuis)的 2 個病房工作。2001 年 12 月,她因謀殺罪嫌被捕。[1]

超幾何分佈

警方起先偵辦 2 名住院病患的死因,發現是中毒身亡;後來連帶調查 1997 至 2001 年間,幾家醫院可能的謀殺案件,於是找上了她。[2]在法庭上,司法心理學家 Henk Elffers 用機率的概念,證明 Lucia de Berk 有罪。簡單來說,就是計算嫌犯現身出事班次的機率。他採取的統計方法,叫做超幾何分佈(又稱「超幾何分配」;hypergeometric distribution)。[1]

超幾何分佈適合用在從一個母數中,隨機抽取樣本,不再放回的情形。例如:袋子裝有 N 顆球,其中 L 顆為紅球。一把抓出 n 顆球,不特別挑選的話,紅球碰巧被抓到的機率為 X。[3, 4]以此類推,在此案被調查的時間範圍內,病房總共有 N 個班次,其中 Lucia de Berk 值了 L 班,而有醫療事故的班次共 n 個。如果不刻意安排,則她正好出現在事故班次的機率為 X。[1]公式介紹。[4]

此處實際帶入數據後得到的答案,說明 Lucia de Berk 理論上應該只有 3 億 4 千 2 百萬分之一(X = 1 / 3.42 x 108)的機率,會剛好在醫療事故發生的班次值班。因此,法庭認定她的頻繁出現(> 1 / 3.42 x 108),絕非巧合。[1, 2, 5, 6]2003 年,Lucia de Berk因 7 起謀殺和 3 次殺人未遂,[2]被判終身監禁。[5]

茱利安納兒童醫院(Juliana Kinderziekenhuis)外觀。圖/Joris on Wikimedia Commons(CC BY-SA 3.0)
紅十字醫院(Rode Kruis Ziekenhuis)已於 2021 年關閉。圖/1Veertje on Wikimedia Commons(CC BY-SA 4.0)。

統計謬誤

當時有位醫師任職於 Lucia de Berk 待過的一家醫院。他的女性姻親 Metta de Noo-Derksen 醫師,以及 Metta 的兄弟 Ton Derksen 教授,都覺得事有蹊蹺。[7]Metta 和 Ton 檢視死者的病歷紀錄,並指出部份醫療事故的類型和事發時間,與判決所用的數據對不起來因為後者大半仰賴記憶,他們甚至發現有些遭指控的班次,Lucia de Berk 其實不在現場。然而,光是這些校正,還不足以推翻判決。[1, 7]

所幸出生於英國的荷蘭萊頓大學(Universiteit Leiden)統計學榮譽教授 Richard Gill,也伸出援手。[2]在協助此案的多年後,他的團隊發表了一篇論文,解釋不該使用超幾何分佈的理由,例如:[1]

  1. 護理人員不可互換:所有受訪醫師都說,護理人員可以相互替換;但是護理人員覺得,他們無法取代彼此。由於各別的個性與行事風格迥異,他們對病患的影響也不同。[1]
  2. 醫療事故通報機率:既然每個護理人員都有自己的個性,他們判定某事件為醫療事故,並且通報醫師的機率也不一樣。[1]畢竟醫院的通報規定是一回事;符合標準與否,都由護理人員判斷。比方說,有個病患每次緊張,血壓就破表。那就讓他坐著冷靜會兒,再登記第二次測量的正常結果即可。不過,難免會有菜鳥護士量一次就嚇到通報,分明給病房添亂。
  3. 班次與季節事故率:夜間與週末只剩護理人員和少數待命的醫師;季節性的特定病例增減;以及病患的生理時鐘等,都會影響出事的機率。[1]
  4. 護理排班並不平均:護理人員的班次安排,理想上會有帶狀的規律。可能連續幾天都是白班,接著是幾個小夜班之類的,[1]比較方便調整作息。此外,護理人員的資歷和個性,通常也會被納入考量。[1]以免某個班次全是資深人員;但另個班次緊急事故發生時,卻只剩不會臨機應變的新手。在這樣的排班原則下,如果單看某個時期的班表,每個人所輪到的各類班次總數,應該不會完全相同。
  5. 出院政策曾經改變:茱莉安娜兒童醫院在案發期間,曾經針對確定救不活的小病患,是否該在家中或病房離世,做過政策上的調整。帳面上來說,算在病房裡的事故量絕對會有變化。[1]

總之,太多因素會影響護理排班,或是干擾醫療事故的通報率,因此不能過度簡化成抽取紅球那樣的隨機概念。更嚴重的是,Henk Elffers 在計算過程中,分開處理 3 個病房的機率,然後再相乘。Richard Gill 的團隊強調,這樣會造成在多處上班的護理人員,比只為一處服務者,看起來有較高的嫌疑。[1]

帕松分佈

因應這種情境,Richard Gill 教授建議採用帕松分佈(又譯「布阿松分配」;Poisson distribution),[1]一種描述特定時間內,事件發生率的統計模型。[8]有別於先前的計算方法,在這裡事故傾向(accident proneness),以及整體排班狀況等變因,都納入了考量。前者採計護理人員通報醫療事故的意願強度;後者則為輪班的總次數。這個模型通常是拿來推估非尖峰時段的來電、大城市的火災等,也適用於 Lucia de Berk 的案子。[1](深入瞭解公式計算(p. 4 – 6)。[1, 8]

雖然此模型的細節複雜,統計學家得大費周章解釋給法官聽,但是考慮的條件比較趨近真實。倘若套用原始判決的數據,這個計算最後的答案是 0.0206161,意即醫療事故本來就有 49 分之 1 的機率,會與 Lucia de Berk 的班次重疊。如果帶入 Mettade Noo-Derksen 和 Ton Derksen 校正過的數據,機率更高達 9 分之 1。[1, 9]換句話說,她單純是倒楣出現在那裡,就被當作連續殺人犯。[6]

其他證據與翻案

大相逕庭的計算結果,顯示出選擇正確統計模型的重要性。然而,最不合理的,是以機率作為判決的主要根據。就謀殺案件來說,怎能不忠於病歷或驗屍報告?Richard Gill 教授接受美國犯罪學講師 Jon Robins 的訪問時,表示後來由醫師和毒物學家組成的獨立團隊,被允許瀏覽當初沒送上法庭的關鍵資料。[2]他們發現原本被視為受害者的病患,根本都喪命於自然死因。[2, 6]

在各方人士的協助下,Lucia de Berk 還是歷經兩次上訴失敗。[6]她曾於 2008 年,被允許在家等候重審結果。[1]但直到 2010 年 4 月,司法才還她清白。[7]Ton Derksen 認為,在荷蘭像這樣誤判的案件,約佔總判決數的 4 至 11%,也就是每年 1,000 人左右。不過,2006 到 2016 年間被判刑的 2 萬 3 千人裡,只有 5 個上訴到最高法院,而且僅 Lucia de Berk 的案子得以平反。[10]

Lucia de Berk 冤案改編電影的海報。圖/電影《Lucia de B.》(2014) on IMDB

  

參考資料

  1. Gill RD, Groeneboom P, de Jong P. (2018) ‘Elementary Statistics on Trial—The Case of Lucia de Berk’. Chance 31, 4, pp. 9-15.
  2. Robins J. (10 APR 2020) ‘Ben Geen: Statisticians back former nurse’s in last chance to clear name’. The Justice Gap.
  3. 超幾何分佈」國立高雄大學統計學研究所(Accessed on 03 FEB 2023)
  4. 李柏堅(06 FEB 2015)「超幾何分配CUSTCourses on YouTube.
  5. Sims J. (24 FEB 2022) ‘Are We in the Midst of a Data Illiteracy Epidemic?’. Inside Hook.
  6. Schneps L, Colmez C. (26 MAR 2013) ‘Justice Flunks Math’. The New York Times.
  7. Alexander R. (28 APR 2013) ‘Amanda Knox and bad maths in court’. BBC News.
  8. 李伯堅(04 FEB 2015)「布阿松分配」CUSTCourses on YouTube.
  9. Wilson D. (13 DEC 2022) ‘Red flag to be wary of when hunting a killer nurse’. The Herald, Scotland.
  10. One in nine criminals may have been wrongly convicted – research’. (21 NOV 2016) Dutch News.
胡中行_96
99 篇文章 ・ 33 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。

2

2
6

文字

分享

2
2
6
逼近上帝視角——用「統計學」探討因果關係
研之有物│中央研究院_96
・2022/06/15 ・4930字 ・閱讀時間約 10 分鐘

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪撰文/郭雅欣、簡克志
  • 美術設計/蔡宛潔

因果關係怎麼研究?

在日常生活的經驗裡,我們往往習慣以主觀的角度來認定因果關係的存在,但在數理統計的協助下,因果關係可以擁有科學定義,並且可以驗證。中央研究院「研之有物」專訪院內統計科學研究所黃彥棕研究員,他的主要研究便是以數理統計的方式來探討因果關係(例如生物體的複雜機轉)。有了統計方法,人類也能接近上帝視角,找出因果關係的存在。

中研院統計所研究員黃彥棕,擅長以數理統計的方式來思考因果關係。圖/研之有物

以數理統計驗證因果關係

我們絕大多數人相信「凡事必有因果」這句話,例如今天腹瀉,是因為昨天晚餐吃壞肚子;考試沒考好,是因為書念得不夠。但是仔細想想,造成今天拉肚子的原因,除了昨天的晚餐之外,還有沒有別的可能?影響考試成績的因素,除了書念得夠不夠之外,考試環境、考題難易度也都會影響。

所以,我們究竟該如何確定兩件事有因果關係?有沒有什麼科學方法,可以讓我們帶著十足的把握,說出「X 就是造成 Y 結果的原因」這樣的話語?

中研院統計所研究員黃彥棕,擅長以數理統計的方式來思考因果關係,除此之外他更進一步在數學上探討「X 透過何種機制造成 Y」,也就是所謂的「因果中介效應」。有興趣的讀者,可以參考「研之有物」之前專訪黃彥棕老師的文章〈喝酒臉紅易罹癌?小時候家裡窮會胖?統計學家黃彥棕來解答〉。

回到因果關係,黃彥棕說到:「因果關係是屬於上帝視角。」也就是說,兩件事之間究竟有無因果關係,理論上只有全知者才知道,而我們能做的,是以數理統計的方式,「從人類視角盡可能地逼近上帝視角,來判斷因果關係是否存在。」

何謂因果關係?

為什麼說「因果存在與否只有上帝才知道」?因果關係建立在「反事實」,如果有一個事實是「打疫苗,就不容易感染 COVID-19」,則我們必須驗證是否「不打疫苗,就容易感染 COVID-19」,這就是反事實。有了事實與反事實的比對,我們才能說「打疫苗」與「不易感染 COVID-19」有因果關係。

不過,除非有時光機或平行宇宙,否則我們不可能讓全世界的人打疫苗,並觀察感染情況;然後又讓全世界的人都不打疫苗,並再次觀察染病狀況。只有全知者才能同時觀察這兩個平行宇宙,得知因果關係。黃彥棕說,身處現實世界的我們,只能盡可能地逼近這個結果。

用數學語言來描述因果關係,最被廣泛使用的架構是由美國統計學家 Donald Rubin 提出的反事實結果(counterfactual outcome)或潛在結果(potential outcome)。值得一提的是,過去 Rubin 也曾與 2021 年諾貝爾經濟學獎得主 Joshua Angrist 和 Guido Imbens 共同發表重要論文〈使用工具變量確認因果效應〉。

以下我們就以疫苗和傳染病為例,以反事實架構來說明「X 導致 Y」的群體因果效應。先假設 X 為民眾施打疫苗與否( 0:不打疫苗,1:打疫苗),而 Y 為得傳染病與否(0:不染病,1:染病),並使用期望值 E 來描述群體平均效應,詳細如下圖。

為了要取得因果關係,我們必須有兩個獨立的平行世界,分別是 X=1 和 X=0,再去比較這兩個世界中 X 如何導致 Y 的發生。圖/研之有物
(資料來源|黃彥棕)

如果我們觀察到 E[Y(X=1)]=0.1,也就是有打疫苗的人染病機率是 10 %。那麼在反事實因果推論的基礎上,我們必須檢驗 E[Y(X=0)] 等於多少,也就是不打疫苗的染病機率。只要 E[Y(X=1)] ≠ E[Y(X=0)],就代表 X 和 Y 之間具有因果關係。

然而,實務上打完疫苗的人不可能再回復到沒打疫苗的狀態,因此我們沒有辦法再次對同一群母體樣本做實驗來驗證因果關係,僅能退而求其次,「盡量貼近」因果關係。那麼,要怎麼做呢?

有反事實的對照,才有因果關係。

逼近神的因果視角

如果我們把全世界的人分成兩半,其中一半打疫苗、另一半不打疫苗,然後用打疫苗的那一半代表一個宇宙(事實),不打疫苗的代表另一個宇宙(反事實),不就創造出兩個平行宇宙了嗎?

這是一種很直觀的逼近方法,但若要讓一半的人能夠代表一整個宇宙,則有一個重要的前提:這兩個宇宙裡的人是隨機分配的,也就是這兩群人在各個層面都很相似,例如年齡、性別、健康狀況甚至政治傾向等,以專業術語來說就是必須具有可互換性(exchangeability)。藥廠在做疫苗人體實驗時,就必須以非常嚴謹的方式讓受試者盡可能達到隨機分配,才能得到「疫苗是否有效」的科學結果。

不過,在大多數狀況下,我們很難做到隨機分配。舉例來說,臺灣開放施打 COVID-19 疫苗後,截至 2021 年 10 月 29 日為止,有將近 1700 萬人施打第一劑疫苗,但我們不能把這 1700 萬人視為有打疫苗的宇宙,而另一群沒打疫苗的 600 萬人視為沒打疫苗的宇宙,因為打不打疫苗是人民自由選擇的結果,有很多因素會影響個人選擇,例如比較有健康意識,或是比較年輕、不擔心副作用的人,可能就比較傾向打疫苗。

即使統計結果顯示出打疫苗的人,感染 COVID-19 的比例真的比較低,我們也很難分辨是因為打疫苗,還是他們本來就比較年輕?或本來就比較健康?「這是所謂的『觀察型研究』,容易出現因果推論謬誤的原因。」黃彥棕說。

然而,我們可以用數理統計的方式逼近真實的因果效應,例如控制年齡、健康狀況——兩方都取 50~60 歲的年齡層,並且都是沒有心血管疾病的人等。黃彥棕說:「我們依據自己的背景知識,知道有哪些因素會影響隨機性,然後使用統計的方式,把它們抓出來做控制。」

理論上統計學家可以把所有可能造成偏誤的因子都舉出來,透過一層層地篩選、限縮,最後得出許多個小小的族群,讓隨機性成立。

之後,透過每一組小小的隨機族群(例如年齡 50~60 歲、沒有心血管疾病、男性、具健康意識……等,統稱為 C),讓 Y 的發生和特定條件 C 之下的 X 群體無關,我們就可以得到逼近兩個平行宇宙的資料(有打疫苗、沒打疫苗),最後再把各族群的結果加權平均回來。就可以貼近上帝視角的因果效應。

以數學語言來說,就是讓條件期望值(E[Y|X=x , C=c)])的計算透過加權平均等同於反事實結果之期望值(E[Y(X=x)])的效果。我們沒有時光機,無法透過事實/反事實結果之期望值檢驗全體打疫苗和不打疫苗的因果關係(E[Y(X=1)] ≠ E[Y(X=0)] 嗎?);但是我們可以透過各種條件的篩選和限縮,去計算每個具備可互換性小群體的條件期望值,最後加權平均回來,檢視打疫苗與得病與否的因果關係(∑c E[Y|X=1 , C=c]*P(C=c) ≠ ∑c E[Y|X=0 , C=c]*P(C=c)嗎?),這才是實務上的作法。

問題來了,要怎麼知道我們是否窮舉了所有可能造成偏誤的因子?我們的確不知道,只有上帝知道,這是個假設,而且是個很難驗證的假設。

實務上,我們不可能同時觀察 X=1 和 X=0 的世界,只能分別獲得 X 和 Y 的相關性。要如何從相關性去檢視因果關係呢?透過統計學上的篩選和限制,我們如果可以讓 X=1 vs. X=0 的隨機性成立,就可以進一步驗證 X 和 Y 的因果關係。為方便說明,圖片的數學式為簡單條件期望值計算,不考慮加權平均。圖/研之有物(資料來源|黃彥棕)

「在控制了年齡、性別、健康狀況等條件的情況下,我們希望可以讓隨機性成立。」

黃彥棕的研究讓因果關係在嚴謹的數學架構下,得以辨證、溝通,而不是只仰賴直觀的思考。因果的存在變得更加科學化,而這也使因果的探討可以進入更深的層次。

被競爭結果和時間擾亂的因果關係

更進階的因果探討層次,是將時間因素考慮進來。黃彥棕以「B 型肝炎」造成「肝癌」,然後導致「死亡」為例,若想探討這三者間的因果關係時,會發生一個問題,那就是有 B 型肝炎的人,有可能容易因猛爆性肝炎而直接死亡,而這樣的個案在統計上,因為他並沒有得到肝癌,而對「肝癌」這個中介因子造成了「保護」的效果。

「這就是肝癌和死亡這兩個競爭結果造成的影響,而這個競爭關係又會隨著時間推移而改變。肝癌、死亡有時間進程關係,一旦 B 型肝炎患者因猛爆性肝炎死亡了,他就不可能再得肝癌。」更清楚地說,B 型肝炎患者可能還「來不及」得肝癌,就因猛爆性肝炎直接跳到死亡。在界定 B 型肝炎與肝癌之間的因果關係時,這樣的結果會造成偏誤。

黃彥棕將時間因素考慮進來的方法,是把整個時程切割成非常多小段,在每個小段創造一個反事實架構,也就是分析每一位在某小段時間活著的 B 型肝炎患者,把他們分成已得到肝癌及還沒得到肝癌,並考慮這兩組患者在下一個瞬間死亡的可能性,再將這些結果積分起來,得到在隨機過程架構之下的平行宇宙們。

「我等於是在每一個瞬間都製造多個平行宇宙(無 B 肝/無肝癌、無 B 肝/有肝癌、有 B 肝/無肝癌、有 B 肝/有肝癌)出來,這樣做可以避免前面說的蓋牌效應。但你可以想像我所得到的平行宇宙數量……嗯,就跟《奇異博士》看到的差不多。」

「我認為我在這領域的部分貢獻,或許是提出了這樣一個會隨著時間推移的反事實架構。」黃彥棕說。他的論文發表出來後不久,也引起了期刊的興趣,邀請了相關領域的許多專家,探討他所提出的因果模型。

研究因果的動機

談起對因果關係研究的動機,黃彥棕說,以前在醫學系實習時,會看到開同樣的藥給病人,有些病人會好,有些人不會。這種「不確定性」開始讓他覺得好奇。他說:「我可以接受事情就是會有隨機性,但還是很想搞清楚這樣的不確定性是怎麼來的。」

最近,黃彥棕也發現許多人會把「預測」和「因果」搞混,尤其是現在人工智慧(AI)發展出的預測模型表現愈來愈好,有些做 AI 預測模型的人,會誤以為能夠用預測表現良好的模型,來得到因果關係。

舉例來說,一個模型可以透過一個人是否抽菸,來預測他得肺癌的機率,也可以透過一個人身上是否攜帶著打火機,來預測肺癌機率。「但我們知道抽菸與肺癌有因果關係,而帶打火機與否應該是不會造成任何增加肺癌風險的生物效應的。」黃彥棕說。

「抽菸」與「帶打火機」都能成為 AI 模型預測肺癌時採用的因子,但顯然並非代表它們與肺癌都有因果關係。黃彥棕接著說:「雖然預測未必需要因果關係,但是,決策就需要因果關係的支持。若要降低肺癌風險,政府較合理的做法是下令禁菸,而不是禁打火機。但要看到因果是比較困難的,它先天上的限制使它難以驗證,這個挑戰也是因果推論的迷人之處。」

最後,黃彥棕切身感受到因果關係的重要性,尤其是藥廠研發藥物或是臨床醫學等領域的應用。而他在反事實架構上考慮時間因素的突破,讓因果推論的知識又更往前推進。反事實因果推論的數學模型,讓人類能夠有深刻的思考,去檢視深藏在直觀表面之下的因果性與相關性。

延伸閱讀

所有討論 2
研之有物│中央研究院_96
255 篇文章 ・ 2493 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook