0

1

文字

繁 | 简

0

1

分析 / 評論社會群體科學傳播

民調結果一致，該懷疑抑或是才可信？計算此一「抽樣分佈」發生的機率

林澤民・2019/07/04 ・3104字・閱讀時間約 6 分鐘・SR值 548

・八年級

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

民進黨初選民調，其五個執行單位的結果一致且相近，是否值得懷疑？

關於這個問題，民進黨的官方答覆是：「此次總統初選民調方式，各執行單位的成功樣本高達 3200 份以上（95％信心水準下，抽樣誤差為正負1.7%），且為本黨民調中心抽樣提供給五家民調單位同時訪問，在相同的抽樣架構、相同的問卷題目、相同的訪問原則、相同的訪員訓練，相同的加權方式之下執行。有相近的民調結果才顯見此次總統初選民調的品質值得信賴，如果五家單位的民調結果差異過大，那才是值得擔憂的事。」

這個答覆令人滿意嗎？

民調得出接近的結果，究竟是否有「異常」？先從假設談起

五個單位關於蔡英文支持度的結果分別為：36.5721%、36.1190%、36.6532%、34.5323%、35.5072%，其平均數為 35.6768%。五單位的結果偏離平均數最大值為 1.1445%，這個值比 95％信心水準下的抽樣誤差正負 1.7% 要小很多。

-----廣告，請繼續往下閱讀-----

按照民進黨的說法，似乎各單位民調結果越相近，民調的品質越值得信賴，真的是這樣嗎？五個單位的結果距離其平均數不超過 1.1445% 的機率是多少？如果這個機率甚小，難道我們不應該擔憂？

要探討這個問題，必須要做一些假設，以下的假設其實不盡成立，但本文的目的並不在於檢定這些假設的真假，而是在於利用統計學「抽樣分佈」（sampling distribution）的概念來看在「正常」狀態下，五個重複樣本結果相近的程度是否有「異常」的跡象。做這些假設只是為了要提供一個「正常狀態」的框架而已。

假設一：各民調單位的樣本是同一母體的的隨機樣本，其樣本數同為 N=3200。

這個假設除了樣本數外，會有很多爭議。

第一、所謂母體是指甚麼？全體合格選民？當然不是。

民進黨所從以抽樣的母體其實有兩個：市話號碼和手機號碼。這是兩個不一樣的母體，而且不論分別開來或合併起來，都不能反映全體合格選民。

-----廣告，請繼續往下閱讀-----

第二、各單位的樣本是市話加手機混合母體的隨機樣本嗎？當然不是。

根據民進黨的計算，市話被抽中的機率是 0.19%，手機被抽中的機率是 0.05%。既然市話跟手機被抽中的機率不一樣，各單位的混合樣本就不是混合母體的隨機樣本，更不是全體選民的隨機樣本。

如果民進黨能把市話樣本和手機樣本分別開來，則市話樣本可以說是市話母體的隨機樣本，手機樣本可以說是手機母體的隨機樣本。但因為民進黨只公布每單位市話和手機混合樣本的資料，這裡的假設只是純粹正常狀態的假設。

假設二：支持度的母體參數值（π）可以用各單位樣本支持度（Ｐ）的平均數來估計。

本來在同一母體重複抽取足夠多的隨機樣本時，樣本的平均支持度會是母體真正支持度的不偏估計。但如果這些重複樣本不是隨機樣本，則這個假設不必然成立。另外，五個重複樣本並不能算「足夠多」，所以這個假設也只是純粹假設。

假設三、各樣本對人口變數的加權對結果的影響可以忽略。

這個假設通常是可以接受的，但因為民進黨未公布未加權的結果，加權究竟影響有多大也無從得知。

-----廣告，請繼續往下閱讀-----

根據這些假設，得到此結果的機率是……？

根據假設一，應用中央極限定理（CLT）可以導出樣本支持度 P 的「抽樣分佈」是常態分佈：

P~N(π，π(1-π)/N)

其期望值π 是母體支持度，變異量是 π(1-π)/N。值得注意的是：變異量是 π(1-π) 的函數，因為 π 增加時 1-π 減少，π 減小時 1-π 增加，這個分佈的「胖」、「瘦」對 π 並不敏感。因為這樣，以下機率的計算與母體支持度大小的關係不大，關係較大的是五樣本支持度相近的程度。

我們先分析蔡英文支持度的相近程度，再用同樣的方法分析賴清德、韓國瑜、柯文哲的支持度。根據上面的假設，蔡英文母體支持度參數值估計為π=0.356768，由此求出的變異量是 0.0000717139，標準差是 0.008468。所以：

-----廣告，請繼續往下閱讀-----

P~N(0.356768，0.008468^2)

也就是平均數為 0.356768，標準差為 0.008468 的常態分佈。這個常態分佈就是上面所說的「正常狀態」，當足夠多的機構「在相同的抽樣架構、相同的問卷題目、相同的訪問原則、相同的訪員訓練，相同的加權方式之下執行」執行民調時，其所得到的樣本支持度理論上應該遵行這個常態分佈。我們要算五個單位結果那麼相近的機率必須要在這個常態分佈之下來算。

在這樣的常態分佈之下，每一樣本支持度距離 35.6768% 不超過 1.1445%，也就是落在 (34.5323%，36.8213%) 區間內的機率是 0.823463，這就是下圖曲線下藍色區域的面積。

如果要算五個民調的支持度同時落在此區間內，則其機率是 0.823463^5≈0.38。

-----廣告，請繼續往下閱讀-----

這個機率是大是小呢？

一般所說的「信心區間」可以有兩個意義。以支持度比例來說，教科書所說的信心區間是指樣本比例加減由樣本比例算出來的抽樣誤差估計值所得到的區間。但如果我們知道母體比例，則也可以把母體比例加減由母體比例算出來的抽樣誤差來建構信心區間。

這裡因為假設二，我們可以從第二種意義來看待「95%信心區間」：樣本支持度落在以母體支持度為中心的這個區間的機率為 0.95。如果我們有五個重複樣本，則這五個樣本的支持度全部落在「95%信心區間」之內的機率是 0.95^5≈0.77。

上面算出的 0.38 是在正常狀態之下，五個重複樣本支持度距離母體支持度不超過 1.1445% 的機率。

如果有天你因為摸彩而中獎，想必不會覺得有啥好奇怪的。圖／immigrationhadley

現在民進黨五個執行單位得到的蔡英文支持度均在此區間之內，因此有 0.38 機率發生的事件發生了，這樣奇怪嗎？如果摸彩中獎的機率約 0.40，而你中獎了，你會覺得有人作弊讓你中獎嗎？我想多數人不會覺得這樣中獎有什麼好奇怪的。

-----廣告，請繼續往下閱讀-----

這機率可以看做是統計檢定的 p值，也就是數據與假設相諧的程度。0.38 比 0.77小，但它並未小到讓我們得出數據與假設不相諧的結論。

當然，就如統計檢定 p>0.05 並不代表虛無假設為真一樣，它也不足以讓我們做出假設一至三為真的結論。（請參考拙作〈看電影學統計：ｐ值的陷阱〉）

用同樣的方法分析各單位測得的賴清德、韓國瑜、柯文哲對比支持度，都可以得到類似的結果。五個重複樣本的支持度落在實際發生區間內的機率為：0.30（賴清德）、0.60（韓國瑜對比蔡柯）、0.58（韓國瑜對比賴柯）、0.49（柯文哲對比蔡韓）、0.40（柯文哲對比賴韓）。這些機率均未小到令人起疑的地步。

統計上，差異過大或差異過小都可能有問題

民進黨說「有相近的民調結果才顯見此次總統初選民調的品質值得信賴，如果五家單位的民調結果差異過大，那才是值得擔憂的事。」其實是不對的。差異過大固然值得擔憂，太過相近也是問題。

-----廣告，請繼續往下閱讀-----

比如我們把五單位的蔡英文支持度偏離其平均數的最大值減半至 0.5723%，則母體支持度加減 0.5723%的區間便縮小為下圖藍色區域。單一樣本的支持度落在此區間內的機率大約是 0.5，五個樣本支持度全部落在此區間內的機率只有 0.5^5≈0.03。這樣小的機率只能讓我們得到數據與假設不相諧的結論。

民進黨應該解釋的是五單位民調的結果並沒有相近到不可思議的地步，而不是說相異過大才值得擔憂。民調太相近或太相異都是品質可能有問題的跡象。

後記

本文完成後，看到ptt上有高手（raiderho）更早就用模擬的方法得到五單位民調相近程度並非小機率事件的結論。該文雖然用的是模擬的方法，卻能以對比民調中四個比例（蔡／賴、韓、柯、未表態）的聯合常態分佈為基礎來計算機率，可以補本文只用邊際分佈計算機率之不足。

請參考：

Raiderho（冷顏冷雨）：〈綠營初選民調分析１〉、〈綠營初選民調分析2〉

本文轉載自作者部落格，原文標題：民進黨初選民調的「抽樣分佈」

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

林澤民

37 篇文章・ 248 位粉絲

台大電機系畢業，美國明尼蘇達大學政治學博士，現任教於美國德州大學奧斯汀校區政府系。林教授每年均參與中央研究院政治學研究所及政大選研中心「政治學計量方法研習營」(Institute for Political Methodology)的教學工作，並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

TRENDING 熱門討論

即時熱門

1 2026/04/24

1 2026/04/04

2 2026/04/04

主動脈瓣狹窄的危機與對策，經導管主動脈瓣膜置換手術（TAVI）與腦部血管保護裝置解析，心臟血管外科醫師圖文懶人包

0

0

文字

0

為什麼越累越難睡?當大腦想下班，「腸道」卻還在加班！

鳥苷三磷酸 (PanSci Promo) ・2026/04/30 ・2519字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

本文與益福生醫合作，泛科學企劃執行

昨晚，你又在床上翻來覆去、無法入眠了嗎？這或許是現代社會最普遍的深夜共鳴。儘管換了昂貴的乳膠枕、拉上百分之百遮光的窗簾，甚至在腦海中數了幾百隻羊，大腦的那個「睡眠開關」卻彷彿生鏽般卡住。這種渴望休息卻睡不著的過程，讓失眠成了一場耗損身心的極限馬拉松。

皮質醇：你體內那位「永不熄滅」的深夜警報器

要理解失眠，我們得先認識身體的一套精密防衛系統：下視丘-垂體-腎上腺軸（HPA axis） 。這套系統原本是演化給我們的禮物，讓我們在面對劍齒虎或突如其來的危險時，能迅速進入「戰鬥或快逃」的備戰狀態。當這套系統啟動，腎上腺就會分泌皮質醇 (壓力荷爾蒙)，這種荷爾蒙能調動能量、提高警覺性，讓我們在危機中保持清醒。

然而，現代人的「劍齒虎」不再是野獸，而是無止盡的專案進度、電子郵件與職場競爭。對於長期處於高壓或高強度工作環境的人們來說，身體的警報系統可能處於一種「切換不掉」的狀態。

-----廣告，請繼續往下閱讀-----

在理想的狀態下，人類的生理時鐘像是一場精確的接力賽。入夜後，身體會進入「修復模式」，此時壓力荷爾蒙「皮質醇」的濃度應該降至最低點，讓「睡眠荷爾蒙」褪黑激素（Melatonin）接棒主導。褪黑激素不僅負責傳遞「天黑了」的訊號，它還能抑制腦中負責維持清醒的食慾素（Orexin）神經元，幫助大腦順利關閉覺醒開關。

對於長期處於高壓或高強度工作環境的人們來說，身體的警報系統可能處於一種「切換不掉」的狀態 / 圖片來源：envato

然而，當壓力介入時，這場接力賽就會變成跑不完的馬拉松賽。研究指出，長期的高壓環境會導致 HPA 軸過度活化，使得夜間皮質醇異常分泌。這不僅會抑制褪黑激素的分泌，更會讓食慾素在深夜裡持續活化，強迫大腦維持在「高覺醒狀態（Hyperarousal）」。這種令人崩潰的狀態就是，明明你已經累到不行，但大腦卻像停不下來的發電機！

長期的睡眠不足會導致體內促發炎細胞激素上升，而發炎反應又會進一步活化 HPA 軸，分泌更多皮質醇來試圖消炎，高濃度的皮質醇會進一步干擾深層睡眠與快速動眼期（REM），導致睡眠品質變得低弱又破碎，最終形成「壓力－發炎－失眠」的惡行循環。也就是說，你不是在跟睡眠上的意志力作對，而是在跟失控的生理長期鬥爭。

從腸道重啟好眠開關：PS150 菌株如何調校你的生理時鐘

面對這種煞車失靈的失眠困局，科學家們將目光投向了人體內另一個繁榮的生態系：腸道。腸道與大腦之間存在著一條雙向通訊的高速公路，這就是「菌-腸-腦軸 (Microbiome-Gut-Brain Axis, MGBA)」，而某些特殊菌株不僅能幫助消化、排便，更能透過神經與內分泌途徑與大腦對話，直接參與調節我們的壓力調節與睡眠節律。這種菌株被科學家稱為「精神益生菌」（Psychobiotics）。

-----廣告，請繼續往下閱讀-----

腸道與大腦之間存在著一條雙向通訊的高速公路，這就是「菌-腸-腦軸 (Microbiome-Gut-Brain Axis, MGBA)」/圖片來源：益福生醫

在眾多研究菌株中，發酵乳桿菌 Limosilactobacillus fermentum PS150 的表現格外引人注目。PS150菌株源於亞洲益生菌權威「蔡英傑教授」團隊的專業研發，累積多年功能性菌株研發經驗的科學成果。針對臨床常見的「初夜效應」（First Night Effect, FNE），也就是現代人因出差、換床或環境改變導致的入睡困難，俗稱認床。科學家在進行實驗時發現，補充 PS150 菌株能顯著恢復非快速動眼期（NREM）的睡眠長度，且入睡更快，起床後也更容易清醒。更重要的是，不同於常見的藥物助眠手段（如抗組織胺藥物 DIPH）容易造成快速動眼期（REM）剝奪或導致睡眠破碎化，PS150 菌株展現出一種更為「溫和且自然」的調節力，它能有效縮短入睡所需的時間，並恢復睡眠中代表深層修復的「Delta 波」能量。

科學家發現，即便將 PS150 菌株經過特殊的熱處理（Heat-treated），轉化為不具活性但保有關鍵成分的「後生元」（Postbiotics），其生物活性依然能與活菌媲美。HT-PS150 技術解決了益生菌在儲存與攝取過程中容易失去活性的痛點，讓這些腸道通訊員能更穩定地發揮作用。

在臨床實驗中，科學家觀察到一個耐人尋味的現象：當詢問受試者的主觀感受時，往往會遇到強大的「安慰劑效應」，無論是服用 HT-PS150 還是安慰劑的人，主觀上大多表示睡眠變好了。這種「體感上的進步」有時會掩蓋真相，讓人分不清是心理作用還是真實效益。

然而，客觀的生理數據（Biomarkers）卻揭開了關鍵的差異。在排除主觀偏誤後，實驗數據顯示 HT-PS150 組有更高比例的人（84.6%）出現了夜間褪黑激素分泌增加，且壓力荷爾蒙（皮質醇）顯著下降，這證明了菌株確實啟動了體內的睡眠調控系統，而不僅僅是心理安慰。

-----廣告，請繼續往下閱讀-----

最值得關注的是，對於那些失眠指數較高（ISI ≧ 8）的族群，這種「生理修復」與「主觀體感」終於達成了一致。這群人在補充 HT-PS150 後，不僅生理標記改善，連原本嚴重困擾的主觀睡眠效率、持續時間，以及焦慮感也出現了顯著的進步。

了解更多PS150助眠益生菌：https://lihi3.me/KQ4zi

重新定義深層睡眠：構建全方位的深夜修復計畫

睡眠從來就不只是單純的休息，而是一場生理功能的全面重整。想要重獲高品質的睡眠，關鍵在於為自己建立一個全方位的修復生態系。

這套系統的基石，始於良好的生活習慣。從減少睡前數位螢幕的干擾、優化室內環境，到作息調整。當我們透過規律作息來穩定神經系統，並輔以現代科學對於 PS150 菌株的調節力發現，身體便能更順暢地啟動睡眠開關，回歸自然的運作節律。

-----廣告，請繼續往下閱讀-----

與其將失眠視為意志力的抗爭，不如將其看作是生理機能與腸道微生態的深度溝通。透過生活作息的調整與科學實證的支持，每個人都能擁有掌控睡眠的主動權。現在就從優化生活型態開始，為自己按下那個久違的、如嬰兒般香甜的關機鍵吧。

與其將失眠視為意志力的抗爭，不如將其看作是生理機能與腸道微生態的深度溝通 / 圖片來源 : envato

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

248 篇文章・ 319 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

104

0

文字

0

104

0

肺部為何會「結疤」？揭開比癌症更致命的「菜瓜布肺」，科學家如何找到破解惡性循環的新契機

鳥苷三磷酸 (PanSci Promo) ・2026/05/08 ・2041字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

本文由肺纖維化(菜瓜布肺)社團衛教合作，泛科學撰文

在現代醫學的警示清單裡，乳癌、大腸癌這些疾病大家都不陌生；但有一個「隱蔽且致命」的威脅卻常被忽視，那就是「肺纖維化」。其中最常見的類型「特發性肺纖維化」（IPF），其預後往往不太樂觀，確診後的五年存活率甚至比許多常見的癌症還低。

首先，我們得先破解一個迷思：肺纖維化並不是單一疾病，而是許多種間質性肺病的共同表現。當我們聽到「肺纖維化」，腦中常浮現「菜瓜布肺」的形象，患者的肺部外觀充滿一個個空洞與疤痕，像極了乾燥的絲瓜。這精準描繪了肺部組織逐漸硬化、失去彈性的過程。

更重要的是，IPF 這類肺纖維化的威脅在於「不可逆」的特性，一旦形成就很難逆轉。這跟部分 COVID-19 康復者身上、仍有機會復原的肺纖維化，是兩種完全不同的概念。

-----廣告，請繼續往下閱讀-----

IPF 這類肺纖維化的威脅在於「不可逆」的特性，一旦形成就很難逆轉 / 圖示來源：shutterstock

肺部為何會變成「菜瓜布」？

為什麼好端端的肺會變成菜瓜布？這其實是一場身體修復機制失控的結果。

「纖維化」的組織，就是肺部間質組織（interstitium）的疤痕化。間質是圍繞在肺泡周圍，包含血管與支持肺部結構的結締組織。在正常情況下，肺部損傷後會啟動修復機制，並再生健康組織。但在肺纖維化的患者體內，這套修復機制卻「當機」了。

身體會不斷地發出訊號，導致負責修復工作的「纖維母細胞」（fibroblasts）被過度活化，進而失控地沉積膠原蛋白疤痕組織，最終在肺部形成永久性的纖維化。

科學家發現，這個過程之所以棘手，在於它是一個「惡性循環」，肺部同時存在著「發炎反應」與「纖維化」這兩條路徑，它們相互加乘，演變成難以阻斷的強大破壞力。

-----廣告，請繼續往下閱讀-----

雖然特發性肺纖維化 (IPF) 的具體成因不明，但已知某些特定族群的風險更高。例如抽菸，特定年齡與性別(50歲以上男性)、長期暴露於粉塵環境的工作者(農業、畜牧業、採礦業…)、胃食道逆流者。此外，患有自體免疫疾病（如類風濕性關節炎、乾燥症、硬皮症、皮肌炎/多發性肌炎，）的患者，他們併發肺纖維化的機率遠高於一般人，必須特別警覺。

雖然特發性肺纖維化 (IPF) 的具體成因不明，但已知某些特定族群的風險更高。/ 圖示來源：shutterstock

打斷惡性循環的挑戰，為何只對抗「纖維化」還不夠？

面對這個不可逆的疾病，醫學界長年束手無策，直到 2014 年才迎來一道曙光。美國 FDA 批准了兩種機制不同的新藥：Nintedanib 和 Pirfenidone。這兩種藥物的出現是治療史上的分水嶺，首度被證實能夠「延緩」IPF 患者肺功能的惡化速度。

然而，這場戰役尚未結束。現有的治療雖然帶來了希望，卻也凸顯了「未被滿足的醫療需求」。從機制上來看，這些藥物主要抑制的是「纖維化路徑」。

這讓科學界開始思考這個未被滿足的棘手問題：既然疾病的本質是「發炎」與「纖維化」的雙重打擊，那麼，我們是否能找到「同時抑制」這兩條路徑的全新策略，從而更有效地打斷這個惡性循環？

-----廣告，請繼續往下閱讀-----

找到同時調控「發炎」與「纖維化」的新靶點

為了解決難題，科學家將目光鎖定在一個細胞內的酵素：磷酸二酯酶 4B（PDE4B）。

為什麼鎖定它？讓我們看看它的「雙重作用」機制：

關鍵位置： PDE4B 同時存在於免疫細胞（與發炎有關）與纖維母細胞（與纖維化有關）當中。
作用機制： PDE4B 的主要工作是降解細胞內一種叫 cAMP（環磷酸腺苷） 的訊號分子。cAMP 可以被視為細胞內的「穩定信號」。
雙重抑制： 當我們使用藥物抑制了 PDE4B 的活性，細胞內的 cAMP 就不會被分解，濃度會隨之升高。高濃度的 cAMP 能穩定免疫細胞和纖維母細胞，同時產生抗發炎與抗纖維化的雙重效應。

簡單來說，鎖定並抑制 PDE4B，就像是同時抑制了免疫風暴與纖維化的工程，有望從雙從抑制打擊這個惡性循環。

全球臨床試驗帶來的新希望

近十年來，全球在肺纖維化領域投入了大量的臨床試驗，我們相信，在科學家逐步破解肺纖維化惡性循環的複雜難題後，期盼未來能為無數患者爭取到更安全、健康的生活與未來。

-----廣告，請繼續往下閱讀-----

最後，我們必須再次提醒，特發性肺纖維化（IPF）與漸進性肺纖維化（PPF）是極具破壞性、且不可逆的疾病。面對這個比癌症更致命的對手，雖然現有的治療手段能延緩惡化，但無法逆轉已經形成的肺部疤痕組織，因此「早期診斷、早期治療」仍是對抗肺纖維化最重要的黃金時刻。

必須再次提醒，特發性肺纖維化（IPF）與漸進性肺纖維化（PPF）是極具破壞性、且不可逆的疾病。/ 圖示來源：

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

248 篇文章・ 319 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

4

3

文字

0

4

3

看電影學統計：「多重宇宙」與統計學「隨機變異」的概念

林澤民・2023/03/15 ・2854字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

本文轉載自林澤民的部落格

「多重宇宙」是我教統計時常用到的名詞，我用它來解釋隨機變異（stochastic variation）的概念：

例如民調抽得一個樣本，此樣本的受訪者固然是一群特定人士，但理論上我們可以抽出許多許多樣本，這些樣本之間雖然會有隨機變異，但樣本彼此的宏觀性質仍會相近。這些不同的隨機樣本，可以以「多重宇宙」一詞來形容。即使事實上只有一個樣本（一個宇宙），我們可以想像在多重宇宙的每個宇宙裡，都有一個微觀上隨機變異的樣本存在。

一個樣本（一個宇宙），在多重宇宙裡，每個宇宙都有一個微觀上隨機變異的樣本存在。圖／IMDb

什麼是隨機樣本？

其實，數理統計學中「隨機樣本」（random sample）的概念指的是「一組獨立且同一分布的隨機變數」（a set of independently and identically distributed random variables）。

在這個定義之下，樣本的每一個單位（資料點）都不是固定不變的數值，而是一個依循某機率分布的隨機變數。「隨機樣本」的要求是樣本所有的Ｎ個單位不但要互相獨立，而且要依循同一的機率分布。

我們可以想像我們平常所謂「一個樣本」的Ｎ個觀察值，每一個觀察值背後都有一個產生這個數值的隨機變數，也可以說所謂「一個樣本」其實只是這「一組獨立且同一分布的隨機變數」的一個「實現」（realization）。那麼，不同的樣本就是這「一組獨立且同一分布的隨機變數」的不同「實現」。這樣了解之下的不同樣本、不同「實現」，我喜歡把它們稱為「多重宇宙」。

-----廣告，請繼續往下閱讀-----

多重宇宙中的隨機變異，是我們在分析一個樣本的資料時必須作統計推論的原因。

比如我們分析本屆所有 113 位立委的議事行為，既然立委一共只有 113 人，我們分析的對象不就是立委的母體嗎？那是不是就不必做統計推論？

不是！原因是我們仍然可以想像有多重宇宙存在，每個宇宙都有 113 位立委，而同一位立委在不同的宇宙裡其議事行為會有隨機變異。正是因為這隨機變異的緣故，我們即使分析的是所謂「母體」，我們仍然要做統計推論。

「多重宇宙」的概念可以說就是「假如我們可以重來」的反事實思想實驗。被分析的單位不是在時間中重來一次，而是在多重宇宙的空間中展現「假如我們可以重來」的隨機變異的可能性。

名為 Monday 的這集 X 檔案電視劇中，主角的夢境不斷重複，每次夢境的結構大致類似，但細節卻有所不同，這正是「多重宇宙—隨機變異」概念的戲劇化。

-----廣告，請繼續往下閱讀-----

【媽的多重宇宙】（Everything Everywhere All at Once）也是。

「看，這是你的宇宙，一個漂浮在存在宇宙泡沫中的泡泡。周圍的每個氣泡都有細微的變化。但你離你的宇宙越遠，差異就越大。」——【媽的多重宇宙】對白

這是說：變異程度越小的是離你越近的宇宙，程度越大的是離你越遠的宇宙。這裡所謂變異的程度，在統計學裡可以用誤差機率分布的標準差來衡量。

什麼是隨機變異？

關於「隨機變異」這個概念，我最喜歡的例子是研究所入學申請的評審。

例如有 120 人申請入學，我詳細閱讀每人投遞的申請資料（包括性別、年齡等個人特質還有 SOP、大學成績單、GRE 分數、推薦信等），然後打一個 Y=0～100 的分數。全部評閱完畢，我便得到一份 N=120 的資料。這個資料包括了所有的申請者，那麼它是樣本呢？還是母體？

-----廣告，請繼續往下閱讀-----

如果我要分析我自己評分的決定因素，我會把分數 Y 回歸到性別、年齡等個人特質以及資料中可以量化的變數，例如大學成績平均分數（GPA）和 GRE 分數。跑這個迴歸時，需不需要做統計推論，看迴歸係數是不是有統計的顯著性？

我的看法是這份 N=120 的資料是樣本而不是母體，做迴歸分析當然要做統計推論。

那麼我資料的母體是什麼？

迴歸分析資料的母體其實是所謂「母體迴歸函數」（population regression function），也就是通常所說的「資料產生過程」（data generating process, DGP）。

這個 DGP 就是我在評閱每份資料時腦海中的思考機制，它考量了許多量化和質化的變數，賦予不同的權重，然後加總起來產生 Y。

分析資料的母體，也就是常說的「資料產生過程」。圖／envato.elements

量化變數的權重就是母體迴歸函數的係數，質化變數則是母體迴歸函數的係數的誤差項。如果有很多質化變數攏總納入誤差項，我們通常可以根據中央極限定理，假設誤差項是呈現常態分布的隨機變數。這個誤差項就是「隨機變異」的來源。

評審入學申請，我通常只把所有資料評閱一次。這一次評審結果，會有幾家歡樂幾家愁，這便構成了一個「宇宙」。如果我第二天又把所有 120 份資料重新評分一遍，得到第二個樣本。因為我腦中的「資料產生過程」包括隨機變數，這個新樣本保證跟第一個樣本會有差異。用白話說：我的評分機制不精確，我自己甚至不知道我給每個量化變數多少權重，而且第二次評閱所用的權重也會跟第一次不盡相同，更不用說質化變數如何影響我的評分了。

-----廣告，請繼續往下閱讀-----

這第二個樣本，申請者的排比不會跟第一個樣本一樣，雖然也是幾家歡樂幾家愁，歡樂與愁悶的人也可能不一樣。這是第二個宇宙。依此類推，我們可以想像同樣的120位申請者，因為我「資料產生過程」的隨機變異，活在多重宇宙裡。

這些宇宙有的差異不大，根據【媽的多重宇宙】的說法，它們的泡泡互相之間的距離就較近，差異較大的宇宙，距離就較遠。如果申請者可以像電影所述那樣做宇宙跳躍，他們會看到自己在不同宇宙裡的命運。

我擔任德州大學政府系的研究部主任時，常耽心有申請者拿我們入學評審委員的評分資料去做迴歸分析。如果分析結果顯示種族、性別等變數有統計顯著性，說不定會被拿去控告我違反所謂「平權行動」（affirmative action）的相關法律。如果沒有顯著性，我就不耽心了。

多重宇宙之間會不會有「蝴蝶效應」？也就是宇宙跳躍時，隨機變異產生的微小差異，會不會造成新舊宇宙生命路徑的決然不同？

-----廣告，請繼續往下閱讀-----

在【媽的多重宇宙】中，伊芙琳只要當初做了一個不同的決定，以後的生命便可能跟現世（home universe）有很不一樣的命運。這在統計學也不是不可能。時間序列分析中，有些非線性模式只要初始值稍微改變，其後在時間中的路徑便會與原來的路徑發散開來。

你做時間序列分析時，會不會想想：時間序列資料究竟是樣本還是母體？如果你的研究興趣就只限於資料期間，那要不要做統計推論？當然要的，因為隨機變異的緣故。

如果你今年申請外國研究所不順利，也許在另一個宇宙裡，你不但獲名校錄取，得到鉅額獎學金，而且你的人生旅途將自此一路順遂，事業婚姻兩得意呢。

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

林澤民

37 篇文章・ 248 位粉絲

台大電機系畢業，美國明尼蘇達大學政治學博士，現任教於美國德州大學奧斯汀校區政府系。林教授每年均參與中央研究院政治學研究所及政大選研中心「政治學計量方法研習營」(Institute for Political Methodology)的教學工作，並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

TRENDING 熱門討論

即時熱門

民調結果一致，該懷疑抑或是才可信？計算此一「抽樣分佈」發生的機率

民調得出接近的結果，究竟是否有「異常」？先從假設談起

假設一：各民調單位的樣本是同一母體的的隨機樣本，其樣本數同為 N=3200。

假設二：支持度的母體參數值（π）可以用各單位樣本支持度（Ｐ）的平均數來估計。

假設三、各樣本對人口變數的加權對結果的影響可以忽略。

根據這些假設，得到此結果的機率是……？

這個機率是大是小呢？

統計上，差異過大或差異過小都可能有問題

後記

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

皮質醇：你體內那位「永不熄滅」的深夜警報器

從腸道重啟好眠開關：PS150 菌株如何調校你的生理時鐘

重新定義深層睡眠：構建全方位的深夜修復計畫

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

肺部為何會變成「菜瓜布」？

打斷惡性循環的挑戰，為何只對抗「纖維化」還不夠？

找到同時調控「發炎」與「纖維化」的新靶點

全球臨床試驗帶來的新希望

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

什麼是隨機樣本？

什麼是隨機變異？

那麼我資料的母體是什麼？

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

發表意見