1

4

文字

繁 | 简

1

4

專欄數學妙用

什麼是抽樣誤差？老師和媒體都沒教你的那些事

林澤民・2020/11/19 ・3758字・閱讀時間約 7 分鐘・SR值 550

・八年級

相關標籤：

熱門標籤：

本文原文刊登時間為2020年11月6日，原文標題為《什麼是抽樣誤差？為何外國媒體報導的與老師教的不一樣？》

美國總統大選進入最後一周時，許多媒體紛紛在搖擺州進行民調，其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張，許多州出現極小的得票差距。圖／Pixabay。

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示：在 824 位可能投票的選民中，川普領先拜登 50−48個百分點，因為抽樣誤差為 ± 4.0 %，報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示：在1,451位可能投票的選民中，拜登領先川普47−44個百分點，其抽樣誤差為 ± 3.2%。

兩個民調相隔只 2−3 天，拜登從落後 2 個百分點轉為領先 3 個百分點，這領先程度有統計顯著性嗎？（佛州開票 96% 的結果是川普 51.2% 拜登 47.8%）

這裡有兩個相關問題要先解決：

第一、樣本數 N＝1,451 為何抽樣誤差是 ±3.2%？這個數字對嗎？一般民調若樣本數在N＝1,000左右，抽樣誤差不是大約 ±3% 嗎？為何紐時的樣本數高達 N＝1,451，抽樣誤差不是更低？反而更高？
第二、如果抽樣誤差低於±3%，那拜登在佛州領先川普超過抽樣誤差，便可以說這差距有統計顯著性嗎？

什麼是「抽樣誤差」？

首先解釋第一個問題：所謂「抽樣誤差」（margin of error）的是當母體比例為π時，重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說：當母體比例為π時，重複抽取許多樣本數為 N 的樣本會得到許多不同的P值，這些 P 值的分佈稱作 P 的「抽樣分佈」（sampling distribution）。

-----廣告，請繼續往下閱讀-----

根據中央極限定裡，P 的抽樣分佈是以π為中心的常態分佈，其變異量是 π（1-π）/N。我們若以π為中心取一個區間（π-m, π+m）讓 P 落在區間內的機率為 95%，則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差，其公式為：

雖然這個公式可以適用於任何的π值，在沒有特別資訊的情況下，一般以 π=0.5 來計算 MOE。

舉例來說，聯合報在 2019 年 12 月 12-14 日實施了一個民調，它在報導中特別就調查方法報告如下：

「調查於十二月十二日至十四日晚間進行，成功訪問一千一百一十位合格選民，另二百九十一人拒訪；在百分之九十五信心水準下，抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣，藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點，調查結果依廿歲以上性別、年齡及縣市人口結構加權，調查經費來自聯合報社。」

-----廣告，請繼續往下閱讀-----

同樣的，蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到：

「本次民調由《蘋果新聞網》委託台灣指標公司執行，經費來源是《蘋果新聞網》，調查對象為設籍在全國22縣市且年滿20歲民眾，調查期間為12月27日至29日，採用市內電話抽樣調查，並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法，再以電話號碼後2碼隨機抽出，成功訪問1,069位受訪者，在95%信心水準下，抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE＝2.94%、3.00%，正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多，為何它所報告的抽樣誤差反而較大？我們若把 N=1,451 套入上式，不是應該得到 MOE=2.57%嗎？為何紐時說是 3.2%？

-----廣告，請繼續往下閱讀-----

其實不只紐時，華郵／ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣？華郵／ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」（including design effects）之後計算所得；什麼是「設計效應」？

什麼是「設計效應」？

這個問題牽涉到「有效樣本數」（effective sample size）的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」（valid N），而是在調整受訪者代表性之後的「加權樣本數」（weighted sample size）。

下面我會說明：紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差，也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」（simple random sampling）得到的結果，母體中每人被抽到的機率並不一致。因此，樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致，樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數，其數值代表樣本中每個受訪者所代表族群的權重。

-----廣告，請繼續往下閱讀-----

例如「台灣選舉與民主化研究」2020年民調資料合併檔（TEDS2020）中便有這樣的一個權值變數w，它的值介於0.295至3.474之間，其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係，原來的樣本數已不能有效反映加權後的樣本數，因此有所謂「有效樣本數」(effective sample size)的概念，有效樣本數的計算方式因加權方式而異，抽樣理論大師 Leslie Kish 建議了一個粗略的算法：

除非根本沒有加權，否則這個公式一定小於N，也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例，ESS=2,359，也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差，則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異，可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果，我們定義「設計效應」（design effect）為：

-----廣告，請繼續往下閱讀-----

由於抽樣誤差之平方與樣本數成反比，上式也可導出：

再以TEDS2020為例，DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差，我們可以算出佛州民調的設計效應：

這設計效應比TEDS2020要高出很多！這可能是因為TEDS採用分層隨機抽樣面訪，其設計比起新聞媒體採用電話＋手機有所不同。有了設計效應的估計值，我們就可以算紐時佛州民調的有效樣本數了：它的 ESS=936，只有原樣本數的三分之二。相對而言，華郵／ABC的佛州民調的設計效應是 DE=1.37，其有效樣本數是ESS＝600.

-----廣告，請繼續往下閱讀-----

如果我們以 N＝936 算基於簡單隨機抽樣設計的抽樣誤差，它會恰恰是紐時所報告的 3.2%。以 N＝600 來算的話，抽樣誤差就剛好是ABC／華郵所報告的 4.0%。

值得注意的是：如果紐時效仿聯合報用原樣本數 N＝1,451 計算抽樣誤差，這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差，因而具有統計上的顯著性。紐約時報的分析家沒有這樣做，這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題：一般媒體通常只報告單一比例的抽樣誤差，而對比式民調著重的不是單一比例，而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣，它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差，我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀，並提出一個計算正確抽樣誤差的公式。
這篇文章請見：對比式選舉民調的錯誤解讀

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

-----廣告，請繼續往下閱讀-----

計算的結果是抽樣誤差高達 6.03 %：拜登領先的差距其實還在誤差範圍之內。

注意：如果以原樣本數 N＝1,451 代入速算表，則抽樣誤差為 4.91%，比 6.03% 要小得多。

關於民調報導，還有很多進步空間

台灣的媒體在報導對比式民調的結果時，似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差，而未考慮設計效應。這個抽樣誤差本來就太小，再加上對比所產生的問題，可以說是雙重的誤導！

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外，有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章：5 Key Things to Know about the Margin of Error in Election Polls

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 1

登入與大家一起討論

#1

b10312037 2023/11/18

民調抽樣誤差留名！

林澤民

37 篇文章・ 247 位粉絲

台大電機系畢業，美國明尼蘇達大學政治學博士，現任教於美國德州大學奧斯汀校區政府系。林教授每年均參與中央研究院政治學研究所及政大選研中心「政治學計量方法研習營」(Institute for Political Methodology)的教學工作，並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

TRENDING 熱門討論

即時熱門

30

2

文字

0

30

2

民眾黨是未來台灣政治的樞紐？

林澤民・2024/01/30 ・3382字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

一、前言

選後的立法院三黨不過半，但民眾黨有八席不分區立委，足以與民進黨或國民黨結成多數聯盟，勢將在國會居於樞紐地位。無獨有偶的是：民眾黨主席柯文哲在總統大選得到 26.5% 的選票，屈居第三，但因其獲得部分藍、綠選民的支持，在選民偏好順序組態的基礎上，它卻也同樣地居於樞紐地位。這個地位，將足以讓柯文哲及民眾黨在選後的台灣政壇持續激盪。

二、柯文哲是「孔多塞贏家」？

這次總統大選，誰能脫穎而出並不是一個特別令人殷盼的問題，更值得關心的問題是藍白綠「三跤㧣」在選民偏好順序組態中的消長。台灣總統大選採多數決選制，多數決選制英文叫 first-past-the-post（FPTP），簡單來講就是票多的贏，票少的輸。在 10 月中藍白合破局之後，賴蕭配會贏已經沒有懸念，但這只是選制定規之下的結果，換了另一個選制，同樣的選情可能就會險象環生。

從另一個角度想：選制是人為的，而選情反映的是社會現實。政治學者都知道天下沒有十全十美的選制；既定的選制推出了一位總統，並不代表選情的張力就會成為過眼雲煙。當三股社會勢力在制度的帷幕後繼續激盪，台灣政治將無法因新總統的誕生而趨於穩定。

如果在「三跤㧣」選舉之下，選情的激盪從候選人的得票多少看不出來，那要從哪裡看？政治學提供的一個方法是把候選人配對 PK，看是否有一位候選人能在所有的 PK 中取勝。這樣的候選人並不一定存在，如果不存在，那代表有 A 與 B 配對 A 勝，B 與 C 配對 B 勝，C 與 A 配對 C 勝的 A＞B＞C＞A 的情形。這種情形，一般叫做「循環多數」（cyclical majorities），是 18 世紀法國學者孔多塞（Nicolas de Condorcet）首先提出。循環多數的存在意涵選舉結果隱藏了政治動盪。

-----廣告，請繼續往下閱讀-----

另一方面，如果有一位候選人能在配對 PK 時擊敗所有的其他候選人，這樣的候選人稱作「孔多塞贏家」（Condorcet winner），而在配對 PK 時均被擊敗的候選人則稱作「孔多塞輸家」（Condorcet loser）。三角嘟的選舉若無循環多數，則一定會有孔多塞贏家和孔多塞輸家，然而孔多塞贏家不一定即是多數決選制中贏得選舉的候選人，而多數決選制中贏得選舉的候選人卻可能是孔多塞輸家。

如果多數決選制中贏得選舉的候選人不是孔多塞贏家，那與循環多數一樣，意涵選後政治將不會穩定。

那麼，台灣這次總統大選，有沒有孔多塞贏家？如果有，是多數決選制之下當選的賴清德嗎？我根據戴立安先生調查規劃的《美麗島電子報》追蹤民調第 109 波（1 月 11 日至 12 日），也是選前最後民調的估計，得到的結果令人驚訝：得票墊後的柯文哲很可能是孔多塞贏家，而得票最多的賴清德很可能是孔多塞輸家。果然如此，那白色力量將會持續地激盪台灣政治！

我之前根據美麗島封關前第 101 波估計，侯友宜可能是孔多塞贏家，而賴清德是孔多塞輸家。現在得到不同的結果，顯示了封關期間的三股政治力量的消長。本來藍營期望的棄保不但沒有發生，而且柯文哲選前之夜在凱道浩大的造勢活動，還震驚了藍綠陣營。民調樣本估計出的孔多塞贏家本來就不準確，但短期內的改變，很可能反映了選情的激盪，甚至可能反映了循環多數的存在。

-----廣告，請繼續往下閱讀-----

三、如何從民調樣本估計孔多塞贏家

根據這波民調，總樣本 N=1001 位受訪者中，如果當時投票，會支持賴清德的受訪者共 355 人，佔 35.4%；支持侯友宜的受訪者共 247 人，佔 24.7%。支持柯文哲的受訪者共 200 人，佔 19.9%。

美麗島民調續問「最不希望誰當總統，也絕對不會投給他的候選人」，在會投票給三組候選人的 802 位支持者中，一共有 572 位對這個問題給予了明確的回答。《美麗島電子報》在其網站提供了交叉表如圖：

根據這個交叉表，我們可以估計每一位明確回答了續問的受訪者對三組候選人的偏好順序，然後再依這 572 人的偏好順序組態來判定在兩兩 PK 的情形下，候選人之間的輸贏如何。我得到的結果是：

柯文哲 PK 賴清德：311 > 261（54.4% v. 45.6%）
柯文哲 PK 侯友宜：287 > 285（50.2% v. 49.8%）
侯友宜 PK 賴清德：293 > 279（51.2% v. 48.8%）

所以柯文哲是孔多塞贏家，賴清德是孔多塞輸家。當然我們如果考慮抽樣誤差（4.1%），除了柯文哲勝出賴清德具有統計顯著性之外，其他兩組配對可說難分難解。但在這 N=572 的小樣本中，三位候選人的得票率分別是：賴清德 40%，侯友宜 33%，柯文哲 27%，與選舉實際結果幾乎一模一樣。至少在這個反映了選舉結果的樣本中，柯文哲是孔多塞贏家。依多數決選制，孔多塞輸家賴清德當選。

-----廣告，請繼續往下閱讀-----

不過以上的分析有一個問題：各陣營的支持者中，有不少人無法明確回答「最不希望看到誰當總統，也絕對不會投給他做總統」的候選人。最嚴重的是賴清德的支持者，其「無反應率」（nonresponse rate）高達 34.5%。相對而言，侯友宜、柯文哲的支持者則分別只有 24.1%、23.8% 無法明確回答。為什麼賴的支持者有較多人無法指認最討厭的候選人？一個假設是因為藍、白性質相近，對許多綠營選民而言，其候選人的討厭程度可能難分軒輊。反過來說，藍、白陣營的選民大多數會最討厭綠營候選人，因此指認較無困難。無論如何，把無法明確回答偏好順序的受訪者歸為「遺失值」（missing value）而棄置不用總不是很恰當的做法，在這裡尤其可能會造成賴清德支持者數目的低估。

補救的辦法之一是在「無法明確回答等於無法區別」的假設下，把「遺失值」平分給投票對象之外的其他兩位候選人，也就是假設他們各有 1/2 的機會是無反應受訪者最討厭的候選人。這樣處理的結果，得到

柯文哲 PK 賴清德：389 > 413（48.5% v. 51.5%）
柯文哲 PK 侯友宜：396 > 406（49.4% v. 50.6%）
侯友宜 PK 賴清德：376 > 426（46.9% v. 53.1%）

此時賴清德是孔多塞贏家，而柯文哲是孔多塞輸家。在這 N=802 的樣本中，三位候選人的得票率分別是：賴清德 44%，侯友宜 31%，柯文哲 25%。雖然依多數決選制，孔多塞贏家賴清德當選，但賴的得票率超過實際選舉結果（40%）。用無實證的假設來填補遺失值，反而造成賴清德支持者數目的高估。

如果擔心「無法明確回答等於無法區別」的假設太勉強，補救的辦法之二是把「遺失值」依有反應受訪者選擇最討厭對象的同樣比例，分給投票對象之外的其他兩位候選人。這樣處理的結果，得到

-----廣告，請繼續往下閱讀-----

柯文哲 PK 賴清德：409 > 393（51.0% v. 49.0%）
柯文哲 PK 侯友宜：407 > 395（50.8% v. 49.2%）
侯友宜 PK 賴清德：417 > 385（52.0% v. 48.0%）

此時柯文哲又是孔多塞贏家，而賴清德又是孔多塞輸家了。這個樣本也是 N=802，三位候選人的得票率分別是：賴清德 44%，侯友宜 31%，柯文哲 25%，與上面的結果一樣。

以上三種無反應處理方法都不盡完美。第一種把無反應直接當遺失值丟棄，看似最不可取。然而縮小的樣本裡，三位候選人的支持度與實際選舉結果幾乎完全一致。後兩種以不同的假設補足了遺失值，但卻過度膨脹了賴清德的支持度。如果以樣本中候選人支持度與實際結果的比較來判斷遺失值處理方法的效度，我們不能排斥第一種方法及其結果。

無論如何，在缺乏完全資訊的情況下，我們發現的確有可能多數決輸家柯文哲是孔多塞贏家，而多數決贏家賴清德是孔多塞輸家。因為配對 PK 結果缺乏統計顯著性，我們甚至不能排除循環多數的存在。此後四年，多數決選制產生的總統能否在三角嘟力量的激盪下有效維持政治穩定，值得我們持續觀察。

四、結語

柯文哲之所以可以是孔多塞贏家，是因為藍綠選民傾向於最不希望對方的候選人當總統。而白營的中間偏藍位置，讓柯文哲與賴清德 PK 時，能夠得到大多數藍營選民的奧援而勝出。同樣的，當他與侯友宜 PK 時，他也能夠得到一部份綠營選民的奧援。只要他的支持者足夠，他也能夠勝出。反過來看，當賴清德與侯友宜 PK 時，除非他的基本盤夠大，否則從白營得到的奧援不一定足夠讓他勝出。民調 N=572 的樣本中，賴清德得 40%，侯友宜得 33%，柯文哲得 27%。由於柯的支持者討厭賴清德（52.5%）遠遠超過討厭侯友宜（23.7%），賴雖然基本盤較大，能夠從白營得到的奧援卻不多。而侯雖基本盤較小，卻有足夠的奧援。柯文哲之所以成為孔多塞贏家，賴清德之所以成為孔多塞輸家，都是這些因素的數學結果。

-----廣告，請繼續往下閱讀-----

資料來源

《美麗島電子報》追蹤民調第109波（1月11日至12日）

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

林澤民

37 篇文章・ 247 位粉絲

台大電機系畢業，美國明尼蘇達大學政治學博士，現任教於美國德州大學奧斯汀校區政府系。林教授每年均參與中央研究院政治學研究所及政大選研中心「政治學計量方法研習營」(Institute for Political Methodology)的教學工作，並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

TRENDING 熱門討論

即時熱門

2

文字

2

買樂透真的可以賺錢？大數法則揭示了賭博的真相！——《統計，讓數字說話》

天下文化・2023/03/05 ・2394字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

id S. Moore、諾茨 William I. Notz
譯者：鄭惟厚、吳欣蓓

什麼是大數法則？

期望值的定義是：它是可能結果的一種平均，但在計算平均時，機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果，它代表了如果我們重複賭很多次，或者隨機選出很多家戶，實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明，用機率模型算出來的期望值，真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則（law of large numbers）是指，如果結果為數值的隨機現象，獨立重複執行許多次，實際觀察到的結果的平均值，會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中，每個可能結果的發生比例會接近它的機率，而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的，它們是真正的「平均數定律」。

大數法則解釋了：為什麼對個人來說是消遣甚至是會上癮的賭博，對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值，並且知道長期下來收入會是多少，所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具，讓顧客川流不息進場就行了。只要賭注夠多，大數法則就能保證賭場賺錢。保險公司的運作也很像賭場，他們賭買了保險的人不會死亡。當然有些人確實會死亡，但是保險公司知道機率，並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高，來保證有利潤。

-----廣告，請繼續往下閱讀-----

在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播，看到號碼球上下亂跳，然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢？ 1980 年的時候，賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆，這樣做會把球變重，因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候，他們贏了 120 萬美元。是的，他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳，後來賺了 120 萬美元隨後被逮捕。圖／envatoelements。

深入探討期望值

跟機率一樣，期望值和大數法則都值得再花些時間，探討相關的細節問題。

多大的數才算是「大數」？

大數法則是說，當試驗的次數愈來愈多，許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說，究竟需要多少次試驗，才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告，請繼續往下閱讀-----

結果的變異愈大，就需要愈多次的試驗，來確保平均結果接近期望值。機遇遊戲一定要變化大，才能保住賭客的興趣。即使在賭場待上好幾個鐘頭，結果也是無法預測的。結果變異性極大的賭博，例如累積彩金數額極大但極不可能中獎的州彩券，需要極多次的試驗，幾乎要多到不可能的次數，才能保證平均結果會接近期望值。

（州政府可不需要依賴大數法則，因為樂透彩金不像賭場的遊戲，樂透彩用的是同注分彩系統。在同注分彩系統裡面，彩金和賠率是由實際下注金額決定的。舉例來說，各州所辦的樂透彩金，是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。）

雖然大部分的賭博遊戲不及樂透彩這樣多變化，但要回答大數法則的適用範圍，較實際的答案就是：賭場的贏錢金額期望值是正的，而賭場玩的次數夠多，所以可以靠著這個期望值贏錢。你的問題則是，你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話，當然和賭場一樣多，但因為期望值是負的，所以以賭客整體來看，長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢，有些人輸很多，而有些人沒什麼輸贏。賭博帶給人的誘惑，大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是：對賭場來說，結果並非不可測的。

-----廣告，請繼續往下閱讀-----

有沒有保證贏錢的賭法？

把賭博很當回事的賭客常常遵循某種賭法，這種賭法每次下注的金額，是看前幾次的結果而定。比如說，在賭輪盤時，你可以每次把賭注加倍，直到你贏為止—或者，當然，直到你輸光為止。即使輪盤並沒有記憶，這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎？不行，數學家建立的另一種大數法則說：如果你沒有無窮盡的賭本，那麼只要遊戲的各次試驗（比如輪盤的各次轉動）之間是獨立的，你的平均獲利（期望值）就會是一樣的。抱歉啦！

高科技賭博

全美國有超過 700,000 台吃角子老虎（拉霸）。從前，你丟硬幣進去再拉下把手，轉動三個輪子，每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲，會閃出許多很炫的畫面，而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣，有各種讓你眼花撩亂的中獎結果，還可以多台連線，共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法，但是長期下來，隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告，請繼續往下閱讀-----

——本文摘自《統計，讓數字說話》，2023 年 1 月，天下文化出版，未經同意請勿轉載。

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 2

登入與大家一起討論

#1

a0921003785彼得潘 2023/03/12

我去過澳門兩次印象極好的是車讓人地理幅員不大走路能到任何地方
我也進娛樂城玩“老虎機”其他的都帶“豪賭”性質
吃角子機較省連玩幾天就千元港幣上下
娛樂嘛早知道贏不了錢在乎的是偶而的小贏快感

天下文化

142 篇文章・ 626 位粉絲

天下文化成立於1982年。一直堅持「傳播進步觀念，豐富閱讀世界」，已出版超過2,500種書籍，涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫，也持續引領台灣社會與國際重要管理潮流同步接軌。

TRENDING 熱門討論

即時熱門

3

1

文字

0

3

1

我的身高有特別矮嗎？為什麼大多數女性身高都「差不多」！——《統計，讓數字說話》

天下文化・2023/03/04 ・2634字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

id S. Moore、諾茨 William I. Notz
譯者：鄭惟厚、吳欣蓓

什麼是常態分布？

圖 13.3 和 13.4 裡的密度曲線，同屬一族特別重要的曲線：常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的，尾部降得很快，所以我們應該不會看到離群值。由於常態分布是對稱的，所以平均數和中位數都落在曲線的中間位置，而這也是尖峰所在。

常態曲線還有一個特別性質：我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線，沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪，山的形狀和常態曲線一樣。起先，你從山頂出發時，往下滑的角度非常陡：

幸好，在你還沒有直直墜下之前，斜坡就變緩了，你愈往下滑出去，坡度愈平：

曲率（curvature）發生改變的地方，是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描，應該可以感受到曲率改變的地方，進而找出標準差。

-----廣告，請繼續往下閱讀-----

常態曲線有個特別的性質是，只要知道平均數及標準差，整條曲線就完全確定了。平均數把曲線的中心定下來，而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀，只會改變曲線在 x 軸上的位置。但是，變動標準差卻會改變常態曲線的形狀，如圖 13.7 所示。標準差較小的分布，散布的範圍比較小，尖峰也比較陡。以下是常態曲線基本性質的總結：

常態密度曲線的特性

常態曲線（normal curve）是對稱的鐘形曲線，具備以下性質：

只要給了平均數和標準差，就可以完全描述特定的常態曲線。
平均數決定分布的中心，這個位置就在曲線的對稱中心。
標準差決定曲線的形狀，標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢？首先，對於某些真實數據的分布，用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯（Carl Friedrich Gauss, 1777 – 1855）。

天文學家或測量員仔細重複度量同一個數量時，所得出的量測值會有小誤差，高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」，就是為了紀念高斯。

-----廣告，請繼續往下閱讀-----

十九世紀的大部分時間中，常態曲線曾叫做「誤差曲線」，也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現，有些生物學或心理學上的變數也大致符合常態分布時，「誤差曲線」這個名詞就不再使用了。1889 年，高騰（Francis Galton）率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟，他開拓了遺傳的統計研究。

常態分布的形狀：鐘形曲線

人類智慧高低的分布，是不是遵循常態分布的「鐘形曲線」？IQ 測驗的分數的確大致符合常態分布，但那是因為測驗分數是根據作答者的答案計算出來的，而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線，前提是：大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質，可以讓我們稱為「智慧」，並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時，諸如樣本比例（當樣本大小很大、而比例的數值中等時）及樣本平均數（當我們從相同母體取出許多樣本時）這類統計量的分布，也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限，也常常用常態曲線來算。然而，即使有許多類的數據符合常態分布，仍然有許多是不符合的，比如說，大部分的所得分布是右偏的，因而不是常態分布。非常態的數據就和不平常的人一樣，不僅常見，而且有時比常態的數據還有趣。

-----廣告，請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多，每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質，特別要提的是，對常態分布來說，標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中，大約有 68% 的觀測值，落在距平均數一個標準差的範圍內。
95% 的觀測值，落在距平均數兩個標準差的範圍內。
99.7% 的觀測值，落在距平均數三個標準差的範圍內。

圖13.8、68–95–99.7規則。圖／《統計，讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後，你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住，沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數，或者蟋蟀的身長， 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則，首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上，所以年輕女性中有一半高於 63.7 英寸。

-----廣告，請繼續往下閱讀-----

任何常態分布的中間68%觀測值，會在距平均數一個標準差的範圍內。而這 68 %中的一半，即 34 %，會在平均數之上。所以有 34 %的年輕女性，身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去，可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值，在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸，所以年輕女性身高的中間 95% 是在 58.7（= 63.7 − 5）和 68.7（= 63.7 + 5）英寸之間。