0

0
0

文字

分享

0
0
0

民調可靠嗎?

潘 震澤
・2011/12/23 ・1105字 ・閱讀時間約 2 分鐘 ・SR值 588 ・九年級

總統大選在即,除了選舉文宣及口水戰不斷外,各式各樣的民意調查結果幾乎攻佔了每日新聞版面,牽扯整體社會的神經。民調領先的一方,自不免心喜,民調落後者,則有各種安慰排解之道;甚至有候選人怒斥平面媒體民調不公,網路民意才準。我們不免要問:到底民調可靠嗎?

人腦對抽象數字一向不怎麼靈光,如果牽扯到機率及統計,更是少根筋;其中緣由不難理解,因為人類存在的大多數時間裡,直覺反應要比計算機率更有助存活。且不提兩千多年前發明幾何學的希臘人不懂算術,機率與統計的觀念近四百年來才逐漸發展完備;這也難怪多數人看到數字就敬而遠之,更不要說想弄清楚,以致於讓有心玩弄數字的人有機可乘。

從事實驗科學的人都知道,單一數據是無法取信於人的,必須有多次反覆才成;但究竟要重複幾次、或採取多少樣本才夠,就需要統計的幫忙。我碰過兩種實驗工作者:一是不信統計,認為有就是有,沒有就是沒有,無需統計告知;另一是迷信並利用統計,如果統計分析不顯著,就增加樣本以降低標準差,直達顯著為止。自然,兩種都不是正確的態度。

以簡單的機率來說,人的直覺判斷就有許多錯誤;好比擲骰子連續出現一系列小數字後,一般人會認為下一個應該是大數字,一連生了幾個女孩的夫妻會認為下一個應該是男孩;其實在沒有外力影響下,獨立事件的發生機率每次都相同,不受先前事件影響。更複雜一些的問題,好比在多少人當中可能出現兩個生日相同的人;答案是只要 57 人就有 99% 的發生機率,比我們直覺認為的要少得多。

-----廣告,請繼續往下閱讀-----

無論是做實驗還是民調,都是試圖以少數樣本一窺整體族群的全貌;因此如何取樣,就成了一門學問。以生物實驗而言,取樣生物的品種、年齡、性別、健康情況,以及取樣的方法、時間等,都可能影響結果。同理,民調也有許多講究,像如何選取受訪者、數目要多少、採訪方式、如何設計問題、結果如何分析等都是;其中尤以頭一項最重要。

科學的民調取樣講究分層及隨機,也就是得按地區、人口密度,以隨機方式抽取,而不是就近取材,甚或以特定子群為對象(好比網路族),得出以偏概全的結果。如果取樣方法正確,那麼只要有一千人的樣本就可有 90% 的機率得出正確的族群分布,誤差在 2% 上下;這也是目前多數民調所依據的法則。

且不說國內的民調機構是否都做到了公正取樣,以少數樣本推出整個族群的分布,本身就免不了誤差存在,更不要說如今都以電話採訪,看不到對象,加上許多人不願意受訪或根本接不到電話,益增誤差。曉得這些缺失,對民調結果當能以平常心看待,僅供參考但不迷信;只不過民調差距過大,仍期待奇蹟出現的人,注定是要失望的。

本文原發表於作者部落格生理人生[2011-12-22]

-----廣告,請繼續往下閱讀-----
文章難易度
潘 震澤
13 篇文章 ・ 1 位粉絲
在大學裡教了二十幾年書,專長是生理學(再往下細分是「神經內分泌學」)。十來年前從象牙塔裡伸出頭來,投入科普書譯介及專欄寫作工作,至今已翻譯了十來本科普書、兩本生理學教科書,以及兩本科學散文結集。目前任教美國大學。

0

0
0

文字

分享

0
0
0
民眾黨是未來台灣政治的樞紐?
林澤民_96
・2024/01/30 ・3382字 ・閱讀時間約 7 分鐘

一、前言

選後的立法院三黨不過半,但民眾黨有八席不分區立委,足以與民進黨或國民黨結成多數聯盟,勢將在國會居於樞紐地位。無獨有偶的是:民眾黨主席柯文哲在總統大選得到 26.5% 的選票,屈居第三,但因其獲得部分藍、綠選民的支持,在選民偏好順序組態的基礎上,它卻也同樣地居於樞紐地位。這個地位,將足以讓柯文哲及民眾黨在選後的台灣政壇持續激盪。

二、柯文哲是「孔多塞贏家」?

這次總統大選,誰能脫穎而出並不是一個特別令人殷盼的問題,更值得關心的問題是藍白綠「三跤㧣」在選民偏好順序組態中的消長。台灣總統大選採多數決選制,多數決選制英文叫 first-past-the-post(FPTP),簡單來講就是票多的贏,票少的輸。在 10 月中藍白合破局之後,賴蕭配會贏已經沒有懸念,但這只是選制定規之下的結果,換了另一個選制,同樣的選情可能就會險象環生。

從另一個角度想:選制是人為的,而選情反映的是社會現實。政治學者都知道天下沒有十全十美的選制;既定的選制推出了一位總統,並不代表選情的張力就會成為過眼雲煙。當三股社會勢力在制度的帷幕後繼續激盪,台灣政治將無法因新總統的誕生而趨於穩定。

圖/作者自製

如果在「三跤㧣」選舉之下,選情的激盪從候選人的得票多少看不出來,那要從哪裡看?政治學提供的一個方法是把候選人配對 PK,看是否有一位候選人能在所有的 PK 中取勝。這樣的候選人並不一定存在,如果不存在,那代表有 A 與 B 配對 A 勝,B 與 C 配對 B 勝,C 與 A 配對 C 勝的 A>B>C>A 的情形。這種情形,一般叫做「循環多數」(cyclical majorities),是 18 世紀法國學者孔多塞(Nicolas de Condorcet)首先提出。循環多數的存在意涵選舉結果隱藏了政治動盪。

-----廣告,請繼續往下閱讀-----

另一方面,如果有一位候選人能在配對 PK 時擊敗所有的其他候選人,這樣的候選人稱作「孔多塞贏家」(Condorcet winner),而在配對 PK 時均被擊敗的候選人則稱作「孔多塞輸家」(Condorcet loser)。三角嘟的選舉若無循環多數,則一定會有孔多塞贏家和孔多塞輸家,然而孔多塞贏家不一定即是多數決選制中贏得選舉的候選人,而多數決選制中贏得選舉的候選人卻可能是孔多塞輸家。

如果多數決選制中贏得選舉的候選人不是孔多塞贏家,那與循環多數一樣,意涵選後政治將不會穩定。

那麼,台灣這次總統大選,有沒有孔多塞贏家?如果有,是多數決選制之下當選的賴清德嗎?我根據戴立安先生調查規劃的《美麗島電子報》追蹤民調第 109 波(1 月 11 日至 12 日),也是選前最後民調的估計,得到的結果令人驚訝:得票墊後的柯文哲很可能是孔多塞贏家,而得票最多的賴清德很可能是孔多塞輸家。果然如此,那白色力量將會持續地激盪台灣政治!

我之前根據美麗島封關前第 101 波估計,侯友宜可能是孔多塞贏家,而賴清德是孔多塞輸家。現在得到不同的結果,顯示了封關期間的三股政治力量的消長。本來藍營期望的棄保不但沒有發生,而且柯文哲選前之夜在凱道浩大的造勢活動,還震驚了藍綠陣營。民調樣本估計出的孔多塞贏家本來就不準確,但短期內的改變,很可能反映了選情的激盪,甚至可能反映了循環多數的存在。

-----廣告,請繼續往下閱讀-----

三、如何從民調樣本估計孔多塞贏家

根據這波民調,總樣本 N=1001 位受訪者中,如果當時投票,會支持賴清德的受訪者共 355 人,佔 35.4%;支持侯友宜的受訪者共 247 人,佔 24.7%。支持柯文哲的受訪者共 200 人,佔 19.9%。

美麗島民調續問「最不希望誰當總統,也絕對不會投給他的候選人」,在會投票給三組候選人的 802 位支持者中,一共有 572 位對這個問題給予了明確的回答。《美麗島電子報》在其網站提供了交叉表如圖:

根據這個交叉表,我們可以估計每一位明確回答了續問的受訪者對三組候選人的偏好順序,然後再依這 572 人的偏好順序組態來判定在兩兩 PK 的情形下,候選人之間的輸贏如何。我得到的結果是:

  • 柯文哲 PK 賴清德:311 > 261(54.4% v. 45.6%)
  • 柯文哲 PK 侯友宜:287 > 285(50.2% v. 49.8%)
  • 侯友宜 PK 賴清德:293 > 279(51.2% v. 48.8%)

所以柯文哲是孔多塞贏家,賴清德是孔多塞輸家。當然我們如果考慮抽樣誤差(4.1%),除了柯文哲勝出賴清德具有統計顯著性之外,其他兩組配對可說難分難解。但在這 N=572 的小樣本中,三位候選人的得票率分別是:賴清德 40%,侯友宜 33%,柯文哲 27%,與選舉實際結果幾乎一模一樣。至少在這個反映了選舉結果的樣本中,柯文哲是孔多塞贏家。依多數決選制,孔多塞輸家賴清德當選。

-----廣告,請繼續往下閱讀-----

不過以上的分析有一個問題:各陣營的支持者中,有不少人無法明確回答「最不希望看到誰當總統,也絕對不會投給他做總統」的候選人。最嚴重的是賴清德的支持者,其「無反應率」(nonresponse rate)高達 34.5%。相對而言,侯友宜、柯文哲的支持者則分別只有 24.1%、23.8% 無法明確回答。為什麼賴的支持者有較多人無法指認最討厭的候選人?一個假設是因為藍、白性質相近,對許多綠營選民而言,其候選人的討厭程度可能難分軒輊。反過來說,藍、白陣營的選民大多數會最討厭綠營候選人,因此指認較無困難。無論如何,把無法明確回答偏好順序的受訪者歸為「遺失值」(missing value)而棄置不用總不是很恰當的做法,在這裡尤其可能會造成賴清德支持者數目的低估。

補救的辦法之一是在「無法明確回答等於無法區別」的假設下,把「遺失值」平分給投票對象之外的其他兩位候選人,也就是假設他們各有 1/2 的機會是無反應受訪者最討厭的候選人。這樣處理的結果,得到

  • 柯文哲 PK 賴清德:389 > 413(48.5% v. 51.5%)
  • 柯文哲 PK 侯友宜:396 > 406(49.4% v. 50.6%)
  • 侯友宜 PK 賴清德:376 > 426(46.9% v. 53.1%)

此時賴清德是孔多塞贏家,而柯文哲是孔多塞輸家。在這 N=802 的樣本中,三位候選人的得票率分別是:賴清德 44%,侯友宜 31%,柯文哲 25%。雖然依多數決選制,孔多塞贏家賴清德當選,但賴的得票率超過實際選舉結果(40%)。用無實證的假設來填補遺失值,反而造成賴清德支持者數目的高估。

如果擔心「無法明確回答等於無法區別」的假設太勉強,補救的辦法之二是把「遺失值」依有反應受訪者選擇最討厭對象的同樣比例,分給投票對象之外的其他兩位候選人。這樣處理的結果,得到

-----廣告,請繼續往下閱讀-----
  • 柯文哲 PK 賴清德:409 > 393(51.0% v. 49.0%)
  • 柯文哲 PK 侯友宜:407 > 395(50.8% v. 49.2%)
  • 侯友宜 PK 賴清德:417 > 385(52.0% v. 48.0%)

此時柯文哲又是孔多塞贏家,而賴清德又是孔多塞輸家了。這個樣本也是 N=802,三位候選人的得票率分別是:賴清德 44%,侯友宜 31%,柯文哲 25%,與上面的結果一樣。

以上三種無反應處理方法都不盡完美。第一種把無反應直接當遺失值丟棄,看似最不可取。然而縮小的樣本裡,三位候選人的支持度與實際選舉結果幾乎完全一致。後兩種以不同的假設補足了遺失值,但卻過度膨脹了賴清德的支持度。如果以樣本中候選人支持度與實際結果的比較來判斷遺失值處理方法的效度,我們不能排斥第一種方法及其結果。

無論如何,在缺乏完全資訊的情況下,我們發現的確有可能多數決輸家柯文哲是孔多塞贏家,而多數決贏家賴清德是孔多塞輸家。因為配對 PK 結果缺乏統計顯著性,我們甚至不能排除循環多數的存在。此後四年,多數決選制產生的總統能否在三角嘟力量的激盪下有效維持政治穩定,值得我們持續觀察。

四、結語

柯文哲之所以可以是孔多塞贏家,是因為藍綠選民傾向於最不希望對方的候選人當總統。而白營的中間偏藍位置,讓柯文哲與賴清德 PK 時,能夠得到大多數藍營選民的奧援而勝出。同樣的,當他與侯友宜 PK 時,他也能夠得到一部份綠營選民的奧援。只要他的支持者足夠,他也能夠勝出。反過來看,當賴清德與侯友宜 PK 時,除非他的基本盤夠大,否則從白營得到的奧援不一定足夠讓他勝出。民調 N=572 的樣本中,賴清德得 40%,侯友宜得 33%,柯文哲得 27%。由於柯的支持者討厭賴清德(52.5%)遠遠超過討厭侯友宜(23.7%),賴雖然基本盤較大,能夠從白營得到的奧援卻不多。而侯雖基本盤較小,卻有足夠的奧援。柯文哲之所以成為孔多塞贏家,賴清德之所以成為孔多塞輸家,都是這些因素的數學結果。

-----廣告,請繼續往下閱讀-----

資料來源

討論功能關閉中。

林澤民_96
37 篇文章 ・ 241 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

所有討論 2
天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

2
1

文字

分享

0
2
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。