0

0
0

文字

分享

0
0
0

民調可靠嗎?

潘 震澤
・2011/12/23 ・1105字 ・閱讀時間約 2 分鐘 ・SR值 588 ・九年級

總統大選在即,除了選舉文宣及口水戰不斷外,各式各樣的民意調查結果幾乎攻佔了每日新聞版面,牽扯整體社會的神經。民調領先的一方,自不免心喜,民調落後者,則有各種安慰排解之道;甚至有候選人怒斥平面媒體民調不公,網路民意才準。我們不免要問:到底民調可靠嗎?

人腦對抽象數字一向不怎麼靈光,如果牽扯到機率及統計,更是少根筋;其中緣由不難理解,因為人類存在的大多數時間裡,直覺反應要比計算機率更有助存活。且不提兩千多年前發明幾何學的希臘人不懂算術,機率與統計的觀念近四百年來才逐漸發展完備;這也難怪多數人看到數字就敬而遠之,更不要說想弄清楚,以致於讓有心玩弄數字的人有機可乘。

從事實驗科學的人都知道,單一數據是無法取信於人的,必須有多次反覆才成;但究竟要重複幾次、或採取多少樣本才夠,就需要統計的幫忙。我碰過兩種實驗工作者:一是不信統計,認為有就是有,沒有就是沒有,無需統計告知;另一是迷信並利用統計,如果統計分析不顯著,就增加樣本以降低標準差,直達顯著為止。自然,兩種都不是正確的態度。

以簡單的機率來說,人的直覺判斷就有許多錯誤;好比擲骰子連續出現一系列小數字後,一般人會認為下一個應該是大數字,一連生了幾個女孩的夫妻會認為下一個應該是男孩;其實在沒有外力影響下,獨立事件的發生機率每次都相同,不受先前事件影響。更複雜一些的問題,好比在多少人當中可能出現兩個生日相同的人;答案是只要 57 人就有 99% 的發生機率,比我們直覺認為的要少得多。

無論是做實驗還是民調,都是試圖以少數樣本一窺整體族群的全貌;因此如何取樣,就成了一門學問。以生物實驗而言,取樣生物的品種、年齡、性別、健康情況,以及取樣的方法、時間等,都可能影響結果。同理,民調也有許多講究,像如何選取受訪者、數目要多少、採訪方式、如何設計問題、結果如何分析等都是;其中尤以頭一項最重要。

科學的民調取樣講究分層及隨機,也就是得按地區、人口密度,以隨機方式抽取,而不是就近取材,甚或以特定子群為對象(好比網路族),得出以偏概全的結果。如果取樣方法正確,那麼只要有一千人的樣本就可有 90% 的機率得出正確的族群分布,誤差在 2% 上下;這也是目前多數民調所依據的法則。

且不說國內的民調機構是否都做到了公正取樣,以少數樣本推出整個族群的分布,本身就免不了誤差存在,更不要說如今都以電話採訪,看不到對象,加上許多人不願意受訪或根本接不到電話,益增誤差。曉得這些缺失,對民調結果當能以平常心看待,僅供參考但不迷信;只不過民調差距過大,仍期待奇蹟出現的人,注定是要失望的。

本文原發表於作者部落格生理人生[2011-12-22]

文章難易度
潘 震澤
13 篇文章 ・ 1 位粉絲
在大學裡教了二十幾年書,專長是生理學(再往下細分是「神經內分泌學」)。十來年前從象牙塔裡伸出頭來,投入科普書譯介及專欄寫作工作,至今已翻譯了十來本科普書、兩本生理學教科書,以及兩本科學散文結集。目前任教美國大學。

0

6
1

文字

分享

0
6
1
想知道鯨魚健不健康?首先,你需要牠們的「鼻涕」!
Lea Tang
・2022/03/07 ・2203字 ・閱讀時間約 4 分鐘

為了瞭解鯨豚的健康狀況,科學家們正試圖用更好的方法,來蒐集牠們的鼻涕。

來觀察鯨豚囉!

鯨豚的背鰭,是牠們最容易被人們觀察到的部位,類似於人類的指紋,背鰭是鯨豚的辨識區,可以作為研究人員個體種類辨識上的依據【註1】。然而,若想進一步了解鯨豚的演化史,就不得不仰賴含有 DNA 的活體組織。

不同種類的鯨豚,背鰭都不同。圖/成功海洋環境教室 X ㄈㄈ尺

早期,科學家採集鯨豚活體組織的方式稱作「活體組織切片飛鏢」。如同字面上的意思,他們會向動物投擲飛鏢,獲得牠們的小部分組織作為樣本。但是,這種光用聽的就很痛的方式,不僅會讓鯨豚對研究船隻感到畏懼,更會使得牠們在水中生活時,成為傷口感染的高風險群。

值得高興的是,隨著科技進步,現在科學家已有了新的採集方式。這回,他們自製非侵入性的工具,而且決定改成採集「鼻涕」。

此鼻涕非彼鼻涕

說到鼻涕,我們容易聯想到感冒生病時,從鼻孔裡流出來的東西,不過這裡所提到的「鼻涕」,和那個可不一樣。鯨魚呼氣時所吐出的黏液並非來自呼吸孔,而是來自肺部【註2】。

當鯨豚換氣時,會以相當大的力道呼氣,進而向空中發射鼻涕。有趣的是,不同種類的鯨魚也有不同的吐氣型態。圖/north-atlantic-society.com

藉由蒐集鯨豚呼吸孔吐出的氣,可以得到許多關於牠們的資訊——包含肺表面活性物質(一種蛋白質和脂質的混和物)、呼吸液與肺細胞。同時,這些樣本也可以用來檢測疾病以及皮質醇【註3】、孕酮【註4】等荷爾蒙,幫助研究者知道一頭鯨魚是否染病,甚至可以知道雌鯨是否有孕。

不過,鯨豚的鼻涕藥怎麼蒐集呢?接下來讓我們一起來看看方法。

鼻涕機器人登場

隨著 DNA 提取技術的進步,研究員們從 2010 年起便開始使用新的工具採集。一但在海面上觀察到鯨魚蹤跡,他們便驅船前往,伸出長長的的竿子,利用末端的培養皿來收集鼻涕。

最初,蒐集樣本的工具是一種培養皿與竿子的組合。圖/bbc.com

另一種進階版的工具稱作「鼻涕機器人」(The Parley Snotbot),由無人機和培養皿所組成。鯨魚換氣時,機器人會從後方靠近鯨身,讓鯨魚的鼻涕因慣性往後落在無人機上的培養皿中。

不過以上兩種方法通常用來蒐集座頭鯨等大型鯨魚的 DNA,對於體積、肺部容積較小的海豚則不易達成【註5】。

鯨魚躍升時,鼻涕機器人會迅速在牠後上方 standby,在不驚擾與傷害對方的狀況下蒐集鼻涕。圖/howstuffworks.com

鯨魚鼻涕在遺傳學上的貢獻

至於我們能不能利用鼻涕檢體來進行遺傳學相關的研究呢?答案是可行的。儘管小型鯨豚的鼻涕提取比預期中困難,科學家仍然能從樣本中回收一些粒線體 DNA。

正在分析的鼻涕樣本。圖/bbc.com

他們嘗試以聚丙烯製成的管子倒置在水族館豢養的海豚氣孔上,以得到每隻海豚體內的粒腺體 DNA 和微衛星 DNA ,收集到比野外樣本更加豐富的數據。此外,科學家也發現,從海豚鼻涕中獲得的 DNA 圖譜與從血液中取得的 DNA 圖譜相符,證明了在研究海豚遺傳學上,使用鼻涕的結果可能和抽血一樣好。

現在,科學家們要克服野外採集樣本量不足的挑戰,以期在未來能結合傳統的照片識別,建立有關海豚種群的遺傳學目錄

【註】

  1. 不同種類的鯨豚會有不同形狀的背鰭。就算是同種,不同個體背鰭上的花紋也都不一樣。
  2. 由於鯨豚僅靠呼吸孔呼吸,呼吸孔的堵塞會使牠們窒息死亡。2016 年,研究員曾發現一條呼吸孔先天畸形的海豚在換氣時用嘴呼吸,但這是目前所知的唯一例外。
  3. 腎上腺皮質激素中的糖皮質激素,可以提高血壓、血糖水平和產生免疫抑制作用,有助身體調節壓力事件。
  4. 屬於孕激素荷爾蒙的一種,與懷孕、胚胎與月經週期有關。
  5. 座頭鯨的體型大,吐息也大,容易被船上的研究員發現。海豚因為個體嬌小,肺部僅有約兩個橄欖球大,因此採樣相對困難:牠們呼出的液氣混和物距離海表過近,常在竿子到達前就被海浪打散。另外,面對來勢洶洶的龐大漁船,牠們往往跑得飛快、「走敢若飛」(tsáu kánn-ná pue),不利採樣進行。

資料來源:

  1. 【鯨豚大小事】鯨豚背鰭說
  2. whales-do-not-catch-colds-but-they-do-get-snotty-blowholes
  3. ‘Dolphin snot’ used to look at health of pod off Gower
  4. Those snot-collecting drones are back, and this time they’re seeking dolphins
  5. The Usefulness of Dolphin Snot
  6. The ‘SnotBot’ Drone Is Making Scientific Research Easier on Whales

討論功能關閉中。

Lea Tang
20 篇文章 ・ 8 位粉絲
徜徉在極北之海的浪漫主義者。 喜歡鯨豚、地科、文學和貓。

0

2
1

文字

分享

0
2
1
什麼是抽樣誤差?老師和媒體都沒教你的那些事
tml_96
・2020/11/19 ・3758字 ・閱讀時間約 7 分鐘 ・SR值 550 ・八年級

本文原文刊登時間為2020年11月6日,原文標題為《什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?

美國總統大選進入最後一周時,許多媒體紛紛在搖擺州進行民調,其中佛羅里達是選情極其緊繃的大州。

美國2020總統大選情勢劍拔弩張,許多州出現極小的得票差距。圖/Pixabay

華盛頓郵報-ABC於10/24-10/29在該州民調的結果顯示:在 824 位可能投票的選民中,川普領先拜登 50−48個百分點,因為抽樣誤差為 ± 4.0 %,報導結論佛州選情難分難解。紐約時報於10/27-10/31在該州民調的結果則顯示:在1,451位可能投票的選民中,拜登領先川普47−44個百分點,其抽樣誤差為 ± 3.2%

兩個民調相隔只 2−3 天,拜登從落後 2 個百分點轉為領先 3 個百分點,這領先程度有統計顯著性嗎?(佛州開票 96% 的結果是川普 51.2% 拜登 47.8%)

弗羅里達州的民調與開票96%後的實際結果。圖/作者提供。

這裡有兩個相關問題要先解決:

  • 第一、樣本數 N=1,451 為何抽樣誤差是 ±3.2%?這個數字對嗎?一般民調若樣本數在N=1,000左右,抽樣誤差不是大約 ±3% 嗎?為何紐時的樣本數高達 N=1,451,抽樣誤差不是更低?反而更高?
  • 第二、如果抽樣誤差低於±3%,那拜登在佛州領先川普超過抽樣誤差,便可以說這差距有統計顯著性嗎

 什麼是「抽樣誤差」?

首先解釋第一個問題:所謂「抽樣誤差」(margin of error)的是當母體比例為π時,重複抽取許多樣本所得樣本比例 P 的標準差乘以 1.96。更詳細地說:當母體比例為π時,重複抽取許多樣本數為 N 的樣本會得到許多不同的P值,這些 P 值的分佈稱作 P 的「抽樣分佈」(sampling distribution)。

根據中央極限定裡,P 的抽樣分佈是以π為中心的常態分佈,其變異量是 π(1-π)/N。我們若以π為中心取一個區間(π-m, π+m)讓 P 落在區間內的機率為 95%,則代表此區間寬度的 m 即為 95% 信心水平之下的抽樣誤差,其公式為:

雖然這個公式可以適用於任何的π值,在沒有特別資訊的情況下,一般以 π=0.5 來計算 MOE。

舉例來說,聯合報在 2019 年 12 月 12-14 日實施了一個民調,它在報導中特別就調查方法報告如下:

「調查於十二月十二日至十四日晚間進行,成功訪問一千一百一十位合格選民,另二百九十一人拒訪;在百分之九十五信心水準下,抽樣誤差正負三點零個百分點以內。採全國住宅及手機雙電話底冊為母體作尾數隨機抽樣,藉由增補市話無法接觸的唯手機族樣本改善傳統市話抽樣缺點,調查結果依廿歲以上性別、年齡及縣市人口結構加權,調查經費來自聯合報社。」

同樣的,蘋果日報在報導其於 2019 年12月27-29 實施的民調時也提到:

「本次民調由《蘋果新聞網》委託台灣指標公司執行,經費來源是《蘋果新聞網》,調查對象為設籍在全國22縣市且年滿20歲民眾,調查期間為12月27日至29日,採用市內電話抽樣調查,並使用CATI系統進行訪問。市內電話抽樣依縣市採分層比例隨機抽樣法,再以電話號碼後2碼隨機抽出,成功訪問1,069位受訪者,在95%信心水準下,抽樣誤差為±3.0%。」

依上述公式分別代入 N=1,110 及 N=1069 可得 MOE=2.94%、3.00%,正是報導所說的「抽樣誤差正負三點零個百分點以內」、「抽樣誤差為 ±3.0%」。

紐時在佛州的選前最後民調的樣本數 N=1,451 要高出 1,110 甚多,為何它所報告的抽樣誤差反而較大?我們若把 N=1,451 套入上式,不是應該得到 MOE=2.57%嗎?為何紐時說是 3.2%?

其實不只紐時,華郵/ABC 民調的抽樣誤差 4.0% 也超過了以 N=824套入上式所算得的 3.41%。為何美國媒體計算民調抽樣誤差與基本統計學教科書所教的算法不一樣?華郵/ABC在描述其民調方法時特別強調其抽樣誤差是在「納入設計效應」(including design effects)之後計算所得;什麼是「設計效應」?

什麼是「設計效應」?

這個問題牽涉到「有效樣本數」(effective sample size)的概念。所謂「有效樣本數」並不是統計分析中除去遺漏值之後的「有效N」(valid N),而是在調整受訪者代表性之後的「加權樣本數」(weighted sample size)。

下面我會說明:紐時所報告的抽樣誤差其實是根據「有效樣本數」調整過的抽樣誤差,也就是納入設計效應之後算得的抽樣誤差。

一般民調樣本因為不是使用「簡單隨機抽樣」(simple random sampling)得到的結果,母體中每人被抽到的機率並不一致。因此,樣本中某些族群的代表性並不能反映它們在母體中的代表性。為了讓各族群在樣本中的代表性和母體一致,樣本必須經過加權處理。上述聯合報和蘋果日報的報導便報告了它們民調的抽樣設計和加權的概略步驟。一般民調機構會把加權所使用的權重存為資料中的一個變數,其數值代表樣本中每個受訪者所代表族群的權重。

例如「台灣選舉與民主化研究」2020年民調資料合併檔(TEDS2020)中便有這樣的一個權值變數w,它的值介於0.295至3.474之間,其變異範圍反映了各族群在原樣本中的代表性與它們在母體中的代表性差異的程度。

由於加權的關係,原來的樣本數已不能有效反映加權後的樣本數,因此有所謂「有效樣本數」(effective sample size)的概念,有效樣本數的計算方式因加權方式而異,抽樣理論大師 Leslie Kish 建議了一個粗略的算法:

除非根本沒有加權,否則這個公式一定小於N,也就是加權後的有效樣本數會比原樣本數小。以TEDS2020原樣本數N=2,847為例,ESS=2,359,也就是加權後的有效樣本數只有原樣本數的83%。

我們如果以加權後的有效樣本數來計算抽樣誤差,則調整後的抽樣誤差會比根據原樣本數算出的抽樣誤差還大。這個差異,可以說是因為實際樣本之抽樣設計背離簡單隨機抽樣而造成的結果,我們定義「設計效應」(design effect)為:

由於抽樣誤差之平方與樣本數成反比,上式也可導出:

再以TEDS2020為例,DE=1/0.83=1.21。換算可以得到加權後的抽樣誤差是原抽樣誤差的 1.1 倍。

跟據紐時所報告的加權後的抽樣誤差以及由原樣本數所算出的簡單隨機抽樣之抽樣誤差,我們可以算出佛州民調的設計效應:

這設計效應比TEDS2020要高出很多!這可能是因為TEDS採用分層隨機抽樣面訪,其設計比起新聞媒體採用電話+手機有所不同。有了設計效應的估計值,我們就可以算紐時佛州民調的有效樣本數了:它的 ESS=936,只有原樣本數的三分之二。相對而言,華郵/ABC的佛州民調的設計效應是 DE=1.37,其有效樣本數是ESS=600.

如果我們以 N=936 算基於簡單隨機抽樣設計的抽樣誤差,它會恰恰是紐時所報告的 3.2%。以 N=600 來算的話,抽樣誤差就剛好是ABC/華郵所報告的 4.0%。

值得注意的是: 如果紐時效仿聯合報用原樣本數 N=1,451 計算抽樣誤差,這2.57% 的誤差值可能會讓很多讀者誤以為拜登領先川普的三個百分點已經超過超過抽樣誤差,因而具有統計上的顯著性。紐約時報的分析家沒有這樣做,這是他們的嚴謹之處。

以有效樣本數算候選人支持度差距的顯著性

然而選舉用的對比式民調還有第二個問題:一般媒體通常只報告單一比例的抽樣誤差,而對比式民調著重的不是單一比例,而是兩位候選人所獲支持度比例的差距。此差距的抽樣誤差與單一比例的抽樣誤差完全不一樣,它可以達到單一比例抽樣誤差的兩倍或更多。

關於對比式選舉民調的抽樣誤差,我曾寫過一篇文章指出一般媒體在報導時的錯誤解讀,並提出一個計算正確抽樣誤差的公式。

這篇文章請見:對比式選舉民調的錯誤解讀 

佛州民調結果拜登領先川普47−44。我們現在可以用有效樣本數來算拜登領先差距的抽樣誤差了。我在網上提供了一個速算表歡迎讀者下載使用。

計算的結果是抽樣誤差高達 6.03 %:拜登領先的差距其實還在誤差範圍之內。

注意:如果以原樣本數 N=1,451 代入速算表,則抽樣誤差為 4.91%,比 6.03% 要小得多。

關於民調報導,還有很多進步空間

台灣的媒體在報導對比式民調的結果時,似乎都像聯合報、蘋果日報一樣報告以「簡單隨機抽樣」為假設的單一比例抽樣誤差,而未考慮設計效應。這個抽樣誤差本來就太小,再加上對比所產生的問題,可以說是雙重的誤導!

外國媒體的民調報導近年來有進步。除了一般會報告根據設計效應調整過的抽樣誤差以外,有些民調機構也報告了對比式民調抽樣誤差的正確解讀方式。有興趣的讀者可以參考 Pew Research Center 這篇解釋抽樣誤差的文章:5 Key Things to Know about the Margin of Error in Election Polls

tml_96
34 篇文章 ・ 227 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

7
0

文字

分享

0
7
0
統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》
臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供

圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供

圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供

圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

臉譜出版_96
67 篇文章 ・ 244 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。