Loading [MathJax]/extensions/tex2jax.js

0

8
1

文字

分享

0
8
1

統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》

臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

-----廣告,請繼續往下閱讀-----

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供
圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

-----廣告,請繼續往下閱讀-----

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

-----廣告,請繼續往下閱讀-----
圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供
圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

-----廣告,請繼續往下閱讀-----

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

-----廣告,請繼續往下閱讀-----
圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供
圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

-----廣告,請繼續往下閱讀-----

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

-----廣告,請繼續往下閱讀-----

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

-----廣告,請繼續往下閱讀-----
文章難易度
臉譜出版_96
88 篇文章 ・ 255 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。

0

0
0

文字

分享

0
0
0
純淨之水的追尋—濾水技術如何改變我們的生活?
鳥苷三磷酸 (PanSci Promo)_96
・2025/04/17 ・3142字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

本文與 BRITA 合作,泛科學企劃執行。

你確定你喝的水真的乾淨嗎?

如果你回到兩百年前,試圖喝一口當時世界上最大城市的飲用水,可能會立刻放下杯子——那水的顏色帶點黃褐,氣味刺鼻,甚至還飄著肉眼可見的雜質。十九世紀倫敦泰晤士河的水,被戲稱為「流動的污水」,當時的人們雖然知道水不乾淨,但卻無力改變,導致霍亂和傷寒等疾病肆虐。

十九世紀倫敦泰晤士河的水,被戲稱為「流動的污水」(圖片來源 / freepik)

幸運的是,現代自來水處理系統已經讓我們喝不到這種「肉眼可見」的污染物,但問題可還沒徹底解決。面對 21 世紀的飲水挑戰,哪些技術真正有效?

-----廣告,請繼續往下閱讀-----

19 世紀的歐洲因為城市人口膨脹與工業發展,面臨了前所未有的水污染挑戰。當時多數城市的供水系統仍然依賴河流、湖泊,甚至未經處理的地下水,導致傳染病肆虐。

1854 年,英國醫生約翰·斯諾(John Snow)透過流行病學調查,發現倫敦某口公共水井與霍亂爆發直接相關,這是歷史上首次確立「飲水與疾病傳播的關聯」。這項發現徹底改變了各國政府對供水系統的態度,促使公衛政策改革,加速了濾水與消毒技術的發展。到了 20 世紀初,英國、美國等國開始在自來水中加入氯消毒,成功降低霍亂、傷寒等水媒傳染病的發生率,這一技術迅速普及,成為現代供水安全的基石。    

 19 世紀末的台灣同樣深受傳染病困擾,尤其是鼠疫肆虐。1895 年割讓給日本後,惡劣的衛生條件成為殖民政府最棘手的問題之一。1896 年,後藤新平出任民政長官,他本人曾參與東京自來水與下水道系統的規劃建設,對公共衛生系統有深厚理解。為改善台灣水源與防疫問題,他邀請了曾參與東京水道工程的英籍技師 W.K. 巴爾頓(William Kinnimond Burton) 來台,規劃現代化的供水設施。在雙方合作下,台灣陸續建立起結合過濾、消毒、儲水與送水功能的設施。到 1917 年,全台已有 16 座現代水廠,有效改善公共衛生,為台灣城市化奠定關鍵基礎。

-----廣告,請繼續往下閱讀-----
圖片來源/BRITA

進入 20 世紀,人們已經可以喝到看起來乾淨的水,但問題真的解決了嗎? 科學家如今發現,水裡仍然可能殘留奈米塑膠、重金屬、農藥、藥物代謝物,甚至微量的內分泌干擾物,這些看不見、嚐不出的隱形污染,正在成為21世紀的飲水挑戰。也因此,濾水技術迎來了一波科技革新,活性碳吸附、離子交換樹脂、微濾、逆滲透(RO)等技術相繼問世,各有其專長:

活性碳吸附:去除氯氣、異味與部分有機污染物

離子交換樹脂:軟化水質,去除鈣鎂離子,減少水垢

微濾技術逆滲透(RO)技術:攔截細菌與部分微生物,過濾重金屬與污染物等

-----廣告,請繼續往下閱讀-----

這些技術相互搭配,能夠大幅提升飲水安全,然而,無論技術如何進步,濾芯始終是濾水設備的核心。一個設計優良的濾芯,決定了水質能否真正被淨化,而現代濾水器的競爭,正是圍繞著「如何打造更高效、更耐用、更智能的濾芯」展開的。於是,最關鍵的問題就在於到底該如何確保濾芯的效能?

濾芯的壽命與更換頻率:濾水效能的關鍵時刻濾芯,雖然是濾水器中看不見的內部構件,卻是決定水質純淨度的核心。以德國濾水品牌 BRITA 為例,其濾芯技術結合椰殼活性碳和離子交換樹脂,能有效去除水中的氯、除草劑、殺蟲劑及藥物殘留等化學物質,並過濾鉛、銅等重金屬,同時軟化水質,提升口感。

然而,隨著市場需求的增長,非原廠濾芯也悄然湧現,這不僅影響濾水效果,更可能帶來健康風險。據消費者反映,同一網路賣場內便可輕易購得真假 BRITA 濾芯,顯示問題日益嚴重。為確保飲水安全,建議消費者僅在實體官方授權通路或網路官方直營旗艦店購買濾芯,避免誤用來路不明的濾芯產品讓自己的身體當過濾器。

辨識濾芯其實並不難——正品 BRITA 濾芯的紙盒下方應有「台灣碧然德」的進口商貼紙,正面則可看到 BRITA 商標,以及「4週換放芯喝」的標誌。塑膠袋外包裝上同樣印有 BRITA 商標。濾芯本體的上方會有兩個浮雕的 BRITA 字樣,並且沒有拉環設計,底部則標示著創新科技過濾結構。購買時仔細留意這些細節,才能確保濾芯發揮最佳過濾效果,讓每一口水都能保證潔淨安全。

-----廣告,請繼續往下閱讀-----
濾芯本體的上方會有兩個浮雕的 BRITA 字樣,並且沒有拉環設計 (圖片來源 / BRITA)

不過,即便是正品濾芯,其效能也非永久不變。隨著使用時間增加,濾芯的孔隙會逐漸被污染物堵塞,導致過濾效果減弱,濾水速度也可能變慢。而且,濾芯在拆封後便接觸到空氣,潮濕的環境可能會成為細菌滋生的溫床。如果長期不更換濾芯,不僅會影響過濾效能,還可能讓積累的微小污染物反過來影響水質,形成「過濾器悖論」(Filter Paradox):本應淨化水質的裝置,反而成為污染源。為此,BRITA 建議每四週更換一次濾芯,以維持穩定的濾水效果。

為了解決使用者容易忽略更換時機的問題,BRITA 推出了三大智慧提醒機制,確保濾芯不會因過期使用而影響水質:

1. Memo 或 LED 智慧濾芯指示燈:即時監測濾芯狀況,顯示剩餘效能,讓使用者掌握最佳更換時間。

2. QR Code 掃碼電子日曆提醒:掃描包裝外盒上的 QR Code 記錄濾芯的使用時間,自動提醒何時該更換,減少遺漏。

-----廣告,請繼續往下閱讀-----

3. LINE 官方帳號自動通知:透過 LINE 推送更換提醒,確保用戶不會因忙碌而錯過更換時機。

在濾水技術日新月異的今天,濾芯已不僅僅是過濾裝置,更是智慧監控的一部分。如何挑選最適合自己需求的濾水設備,成為了健康生活的關鍵。

人類對潔淨飲用水的追求,從未停止。19世紀,隨著城市化與工業化發展,水污染問題加劇並引發霍亂等疾病,促使濾水技術迅速發展。20世紀,氯消毒技術普及,進一步保障了水質安全。隨著科技進步,現代濾水技術透過活性碳、離子交換等技術,去除水中的污染物,讓每一口水更加潔淨與安全。

-----廣告,請繼續往下閱讀-----
(圖片來源 / BRITA)

今天,消費者不再單純依賴公共供水系統,而是能根據自身需求選擇適合的濾水設備。例如,BRITA 提供的「純淨全效型濾芯」與「去水垢專家濾芯」可針對不同需求,從去除餘氯、過濾重金屬到改善水質硬度等問題,去水垢專家濾芯的去水垢能力較純淨全效型濾芯提升50%,並通過 SGS 檢測,通過國家標準水質檢測「可生飲」,讓消費者能安心直飲。

然而,隨著環境污染問題的加劇,真正的挑戰在於如何減少水污染,並確保每個人都能擁有乾淨水源。科技不僅是解決問題的工具,更應該成為守護未來的承諾。濾水器不僅是家用設備,它象徵著人類與自然的對話,提醒我們水的純淨不僅是技術的勝利,更是社會的責任和對未來世代的承諾。

*符合濾(淨)水器飲用水水質檢測技術規範所列9項「金屬元素」及15項「揮發性有機物」測試
*僅限使用合格自來水源,且住宅之儲水設備至少每6-12個月標準清洗且無受汙染之虞

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
天下文化_96
142 篇文章 ・ 624 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

3
1

文字

分享

0
3
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
天下文化_96
142 篇文章 ・ 624 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。