0

8
1

文字

分享

0
8
1

統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》

臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供
圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

-----廣告,請繼續往下閱讀-----

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

-----廣告,請繼續往下閱讀-----
圖/臉譜出版提供

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供
圖/臉譜出版提供

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

-----廣告,請繼續往下閱讀-----

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

-----廣告,請繼續往下閱讀-----
圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供
圖/臉譜出版提供

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

-----廣告,請繼續往下閱讀-----

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

-----廣告,請繼續往下閱讀-----

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

-----廣告,請繼續往下閱讀-----
文章難易度
臉譜出版_96
88 篇文章 ・ 255 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。

0

0
0

文字

分享

0
0
0
從奈米微塵到化學氣體, HEPA 與活性碳如何聯手打造純淨空氣?
鳥苷三磷酸 (PanSci Promo)_96
・2026/04/17 ・4433字 ・閱讀時間約 9 分鐘

本文由 Amway 委託,泛科學企劃執行。

很多人可能沒想到,無論是家用的空氣清淨機,還是造價動輒百億的頂尖晶圓廠,它們對抗污染的核心武器並非什麼複雜的雷射防護罩,而是一片外觀像紙一樣的 HEPA 濾網
在半導體產業的無塵室中,「乾淨」的定義極其殘酷:一粒肉眼看不見的灰塵,就足以讓造價數百萬美元的晶圓直接報廢 / 圖片來源:envato

到底怎樣才算是「乾淨」?這不是什麼靈魂拷問,而是一個價值上億的商業命題。

在半導體產業的無塵室中,「乾淨」的定義極其殘酷:一粒肉眼看不見的灰塵,就足以讓造價數百萬美元的晶圓直接報廢。空氣品質的好壞,甚至能成為台積電(TSMC)決定是否在當地設廠的關鍵性指標。回到你的家中,雖然不需要生產精密晶片,但我們呼吸系統中的肺泡同樣精密,卻長期暴露在充滿 PM2.5、病毒以及各種揮發性氣體的環境中。為了守護健康,你可能還要付費購買「乾淨的空氣」來用。

因此,空氣議題早已超越單純的環保範疇,成為同時影響國家經濟與個人健康的重要問題。

-----廣告,請繼續往下閱讀-----

很多人可能沒想到,無論是家用的空氣清淨機,還是造價動輒百億的頂尖晶圓廠,它們對抗污染的核心武器並非什麼複雜的雷射防護罩,而是同一件看起來平凡無奇的東西:一片外觀像紙一樣的 HEPA 濾網。但你真的相信,就憑這層厚度不到幾公分的板子,能擋住那些足以毀滅精密晶片、滲透人體細胞的「奈米級刺客」嗎?

這片大家都聽過的 HEPA 濾網,裡面到底是什麼?

首先,我們必須打破一個直覺上的誤解:HEPA 濾網(High Efficiency Particulate Air filter)在本質上其實並不是一張「網」。

細懸浮微粒 PM2.5,是指粒徑在 2.5 微米以下的污染物,它們能穿過呼吸道直達肺泡,並穿過血管引發全身性發炎。但這只是基本,在工廠與汽車尾氣中,還存在粒徑僅有 1 微米的 PM1,甚至是小於 0.1 微米的「超細懸浮微粒」(UFP,即 PM0.1)。 UFP 不僅能輕易進入血液,甚至能繞過血腦屏障(BBB),進入大腦與胎盤,其破壞力十分可怕。

如果 HEPA 濾網像水槽濾網或麵粉篩一樣,單靠孔目大小來「過濾」粒子,那麼為了攔截奈米微粒,濾網的孔目只能無限縮小到幾乎不透氣的程度。更別說在台積電或 Intel 的製程工程師眼裡,一般人認為的「乾淨」,在工程師眼裡簡直像沙塵暴一樣。對於線寬僅有 2 奈米3 奈米(相當於頭髮直徑萬分之一)的晶片而言,空氣中一顆微小的塵埃,就是一顆足以毀滅世界的隕石。

-----廣告,請繼續往下閱讀-----

因此,傳統的過濾思維並非治本之道,我們需要的是原理截然不同的過濾方案。這套技術的雛形,最早可追溯至二戰時期的「曼哈頓計畫」。

HEPA 的前身,誕生於曼哈頓計畫!

1940 年代,製造濃縮鈾是發展原子彈的關鍵。然而,若將排氣直接排向大氣,會導致致命的放射性微粒擴散。負責解決這問題的是 1932 年諾貝爾化學獎得主歐文·朗繆爾(Irving Langmuir),他是薄膜和表面吸附現象的專家。他開發了「絕對過濾器」(Absolute Filter),其內部並非有孔的篩網,而是石綿纖維。

有趣的來了,如果把過濾器放到顯微鏡下,你會發現纖維之間的空隙,其實比某些被攔截的粒子還要大。那為什麼粒子穿不過去呢?這是因為在奈米尺度下,物理規則與宏觀世界完全不同。極微小的粒子在空氣中飛行時,並非走直線,而是會受到空氣分子撞擊,而產生「布朗運動」(Brownian Motion),像個醉漢一樣東倒西歪。

當粒子通過由緻密纖維構成的混亂迷宮時,布朗運動會迫使它們不斷轉彎、移動,最終撞擊到帶有靜電的纖維上。這時,靜電的吸附力會讓纖維就像蜘蛛網般死死黏住微粒。那些狂亂移動的奈米刺客,就這樣被永久禁錮迷宮中。

-----廣告,請繼續往下閱讀-----

現在最常見的 HEPA 材料,是硼矽酸鹽玻璃纖維。

現代 HEPA 濾網最常見的核心材料為硼矽酸鹽玻璃纖維。這些玻璃纖維的直徑通常介於 0.5 至 2 微米之間,它們在濾網內隨機交織,像是一座茂密「黑森林」。微粒進入這片森林後,並非僅僅面對一層薄紙,而是得穿越一個具有厚度且排列混亂的纖維層,微粒極有可能在布朗運動的影響下撞擊並黏附在某根玻璃絲上。

除此之外,HEPA 濾網在外觀上還有一個極具辨識度的特徵,那就是像手風琴般的摺紙結構。濾材會被反覆摺疊、摺成手風琴的形狀,中間則用鋁箔或特殊的防潮紙進行結構支撐,目的是增加表面積。這不僅為了捕獲更多微粒,而是要「降低過濾風速」。這聽起來可能有點反直覺:過濾不是越快越好嗎?

其實,這與物理學中的流速控制有關。想像一條水管,如果你捏住出口,水流會變得湍急;若將出口放開並擴大,雖然總出水量不變,但出水處的流速會變得緩慢。對於 HEPA 濾網而言,當表面積越大,單位面積所需承載的空氣量就越少,空氣穿透濾網的速度也就越低。

低流速代表微粒停留在濾網內的時間也更久,增加被捕捉的機會。此外,越大的表面積也為 HEPA 濾網帶來了高「容塵量」,延長了使用壽命,這正是它能夠稱霸空氣清淨領域多年的主因。

-----廣告,請繼續往下閱讀-----

然而,即便都叫做 HEPA 高效率空氣微粒子過濾網 (High Efficiency Particulate Air filter),但每個 HEPA 的成分與結構還是會不一樣。例如 安麗逸新空氣清淨機 SKY ,其標榜「可過濾粒徑最小至 0.0024 微米」的污染物,去除率高達 99.99%。

0.0024 微米是什麼概念?塵蟎、花粉、皮屑或黴菌孢子,大小約在 2 至 200 微米;細懸浮微粒  PM2.5 大小約 2.5 微米,細菌也大概這麼大。最小的其實是粒徑小於 0.1 微米的「超細懸浮微粒」,大多數的病毒(如流感、新冠病毒)都落在此區間。對安麗逸新 的HEPA濾網來說,基本上通通都是可被攔截的榜上名單。

在過敏防護上,它更獲得英國過敏協會(Allergy UK)認證,能有效處理 19 大類、102 種過敏原,濾除空氣中超過 300 種氣態與固態污染物。

同樣的過濾邏輯一旦進入半導體無塵室,就必須換一條更為嚴苛的技術路線。因為硼矽酸鹽玻璃纖維對晶圓來說有個致命傷,就是「硼 (Boron)」 / 圖片授權:Shutterstock

然而,同樣的過濾邏輯一旦進入半導體無塵室,就必須換一條更為嚴苛的技術路線。因為硼矽酸鹽玻璃纖維對晶圓來說有個致命傷,就是「硼 (Boron)」。

在半導體製程中,硼是常見的 P 型摻雜物,用來精準改變矽晶圓的電性。如果濾網有任何微小的破損、老化或化學侵蝕,進而釋放出極微量的硼離子,就可能直接污染晶圓,改變其導電特性,導致晶片報廢。

此外,無塵室要求的是比 HEPA 更極致的 ULPA(超低穿透率空氣濾網) 等級的潔淨度。ULPA 的標準通常要求對 0.12 微米 的粒子達到 99.999% 甚至 99.9999% 的超高攔截率。在奈米級的競爭中,任何多穿透的一顆微塵,都代表著一筆不小的經濟損失。

-----廣告,請繼續往下閱讀-----

為了解決「硼」的問題並追求極限的過濾效率,材料學家搬出了塑膠界的王者,PTFE 也鐵氟龍。鐵氟龍不僅耐酸鹼、耐腐蝕,還能透過拉伸製成直徑僅 0.05 至 0.1 微米 的極細纖維,其細度遠勝玻璃纖維。雖然 PTFE 耐化學腐蝕,但它既昂貴且物理上也很脆弱,安裝時若不小心稍微觸碰,數萬元的濾網就可能報銷。因此,你只會在晶圓廠而非一般家庭環境看到它。

即便如此,在空氣濾淨系統中,還有一樣是無塵室和你家空氣清淨器上面都有的另一張濾網,就是活性碳濾網。

活性碳如何從物理攔截跨越到分子吸附?

好不容易將微塵擋在門外時,危機卻還沒有解除。因為空氣中還隱藏著另一類更難纏的大魔王:AMC(氣態分子污染物)

HEPA 或 ULPA 這類物理濾網雖然能攔截固體微粒,但面對氣態分子時,就像是用網球拍想撈起水一樣徒勞。這些氣態分子如同「幽靈」一般,能輕易穿過物理濾網的縫隙,其中包括氮氧化物、二氧化硫,以及來自人體的氨氣與各種揮發性有機物(VOCs)。

-----廣告,請繼續往下閱讀-----

為了對付這些幽靈,我們必須在物理防線之外,加裝一道「化學濾網」。

這道防線的核心就是我們熟知的活性碳。但這與烤肉用的木炭不同,這裡使用的是經過特殊改造的「浸漬處理(Impregnation)」活性碳。材料科學家會根據敵人的不同性質,在活性碳上添加不同的化學藥劑:

  • 酸鹼中和:對付氮氧化物、二氧化硫等酸性氣體,會在活性碳上添加碳酸鉀、氫氧化鉀等鹼性藥劑,透過酸鹼中和反應將有害氣體轉化為固體鹽類。反之,如果添加了磷酸、檸檬酸等酸性藥劑,就能中和空氣中的氨氣等鹼類。
  • 物理吸附與凡德瓦力:對於最麻煩的有機揮發物(VOCs,如甲醛、甲苯),因為它們不具酸鹼性,科學家會精密調控活性碳的孔徑大小,利用龐大的「比表面積」與分子間的吸引力(凡德瓦力),像海綿吸水般將特定的有機分子牢牢鎖在孔隙中。
活性碳如何從物理攔截跨越到分子吸附? / 圖片來源:Amway

空氣濾淨的終極邏輯:物理與化學防線的雙重合圍

在晶圓廠這種對空氣品質斤斤計較的極端環境,活性碳的運用並非「亂槍打鳥」,而是一場極其精密的對戰策略。

-----廣告,請繼續往下閱讀-----

工程師會根據不同製程區域的空氣分析報告,像玩 RPG 遊戲時根據怪物屬性更換裝備一樣——「打火屬性怪要穿防火裝,打冰屬性則換上防寒裝」。在最關鍵的黃光微影區(Photolithography),晶圓最怕的是人體呼出的氨氣,此時便會配置經過酸性藥劑處理的活性碳進行精準中和;而在蝕刻區(Etching),若偵測到酸性廢氣,則會改用鹼性配方的濾網。這種「對症下藥」的客製化邏輯,是確保晶片良率的唯一準則。

而在你的家中,雖然我們無法像晶圓廠那樣天天進行空氣成分分析,但你的肺部同樣需要這種等級的保護。安麗逸新空氣清淨機 SKY 的設計邏輯,正是將這種工業級的精密防護帶入家庭。它不僅擁有前述的高規 HEPA 濾網,更搭載了獲得美國專利的活性碳氣味濾網。

關於活性碳,科學界有個關鍵指標:「比表面積(Specific Surface Area)」。活性碳的孔隙越多、表面積越大,其吸附能力就越強。逸新氣味濾網選用高品質椰殼製成的活性碳,並經過高溫與蒸氣的特殊活化處理,打造出多孔且極致高密度的結構。

這片濾網內的活性碳配重達 1,020 克,但其展開後的總吸附表面積竟然高達 1,260,000 平方公尺——這是一個令人難以想像的數字,相當於 10.5 個台北大巨蛋 的面積。這種超高的比表面積,是市面上常見濾網的百倍之多。更重要的是,它還添加了雙重觸媒技術,能特別針對甲醛、戴奧辛、臭氧以及各種細微的異味分子進行捕捉。這道專利塗層防線,能將你從裝潢家具散發的有機揮發氣體,或是路邊繁忙車流的廢氣中拯救出來,成為全家人的專屬空氣守護者。

總結來說,無論是造價百億的半導體無塵室,還是守護家人的空氣清淨機,其背後的科學邏輯如出一轍:「物理濾網攔截微粒,化學濾網捕捉氣體」。只有當這兩道防線同時運作,空氣才稱得上是真正的「乾淨」。

進一步了解商品:https://shop.amway.com.tw/products/2071?navigationType=brand&

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
246 篇文章 ・ 319 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
天下文化_96
142 篇文章 ・ 626 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

3
1

文字

分享

0
3
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
天下文化_96
142 篇文章 ・ 626 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

8
1

文字

分享

0
8
1
統計數據是天大的謊言?我們該如何理解統計結果——《塗鴉學數學》
臉譜出版_96
・2020/07/24 ・2606字 ・閱讀時間約 5 分鐘 ・SR值 517 ・六年級

-----廣告,請繼續往下閱讀-----

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

好,我們先把這件事情說清楚。統計數據是謊言,不應該採信。史上最聰明的人都這樣說過,不是嗎?

圖/臉譜出版提供

我的重點是什麼?沒錯,數字會欺騙。但文字也會——更不用說圖案、手勢、嘻哈音樂劇和募款電子郵件了。我們的道德制度會去責怪說謊的人,而不是說謊者用來說謊的媒介。

對我來說,最有意思的批評統計之詞不是批評統計學者的不誠實,而是批評數學本身。我們可以去理解統計的瑕疵,看到每一項統計數據想要捕捉什麼(以及它會刻意忽略什麼),來增強統計的價值。也許這樣我們就能成為威爾斯想像中的優良公民。

-----廣告,請繼續往下閱讀-----

統計中的平均數(mean)其實分配不均?

圖/臉譜出版提供

圖/臉譜出版提供

做法:把你的資料全部加起來,把總數除以資料筆數。

使用時機:平均數滿足了統計的一項基本需求:捕捉一個群體裡的「中間傾向」。籃球隊的身高是多少?你每天賣出幾個冰淇淋甜筒?這班學生的考試成績如何?如果你想用一個數值來概述一整個群體,平均數是合理的第一步。

-----廣告,請繼續往下閱讀-----

為什麼不要相信它:平均數只管兩個資訊:總和,以及用來達成這個總和的人數。假如你曾經分配過海盜搶來的財寶,就知道哪裡危險了:分配的方式有許多種。每一個人分別貢獻了多少?這是否平均,還是嚴重偏袒某一方?

如果我吃掉一整個披薩,沒有留下任何一點給你,我們是否可以公正地說每個人「平均吃掉」半個披薩?你可以跟你邀來吃晚餐的客人說,「人類平均」有一顆卵巢和一顆睪丸,但這樣是不是會讓氣氛突然冷掉?(我試過;的確會。)

人類關心分配的問題,但平均數會忽略這個問題不談。

圖/臉譜出版提供

-----廣告,請繼續往下閱讀-----

但平均數還有一個有用之處:它的特性使得它容易計算出來。

假設你的考試成績是 87 分、88 分和 96 分。(對,你在這班如魚得水。)你的平均是多少?你不必耗費腦力去加減乘除,只需要重新分配就好了。

從你最後一次的成績拿走 6 分,把 3 分分給第一次、2 分分給第二次。這樣你的分數便是 90 分、90 分和 90 分,另外還多了 1 分。把這 1 分分配給三次考試,你就會得到平均為 90⅓,完全不需要多花腦力。

統計中的中位數(median)忽視懸殊差異?

圖/臉譜出版提供

圖/臉譜出版提供

-----廣告,請繼續往下閱讀-----

做法:中位數是你的資料集裡最中間的那一筆。有一半的資料比它低,另一半比它高。

使用時機:中位數和平均數一樣,捕捉了一個群體裡的中間傾向。差別在於它對離群值(outlier)的敏感度—或者應該說,它有多麼不敏感。

就拿家庭所得來說吧。美國的富裕家庭可能收入是貧窮家庭的幾十倍(甚至幾百倍)。平均數假裝讓每一個家庭都分配到收入總和的同樣數量,因此它會被這些離群值吸引走,離開大多數資料群聚的地方。這樣它算出的數值是 $75,000。

中位數抗拒離群值的吸引力。它指認出絕對位於美國正中間的家庭所得,這會是剛剛好的中間點,有一半的家庭比這富裕,另一半比這貧窮。在美國,這個數值接近 $58,000。

-----廣告,請繼續往下閱讀-----

它和平均數不一樣;中位數可以讓人清楚看到「典型的」家庭是什麼樣子。

為什麼不要相信它:當你找到中位數後,你知道有一半的資料比它大,另一半比它小。但這些數值距離它多遠—只有半步之遙,還是要橫越整片大陸?你只會看到中間的那一塊,不會去管其他部分有多大或多小。這樣你可能誤判。

圖/臉譜出版提供

當一位創業資本家投資新創公司時,他會預期大多數新創公司將失敗。十分之一的罕見成功案例彌補其他小小的損失。但中位數會忽略這樣的動態。它大叫:「通常的結果是負面的。快中止任務!」

-----廣告,請繼續往下閱讀-----

同理,保險公司細心建立一套組合,因為他們知道千分之一的罕見災難會消滅多年以來不太高的獲利。但中位數忽略潛在的大災難。它鼓舞你:「通常的結果是正面的。永遠不要停下來!」

這就是為什麼你常常看到中位數與平均數並列。中位數報出通常的數值,平均數則是報出總數。它們像是兩位有缺陷的證人,兩個合起來的時候會說出比任何一個更全面的故事。

統計中的眾數(mode)排除與眾不同?

圖/臉譜出版提供

圖/臉譜出版提供

-----廣告,請繼續往下閱讀-----

做法:它是最常見的數值,最潮、最時尚的資料點。假如每個數值都獨一無二、沒有重複呢?這樣的話,你可以把資料分類,然後把最常見到的那個類別稱為「眾數組」(modal category 或 modal class)。

使用時機:眾數在進行民意調查和統計非數字的資料時非常出色。假如你想要簡述大家最喜歡的顏色,不可能「計算出顏色的總和」來算出平均數。或者,假如你在舉行投票,如果把所有的選票從「最自由派」排到「最保守派」,然後把公職給拿到中位數選票的候選人,這樣會讓選民發瘋。

為什麼不要相信它:中位數會忽略總和。平均數忽略總和的分布。那眾數呢?它會忽略總和、總和的分布和幾乎所有其他的事情。

眾數只代表單一個最常見的數值。但「常見」的意思不是「有代表性」。美國的薪資眾數是 0——這不是因為大多數美國人破產又沒工作,而是有領薪水的人分布在 $1 到 $100,000,000 的光譜各處,但所有沒領薪水的人都有相同的數字。這項數據不會告訴我們任何和美國有關的事。這項事實幾乎在所有國家都適用,因為這是金錢的運作方式所造成的。

改用「眾數組」只能解決一部分的問題。這樣會讓呈現資料的人有驚人的權力,因為他可以故意操弄分組的界線,來配合他的立場。依照我劃分界線的差異,我可以宣稱美國家庭所得的眾數位在 $10,000 到 $20,000(以 10,000 進位),或 $20,000 到 $40,000(以 20,000 進位),或 $38,000 到 $92,000(以所得稅級距進位)。

同樣的資料集,同樣的統計數據,但最後的樣貌完全改變了,端視畫出這個樣貌的畫家採用哪一種畫框而定。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

-----廣告,請繼續往下閱讀-----
文章難易度
臉譜出版_96
88 篇文章 ・ 255 位粉絲
臉譜出版有著多種樣貌—商業。文學。人文。科普。藝術。生活。希望每個人都能找到他要的書,每本書都能找到讀它的人,讀書可以僅是一種樂趣,甚或一個最尋常的生活習慣。