0

4
6

文字

分享

0
4
6

統計課從沒搞清楚的事:算變異量為什麼要除以 n-1?什麼是「自由度」?

林澤民_96
・2017/02/26 ・4578字 ・閱讀時間約 9 分鐘 ・SR值 512 ・六年級

-----廣告,請繼續往下閱讀-----

樣本變異量是基本統計學一個很難懂也很難教的概念。初學統計學的學生一開始就遇到這個概念,如果沒學懂,很可能就對統計學喪失了信心或興趣。

這個概念難懂之處並不只在於它的意義或用處,更在於它的公式:

這個公式的分子是所謂「差方和」(sum of squared deviations),還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以 n,為什麼要除以 n – 1?

n 是個「限制」,n-1 就是「自由」的?

一般老師對這個問題通常會回答說因為分子使用了樣本平均數,失去了一個「自由度」(degrees of freedom),所以除以 n – 1。有的老師還會進一步說,如果計算差方和使用的不是樣本平均數,而是母體平均數,則除以 n 即可。至於為何使用樣本平均數會失去一個「自由度」,有點耐心的老師會解釋:樣本平均數是原來 n 個數算出來的,有了樣本平均數,原來 n 個數就被「限制」住了,只有 n – 1 個是「自由」的。學生聽到這裡常常滿頭霧水。他們會想:原來 n 個數不是已經知道了嗎,說他們是「自由」究竟是什麼意思?而且就算「自由度」的概念懂了,又為什麼要把差方和除以自由度,除以 n 得到平均差方不是更直接了當嗎?

-----廣告,請繼續往下閱讀-----

如果學生那樣反問,沒有耐心的老師可能會乾脆說:當 n 很大的時候,其實除以 n 和除以 n – 1 是差不多的,照著公式做就對了。學過數理統計學又超有耐心的老師則會說:這與統計推論有關,當我們用樣本變異量來估計母體變異量時,為了避免估計上的偏差,必須要除以 n – 1。

剛開始學基本統計學的學生聽了當然毫無頭緒,此時老師可能會說:你們以後去修數理統計學就會明白了,這個除以 n – 1 而不是除以 n 的方法喚作「貝索校正」(Bessel’s correction)。學生聽到這裡,大概也只好知難而退等以後再說了。不過誨人不倦的老師還會進一步說:其實這要看你用哪一種估計方法,如果你用「最大概似估計法」(MLE),除以 n 才是對的;有人選擇「最小均方誤差估計法」(MMSE)還除以 n + 1 呢。說到這裡,學生恐怕已經決定退選了。

我教基本統計學教了 20 幾年,常被學生追問這個問題,逼得自己也只好認真想出一些可以讓學生稍感滿意的答案。本文嘗試在不用高深數學的原則下來回答這個問題。

變異量的概念

首先,我們假設有一組 n 個數目的資料:x1, x2, …, xn,它們的樣本平均數是:

-----廣告,請繼續往下閱讀-----

變異量所要測量的是這一組資料彼此間差異的程度,它告訴我們資料的同質性或一致性。我們可以先想像這組資料全部相同的情況:資料彼此之間完全沒有差異,也就是同質性高到不能再高了,一致性也大到不能再大了,此時變異量為 0。如果資料彼此間差異極大,也就是同質性或一致性極低,此時變異量極大。

想像一個大聯盟球隊的球員,我們有這些球員上個球季打擊率的資料。如果這些資料的變異量極小,這代表球員們打擊能力大致相同,同質性極高;反之,如果變異量極大,則能力參差不齊,同質性低。再想像我們特別關注其中一位球員,我們有他參加大聯盟以來每個球季的打擊率。如果這些資料的變異量極小,這代表這球員每年打擊表現的一致性極高;反之,如果變異量極大,則一致性低。

然則為何變異量要用上面的公式計算?要算資料彼此間差異的程度,不是算出數目兩兩之間差異的總和或其平均值就好了嗎?這樣說雖然不無道理,但實際上大有問題。

設想我們把資料中所有數目依其大小標在一直線上,一共有 n 個點,則這些點兩兩之間一共會有 C(n,2) = n! / (n – 2) !2! 個距離,例如 n = 3 會有 3 個距離,n = 4 會有 6 個距離,n = 5 會有 10 個距離,等等。但這些距離並不是相互獨立的,因為除了相鄰兩點之間的距離外,其它的距離都可以算出來。舉例來說,若 n = 3 而三點為 x1 < x2 < x3,則共有|x1 – x2|、|x2 – x3|、|x1 – x3|三個距離,但|x1 – x2|+|x2 – x3|=|x1 – x3|,也就是 3 個距離中只有 2 個是獨立的,第三個可以由這兩個獨立的距離算出來。推而廣之,直線上 n 個點 x1 < x2 < … < xn,雖然可有 C(n,2) 個距離,只有|x1 – x2|、|x2 – x3|、|x3 – x4|…、|xn-1 – xn|這 n – 1 個相鄰兩點之間的距離是獨立的;這 n – 1 個距離知道之後,其它的距離也就知道了。這 n – 1 個相鄰兩點的「獨立」距離,包含了樣本變異量所有的資訊,因此我們不妨暫且把 n – 1 喚作「自由度」。換句話說,「自由度」就是樣本變異量所含獨立資訊的數目。

-----廣告,請繼續往下閱讀-----

如果我們把總變異量定義為資料中這些獨立資訊的總和,則當我們把總變異量除以自由度 n – 1,我們就得到這些獨立資訊的平均變異量了。但這樣的定義有一個問題,我們看下式就明白了:

這就等於我們小學時學過的植樹問題:「一條路有 90 公尺,沿路每邊種了 10 棵樹,兩端都種,請問每邊樹與樹間的平均距離多少?」這樣來算變異量,除了用到資料最大數和最小數之間的「範圍」(range) 外,完全忽略了中間 n – 2 個相對點位置所含的資訊,因此它不是一個適當的方法。

此外,因為兩數相減可能得到負數,但距離必須是正的,所以我們常用絕對值來算距離。但絕對值函數 y = |x|在 x = 0 的地方有個尖銳轉折,不是一個平滑函數,數學上不好處理。比較好的消去負號的方法是平方:負負得正。

因此統計學不用資料點兩兩之間距離絕對值的和來算總變異量,而是用每個資料點與平均數距離平方的總和,也就是前面所說的「差方和」:

-----廣告,請繼續往下閱讀-----

差方和的好處是它用到了資料中每一點的位置,但它同時也必須用到樣本平均數。用了樣本平均數之後,資料中的n個點與平均數的距離就有一個限制了:

因此它們只包含了 n – 1 個獨立的資訊。我們把 n – 1 喚作「自由度」,也就是獨立資訊的數目。把差方和除以「自由度」就得到變異量;它可以詮釋為每個獨立資訊對資料所含總資訊——差方和——的平均貢獻。變異量因為用了距離的平方,必須開根號才能回到原來的距離單位。於是我們把變異量開根號,得到的結果,就是所謂「標準差」(standard deviation):

為什麼要「貝索校正」?

如果這樣講學生還是不懂為何要除以 n – 1,那就只好祭出「貝索校正」的法寶了。以下嘗試用比較淺易的方法說明貝索校正,但我們必須先加強對資料的假設。

我們現在假設有一組 n 個從母體隨機抽樣得來的資料:x1, x2, …, xn。雖然任何一組資料都可以計算其變異量,這裡我們假設資料是隨機樣本是有原因的。如果資料不是隨機樣本,它背後沒有一個母體,以下的討論便沒有意義。我們假設母體的平均數是 μ,而樣本的平均數是 x̄。

-----廣告,請繼續往下閱讀-----

貝索校正的原理是:用以上定義的樣本變異量來估計母體變異量時,平均來說不會有偏差。如果我們用「≈」代表「平均來說」,我們可以用下式來表示這個陳述:

這個式子的左邊是樣本變異量,右邊是母體變異量。母體變異量的定義是相對於母體平均數的平均差方。理論上,母體的平均差方要用期望值來算,但為了避免使用高深數學,這裡直接用樣本資料對母體平均數的平均差方來算。因為在計算時除了資料各點以外沒有用到可以用資料算出來的數目,它的「自由度」是 n 而不是 n – 1。上式告訴我們:「平均來說」,樣本變異量等於母體變異量。所謂「平均來說」,意指從同一個母體中重複隨機抽出許多同樣大小的樣本,雖然每一個樣本的變異量不會一樣,當我們重複抽了很多很多樣本時,這些樣本變異量的平均數會恰恰等於母體變異量,不會有所偏差。這就是統計估計中所冀求的「無偏差性」(unbiasedness)。

統計估計的「無偏差性」需要證明。為了證明方便起見,我們先定義

.母體總差方和:

-----廣告,請繼續往下閱讀-----

.樣本總差方和:

.平均數差方和:

TSS 是以母體平均數為中心的總差方和,將它除以 n 就得到母體變異量。RSS 是以樣本平均數為中心的總差方和,將它除以 n – 1 就得到樣本變異量。ESS 是假設資料中每個數目都被樣本平均數取代時的母體總差方和。

以下我們分四個步驟,先對每一個步驟做實質討論後,再證明貝索校正的無偏差性。

-----廣告,請繼續往下閱讀-----

(1)是一個恆等式,它並不是「平均來說」才成立的;它告訴我們:TSS 可以分解為兩個部分:ESS 與 RSS。這個關係可以進一步闡釋如下:如果我們不知道樣本每一個數的數值而只知道樣本平均數,則我們在計算母體總差方和時,只好用平均數來取代每一個數。這樣算出來的母體總差方和就是 ESS;它只佔真正 TSS 的一部分。這一部分我們可以把它想成是樣本平均數所能「解釋」(Explain)的部分,也就是平均數這個資訊所能傳達的母體總資訊的部分,此所以我們以 ESS 來代表它。那麼剩下的部分呢?(1)告訴我們:母體總資訊不能被樣本平均數所解釋的部分,恰恰等於樣本總差方和。因為這個原因,我們把樣本總差方和也稱作「剩餘總差方和」(Residual Sum of Squares)而用 來代表。

(2)不是一個恆等式,它告訴我們:「平均來說」,ESS 只佔了 TSS 的 1/n;除非 n 很小,否則樣本平均數只能解釋母體總資訊的一個很小的部分。

(3)可從(1)與(2)用簡單的代數算出:既然 TSS = ESS + RSS,而 ESS「平均來說」只佔 TSS 的 1/n,那麼 RSS「平均來說」就佔 TSS 的  (n-1)/n 了。

我們再把(3)的兩邊除以 n – 1 就得到(4):樣本總差方和除以 n – 1「平均來說」等於母體總差方和除以 n。這正是「貝索校正」:除以 n – 1 的樣本變異量「平均來說」,等於除以 n 的母體變異量!

現在我們可以了解「自由度」的真正意義了:我們把母體總差方和分成 n 等份,則樣本平均數「平均來說」所能「解釋」的只有一份,而這一份之外,樣本平均數不能「解釋」的 n – 1 份剛好就是樣本總差方和,這 n – 1 就是所謂的「自由度」。換句話說:我們知道了樣本平均數之後,樣本 n 個資料點只能「解釋」母體總差方和 n 等份中的 n – 1 份。這是為什麼我們在計算樣本變異量的時候要把樣本總差方和除以n-1。而這樣算的最終目的,就是為了要讓樣本變異量「平均來說」等於母體變異量。

數學證明

這裡只有(1)與(2)需要證明:

【(1)的證明】

【(2)的證明】

這個證明裡有兩個關鍵步驟。第一,我們應用了多項式平方展開的公式

這讓我們導出

第二,我們用了 x1, x2, …, xn 是隨機樣本的假設而得到

的結果。隨機樣本的假設是指資料的每一個數都是從同一個母體抽出而獨立分佈的(identically and independently distributed)。在這個假設之下,xi 與 xj 是獨立的,因此它們的共變量為 0。在重複抽樣的情況下,xi 有時候大於 μ,有時候小於 μ;xj 也是;而且 xi 跟 μ 的偏差與 xj 跟 μ 的偏差是互相獨立的。因此,( xi – μ )( xj – μ ) 的值有時候為正,有時候為負;雖然大小不一,但「平均來說」,他們加起來會互相取消。此所以我們知道在理論上:

以上證明參考了

  • R.A. Fisher, 1912. “On an Absolute Criterion for Fitting Frequency Curves.” Messenger of Mathematics 41, pp. 155-160. Republished in Statistical Science, Vol. 12, No. 1 (Feb., 1997), pp. 39-41.

但原文條理並沒有交代得很清楚,這裡主要是我自己的詮釋。

本文《統計學中算變異量為什麼要除以 n-1?什麼是「自由度」?》轉載自 Tse-min Lin 的部落格

-----廣告,請繼續往下閱讀-----
文章難易度
林澤民_96
37 篇文章 ・ 245 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

2
0

文字

分享

0
2
0
從「衛生紙」開始的環保行動:一起愛地球,從 i 開始
鳥苷三磷酸 (PanSci Promo)_96
・2024/12/03 ・1592字 ・閱讀時間約 3 分鐘

-----廣告,請繼續往下閱讀-----

你是否也曾在抽衛生紙的瞬間,心頭閃過「這會不會讓更多森林消失」的擔憂?當最後一張衛生紙用完,內心的愧疚感也油然而生……但先別急著責怪自己,事實上,使用木製品和紙張也能很永續!只要我們選對來源、支持永續木材,你的每一個購物決策,都能將對地球的影響降到最低。

二氧化碳是「植物的食物」:碳的循環旅程

樹木的主食是水與二氧化碳,它們從空氣中吸收二氧化碳,並利用這些碳元素形成枝葉與樹幹。最終這些樹木會被砍伐,切成木材或搗成紙漿,用於各種紙張與木製品的製造。

木製品在到達其使用年限後,無論是被燃燒還是自然分解,都會重新釋放出二氧化碳。不過在碳循環中,這些釋出的二氧化碳,來自於原本被樹木「吸收」的那些二氧化碳,因此並不會增加大氣中的碳總量。

只要我們持續種植新樹,碳循環就能不斷延續,二氧化碳在不同型態間流轉,而不會大量增加溫室氣體在大氣中的總量。因為具備循環再生的特性,讓木材成為相對環保的資源。

但,為了木製品而砍伐森林,真的沒問題嗎?當然會有問題!

-----廣告,請繼續往下閱讀-----
從吸碳到固碳的循環

砍對樹,很重要

實際上,有不少木材來自於樹木豐富的熱帶雨林。然而,熱帶雨林是無數動植物的棲息地,它們承載著地球豐富的生物多樣性。當這些森林被非法砍伐,不僅生態系統遭到破壞,還有一個嚴重的問題–黃碳,也就是那些大量儲存在落葉與土壤有機質中的碳,會因為上方森林的消失重新將碳釋放進大氣之中。這些原本是森林的土地,將從固碳變成排碳大戶。

不論是黃碳問題,還是要確保雨林珍貴的生物多樣性不被影響,經營得當的人工永續林,能將對環境的影響降到最低,是紙漿和木材的理想來源。永續林的經營者通常需要注重環境保護與生態管理,確保砍下每顆樹木後,都有新的樹木接續成長。木材反覆在同一片土地上生成,因此不用再砍伐更多的原始林。在這樣的循環經營下,我們才能不必冒著破壞原始林的風險,繼續享用木製品。

人工永續林的經營者需要注重環境保護與生態管理,確保砍下每顆樹木後,都有新的樹木接續成長。

如何確保你手中的紙張來自永續林?

如果你擔心自己無意中購買了對環境不友善的商品,而不敢下手,只要認明FSC(森林管理委員會)認證與 PEFC(森林認證制度)認證標章,就能確保紙漿來源不是來自原始林。並且從森林到工廠、再到產品,流程都能被追蹤,為你把關每一張紙的生產過程合乎永續。

只要認明 FSC(森林管理委員會)認證與 PEFC(森林認證制度)認證標章,就能確保紙漿來源不是來自原始林。

家樂福「從 i 開始」:環境友善購物新選擇

不僅是紙張,家樂福自有品牌的產品都已經通過了環保認證,幫助消費者在日常生活中輕鬆實踐環保。選擇 FSC 與 PEFC 標章只是第一步,你還可以在購物時認明家樂福的「從 i 開始」價格牌,這代表商品在生產過程中已經符合多項國際認證永續發展標準。

-----廣告,請繼續往下閱讀-----

「從 i 開始」涵蓋十大環保行動,從營養飲食、無添加物、有機產品,到生態農業、動物福利、永續漁業、減少塑料與森林保育,讓你每一項購物選擇都能與環境保護密切相關。無論是買菜、買肉,還是日常生活用品,都能透過簡單的選擇,為地球盡一份力。

選擇 FSC 與 PEFC 標章只是第一步,你還可以在購物時認明家樂福的「從 i 開始」價格牌
-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
212 篇文章 ・ 312 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
天下文化_96
142 篇文章 ・ 623 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

3
1

文字

分享

0
3
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
天下文化_96
142 篇文章 ・ 623 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。