0

1
0

文字

分享

0
1
0

用哪種統計方法已成信仰?「貝葉斯統計」與「頻率論」差在哪?——《重力的幽靈》

左岸文化_96
・2019/05/08 ・2091字 ・閱讀時間約 4 分鐘 ・SR值 611 ・十年級

編按:在前沿天文學中,所有觀測的結果都會是數字,而所有的數字解讀都需倚仗統計學。《重力的幽靈》第五章探討了統計檢測的隱藏歷史。

在物理學中,是要使用貝葉斯統計 (Bayesian Methods) 還是頻率論 (Frequentist probability) ,長期以來有著爭論。

哪邊才是對的呢?圖/pxhere

兩者究竟差在哪?該選哪邊站?

事實上,這種爭論是如此長期地存在,並存在著如此熱情,使雙方有時會開玩笑地把他們喜好的偏好當成是統計的「信仰」。有幾個原因值得讓我們看一下這個信仰。

首先,檢視信仰之間的爭論是一個方法,得以顯示出統計數據的解釋總是主觀的,無論它看起來是如何的客觀。

其二,如我將在本章所論證的,貝葉斯方法可以用來正當化涉及弱宣稱 (weakclaim) 的發表策略。

-----廣告,請繼續往下閱讀-----

這兩個統計信仰之間關鍵的區別似乎是在於:

貝葉斯統計相信,所有基於統計學聲稱核心的不可能性敘述,必須考慮到你已經相信的世界,也就是聲稱的「先驗概率」(priorprobability),是真實的。

所有基於統計學聲稱核心的不可能性敘述,必須考慮到你已經相信的世界。圖/pixabay

頻率論則認為先驗概率過於主觀,不能出現在統計計算中;那樣只是產生了一個數字,而這個數字只反應了你所計算的可能性為何,並非計算可信與否。

很明顯地,在貝葉斯統計和頻率論對不可能性的評估中,先驗可信度扮演了一定的角色。如果頻率論正在尋找一個恆星,而計算暗示望遠鏡發現了天空中有頭噴火的巨龍,他們也不大可能進行舉報。

在一封電子郵件中,我的受訪者是一位堅定的貝葉斯主義者,關於尋找重力波,他是這樣看的:

-----廣告,請繼續往下閱讀-----

我覺得首次偵測的評斷標準多半是社會學的。要說服人,需要的是證據與團隊信譽的水準,我們看到的東西完全超出他們的經驗(重力源),並非全是他們所經驗過的東西(偵測器雜訊、飛機等等)。這個水準主要取決於我們希望說服的人所持的態度,以及他們對於將數據解釋為重力波的先驗傾向 (priorpredisposition) 。一旦我們做到了這一點,重力波就會很神奇地進入他們的經驗之中。一切都變得更容易,我們就可以自由自在地,像個正常的天體物理學家。(即,瘋狂臆測並亂搞,而不會受到責備!)

先驗預期以更為不起眼的方式,扮演著它的角色。例如,在相隔遙遠的兩個偵測器上偵測到的信號有時間巧合,而背景中僅有極為少數的時間巧合,這樣的聲稱有賴於重力波的先驗模型,也就是重力波是來自於一個侷限的天區,並且是以光速傳遞。我們知道在這樣的速度下,相隔兩千英里的兩個偵測器之間的「時間巧合」,發出兩個信號的時間間隔不能超過 1/100 秒。

這意味著,如果試圖找出可能只由雜訊所引起時間巧合的背景信號,可以忽略所有時間間隔超過 1/100 秒的事件——那些並非「時間巧合」。

取決於光速?還是音速?

音速?還是光速?圖/pxhere

如果重力波是以音速傳遞,就必須要考慮包含兩個事件的間隔是三個小時(或更短)的「時間巧合」。而人們只好將兩個產生作用相隔三個小時以上的事件,當成背景並予以排除。就我們所知,在這種情況下是不可能進行重力波探測的。

然而,卻也從來沒有實驗或觀測「證明」,重力波是以光速傳播——而它卻正是目前章節中所描述的科學重點的一部分。

更具體地說,相同的迴圈也適用於所有試圖憑藉著模板的偵測,像在連續波與隨機背景的情況中,甚至是有賴於發射源的粗糙模型。頻率論中的等效先驗模型,也就是韋伯和羅馬集團的陽性宣稱受到批評的核心。

-----廣告,請繼續往下閱讀-----

貝葉斯主義者只不過是說,在完成計算之前,所有的這些先驗預期應該是計算的一個明確部分,而且應該透過一個數字來表示。頻率論傾向「在事件發生後」否認不太可能出現的結果。在大多數的情況下,頻率論者和貝葉斯主義者會在計算結束時得到相同的結論,但並不總是如此。但這個「不總是」可能會是重要的。在這個故事中的確十分重要。

一場關於「信仰」的戰爭

信仰的戰爭仍在繼續,因為貝葉斯主義者相信,頻率論丟棄或歪曲有價值的信息並(或)掩飾其運用,或者將其作為事後的決策機制。

另一方面,頻率論者指出了一個事實,要正確地將一個數字賦予某些事的「先驗機率」,是非常困難的;將先驗資訊給予數字的形式,是試圖將「主觀」的猜測偽裝成「客觀」的資訊。

貝葉斯主義者說,這也許是個猜測,但至少每個人都可以看到猜的是什麼,如果有人想要,他可以批評,也可以提出自己的猜測。貝葉斯主義者說,每個人都同意奇蹟(意想不到的效應)需要額外的證據,如果要證明的話,他們的做法是讓這項要求成為明確程序的一部分,而頻率論者只是頷首微笑同意,有些東西真是令人難以置信,然後默默接受。

本文為《重力的幽靈:關於實驗室、觀測,以及統計數據在21世紀的科學探險》推薦序,2018 年 10 月,左岸文化出版。

-----廣告,請繼續往下閱讀-----
文章難易度
左岸文化_96
36 篇文章 ・ 11 位粉絲
左岸的出版旨趣側重歷史(文明史、政治史、戰爭史、人物史、物質史、醫療史、科學史)、政治時事(中國因素及其周邊,以及左岸專長的獨裁者)、社會學與人類學田野(大賣場、國會、工廠、清潔隊、農漁村、部落、精神病院,哪裡都可以去)、科學普通讀物(數學和演化生物學在這裡,心理諮商和精神分析也在這裡)。

2

2
2

文字

分享

2
2
2
諦聽宇宙深處的低吟,宇宙低頻重力波訊號代表的意義——《科學月刊》
科學月刊_96
・2023/11/01 ・3782字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/陳哲佑
    • 任職於日本理化學研究所,專長為黑洞物理、宇宙學、重力理論等。
    • 熱愛旅行、排球與珍珠奶茶
  • Take Home Message
    • 今(2023)年 6 月,北美奈赫茲重力波天文臺(NANOGrav)團隊觀察到宇宙中的低頻重力波。
    • NANOGrav 團隊利用數個脈衝星組成「脈衝星陣列」(PTA),測量各脈衝星訊號到達的時間,計算不同訊號的到達時間是否存在著相關性。
    • PTA 得到的重力波訊號相當持續,沒有明確的波源。科學家推測此訊號可能來自多個超大質量雙黑洞系統互繞而產生的疊加背景。

2015 年 9 月,位於美國的雷射干涉儀重力波天文臺(Laser Interferometer Gravitational-Wave Observatory, LIGO)成功偵測來自雙黑洞碰撞的重力波訊號(請見延伸閱讀 1)。

這個發現不僅再次驗證愛因斯坦(Albert Einstein)「廣義相對論」的成功,更引領人類進入嶄新的重力波天文學時代。到了現在,我們不僅能使用各種電磁波波段進行觀測,還多了重力波這個強而有力的工具能夠窺探我們身處的宇宙,甚至還有同時結合兩者的多信使天文學(multi-messenger astronomy)註1,皆能帶給人類許多單純電磁波波段觀測無法觸及的資訊(請見延伸閱讀 2)。

如同不同波段的電磁波觀測結果為我們捎來不同的訊息,重力波也有不同的頻譜,且頻譜與產生重力波的波源性質有非常密切的關係。以雙黑洞碰撞為例,系統中黑洞的質量與碰撞過程中發出的重力波頻率大致上成反比,因此當系統中黑洞的質量愈大,它產生的重力波頻率就愈低。

目前地球上的三個重力波天文臺:LIGO、處女座重力波團隊(The Virgo Collaboration, Virgo),以及神岡重力波探測器(Kamioka Gravitational wave detector, KAGRA, or Large-scale Cryogenic Gravitational wave Telescope, LCGT)都受限於干涉儀的長度,只對頻率範圍 10~1000 赫茲(Hz)的重力波有足夠的靈敏度,此範圍的重力波對應到的波源即是一般恆星質量大小的雙黑洞系統。

-----廣告,請繼續往下閱讀-----

然而,來自超大質量黑洞互繞所發出的重力波頻率幾乎是奈赫茲(Nano Hertz,即 10-9 Hz)級別,如果想要探測到此重力波,就需要一個「星系」規模的重力波探測器。雖然這聽起來彷彿天方夜譚,但就在今年 6 月,北美奈赫茲重力波天文臺(North American Nanohertz Observatory for Gravitational Waves, NANOGrav)的團隊利用「脈衝星計時陣列」(pulsar timing array, PTA)成功地觀測到這些低頻重力波存在的證據。

以不同方式觀察不同頻率的重力波

與電磁波相似,重力波也有不同的頻率。不同頻率的重力波會對應到不同性質的波源,且需要不同的方式觀測。圖/科學月刊 資料來源/Barack, et al. 2018

NANOGrav 如何觀測低頻重力波?

讀者聽過脈衝星(pulsar)嗎?它是一種高速旋轉且高度磁化的中子星(neutron star)註2,會從磁極放出電磁波。隨著脈衝星的旋轉,它的電磁波會以非常規律的時間間隔掃過地球,因而被身處於地球上的我們偵測到,就像是海邊的燈塔所發出的光,會規律地掃過地平面一般。由於脈衝星的旋轉模式相當穩定,掃過地球的脈衝就如同宇宙中天然的時鐘,因此在天文學上有相當多的應用——甚至可以用來觀測重力波。

利用脈衝星觀測重力波的第一步,首先要記錄各個脈衝星的電磁脈衝到達地球的時間(time of arrival),並且將這些訊號與脈衝星電磁脈衝的理論模型做比對。

如果訊號和理論模型相符,那麼兩者相減後所得到的訊號差(residual)只會剩下一堆雜訊;相反的,如果宇宙中存在著重力波,並且扭曲了該脈衝星和地球之間的時空,那麼兩訊號相減之後就不會只有雜訊,而會出現時空擾動的蹤跡。

-----廣告,請繼續往下閱讀-----
利用數個脈衝星組成的脈衝星計時陣列,可用來尋找宇宙中低頻的重力波訊號。圖/Tonia Klein, NANOGrav 

然而以觀測的角度來看,即便我們從來自單一脈衝星的訊號中發現訊號差出現偏離雜訊的跡象,也不能直接推論這些跡象一定是來自重力波。畢竟科學家對脈衝星的內部機制和脈衝傳遞的過程也並未完全了解,這些未知的機制都可能會使單一脈衝星的訊號差偏離雜訊。

因此為了要判斷重力波是否存在,就必須進行更進一步的觀測:利用數個脈衝星組成脈衝星陣列,測量每個脈衝星訊號到達的時間,並且計算這些不同脈衝星訊號的到達時間是否存在某種相關性。

舉例來說,如果脈衝星和地球之間沒有重力波造成的時空擾動,那麼即便每顆脈衝星的訊號差都出現偏離雜訊的跡象,彼此之間的訊號也會完全獨立且不相干;反之,如果脈衝星和地球之間有重力波經過,這些重力波便會扭曲時空,不僅會改變這些脈衝訊號的到達時間,且不同脈衝星訊號到達的時間變化也會具有某種特定的相關性。

根據廣義相對論的計算,一旦有重力波經過,不同脈衝星訊號之間的相關性與脈衝星在天球上的夾角會滿足一條特定的曲線,稱為 HD 曲線(Hellings-Downs curve)。

-----廣告,請繼續往下閱讀-----

科學家以兩顆脈衝星為一組觀測單位,藉由觀測多組脈衝星的訊號、計算它們之間的相關性,再比較這些數據是否符合 HD 曲線,就能夠進一步推斷低頻重力波是否存在。值得一提的是,由於重力波訊號非常微弱,用來作為陣列的脈衝星必須有非常穩定的計時條件,因此一般會選擇自轉週期在毫秒(ms)級別的毫秒脈衝星作為觀測對象。

NANOGrav 在今年 6 月發布的觀測結果就是利用位於波多黎各的阿雷西博天文台(Arecibo Observatory,已於 2020 年因結構老舊而退役)、美國的綠堤望遠鏡(Robert C. Byrd Green Bank Telescope)和甚大天線陣(Very Large Array, VLA)觀測 68 顆毫秒脈衝星。

他們分析了長達 15 年的觀測數據後,發現這些脈衝星訊號的相關性與 HD 曲線相當吻合,證實了低頻重力波確實存在於我們的宇宙中。

除了 NANOGrav,其他團隊例如歐洲的脈衝星計時陣列(European Pulsar Timing Array, EPTA)、澳洲的帕克斯脈衝星計時陣列(Parkes Pulsar Timing Array, PPTA)、印度的脈衝星定時陣列(Indian Pulsar Timing Array, InPTA),以及中國的脈衝星計時陣列(Chinese Pulsar Timing Array, CPTA)等,皆得到相符的結果。

-----廣告,請繼續往下閱讀-----

NANOGrav 觀測結果帶來的意義

與先前 LIGO 觀測到的瞬時重力波訊號不同,目前利用 PTA 得到的重力波訊號是相當持續的,而且並沒有較明確的單一波源,反而像是由來自四面八方數個波源組成的隨機背景訊號。

打個比方,LIGO 收到的重力波訊號像是我們站在海邊,迎面而來一波一波分明的海浪,每一波海浪分別對應到不同黑洞碰撞事件所發出的重力波;而 PTA 的訊號則是位於大海正中央,感受到隨機且不規則的海面起伏。

目前對這些奈赫茲級別的重力波訊號最合理也最自然的解釋,是來自多個超大質量雙黑洞系統互繞而產生的疊加背景。若真是如此,那這項發現將對天文學產生重大的意義。

過去科學界對於如此巨大的雙黑洞系統能否在可觀測宇宙(observable universe)的時間內互繞仍普遍存疑,如果PTA觀測到的重力波真的來自超大質量雙黑洞互繞,那代表這類系統不僅存在,它們的出現還比過去我們預期的更為頻繁,且產生的訊號也更強。

-----廣告,請繼續往下閱讀-----

NANOGrav 的觀測結果

橫軸為脈衝星陣列中,兩脈衝星位置之間的夾角;縱軸為訊號之間的相關性;藍色數據點為 NANOGrav 15 年的觀測結果;黑色虛線為 HD 曲線。可看出數據點的分布與 HD 曲線相當吻合。圖/科學月刊 資料來源/Agazie et al. 2023

不過除了雙黑洞系統,也有其他「相對新奇」的物理機制也可能產生這樣的重力波背景,包含早期宇宙的相變、暗物質,以及其他非標準模型的物理等。若要從觀測的角度去區分這些成因,最重要的關鍵在於,能否從隨機背景中找到特定的波源方向。

如果是雙黑洞系統造成的重力波,勢必會有來自某些方向的訊號比較強;反之,如果是早期宇宙產生的重力波,那麼這些重力波將會隨著宇宙的膨脹瀰漫在整個宇宙中,因此它們勢必是相當均向的。

為了找到波源方向,提升訊號的靈敏度成為了當務之急。而若要提升 PTA 的靈敏度,最主要的方式有兩種——其一是將更多的脈衝星加入陣列;其二則是延長觀測的時間。

目前,不同的 PTA 團隊已經組成國際脈衝星計時陣列(International PTA)互相分享彼此的脈衝星觀測資料。隨著觀測技術的進步,解密這些奈赫茲級別的神祕重力波將指日可待。

-----廣告,請繼續往下閱讀-----

註解

  1. 相較於過往只能以可見光觀測宇宙,多信使天文學能利用多種探測訊號,如電磁波、微中子、重力波、宇宙射線等工具探索宇宙現象,獲得更多不同資訊及宇宙更細微的面貌。
  2. 質量較重的恆星在演化到末期、發生超新星爆炸(supernova)後,就有可能成為中子星。

延伸閱讀

  1. 林俊鈺(2016)。發現重力波!,科學月刊556,248–249。
  2. 金升光(2017)。重力波獨白落幕 多角觀測閃亮登場,科學月刊576,892–893。
  3. NANOgrav. (Jun 28 2023). Scientists use Exotic Stars to Tune into Hum from Cosmic Symphony. NANOgrav.
  • 〈本文選自《科學月刊》2023 年 10 月號〉
  • 科學月刊/在一個資訊不值錢的時代中,試圖緊握那知識餘溫外,也不忘科學事實和自由價值至上的科普雜誌。
所有討論 2
科學月刊_96
249 篇文章 ・ 3497 位粉絲
非營利性質的《科學月刊》創刊於1970年,自創刊以來始終致力於科學普及工作;我們相信,提供一份正確而完整的科學知識,就是回饋給讀者最好的品質保證。

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

所有討論 2
天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

2
1

文字

分享

0
2
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。