0

0
0

文字

分享

0
0
0

演進中的科學研究方法(2/4) – 區間估計砍得掉特設假設?

活躍星系核_96
・2014/04/29 ・2137字 ・閱讀時間約 4 分鐘 ・SR值 609 ・十年級

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

區間估計,或稱信賴區間的計算程序,是許多運用統計分析資料的知識領域常用的分析方法,也是一般大眾最常接觸的推論統計資訊。這篇文章假設讀者了解如何進行區間估計程序,我想討論用在心理科學研究分析有何好處與限制,這個限制使得進行假設檢驗型的研究還是需要假設檢定。

首先舉兩個使用區間估計的例子。第一個例子配合寫這篇文章時的時事,引用台灣指標民調在太陽花學運退出國會隔天發佈的新聞稿,熟用統計方法者大概會像我一樣,看各項調查結果前,先找到調查過程的描述:

本項調查是 TISR 台灣指標民調公司在 2014年4月7日至9日進行,以隨機跳號抽樣及電腦輔助人員電話訪問,完訪 1004 位居住在台澎金馬、年滿 20 歲的民眾,在95%信賴水準時抽樣誤差±3.1%。上述各項結果已對受訪者性別、居住縣市、年齡、教育程度,進行樣本代表性檢定與加權處理(raking)。

TMBS_14_04_1_G51
馬總統滿意度及信任度趨勢

從新聞稿中的圖表,我們看到這段時間民眾對馬英九總統的滿意度來到 13.6%。如果要問如何正確解讀這個統計資訊,我能提出的問題是:這份民調能否證實馬總統是否還是抗爭人士聲稱的 9% 總統?但是從科學研究方法的觀點來問,這份民調可否證實馬總統確實有負投票給他的選民?

-----廣告,請繼續往下閱讀-----

第二個例子是太陽花學運結束時刊登在 POLS one 的英文與德文詞彙變遷研究,研究者比較 18 世紀到 20 世紀英文與德文語料的變遷。統計的單位是具備相同詞素的字詞,在三百年之間的消長,例如英文出現「run」之後,「runner」、「runway」等詞出現的情況。

同詞素的字詞可能會有越來越多的新詞出現,也可能有字詞隨時代前進不再被使用,因此統計模型要估計的是同詞素字詞在調查的年代之間「出生率」與「死亡率」。評估的模型之一假設「出生率」與「死亡率」相等,所以先對所有語料記錄的字詞「出生率」與「死亡率」比例,進行區間估計,確認符合這項模型的假設(估計結果見此文件,Figure S2)。究竟是那個模型最符合字詞出生與死亡的趨勢,我以後有空會寫篇文章說明,現在先請好奇的讀者自行閱讀。這個例子同樣要由科學研究方法的觀點提出問題:語料符合模型的假設,對結果的推論真正的幫助是什麼?

要回答這兩個例子帶出的問題,要回頭深入討論前一篇提到的概念:研究的問題樣態會決定研究結果轉換為可靠知識的程度。政治人物的施政滿意度與詞彙在幾百年之間的消長,共同之處是樣本有一個固定的來源(台灣地區有選舉權的公民;相同年代彙集的英文與德文語料),樣本的量數成為計算信賴區間的成份。兩個問題的差異不只是求出的估計值代表的意義,還有求估計值的出發點:在開始搜集資料之前,分析者有沒有預期會得到多少估計值?也就是研究的動機是不是具備特設性假設。從民調中心研究員的角度來看,每次民調都是獨立的過程,一開始沒有預期調查的對象或議題,能從受訪者的回應獲得多少百分比或分數,才能不偏的抽樣。對語料研究人員來說,他們安排計畫時已經有一套模型判別變遷的程度,需要確認資料具備符合模型參數的估計值,才能進行下一步工作。兩造人員的研究過程都符合科學方法的基本精神:以不帶偏見的方式蒐集和分析資料,兩造的關鍵差異在於有沒有一開始具備符合邏輯的「特設假設」(ad hoc hypothesis),這類假設的存在也導致一件研究會是假設探索型,還是假設檢驗型。

維基百科對特設假設的說明相當簡易(中文英文),而英文的說明比中文多了一段。這段大意是為了填補當前知識的不足之處,需要讓會被證偽的觀察資料(falsifying observations)能在研究過程的中間階段有存在的意義。特設假設的功能就是賦予這種觀察資料存在的意義,後續的研究過程會推翻特設假設,讓研究者能肯定要放棄無法解釋資料的理論或模型,使真正能解釋資料的理論或模型成為肯定的知識。大膽的說,假設檢驗型研究是要推翻不可能成立的特設假設,而假設探索型研究是找出所有可能與理論相反的特設假設。當然這是個人看法,歡迎讀者賜教。

-----廣告,請繼續往下閱讀-----

政治人物的滿意度是行為與社會科學研究課題中,最不可能進行假設檢驗的例子。俗話說「民意如流水」,一位政治人物的政治生涯有起有落,不同人物的際遇也很難化約比較。民意調查的功能是呈現當下時空條件的選民意向,調查人員不會設定任何特設假設,或者接受任何結果都有相同的發生機率,如馬總統的每次調查得到 100% 到 0% 任何一個分數的機會都是相同,才能產生可靠的民調結果。詞彙變遷研究已經設定數種預測語料變化的統計模型,以上提到研究者提供的區間估計資訊是確認所有待評估的模型都站在相同的起跑點,接下來的分析才是看那個模型能勝出:最符合資料的分配。這個勝出的模型就能告訴我們英文與德文詞彙在三百年間的消長是什麼樣的故事。

看到這裡應該能了解,為什麼求取創新或更新知識的研究不傾向採用區間估計分析資料,是因為這種方法沒有鑑別特設假設與目標理論的能力。而信賴區間或信賴水準的訊息經常出現在與生活條件相關的抽樣調查之中,因為估計值帶來的資訊只在調查當下的時空條件才有意義。不過心理科學也逐漸理解要保障知識的正確性,需要新的運用統計思維,這個需要的趨勢是來自假設檢定方法的誤用與濫用,是下一篇的討論重點。

文章難易度
活躍星系核_96
752 篇文章 ・ 120 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

8
2

文字

分享

0
8
2
快!還要更快!讓國家級地震警報更好用的「都會區強震預警精進計畫」
鳥苷三磷酸 (PanSci Promo)_96
・2024/01/21 ・2584字 ・閱讀時間約 5 分鐘

本文由 交通部中央氣象署 委託,泛科學企劃執行。

  • 文/陳儀珈

從地震儀感應到地震的震動,到我們的手機響起國家級警報,大約需要多少時間?

臺灣從 1991 年開始大量增建地震測站;1999 年臺灣爆發了 921 大地震,當時的地震速報系統約在震後 102 秒完成地震定位;2014 年正式對公眾推播強震即時警報;到了 2020 年 4 月,隨著技術不斷革新,當時交通部中央氣象局地震測報中心(以下簡稱為地震中心)僅需 10 秒,就可以發出地震預警訊息!

然而,地震中心並未因此而自滿,而是持續擴建地震觀測網,開發新技術。近年來,地震中心執行前瞻基礎建設 2.0「都會區強震預警精進計畫」,預計讓臺灣的地震預警系統邁入下一個新紀元!

-----廣告,請繼續往下閱讀-----

連上網路吧!用建設與技術,換取獲得地震資料的時間

「都會區強震預警精進計畫」起源於「民生公共物聯網數據應用及產業開展計畫」,該計畫致力於跨部會、跨單位合作,由 11 個執行單位共同策畫,致力於優化我國環境與防災治理,並建置資料開放平台。

看到這裡,或許你還沒反應過來地震預警系統跟物聯網(Internet of Things,IoT)有什麼關係,嘿嘿,那可大有關係啦!

當我們將各種實體物品透過網路連結起來,建立彼此與裝置的通訊後,成為了所謂的物聯網。在我國的地震預警系統中,即是透過將地震儀的資料即時傳輸到聯網系統,並進行運算,實現了對地震活動的即時監測和預警。

地震中心在臺灣架設了 700 多個強震監測站,但能夠和地震中心即時連線的,只有其中 500 個,藉由這項計畫,地震中心將致力增加可連線的強震監測站數量,並優化原有強震監測站的聯網品質。

-----廣告,請繼續往下閱讀-----

在地震中心的評估中,可以連線的強震監測站大約可在 113 年時,從原有的 500 個增加至 600 個,並且更新現有監測站的軟體與硬體設備,藉此提升地震預警系統的效能。

由此可知,倘若地震儀沒有了聯網的功能,我們也形同完全失去了地震預警系統的一切。

把地震儀放到井下後,有什麼好處?

除了加強地震儀的聯網功能外,把地震儀「放到地下」,也是提升地震預警系統效能的關鍵做法。

為什麼要把地震儀放到地底下?用日常生活來比喻的話,就像是買屋子時,要選擇鬧中取靜的社區,才不會讓吵雜的環境影響自己在房間聆聽優美的音樂;看星星時,要選擇光害比較不嚴重的山區,才能看清楚一閃又一閃的美麗星空。

-----廣告,請繼續往下閱讀-----

地表有太多、太多的環境雜訊了,因此當地震儀被安裝在地表時,想要從混亂的「噪音」之中找出關鍵的地震波,就像是在搖滾演唱會裡聽電話一樣困難,無論是電腦或研究人員,都需要花費比較多的時間,才能判讀來自地震的波形。

這些環境雜訊都是從哪裡來的?基本上,只要是你想得到的人為震動,對地震儀來說,都有可能是「噪音」!

當地震儀靠近工地或馬路時,一輛輛大卡車框啷、框啷地經過測站,是噪音;大稻埕夏日節放起絢麗的煙火,隨著煙花在天空上一個一個的炸開,也是噪音;台北捷運行經軌道的摩擦與震動,那也是噪音;有好奇的路人經過測站,推了推踢了下測站時,那也是不可忽視的噪音。

因此,井下地震儀(Borehole seismometer)的主要目的,就是盡量讓地震儀「遠離塵囂」,記錄到更清楚、雜訊更少的地震波!​無論是微震、強震,還是來自遠方的地震,井下地震儀都能提供遠比地表地震儀更高品質的訊號。

-----廣告,請繼續往下閱讀-----

地震中心於 2008 年展開建置井下地震儀觀測站的行動,根據不同測站底下的地質條件,​將井下地震儀放置在深達 30~500 公尺的乾井深處。​除了地震儀外,站房內也會備有資料收錄器、網路傳輸設備、不斷電設備與電池,讓測站可以儲存、傳送資料。

既然井下地震儀這麼強大,為什麼無法大規模建造測站呢?簡單來說,這一切可以歸咎於技術和成本問題。

安裝井下地震儀需要鑽井,然而鑽井的深度、難度均會提高時間、技術與金錢成本,因此,即使井下地震儀的訊號再好,若非有國家建設計畫的支援,也難以大量建置。

人口聚集,震災好嚴重?建立「客製化」的地震預警系統!

臺灣人口主要聚集於西半部,然而此區的震源深度較淺,再加上密集的人口與建築,容易造成相當重大的災害。

-----廣告,請繼續往下閱讀-----

許多都會區的建築老舊且密集,當屋齡超過 50 歲時,它很有可能是在沒有耐震規範的背景下建造而成的的,若是超過 25 年左右的房屋,也有可能不符合最新的耐震規範,並未具備現今標準下足夠的耐震能力。 

延伸閱讀:

在地震界有句名言「地震不會殺人,但建築物會」,因此,若建築物的結構不符合地震規範,地震發生時,在同一面積下越密集的老屋,有可能造成越多的傷亡。

因此,對於發生在都會區的直下型地震,預警時間的要求更高,需求也更迫切。

-----廣告,請繼續往下閱讀-----

地震中心著手於人口密集之都會區開發「客製化」的強震預警系統,目標針對都會區直下型淺層地震,可以在「震後 7 秒內」發布地震警報,將地震預警盲區縮小為 25 公里。

111 年起,地震中心已先後完成大臺北地區、桃園市客製化作業模組,並開始上線測試,當前正致力於臺南市的模組,未來的目標為高雄市與臺中市。

永不停歇的防災宣導行動、地震預警技術研發

地震預警系統僅能在地震來臨時警示民眾避難,無法主動保護民眾的生命安全,若人民沒有搭配正確的防震防災觀念,即使地震警報再快,也無法達到有效的防災效果。

因此除了不斷革新地震預警系統的技術,地震中心也積極投入於地震的宣導活動和教育管道,經營 Facebook 粉絲專頁「報地震 – 中央氣象署」、跨部會舉辦《地震島大冒險》特展、《震守家園 — 民生公共物聯網主題展》,讓民眾了解正確的避難行為與應變作為,充分發揮地震警報的效果。

-----廣告,請繼續往下閱讀-----

此外,雖然地震中心預計於 114 年將都會區的預警費時縮減為 7 秒,研發新技術的腳步不會停止;未來,他們將應用 AI 技術,持續強化地震預警系統的效能,降低地震對臺灣人民的威脅程度,保障你我生命財產安全。

文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
195 篇文章 ・ 299 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

所有討論 2
天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

2
1

文字

分享

0
2
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。