0

0
0

文字

分享

0
0
0

【科學話猴年】什麼都有可能發生?無限猴子定理

PanSci_96
・2016/02/07 ・821字 ・閱讀時間約 1 分鐘 ・SR值 525 ・七年級

-----廣告,請繼續往下閱讀-----

PanSci_2016_Monky-960-960-B-min

法國數學家埃米爾・博雷爾在機率、拓樸學、博弈理論等領域都有許多貢獻,許多專有名詞還以他為名。不過他最膾炙人口的作品卻是他在 1913 年的文章中提出的譬喻:

「想像有一百萬隻猴子每天打字十個小時,也幾乎不可能打出全世界藏書最豐富的圖書館裡所有的書。不過相較之下,違反統計學法則──那怕只有一下子──比這更不可能。」

這個比喻後來由英國物理學家艾丁頓爵士(Sir Arthur Stanley Eddington)在 1928 年重新詮釋:「一整個軍隊的猴子在打字機上亂敲是有可能寫出大英博物館裡所有的書,這件事比一個瓶子中的所有氣體分子同時跑到瓶子另一邊還有可能發生。」變得廣為人知。

經過不斷引述後,目前較常見的版本將字句改成「無限多隻猴子」或是「一隻猴子無限期地一直打字」,「圖書館裡的書」也變成「莎士比亞的作品」,總之,這個源自博雷爾的譬喻現在就叫「無限猴子定理」(Infinite monkey theorem)。

博雷爾的原意是要強調有些物理事件雖然就統計上來說,發生的機率並非等於零。但當它小到微乎其微,在足夠長的時間尺度內都還沒機會實現,我們就可以當它不可能發生。就像艾丁頓所指出的,瓶子裡的空氣分子不可能全部跑到同一邊。

-----廣告,請繼續往下閱讀-----

Monkeys-typing-Shakespeare

不過,當無限猴子定理廣為流傳之後,就變成「一個定理,各自表述」,已不再拘泥於原創者的本意。有人反而用來指稱任何事都可能發生,有人則從中找到各種諷刺意味,因此它也常在許多文章與小說中出現,例如科幻經典《銀河便車指南》。還有人從中獲得靈感,設計相關實驗,2014 年就有人設計了由數以萬計的網路玩家模擬猴子隨機按鍵的闖關遊戲

博雷爾的思想實驗中,猴子難以隨機打出有意義的字句,不過他的思想實驗本身倒是衍生出各種出乎他意料的不同意義來了。

原文轉自【科學史上的今天】01/07—博雷爾誕辰(Émile Borel, 1871-1956)

文章難易度
PanSci_96
1219 篇文章 ・ 2193 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

0
0

文字

分享

0
0
0
賭博與愛情公式:用數學擬定你的擇偶策略——《數盲、詐騙與偽科學》
大牌出版.出版大牌_96
・2024/01/06 ・2486字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

理解期望值,有助於分析賭場裡的大部分賭局,以及美國中西部和英國的嘉年華會中,常有人玩、但一般人比較不熟悉的賭法:骰子擲好運(chuck-a-luck)。

招攬人來玩「骰子擲好運」的說詞極具說服力:你從 1 到 6 挑一個號碼,莊家一次擲三顆骰子,如果三個骰子都擲出你挑的號碼,莊家付你 3 美元。要是三個骰子裡出現兩個你挑的號碼,莊家付你 2 美元。

假如三個骰子裡只出現一個你挑的號碼,莊家付你 1 美元。如果你挑的號碼一個也沒有出現,那你要付莊家 1 美元。賽局用三個不同的骰子,你有三次機會贏,而且,有時候你還不只贏 1 美元,最多也不過輸 1 美元。

我們可以套用名主持人瓊安.李維絲(Joan Rivers)的名言(按:她的名言是:「我們能聊一聊嗎?」),問一句:「我們能算一算嗎?」(如果你寧願不算,可以跳過這一節。)不管你選哪個號碼,贏的機率顯然都一樣。不過,為了讓計算更明確易懂,假設你永遠都選 4。骰子是獨立的,三個骰子都出現 4 點的機率是 1/6×1/6×1/6=1/216,你約有 1/216 的機率會贏得 3 美元。

-----廣告,請繼續往下閱讀-----

僅有兩個骰子出現 4 點的機率,會難算一點。但你可以使用第 1 章提到的二項機率分布,我會在這裡再導一遍。三個骰子中出現兩個 4,有三種彼此互斥的情況:X44、4X4 或 44X,其中 X 代表任何非 4 的點數。而第一種的機率是 5/6×1/6×1/6=5/216,第二種和第三種的結果也是這樣。三者相加,可得出三個骰子裡出現兩個 4 點的機率為 15/216,你有這樣的機率會贏得 2 美元。

圖/envato

同樣的,要算出三個骰子裡只出現一個 4 點的機率,也是要將事件分解成三種互斥的情況。得出 4XX 的機率為 1/6×5/6×5/6=25/216,得到 X4X 和 XX4 的機率亦同,三者相加,得出 75/216。這是三個骰子裡僅出現一個 4 點的機率,因此也是你贏得 1 美元的機率。

要計算擲三個骰子都沒有出現 4 點的機率,我們只要算出剩下的機率是多少即可。算法是用 1(或是100%)減去(1/216 +15/216 + 75/216),得出的答案是 125/216。所以,平均而言,你每玩 216 次骰子擲好運,就有 125 次要輸 1 美元。

這樣一來,就可以算出你贏的期望值($3×1/216)+($2×15/216)+($1×75/216)+(–$1×125/216)=$(–17/216)=–$0.08。平均來說,你每玩一次這個看起來很有吸引力的賭局,大概就要輸掉 8 美分。

-----廣告,請繼續往下閱讀-----

尋找愛情,有公式?

面對愛情,有人從感性出發,有人以理性去愛。兩種單獨運作時顯然效果都不太好,但加起來⋯⋯也不是很妙。不過,如果善用兩者,成功的機率可能還是大一些。回想舊愛,憑感性去愛的人很可能悲嘆錯失的良緣,並認為自己以後再也不會這麼愛一個人了。而用比較冷靜的態度去愛的人,很可能會對以下的機率結果感興趣。

在我們的模型中,假設女主角——就叫她香桃吧(按:在希臘神話中,香桃木﹝Myrtle﹞是愛神阿芙蘿黛蒂﹝Aphrodite﹞的代表植物,象徵愛與美)有理由相信,在她的「約會生涯」中,會遇到 N 個可能成為配偶的人。對某些女性來說,N 可能等於 2;對另一些人來說,N 也許是 200。香桃思考的問題是:到了什麼時候我就應該接受X先生,不管在他之後可能有某些追求者比他「更好」?我們也假設她是一次遇見一個人,有能力判斷她遇到的人是否適合她,以及,一旦她拒絕了某個人之後,此人就永遠出局。

為了便於說明,假設香桃到目前為止已經見過 6 位男士,她對這些人的排序如下:3—5—1—6—2—4。這是指,在她約過會的這 6 人中,她對見到的第一人的喜歡程度排第 3 名,對第二人的喜歡程度排第 5 名,最喜歡第三個人,以此類推。如果她見了第七個人,她對此人的喜歡程度超過其他人,但第三人仍穩居寶座,那她的更新排序就會變成 4—6—1—7—3—5—2。每見過一個人,她就更新追求者的相對排序。她在想,到底要用什麼樣的規則擇偶,才能讓她最有機會從預估的 N 位追求者中,選出最好的。

圖/envato

要得出最好的策略,要善用條件機率(我們會在下一章介紹條件機率)和一點微積分,但策略本身講起來很簡單。如果有某個人比過去的對象都好,且讓我們把此人稱為真命天子。如果香桃打算和 N 個人碰面,她大概需要拒絕前面的 37%,之後真命天子出現時(如果有的話),就接受。

-----廣告,請繼續往下閱讀-----

舉例來說,假設香桃不是太有魅力,她很可能只會遇見 4 個合格的追求者。我們進一步假設,這 4 個人與她相見的順序,是 24 種可能性中的任何一種(24=4×3×2×1)。

由於 N=4,37% 策略在這個例子中不夠清楚(無法對應到整數),而 37% 介於 25% 與 50% 之間,因此有兩套對應的最佳策略如下:

(A)拒絕第一個對象(4×25%=1),接受後來最佳的對象。

(B)拒絕前兩名追求者(4×50%=2),接受後來最好的求愛者。

如果採取A策略,香桃會在 24 種可能性中的 11 種,選到最好的追求者。採取 B 策略的話,會在 24 種可能性中的 10 種裡擇偶成功。

以下列出所有序列,如同前述,1 代表香桃最偏好的追求者,2 代表她的次佳選擇,以此類推。因此,3—2—1—4 代表她先遇見第三選擇,再來遇見第二選擇,第三次遇到最佳選擇,最後則遇到下下之選。序列後面標示的 A 或 B,代表在這些情況下,採取 A 策略或 B 策略能讓她選到真命天子。

-----廣告,請繼續往下閱讀-----

1234;1243;1324;1342;1423;1432;2134(A);2143(A);2314(A, B);2341(A, B);2413(A, B);2431(A, B);3124(A);3142(A);3214(B);3241(B);3412(A, B);3421;4123(A);4132(A);4213(B);4231(B);4312(B);4321

如果香桃很有魅力,預期可以遇見 25 位追求者,那她的策略是要拒絕前 9 位追求者(25 的 37% 約為 9),接受之後出現的最好對象。我們也可以用類似的表來驗證,但是這個表會變得很龐雜,因此,最好的策略就是接受通用證明。(不用多說,如果要找伴的人是男士而非女士,同樣的分析也成立。)如果 N 的數值很大,那麼,香桃遵循這套 37% 法則擇偶的成功率也約略是 37%。接下來的部分就比較難了:要如何和真命天子相伴相守。話說回來,這個 37% 法則數學模型也衍生出許多版本,其中加上了更合理的戀愛限制條件。

——本書摘自《數盲、詐騙與偽科學》,2023 年 11 月,大牌出版,未經同意請勿轉載。

討論功能關閉中。

大牌出版.出版大牌_96
3 篇文章 ・ 0 位粉絲
閱讀的大牌不侷限於單一領域, 視野寬廣,知識豐富,思考獨立。

2

2
2

文字

分享

2
2
2
買樂透真的可以賺錢?大數法則揭示了賭博的真相!——《統計,讓數字說話》
天下文化_96
・2023/03/05 ・2394字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是大數法則?

期望值的定義是:它是可能結果的一種平均,但在計算平均時,機率大的結果占的比重較高。我們認為期望值也是另一種意義的平均結果,它代表了如果我們重複賭很多次,或者隨機選出很多家戶,實際上會看到的長期平均。這並不只是直覺而已。數學家只要用機率的基本規則就可以證明,用機率模型算出來的期望值,真的就是「長期平均」。這個有名的事實叫做大數法則。

大數法則
大數法則(law of large numbers)是指,如果結果為數值的隨機現象,獨立重複執行許多次,實際觀察到的結果的平均值,會趨近期望值。

大數法則和機率的概念密切相關。在許多次獨立的重複當中,每個可能結果的發生比例會接近它的機率,而所得到的平均結果就會接近期望值。這些事實表達了機遇事件的長期規律性。正如我們在第 17 章提過的,它們是真正的「平均數定律」。

大數法則解釋了:為什麼對個人來說是消遣甚至是會上癮的賭博,對賭場來說卻是生意。經營賭場根本就不是在賭博。大量的賭客贏錢的平均金額會很接近期望值。賭場經營者事先就算好了期望值,並且知道長期下來收入會是多少,所以並不需要在骰子裡灌鉛或者做牌來保證利潤。

賭場只要花精神提供不貴的娛樂和便宜的交通工具,讓顧客川流不息進場就行了。只要賭注夠多,大數法則就能保證賭場賺錢。保險公司的運作也很像賭場,他們賭買了保險的人不會死亡。當然有些人確實會死亡,但是保險公司知道機率,並且依賴大數法則來預測必須給付的平均金額。然後保險公司就把保費訂得夠高,來保證有利潤。

-----廣告,請繼續往下閱讀-----
  • 在樂透彩上做手腳

我們都在電視上看過樂透開獎的實況轉播,看到號碼球上下亂跳,然後由於空氣壓力而隨機彈跳出來。我們可以怎麼樣對開出的號碼做手腳呢? 1980 年的時候,賓州樂透就曾被面帶微笑的主持人以及幾個舞台工作人員動了手腳。

他們把 10 個號碼球中的 8 顆注入油漆,這樣做會把球變重,因此可保證開出中獎號碼的 3 個球必定有那 2 個沒被注入油漆的號碼。然後這些傢伙就下注買該 2 個號碼的所有組合。當 6-6-6 跳出來的時候,他們贏了 120 萬美元。是的,他們後來全被逮到。

歷史上曾有主持人在樂透上做手腳,後來賺了 120 萬美元隨後被逮捕。圖/envatoelements

深入探討期望值

跟機率一樣,期望值和大數法則都值得再花些時間,探討相關的細節問題。

  • 多大的數才算是「大數」?

大數法則是說,當試驗的次數愈來愈多,許多次試驗的實際平均結果會愈來愈接近期望值。可是大數法則並沒有說,究竟需要多少次試驗,才能保證平均結果會接近期望值。這點是要看機結果的變異性決定。

-----廣告,請繼續往下閱讀-----

結果的變異愈大,就需要愈多次的試驗,來確保平均結果接近期望值。機遇遊戲一定要變化大,才能保住賭客的興趣。即使在賭場待上好幾個鐘頭,結果也是無法預測的。結果變異性極大的賭博,例如累積彩金數額極大但極不可能中獎的州彩券,需要極多次的試驗,幾乎要多到不可能的次數,才能保證平均結果會接近期望值。

(州政府可不需要依賴大數法則,因為樂透彩金不像賭場的遊戲,樂透彩用的是同注分彩系統。在同注分彩系統裡面,彩金和賠率是由實際下注金額決定的。舉例來說,各州所辦的樂透彩金,是由全部賭金扣除州政府所得部分之後的剩餘金額來決定的。賭馬的賠率則是決定於賭客對不同馬匹的下注金額。)

雖然大部分的賭博遊戲不及樂透彩這樣多變化,但要回答大數法則的適用範圍,較實際的答案就是:賭場的贏錢金額期望值是正的,而賭場玩的次數夠多,所以可以靠著這個期望值贏錢。你的問題則是,你贏錢金額的期望值是負的。全體賭客玩的次數合起來算的話,當然和賭場一樣多,但因為期望值是負的,所以以賭客整體來看,長期下來一定輸錢。

然而輸的金額並不是由賭客均攤。有些人贏很多錢,有些人輸很多,而有些人沒什麼輸贏。賭博帶給人的誘惑,大部分是來自賭博結果的無法預測。而賭博這門生意仰賴的則是:對賭場來說,結果並非不可測的。

-----廣告,請繼續往下閱讀-----
對賭場來說,贏錢金額期望值為正。圖/envatoelements
  • 有沒有保證贏錢的賭法?

把賭博很當回事的賭客常常遵循某種賭法,這種賭法每次下注的金額,是看前幾次的結果而定。比如說,在賭輪盤時,你可以每次把賭注加倍,直到你贏為止—或者,當然,直到你輸光為止。即使輪盤並沒有記憶,這種玩法仍想利用你有記憶這件事來贏。

你可以用一套賭法來戰勝機率嗎?不行,數學家建立的另一種大數法則說:如果你沒有無窮盡的賭本,那麼只要遊戲的各次試驗(比如輪盤的各次轉動)之間是獨立的,你的平均獲利(期望值)就會是一樣的。抱歉啦!

  • 高科技賭博

全美國有超過 700,000 台吃角子老虎(拉霸)。從前,你丟硬幣進去再拉下把手,轉動三個輪子,每個輪子有 20 個圖案。但早就不是這樣了。現在的機器是電動遊戲,會閃出許多很炫的畫面,而結果是由隨機數字產生器決定的。

機器可以同時接受許多硬幣,有各種讓你眼花撩亂的中獎結果,還可以多台連線,共同累積成連線大獎。賭徒仍在尋找可以贏錢的賭法,但是長期下來,隨機數字產生器會保證賭場有 5% 的利潤。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

所有討論 2
天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。

0

2
1

文字

分享

0
2
1
我的身高有特別矮嗎?為什麼大多數女性身高都「差不多」!——《統計,讓數字說話》
天下文化_96
・2023/03/04 ・2634字 ・閱讀時間約 5 分鐘

  • id S. Moore、諾茨 William I. Notz
  • 譯者:鄭惟厚、吳欣蓓

什麼是常態分布?

圖 13.3 和 13.4 裡的密度曲線,同屬一族特別重要的曲線:常態曲線。圖 13.7 再呈現了兩個常態密度曲線。常態曲線都是對稱、單峰、鐘形的,尾部降得很快,所以我們應該不會看到離群值。由於常態分布是對稱的,所以平均數和中位數都落在曲線的中間位置,而這也是尖峰所在。

常態曲線還有一個特別性質:我們可以用目測方式在曲線上找到它的標準差。對大部分其他的密度曲線,沒有法子這樣做。做法是這樣的。想像你要從山頂開始滑雪,山的形狀和常態曲線一樣。起先,你從山頂出發時,往下滑的角度非常陡:

幸好,在你還沒有直直墜下之前,斜坡就變緩了,你愈往下滑出去,坡度愈平:

曲率(curvature)發生改變的地方,是在平均數兩側、各距平均數一個標準差的位置。圖 13.7 的兩條曲線上都標示出了標準差。你如果用鉛筆沿著常態曲線描,應該可以感受到曲率改變的地方,進而找出標準差。

-----廣告,請繼續往下閱讀-----

常態曲線有個特別的性質是,只要知道平均數及標準差,整條曲線就完全確定了。平均數把曲線的中心定下來,而標準差決定曲線的形狀。變動常態分布的平均數並不會改變曲線的形狀,只會改變曲線在 x 軸上的位置。但是,變動標準差卻會改變常態曲線的形狀,如圖 13.7 所示。標準差較小的分布,散布的範圍比較小,尖峰也比較陡。以下是常態曲線基本性質的總結:

常態密度曲線的特性

常態曲線(normal curve)是對稱的鐘形曲線,具備以下性質:

  • 只要給了平均數和標準差,就可以完全描述特定的常態曲線。
  • 平均數決定分布的中心,這個位置就在曲線的對稱中心。
  • 標準差決定曲線的形狀,標準差是指從平均數到平均數左側或右側的曲率變化點的距離。

為什麼常態分布在統計裡面很重要呢?首先,對於某些真實數據的分布,用常態曲線可以做很好的描述。最早將常態曲線用在數據上的是大數學家高斯(Carl Friedrich Gauss, 1777 – 1855)。

天文學家或測量員仔細重複度量同一個數量時,所得出的量測值會有小誤差,高斯就利用常態曲線來描述這些小誤差。你有時候會看到有人把常態分布叫做「高斯分布」,就是為了紀念高斯。

-----廣告,請繼續往下閱讀-----

十九世紀的大部分時間中,常態曲線曾叫做「誤差曲線」,也就因為常態曲線最早是用來描述量測誤差的分布。後來慢慢發現,有些生物學或心理學上的變數也大致符合常態分布時,「誤差曲線」這個名詞就不再使用了。1889 年,高騰(Francis Galton)率先把這些曲線稱做「常態曲線」。高騰是達爾文的表弟,他開拓了遺傳的統計研究。

常態分布的形狀:鐘形曲線

人類智慧高低的分布,是不是遵循常態分布的「鐘形曲線」?IQ 測驗的分數的確大致符合常態分布,但那是因為測驗分數是根據作答者的答案計算出來的,而計算方式原本就是以常態分布為目標所設計的。要說智慧分布遵循鐘形曲線,前提是:大家都同意 IQ 測驗分數可以直接度量人的智慧。然而許多心理學家都不認為世界上有某種人類特質,可以讓我們稱為「智慧」,並且可以用一個測驗分數度量出來。

當我們從同一母體抽取許多樣本時,諸如樣本比例(當樣本大小很大、而比例的數值中等時)及樣本平均數(當我們從相同母體取出許多樣本時)這類統計量的分布,也可以用常態曲線來描述。我們會在後面的章節進一步細談統計分布。

抽樣調查結果的誤差界限,也常常用常態曲線來算。然而,即使有許多類的數據符合常態分布,仍然有許多是不符合的,比如說,大部分的所得分布是右偏的,因而不是常態分布。非常態的數據就和不平常的人一樣,不僅常見,而且有時比常態的數據還有趣。

-----廣告,請繼續往下閱讀-----

68 – 95 – 99.7 規則

常態曲線有許多,每一個常態曲線都可以用各自的平均數和標準差來描述。所有常態曲線都有許多共同性質,特別要提的是,對常態分布來說,標準差是理所當然的量度單位。這件事實反映在下列規則當中。

68 – 95 – 99.7 規則
在任何常態分布當中,大約有 68% 的觀測值,落在距平均數一個標準差的範圍內。
95% 的觀測值,落在距平均數兩個標準差的範圍內。
99.7% 的觀測值,落在距平均數三個標準差的範圍內。
圖13.8、68–95–99.7規則。圖/《統計,讓數字說話》。

圖 13.8 說明了 68 – 95 – 99.7 規則。記住這三個數字之後,你就可以在不用一直做囉嗦計算的情況下考慮常態分布。不過還得記住,沒有哪組數據是百分之百用常態分布描述的。不管對於 SAT 分數,或者蟋蟀的身長, 68–95–99.7 規則都只是大體正確。

年輕女性的身高常態

年輕女性的身高約略是平均數 63.7 英寸、標準差 2.5 英寸的常態分布。要運用 68 – 95 – 99.7 規則,首先得畫一個常態曲線的圖。圖 13.9 說明了這個規則用在女性的身高上會是什麼情況。

任何常態分布都有一半的觀測值在平均數之上,所以年輕女性中有一半高於 63.7 英寸。

-----廣告,請繼續往下閱讀-----

任何常態分布的中間68%觀測值,會在距平均數一個標準差的範圍內。而這 68 %中的一半,即 34 %,會在平均數之上。所以有 34 %的年輕女性,身高在 63.7 英寸及 66.2 英寸之間。把身高不到 63.7 英寸的 50% 女性也加上去,可以得知總共有84%的年輕女性身高不到 66.2 英寸。所以推知超過 66.2 英寸的人占 16%。

任何常態分布的中間 95% 的值,在距平均數兩個標準差範圍內。這裡的兩個標準差是 5 英寸,所以年輕女性身高的中間 95% 是在 58.7(= 63.7 − 5)和 68.7(= 63.7 + 5)英寸之間。

另外 5% 女性的身高,就超出 58.7 到 68.7 英寸的範圍之外。因為常態分布是對稱的,這其中有一半的女性是在矮的那一頭。年輕女性中最矮的 2.5% ,身高不到 58.7 英寸(149 公分)。

任何常態分布中幾乎所有(99.7%)的值,在距平均數三個標準差的範圍內,所以幾乎所有年輕女性的身高,都在 56.2 及 71.2 英寸之間。

-----廣告,請繼續往下閱讀-----

——本文摘自《統計,讓數字說話》,2023 年 1 月,天下文化出版,未經同意請勿轉載。

天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。