0

0
0

文字

分享

0
0
0

《精準預測 The Signal and the Noise》-好賭徒如何思考

PanSci_96
・2013/09/25 ・2149字 ・閱讀時間約 4 分鐘 ・SR值 541 ・八年級

伏加瑞斯怎麼知道他下注湖人隊可以過關呢?他不知道。成功的賭徒—還有任何一種成功的預測人員—都不是用穩賺不賠的賭注、完全可靠的理論和極為精確的測量這樣的方式來考量未來。這些是笨蛋的幻覺,是他們過度自信的警報。成功的賭徒認為未來是一點一點的機率,像股票行情一樣,每進來一點新的資訊就上下跳動。他們對這些機率的計跟提供的可能性之間到達足夠的差異,他們就可能下注。

伏加瑞斯如何看待他對湖人隊的下注:

結果 機率 淨利
湖人隊贏得冠軍 25% +$520,000
湖人隊未贏得冠軍 75% -$80,000
預期利潤 +$70,000

 

例如,伏加瑞斯下注湖人隊的時候,拉斯維加斯的盤口說他們贏得NBA總冠軍的機率是百分之十三。伏加瑞斯不認為湖人隊有百分之百的機率,甚至不到百分之五十—但是他有信心,他們會比百分之十三高上不少。他認為也許比較可能是百分之二十五。如果伏加瑞斯的估計正確,理論上下注就可能有七萬美元的利潤。

然而,如果未來對預測人員來說是以機率的灰階存在,那麼現在的到來就是非黑即白。鮑勃理論上的七萬美元淨利包含有百分之二十五的機會贏得五十二萬美元,加上百分之七十五的機會輸掉八萬美元。長期來看,輸贏最後會打平:對一個好的預測人員來說,過去和未來兩者之間會比較相似,跟現在比較不像,因為這兩者都可以用長期的機率來表示。但這是個獨一無二的賭注。伏加瑞斯必須要有相當大的優勢(他認為莊家低估湖人隊的六種不同理由),頭腦還得相當好,才能做得到。

既然伏加瑞斯為自己賺進了大筆現金,就能承擔得起比較小的優勢了。一般NBA有比賽的晚上,他可以下注三、四場。雖然從任何普通的標準來看,這些賭注都很龐大,但是跟他的實際財產比起來都算小,小到他似乎可以漠不在乎。我去拜訪的那晚,在其中一部平面螢幕上,猶他爵士隊把兩百一十八公分、動作不靈活的烏克蘭球員基里洛‧費森科(Kyrylo Fesenko)放進球員名單,這是明確的徵兆,顯示他們要放棄這場比賽,伏加瑞斯會因而輸掉三萬美元的賭注,但他眼睛連眨都沒眨一下。

圖8-2伏加瑞斯的大祕密就是他沒有大祕密。但是他有一千個小祕密,他把大量的資訊放在一起,一次加上一點。例如,他有套程式,用來模擬每場比賽的結果。但是除非他有非常明顯的優勢,或是有其他補充的資訊,不然他不會只倚靠程式。幾乎每場NBA比賽他都看—有些看即時播出,有些看錄影帶—發展出他自己的看法,判斷哪一隊有發揮天分,哪隊沒有。他經營基本上屬於他自己的球探服務,雇用助理把每個球員對每個動作的守備位置化成圖表,讓他得到連許多NBA球隊都沒有的優勢。他追蹤數十位NBA球員的推文(Twitter feed),仔細檢查每段一百四十個字元的小段情報,尋找相關性:球員推文說當晚他晚點才要去球隊,晚上可能就不會上場。他很注意教練在記者會說的話,還有他們用的代碼:例如如果教練說,他希望他的隊伍「學會進攻」或「打好基本的籃球」,可能是表示他想要把比賽的步調慢下來。

對大多數人來說,伏加瑞斯觀察的這些東西似乎是枝微末節。在某種意義上確實如此:明顯的大優勢會讓別的賭徒注意到,會反映在盤口上。所以他必須再探究得深入一點。

例如,二○○二年球季最後,伏加瑞斯注意到有克里夫蘭騎士隊的比賽總分特別有可能「過頭」。(運動賽事有兩種主要的賭法,一種賭的是比分差距,另一種賭的是總分的上下—兩隊得分的總和會是多少。)仔細看了幾場比賽之後,他很快就查明了原因:瑞奇‧戴維斯(Ricky Davis),該隊的控球後衛,是個惡名昭彰的自私球員,那年底就會成為自由球員,他正在盡全力提高他的統計數字,好讓自己成為更好賣的商品。這表示騎士隊進攻的速度會變得飛快,努力想盡可能創造最多的機會,以累積得分和助攻。這樣算不算打好籃球就沒那麼重要了:騎士隊已經遠離季後賽了。騎士隊的對手多半也打不進季後賽,也樂得給個人情,兩者之間就有了默契,放鬆防守,交換進攻,努力提高彼此的統計數字。有騎士隊參賽的比賽,在球季的最後三週突然間從每場比賽一百九十二分拉高到兩百零七分。賭分數會超過不是十拿九穩—沒有必然的事—但這樣就有豐厚的利益可圖了。

回想起來,這樣的模式有時候似乎很明顯:如果他們除了提高自己的進攻數據以外沒什麼可以玩的了,那騎士隊的比賽當然會得分很高。但是賭徒如果對統計數字認識有限,沒有考慮造成這些數字的情境的話,就會漏掉他們。如果球隊連續兩場比賽得分都很高,甚至三、四場都如此,通常不代表什麼。的確,因為NBA的球季很長—三十隊,每隊打八十二場比賽—常常會發生這樣的比賽連續出現幾場的狀況。這些狀況大都是傻瓜賭注(suckers’ bet):發生這種狀況的原因純粹是跟機率有關。事實上,由於莊家通常也會注意到這些趨勢,在設定盤口的時候可能會矯枉過正,所以有時候反過來下注才聰明。

所以伏加瑞斯不只是在找模式。在任何一種資料豐富的環境中,要找到模式很容易;普通的賭徒就這樣做。關鍵在於這些模式代表的是訊號還是雜訊。

伏加瑞斯會不會對某場特定的比賽下注,雖然沒有什麼特別的關鍵,但卻有種特殊的思考過程幫助他控制他的決定。這種過程稱之為貝氏推理(Bayesian reasoning)。

 

摘自《精準預測:如何從巨量雜訊中,看出重要的訊息?》,由三采文化出版。

文章難易度
PanSci_96
1035 篇文章 ・ 1345 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

8
0

文字

分享

0
8
0
鑑識故事系列:Lucia de Berk 值班死幾人?荷蘭護理冤案
胡中行_96
・2023/02/27 ・2983字 ・閱讀時間約 6 分鐘

國民法官生存指南:用足夠的智識面對法庭裡的一切。

前言:本文為鑑識系列中,罕見提及統計學的故事。不過,繁複的計算過程全部省略,僅討論統計概念和辦案原理。請害怕數學的讀者放心。

護理人員 Lucia de Berk。圖/Carole Edrich on Wikimedia Commons(CC BY-SA 3.0)

荷蘭護理人員 Lucia de Berk,長年於海牙茱莉安娜兒童醫院(Juliana Kinderziekenhuis)的 1 個病房,與紅十字醫院(Rode Kruis Ziekenhuis)的 2 個病房工作。2001 年 12 月,她因謀殺罪嫌被捕。[1]

超幾何分佈

警方起先偵辦 2 名住院病患的死因,發現是中毒身亡;後來連帶調查 1997 至 2001 年間,幾家醫院可能的謀殺案件,於是找上了她。[2]在法庭上,司法心理學家 Henk Elffers 用機率的概念,證明 Lucia de Berk 有罪。簡單來說,就是計算嫌犯現身出事班次的機率。他採取的統計方法,叫做超幾何分佈(又稱「超幾何分配」;hypergeometric distribution)。[1]

超幾何分佈適合用在從一個母數中,隨機抽取樣本,不再放回的情形。例如:袋子裝有 N 顆球,其中 L 顆為紅球。一把抓出 n 顆球,不特別挑選的話,紅球碰巧被抓到的機率為 X。[3, 4]以此類推,在此案被調查的時間範圍內,病房總共有 N 個班次,其中 Lucia de Berk 值了 L 班,而有醫療事故的班次共 n 個。如果不刻意安排,則她正好出現在事故班次的機率為 X。[1]公式介紹。[4]

此處實際帶入數據後得到的答案,說明 Lucia de Berk 理論上應該只有 3 億 4 千 2 百萬分之一(X = 1 / 3.42 x 108)的機率,會剛好在醫療事故發生的班次值班。因此,法庭認定她的頻繁出現(> 1 / 3.42 x 108),絕非巧合。[1, 2, 5, 6]2003 年,Lucia de Berk因 7 起謀殺和 3 次殺人未遂,[2]被判終身監禁。[5]

茱利安納兒童醫院(Juliana Kinderziekenhuis)外觀。圖/Joris on Wikimedia Commons(CC BY-SA 3.0)
紅十字醫院(Rode Kruis Ziekenhuis)已於 2021 年關閉。圖/1Veertje on Wikimedia Commons(CC BY-SA 4.0)。

統計謬誤

當時有位醫師任職於 Lucia de Berk 待過的一家醫院。他的女性姻親 Metta de Noo-Derksen 醫師,以及 Metta 的兄弟 Ton Derksen 教授,都覺得事有蹊蹺。[7]Metta 和 Ton 檢視死者的病歷紀錄,並指出部份醫療事故的類型和事發時間,與判決所用的數據對不起來因為後者大半仰賴記憶,他們甚至發現有些遭指控的班次,Lucia de Berk 其實不在現場。然而,光是這些校正,還不足以推翻判決。[1, 7]

所幸出生於英國的荷蘭萊頓大學(Universiteit Leiden)統計學榮譽教授 Richard Gill,也伸出援手。[2]在協助此案的多年後,他的團隊發表了一篇論文,解釋不該使用超幾何分佈的理由,例如:[1]

  1. 護理人員不可互換:所有受訪醫師都說,護理人員可以相互替換;但是護理人員覺得,他們無法取代彼此。由於各別的個性與行事風格迥異,他們對病患的影響也不同。[1]
  2. 醫療事故通報機率:既然每個護理人員都有自己的個性,他們判定某事件為醫療事故,並且通報醫師的機率也不一樣。[1]畢竟醫院的通報規定是一回事;符合標準與否,都由護理人員判斷。比方說,有個病患每次緊張,血壓就破表。那就讓他坐著冷靜會兒,再登記第二次測量的正常結果即可。不過,難免會有菜鳥護士量一次就嚇到通報,分明給病房添亂。
  3. 班次與季節事故率:夜間與週末只剩護理人員和少數待命的醫師;季節性的特定病例增減;以及病患的生理時鐘等,都會影響出事的機率。[1]
  4. 護理排班並不平均:護理人員的班次安排,理想上會有帶狀的規律。可能連續幾天都是白班,接著是幾個小夜班之類的,[1]比較方便調整作息。此外,護理人員的資歷和個性,通常也會被納入考量。[1]以免某個班次全是資深人員;但另個班次緊急事故發生時,卻只剩不會臨機應變的新手。在這樣的排班原則下,如果單看某個時期的班表,每個人所輪到的各類班次總數,應該不會完全相同。
  5. 出院政策曾經改變:茱莉安娜兒童醫院在案發期間,曾經針對確定救不活的小病患,是否該在家中或病房離世,做過政策上的調整。帳面上來說,算在病房裡的事故量絕對會有變化。[1]

總之,太多因素會影響護理排班,或是干擾醫療事故的通報率,因此不能過度簡化成抽取紅球那樣的隨機概念。更嚴重的是,Henk Elffers 在計算過程中,分開處理 3 個病房的機率,然後再相乘。Richard Gill 的團隊強調,這樣會造成在多處上班的護理人員,比只為一處服務者,看起來有較高的嫌疑。[1]

帕松分佈

因應這種情境,Richard Gill 教授建議採用帕松分佈(又譯「布阿松分配」;Poisson distribution),[1]一種描述特定時間內,事件發生率的統計模型。[8]有別於先前的計算方法,在這裡事故傾向(accident proneness),以及整體排班狀況等變因,都納入了考量。前者採計護理人員通報醫療事故的意願強度;後者則為輪班的總次數。這個模型通常是拿來推估非尖峰時段的來電、大城市的火災等,也適用於 Lucia de Berk 的案子。[1](深入瞭解公式計算(p. 4 – 6)。[1, 8]

雖然此模型的細節複雜,統計學家得大費周章解釋給法官聽,但是考慮的條件比較趨近真實。倘若套用原始判決的數據,這個計算最後的答案是 0.0206161,意即醫療事故本來就有 49 分之 1 的機率,會與 Lucia de Berk 的班次重疊。如果帶入 Mettade Noo-Derksen 和 Ton Derksen 校正過的數據,機率更高達 9 分之 1。[1, 9]換句話說,她單純是倒楣出現在那裡,就被當作連續殺人犯。[6]

其他證據與翻案

大相逕庭的計算結果,顯示出選擇正確統計模型的重要性。然而,最不合理的,是以機率作為判決的主要根據。就謀殺案件來說,怎能不忠於病歷或驗屍報告?Richard Gill 教授接受美國犯罪學講師 Jon Robins 的訪問時,表示後來由醫師和毒物學家組成的獨立團隊,被允許瀏覽當初沒送上法庭的關鍵資料。[2]他們發現原本被視為受害者的病患,根本都喪命於自然死因。[2, 6]

在各方人士的協助下,Lucia de Berk 還是歷經兩次上訴失敗。[6]她曾於 2008 年,被允許在家等候重審結果。[1]但直到 2010 年 4 月,司法才還她清白。[7]Ton Derksen 認為,在荷蘭像這樣誤判的案件,約佔總判決數的 4 至 11%,也就是每年 1,000 人左右。不過,2006 到 2016 年間被判刑的 2 萬 3 千人裡,只有 5 個上訴到最高法院,而且僅 Lucia de Berk 的案子得以平反。[10]

Lucia de Berk 冤案改編電影的海報。圖/電影《Lucia de B.》(2014) on IMDB

  

參考資料

  1. Gill RD, Groeneboom P, de Jong P. (2018) ‘Elementary Statistics on Trial—The Case of Lucia de Berk’. Chance 31, 4, pp. 9-15.
  2. Robins J. (10 APR 2020) ‘Ben Geen: Statisticians back former nurse’s in last chance to clear name’. The Justice Gap.
  3. 超幾何分佈」國立高雄大學統計學研究所(Accessed on 03 FEB 2023)
  4. 李柏堅(06 FEB 2015)「超幾何分配CUSTCourses on YouTube.
  5. Sims J. (24 FEB 2022) ‘Are We in the Midst of a Data Illiteracy Epidemic?’. Inside Hook.
  6. Schneps L, Colmez C. (26 MAR 2013) ‘Justice Flunks Math’. The New York Times.
  7. Alexander R. (28 APR 2013) ‘Amanda Knox and bad maths in court’. BBC News.
  8. 李伯堅(04 FEB 2015)「布阿松分配」CUSTCourses on YouTube.
  9. Wilson D. (13 DEC 2022) ‘Red flag to be wary of when hunting a killer nurse’. The Herald, Scotland.
  10. One in nine criminals may have been wrongly convicted – research’. (21 NOV 2016) Dutch News.
胡中行_96
96 篇文章 ・ 33 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。

0

3
2

文字

分享

0
3
2
你能想像棒球穿牆嗎?突破物理世界的常識:量子穿隧——《阿宅聯盟:量子危機》
未來親子學習平台
・2023/01/20 ・1226字 ・閱讀時間約 2 分鐘

想像一個全壘打王,面對前方的來球,大棒一揮,球越過了全壘打牆,到了牆的另外一邊。

Home~~~Run!圖/GIPHY

但假如,那個全壘打牆變成了兩層樓高呢?也許,他更大力地擊球(給球更多的能量),那顆球還是能夠飛越過全壘打牆,到牆的另外一邊。但如果,那全壘打牆變成了三十層樓高呢?我想會認為,除非靠機器,否則再厲害的全壘打王,不管用了多少力氣,他應該都無法讓球飛過三十層樓那麼高。

上述的例子,正顯示了我們日常生活中的物理原則:只要物體(球)的能量不足以跨越障礙物(牆),那麼它永遠不可能到達障礙物的另一側——但是,在量子的世界,卻不是這樣。

粒子是怎麼跨越各種障礙的?

量子力學裡,一個粒子具備的能量即使不足以跨越障礙,它仍然有小機率會出現在障礙的另一邊;而且,若粒子的能量跟跨越障礙所需要的能量愈接近、或是說只少一點,那麼這個粒子出現在障礙另一邊的機率就愈大。

這樣神奇的現象,彷彿就像是粒子挖了隧道穿過障礙一般(儘管並沒有真的隧道),所以稱為「量子穿隧」效應。

不過,在丟球的例子裡,我們可以想像,若是牆愈高或愈厚,那麼球就愈難飛過牆壁。同樣地,在量子力學的情形下,雖然粒子有可能在能量不足的狀況下穿過障礙,但要是障礙無限高或無限厚的話,那麼粒子就還是過不去的

儘管在量子力學的情況下,障礙無限高或無限厚,粒子還是過不去的。圖/Envato Elements

事實上,量子穿隧效應跟我們先前提到的「物質具有波的特性」非常有關係。想像水池中間有一顆大石頭,池中的水波在遇到石頭這個障礙物時,會從旁邊繞道而過;但如果是一般物質,一旦遇到障礙物就直接被擋住了,沒辦法繞道而行。

就是因為在量子世界,物質也具有波的特性,我們才會看到粒子的穿隧效應。儘管量子效應感覺很奇特,但它在很多方面都有實際的影響。

例如,我們知道太陽核心是依賴核融合反應來產生能量;在過程中,會將兩個氫原子核,融合成更重的原子核。但因為氫原子核都帶正電,要抵抗正電荷間的排斥力,將它們融合在一起,其實非常困難。也幸虧有量子穿隧效應,太陽內部的氫原子核才能克服電荷排斥力的阻礙,順利融合在一起,並製造能量。

所以,在地球的我們,能夠享受到太陽的光和熱,說起來也要感謝量子穿隧效應呢!

——本文摘自《阿宅聯盟:量子危機》,2022 年 11 月,未來出版,未經同意請勿轉載

未來親子學習平台
3 篇文章 ・ 2 位粉絲

1

1
2

文字

分享

1
1
2
「量子狀態」聽起來好難?其實就是機率與疊加——《阿宅聯盟:量子危機》
未來親子學習平台
・2023/01/19 ・1256字 ・閱讀時間約 2 分鐘

想像我們往水池內丟兩顆石頭,以石頭的落點為中心,會個別產生漣漪,在水面上擴散開來。

而當兩個漣漪互相接觸時,交會之處的水面其實同時反應了兩個漣漪的影響;可以說,兩個漣漪疊加在一起了。漣漪是靠水傳遞的一種波,稱為水波;而「疊加」的現象,就是屬於波的一種特性

當兩個漣漪相互接觸時,會疊加在一起。圖/Envato Elements

物質的波,也就是物質波,同樣存在疊加的特性。只不過,物質波跟水波不同的地方在於,它不需要依賴「水」這種實際的東西來傳遞,而是一種「機率波」。機率波的數學形式長得像波,而它代表的,是量子系統處於不同狀態的機率分布

量子系統的狀態:機率波

當我們在描述量子系統的狀態時,就會用到「機率波」的概念。舉例來說,在電玩遊戲中要是打怪成功,死掉的怪物會留下寶物。怪物可能有 50% 的機率掉落寶物 A,也有 50% 的機率掉落寶物 B,但我們不會在事前就知道怪物會留下哪種寶物。

所以,怪物可以說是同時擁有「掉落寶物 A」和「掉落寶物 B」這兩種狀況,直到我們成功打完怪,才能確定牠究竟帶哪一種寶物。類似地,機率波告訴我們的,就是量子系統「有多少機率處於狀態 A、又有多少機率處於狀態 B」的資訊;如同兩個水波在水面上疊加,A 和 B 這兩個狀態同時存在這個量子系統上。所以,我們把量子系統「同時處於不同狀態疊加」的狀況,稱為「疊加態」

直到我們打怪成功,才能確定究竟掉哪一種寶物。圖/GIPHY

另一方面,也跟打完怪物才知道掉什麼寶物類似,在我們實際觀測量子系統前,並無法知道會看到狀態 A 還是狀態 B,要觀測完才會知道。因為量子疊加的特殊性質,科學家想到,或許可以拿來做一些實際的運用。

例如,在現代的電腦運算中,「位元」是資訊的最小單位,可以用 0 或 1 這兩個數值來表示。那麼,我們也許能夠把「同時存在兩種不同狀態的量子系統」當作位元使用,讓它的兩種狀態分別代表 0 跟 1 來儲存資訊,而這就被稱為量子位元

由於物理性質的不同,量子位元在某些狀況下,可以運算得比傳統位元更有效率;利用量子位元建構的電腦,就稱為量子電腦。雖然目前已經有少數量子電腦問世,能以最多一百多個量子位元進行運算,但要能大規模運用在日常生活中,除了要再想辦法增加量子位元之外,還有許多難題要克服,所以,現在就先讓漫畫的想像來代替很可能成真的未來吧。

——本文摘自《阿宅聯盟:量子危機》,2022 年 11 月,未來出版,未經同意請勿轉載

所有討論 1
未來親子學習平台
3 篇文章 ・ 2 位粉絲