《真的假不了,假的真不了──數據造假前請考慮『機率』》————2019數感盃/高中職組專題報導類佳作

數感盃青少年寫作競賽」提供國中、高中職學生在培養數學素養後,一個絕佳的發揮舞台。本競賽鼓勵學生跨領域學習,運用數學知識,培養及展現邏輯思考與文字撰寫的能力,盼提升臺灣青少年科普寫作的風氣以及對數學的興趣。
本文為 2019數感盃青少年寫作競賽 / 高中職組專題報導類佳作之作品,為盡量完整呈現學生之作品樣貌,本文除首圖及標點符號、錯字之外並未進行其他大幅度編修。

  • 作者:陳宥諼、林昱佑/國立科學工業園區實驗高級中學

圖/flickr

最近在網路上看到了一則去年的新聞:一名在學術期刊等公共平台發表了高達 200 多篇論文的日本麻醉醫師──藤井善隆,被抓到長期偽造數據,並有高達 183 篇論文遭到撤稿,且數量仍持續增加。引起學界注意的投訴信中說道:「藤井的研究數據完美到難以置信。」

最早開始懷疑藤井數據造假的人之一,英國麻醉師 John Carlisle 觀察了藤井一百多批藥物實驗的數據,並計算了那些數據的隨機分佈,結果發現藤井的數據在統計分析下其實「發生機率極低」。也就是說,藤井的數據雖然看起來漂亮,但實際上卻是「不自然的」。

這使我們產生了興趣:我們所認定「正常」、「隨機」的數據,會不會只是我們主觀直覺思考時所產生的假象?然而事實上卻不符合真實機率?讓我們看一個簡單的例子:

假設老師出了一項作業,請學生每人投擲一枚公正硬幣1000次,並記下每一次的結果;但是,這項作業實在是太繁瑣了,學生們都想直接自己編數據交差了事──「反正,本來得到的結果就是『隨機』的啊!我只要在記錄表上隨便填上「正」或「反」就好了!」於是,大部分的人會編出類似這樣的數據「正反反正反正正反正反反反正……」看起來真的「很隨機」呢!

可是,收作業當天,老師卻一眼就找出了所有偷懶的同學(絕對不是因為有內鬼!)──「你們還太嫩了!實際去丟銅板要丟出這種結果,機率還真的不是一般的低啊……」老師一臉不屑的說。

「機率」?!終於有同學抓到關鍵字了。

其實,如果真的自己丟銅板的話,會發現可能出現這樣的結果:「……正反正正正正正正正正正正反正正正正……」怎麼連續這麼多的「正」啊!不過,如果反過來想,要是丟很多很多次,卻沒出現連續好幾個相同面朝上才奇怪呢!

什麼意思呢?以機率的角度來看──

假設丟一個公正銅板 n 次,求至少出現 1 組連續 y 個以上正面朝上的機率。

則機率 f(n)=(令擲出結果正面朝上為「+」、背面朝上為「-」;連續y個以上「+」為串列S)

1.若 0<=n<y

因為擲的次數不滿 y 次,所以就算全部擲出正面,也無法滿足條件。故,f(n) = 0

2.若 n=y

必須保證每一次都擲出正面,而每一次擲出正面的機率都是 1/2 ,所以:

f(n) = (1/2)^y

3.若  y<n<(2y+1)

最多只可能出現1組S,且要擲出S只有兩種方法:

(1) 在前 n-1 次就已經擲出 S (令機率=g(n)):如果前 n-1 次已經擲出 S,不管最後一次(第n次)擲出「+」或「-」,都不會影響結果。故

g(n) = f(n-1)

(2) 前 n-1 項未出現 S,擲出最後一項為「+」,和前面的「+」合併後恰形成一個S (令機率=h(n))

此即保證最後的至少 y 項皆擲出「+」(即  (i)第n-y+1項到第n項一定為「+」)。然而,若 S 的長度 >y (即第n-y, n-y-1, …項也為正),那麼在前 n-1 項時,就已經形成 S 了,機率就又回到 g(n)。所以,可以保證  (ii)此種方式的第n-y項絕對不為「+」。

另外,還須確保前n-y-1項未出現S:由於n< (2y+1),已經確定第n-y項為「-」的情況下,第1項到第n-y-1項最多只有2y(全部)-y(最後湊出的S)-1(為「-」的第n-y項)= (y-1) 項,就算全部擲出「+」也無法湊出 S (即  (iii)欲使該區間內未出現S的機率為100%)。

考慮(i)、(ii)與(iii),可求出機率為:

h(n) = (1/2)^(y+1)*100%

由 (1) 和 (2) 兩種方法可得出,y< n< (2y+1)時:

f(n) = g(n)+h(n) = f(n-1)+(1/2)^(y+1)

4.若 n>= (2y+1)

想要達成條件同樣有 2 種方法,且要注意可能出現 2 組以上的 S:

(1) 在前 n-1 項就已經出現 S (令機率為g(n))

同3.(1):如果在前n-1項就已經符合條件(即至少有一個S),那麼不管最後一項擲出「+」或「-」都不影響,故得:

g(n) = f(n-1)

(2) 前n-1項未出現S,擲出最後一項為「+」,和前面的「+」合併後恰形成一個S (令機率=h(n))

加上最後一次(第n次)的「+」恰形成一個S,即第 (n-y+1)項到第n項都必須保證為「+」,且第n-y項為「-」,  (i)此機率為(1/2)^(y+1)。同時,還要考慮第1項到第n-y-1項中不能出現S:由於n>= (2y+1),該區間是有可能存在另一個S的,因此要避免其的機率為  (ii) 1-f(n-y-1)。

綜合與(i)與(ii),得出:

h(n) = [1-f(n-y-1)] / [2^(y+1)]

故,若n>=(2y+1),則機率等於:

f(n) = g(n)+h(n) = f(n-1)+ [1-f(n-y-1)] / [2^(y+1)]

所以,由上述討論,可推出其遞迴關係式為:

回到銅板問題:若取 y=10,以程式執行計算後——當擲銅板次數 n=1421 時,

f(1421)=7, 255, 778, 711, 927, 407, 617, 380, 544, 769, 173, 867, 806, 169, 361, 486, 522, 866, 802, 980, 651, 539, 660, 838, 223, 377, 066, 752, 145, 420, 755, 231, 929, 187, 093, 761, 722, 303, 645, 267, 912, 580, 455, 689, 572, 071, 800, 452, 693, 464, 700, 240, 325, 620, 941, 411, 943, 308, 843, 940, 722, 468, 017, 918, 536, 598, 081, 098, 266, 744, 747, 888, 440, 887, 321, 884, 634, 359, 498, 815, 523, 739, 396, 906, 549, 246, 415, 109, 283, 793, 846, 209, 720, 465, 402, 081, 202, 745, 609, 492, 452, 509, 025, 795, 069, 716, 361, 505, 310, 397, 746, 161, 836, 302, 227, 941, 580, 885, 870, 210, 044, 773, 666, 072, 022, 038, 700, 421, 605, 273, 419, 973, 038, 879, 144, 857, 154, 157, 912, 879, 478, 392, 261  14, 5 06, 540, 244, 799, 649, 295, 363, 967, 385, 272, 259, 250, 661, 462, 164, 996, 145, 242, 670, 971, 396, 368, 427, 928, 550, 752, 333, 318, 302, 269, 391, 954, 931, 996, 110, 373, 344, 247, 437, 783, 405, 976, 812, 508, 208, 014, 387, 645, 084, 573, 461, 084, 331, 611, 962, 071, 030, 245, 089, 177, 219, 397, 347, 545, 783, 897, 084, 779, 561, 785, 928, 834, 057, 620, 352, 012, 602, 971, 900, 896, 382, 103, 058, 767, 619, 551, 583, 898, 875, 428, 087, 721, 830, 150, 897, 600, 890, 899, 165, 970, 697, 060, 836, 381, 274, 022, 825, 694, 219, 432, 474, 834, 063, 680, 015, 967, 772, 773, 093, 077, 100, 779, 252, 371, 658, 190, 278, 159, 625, 450, 473, 401, 620, 223, 010, 779, 161, 044, 426, 883, 596, 288

(這是一個分數,並且是精確數字,由此可見計算的繁雜度!)

總之,f(1421)≒0.5001729281748267≒50%。也就是說,當擲 1421 次銅板時,出現至少一組連續 10 個以上正面的機率就已經略超過 1/2。另外,當擲 3288 次時,機率會再近一步提升至 80%;甚至擲 9391 次,機率已經達到 99%。換句話說,假設擲 1 萬次,幾乎可以保證一定會看到至少一組連續 10 個以上的正面。

然而,一般人在編造數據時,很少會連續寫下很多個正面(或反面),因為直覺上要連續擲出那麼多次相同的結果機率應該很低。正是利用這點,所以,光憑「是否出現連續多次相同結果」這個事件,就足以初步判斷數據的真實性,更遑論除此之外,還有更多事件的真實發生機率也有待計算。想要得出符合真實機率的「完美」數據,與其絞盡腦汁、分析各種事件的機率(而且不太可能分析的完),倒不如穩扎穩打的完成,或許還快些。

再者,在學校偽造作業數據頂多受到老師的批評或輕微的懲罰;但出社會後,要面對的可能是正式的論文、一份財報、甚至是一份關乎人命的實驗報告!造假的後果除了損失聲譽、失去工作,更有可能因此遭受牢獄之災。與其耗費大量精力試圖求出「毫無破綻」的造假方法,卻還要冒著被拆穿的風險苟且偷生,還不如腳踏實地,安分地完成任務,才是正道!

更多2019數感盃青少年寫作競賽內容,歡迎參考 2019數感盃特輯、數感實驗室官網粉絲頁喔。


泛科學自製商品

【時時科科.2020】桌曆+線裝筆記本預購最後倒數!

從內子宮到外太空,科學離不開我們生活中的時時刻刻,時光走入西元 2020,讓泛科學也走入你生活的每一天!【時時科科 2020桌曆】 精選不容錯過的科學日,讓你記下屬於自己的重要日程,也記下科學史上的精彩片段。


🚀 泛科學院獨家線上新課募資 🚀 限量55折預購

【好好說話,做自己的口才教練!10堂一生受用的口語表達課】

「上台說話報告時腦袋一片空白嗎?與人對談尷尬癌就發作?如何清楚表達自己想說的話?怎麼說話才能抓住人心讓人印象深刻呢?」泛科學院與榮恩同樂會共同合作,從表達的心法到語言聲韻的技巧掌握,讓你找到自信,在家就可練出好口才!

關於作者

數感實驗室

數感實驗室的宗旨是讓社會大眾「看見數學」。 數感實驗室於 2016 年 4 月成立 Facebook 粉絲頁,迄今超過 44,000 位粉絲追蹤。每天發布一則數學文章,內容包括介紹數學新知、生活中的數學應用、或是數學和文學、藝術等跨領域結合的議題。 詳見網站:http://numeracy.club/ 粉絲專頁:https://www.facebook.com/pg/numeracylab/

網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策