0

0
0

文字

分享

0
0
0

數字會說話,但不一定是真話?別輕易相信統計數據!

活躍星系核_96
・2019/10/18 ・3822字 ・閱讀時間約 7 分鐘 ・SR值 545 ・八年級

-----廣告,請繼續往下閱讀-----

  • 文 / Brian

不只是學術研究,我們常常會用「統計數據」來作為觀察世界的佐證,但我們在看待數據時要非常小心,因為詮釋方式的不同,其「統計學」所呈現出來的結果,有時候反而可以誤導別人。不信?就讓我們用一些例子,來看看「數據統計」有時不是我們想的那樣。

是數據真的很美,還是只是過擬合?

我們先介紹一個常犯的錯誤:過擬合(overfitting,或稱過適、過度擬合)。過擬合指的是在統計學中調適一個統計模型時,使用過多參數。具體來說,擬合就是把平面上一系列的點,用一條光滑的曲線連接起來。因為這條曲線有無數種可能,從而有各種擬合方法。所以其實你只要有心,任何數據都可以擬合成任何函數。

「啊,好像巨蟹似的。」 「我看倒有點像彈弓。」圖/wikipedia

夜空中的星座就是一個很好的例子,明明只看到幾個點,但非要將其擬合成某種動物,看巨蟹座的樣子更像一支叉子或彈弓吧,怎麼會看成螃蟹呢?

再來如果數據量足夠多,你幾乎可以在任何事情間發現相關性,甚至可以說:告訴我你想要什麼結論,都可以給擬合出來。統計學中有個名詞叫做偽相關,指在兩個沒有因果關係的事件,可能基於其他未見的潛在變數,顯示出統計學上的相關,讓人很容易猜想「兩個事件有所聯繫」,然而這種聯繫並不能通過更加精細的檢驗。

-----廣告,請繼續往下閱讀-----

相關不等於因果!

舉個例子:當冰淇淋銷量最高的時候,也是海邊的溺水事故發生得最多的時候。

我們可以很容易的理解為因為天氣熱,所以很多人去海邊玩,人潮多自然溺水事故也會多, 冰淇淋銷量增加也是由於天氣熱導致的,並非是「因為」冰淇淋賣得好,「所以」導致溺水事故增加。

所以我們不吃冰淇淋就不會溺水(誤)。圖/needpix

兩組數據的變化成正相關不一定代表它們有因果聯繫,x、y 成正相關還可能是因為它們都隨 z 成正比,而 x 和 y 彼此之間是沒有因果關係的。所以在看統計數據時要非常小心,諸如基因改造食品、手機輻射、微波加熱是否會有致癌風險等等,就必須特別注意:這些推論究竟有沒有因果關係,還只是以統計學來包裝的偽相關呢?

諾貝爾獎與巧克力之間的距離?

曾有人在無意間把本國的巧克力消費量和本國諾獎得主佔總人口數的比例進行對比後意外地發現這兩者竟然呈正相關,也就是說越愛吃巧克力的國家諾獎的比例也越高,特別是瑞士人超愛吃巧克力也拿了超多諾獎。

-----廣告,請繼續往下閱讀-----
越愛吃巧克力的國家諾獎的比例也越高。圖/作者提供

當然我們可以很簡單的理解,由於巧克力消費量與國家的富裕程度相關,而高品質的科研也與國家的富裕程度相關。因此巧克力會與諾獎得主比例相關,但是顯然其中並不存在因果關係。

所以如果你有個命題,而且有數據可以支持此命題,那你要切記,數據和理論吻合的 好並不代表你的推論就是對的,「數據吻合的好」只是充分而非必要條件。諾獎和巧克力就是個很好的例子,有時我們會得到很荒謬的結論。

巧克力在手,得獎希望無窮。圖/giphy

「用四個參數我可以擬合出一頭大象,而用五個參數我可以讓牠的鼻子擺動」

2004 年戴森*在 Nature 雜誌上寫了一篇名為「A meeting with Enrico Fermi」的文章,回憶 1953 年他由理論計算得到了與費米的實驗觀測值十分相符的結果後馬上跑去見費米。當戴森跨進費米的辦公室並遞上自己的計算結果時,費米掃了一眼就把它放下,費米說:「做理論物理學的計算有兩種方式。一種是我喜歡的,就是要對你正在計算的過程擁有一個清晰的物理圖像。另一種是得到精確而且一致的數學形式體系。而這兩者你都不具備。」戴森當時有點驚呆了,但他還是斗膽問費米,為什麼他的理論算不上是一致的數學形式體系。

  • 註解:戴森最著名的成就是證明了施溫格和朝永振一郎發展的變分法方法和費曼的路徑積分表述等價,為量子電動力學的建立做出了決定性的貢獻,這三人在1965年獲得諾獎,學界普遍認為戴森值得拿諾獎,不過戴森還活著,活著就還有希望

費米反問道:「你們在計算過程中引入了多少個任意參數?」戴森回答說四個。於是費米便說:「我記得我的朋友馮·諾依曼曾經說過,用四個參數我可以擬合出一頭大象,而用五個參數我可以讓它的鼻子擺動。」戴森承認,與費米的這次會面是他人生的一個重大轉捩點,50 年後回頭再看,費米是極富遠見的,當年戴森所看好的理論則走到了盡頭。

-----廣告,請繼續往下閱讀-----
圖/作者提供

儘管費米本人沒有活到夸克模型問世的那一天,但是他出眾的物理直覺告訴他,戴森等人所採用的含有四個參數的理論一定是錯誤的。費米的一席話及時阻止了戴森和他的團隊走入一個死胡同,從而使他們的興趣轉向更有意義的科學問題。這篇文章還有一個副標題「 How one intuitive physicist rescued a team from fruitless research(一位富有直覺的物理學家如何從死胡同中拯救了一支團隊)」。

只要「仔細」處理數據就可以讓暗物質消失或出現

暗物質的組成成分和其是否存在一直都是物理學界的大問題,去年三月時耶魯大學的 Dokkum 教授宣稱他們發現了一個缺乏暗物質的星系,但這文章一發布就接連跑出一堆文章攻擊他們數據分析太粗糙。因為當在追蹤這麼小的樣品時,速度的不確定度和真正測量的彌散速度是在同一個數量級,所以最終結果就對所使用的技術和處理不確定度的方式極為敏感。

也有人表明說會得到星系缺乏暗物質的結果是因為這些質量估計的不確定度被大大低估了。而且如果把 Dokkum 處理數據的方式套用在一個我們已經充分研究的星系上,會得出這樣的結論:它具有「過大的」暗物質暈,或者它缺少暗物質。你想要得到怎樣的結論取決於你怎麼估計質量,所以才會說只要「仔細」處理數據就可以讓暗物質消失或出現。而且如下圖所示,他們就是直接忽略了一組數據,無視藍圈的那些數據不做擬合。

還有人跑出來狠狠批評 Nature 就喜歡收吸人眼球的文章,而非最符合科學方法的文章。甚至開玩笑說如果同一組數據,用兩種不同的分析數據方式,得到兩個結論,一個是此星系含有暗物質、另一個是此星系缺乏暗物質,那缺乏暗物質的文章更有可能被登出來,因為這能製造大新聞。

-----廣告,請繼續往下閱讀-----

對統計學的批評古已有之,已經有不少統計學家指出 p-值使用中存在大量的缺陷,甚至開始轉而質疑用統計學方法計量科學發現。美國國家統計協會(ASA)作爲統計學標準的倡導者給出了一個使用 p-值的參考性聲明。他們認為:「這是科學中最骯臟的秘密:使用統計假設檢驗的「科學方法」建立在一個脆弱的基礎之上。」「假設檢驗中用到的統計方法比臉書隱私條款的缺陷還多。」

科學權威的數據造假

除了統計學本身的問題外,更過分的是還有些科學家會進行數據造假來得到他們想要的結論,歷史上曾有不少知名科學家也做過數據造假的事,以下舉幾個例子:

1919年愛丁頓在西非普林西比島觀測日全食,觀察到引力透鏡現象並以此證實廣義相對論,但後世的科學史家們對於愛丁頓的數據感到懷疑,認為他們肯定做了一些操作來篩選數據。 還有密立根做了著名的油滴實驗測量來測量單一電子的電荷,也因而獲得1923年的諾貝爾物理學獎,但後來被踢爆他從 140 次觀測中只採集那些對他有利的漂亮資料,而不利的資料則一概刪去,最後只發表 58 次觀測結果。

道爾頓被認為是歷史上第一個從實驗上證實了化學反應中各個物質總是按照一定的比例進行反應的。這實際上成為物質是由原子或分子組成的間接的證據,在物理、化學乃至整個科學發展史中都具有十分重要的地位。也許有些令人啼笑皆非的是,道爾頓的發現實際上具有某種虛假的成份。在道爾頓的年代,進行化學實驗的儀器與設備還十分簡陋。到了二十世紀,有很多對於科學史有興趣的科學家嘗試著按照道爾頓當年的記載,運用當時的儀器來重複道爾頓的實驗。這些科學家的結論是:以道爾頓當時的條件,他決不可能做出如此精確的實驗。因此他們認為,幾乎可以肯定的是,當時道爾頓實際上「人為地」改造了實驗資料來為他的結論辯護,儘管他的結論仍然是具有劃時代意義的。

-----廣告,請繼續往下閱讀-----

2018年十月時哈佛醫學院的知名心臟專家Anversa被爆出其所著的31篇論文皆涉及實驗數據造假,而校方經決議後撤回他所有論文,但心肌幹細胞造假這事件也反映了一個問題,實驗科學的數據如果審稿人不親自重複一遍可能也很難發現有造假,而我們通常也會傾向於相信權威。

我們在日常生活中常常會遇到很多「統計數據」,許多人更是開口閉口地提到「大數據」。甚至有人認為信數據者得永生,這些數據主義的人們覺得宇宙是由資料流所組成的,任何現象或實體的價值就在於對資料處理的貢獻。而在本文中給大家介紹了一些不合適的統計學方法和忘記因果關係所導致的謬誤,最後還指出權威學者也有造假的可能,我們不該迷信權威,期許大家在大數據時代都能不被統計學給誤導!

參考資料:

-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
778 篇文章 ・ 127 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

1
0

文字

分享

0
1
0
上網也要有「技術」!從言論、隱私到國安,你我都該懂的界線
鳥苷三磷酸 (PanSci Promo)_96
・2024/12/18 ・2366字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

本文由 國家通訊傳播委員會 委託,泛科學企劃執行。 

以為鍵盤俠天下無敵?小心一個不留神就觸法!人們常忽略「網路並非法外之地」這個重要事實。不只現實生活中的法律同樣適用於網路空間,隨著科技發展,更多應網路特性而生的法律規範也相繼出現。從基本的言論自由到隱私權保護,從智慧財產權到國家安全,法律體系正全面性地回應數位時代的種種挑戰。

在臺灣,網路上的言論自由權利源自《憲法》第 11 條的明確規定:「人民有言論、講學、著作及出版之自由。」釋字第 509 號則指出,「國家應給予最大限度之維護,俾其實現自我、溝通意見、追求真理及監督各種政治或社會活動之功能得以發揮。」網路快速傳播的特性放大了言論的影響力,而大法官的解釋將言論自由的邊際刻畫得更明確,這在數位時代裡顯得格外重要。

網路與社群媒體的快速傳播,放大了言論的影響力。圖/unsplash

網路上的性、暴力與未成年保護

顯然言論自由並非是毫無限制,2023 年 11 月的一起案件就展現其中一種界線的樣貌。當時,一名 36 歲男子將他和網友在網咖的性愛影片上傳至推特,還寫下「《網咖包廂實戰計 1》我跟某公司 OL 戰鬥」等文字。這段影片一經發布,當事女子立即採取法律行動。最終,法院依其以網際網路「供人觀覽猥褻影像」的罪名,判處該名男子拘役 30 日,得易科罰金。這個判決清楚說明了,即便在虛擬空間,散布猥褻影像仍須承擔實質的法律責任。

-----廣告,請繼續往下閱讀-----

特別是在保護未成年人方面,法律的規範更加嚴格。《刑法》第 235 條明文禁止散布、播送或販賣猥褻物品,無論形式是圖文、聲音還是影像。而《兒童及少年性剝削防制條例》第 36 條更進一步禁止任何形式的兒童色情製品被製造、散布和持有。2019年彰化縣曾層發生過這樣一起案件:一名陳姓中年男子將9歲女童帶往居所,不僅強迫她觀看色情影片,還對她進行猥褻行為,甚至將過程上傳至 Google 雲端。儘管他後來試圖以資助女童就學表達悔意,法院仍以加重強制猥褻等罪,判處他 4 年 4 個月有期徒刑。

不實言論的散布同樣可能觸犯法律。2021 年 9 月爆發的「台大狼師案」就是一個警示。一名女大生在網路上指控教師誘騙她發生關係並傳染性病,幾個月後又指控對方對她進行強制性行為。當她提出告訴時,檢方卻查無性侵事實,加上她反覆的說詞,不僅性侵告訴失敗,還因誹謗罪反被加重判刑。

當駭客、間諜都轉戰網路戰場

2013 年,一名退役空軍上校赴陸經商時被情治單位吸收,返台後透過人脈網絡發展組織、刺探軍事機密,並以空殼公司掩護非法報酬,這個情報網持續運作了 8 年之久。

在涉及國家安全的議題上,法律的態度更是嚴厲。根據《國家安全法》第 2 條的規定,任何人都不得為境外敵對勢力及其控制的組織、機構進行資助、主持、操縱、指揮或發展組織,更不能洩漏、交付或傳遞公務機密,違反者將面臨嚴厲的刑事處罰。《刑法》規定,意圖破壞國體、竊據國土,或以非法方法變更國憲、顛覆政府者,處7年以上有期徒刑,首謀更要判處無期徒刑。

-----廣告,請繼續往下閱讀-----

抄襲與轉貼的邊界在哪裡?

在智慧財產權的保護上,臺灣也經歷了數位時代的轉變。台灣第一個網路著作權相關判決,就發生在傳統出版與數位平台的碰撞之中。南方社區文化網路負責人陳豐偉等三人在中山大學 BBS 上發表的文章,未經同意就被《光碟月刊》收錄在隨刊光碟中發行。三人向台北地檢署提告後,《光碟月刊》發行人兼總經理黃俊義被判處七個月有期徒刑,緩刑三年。這個判決為數位時代的著作權保護樹立了重要典範。

臺灣首例網路著作權案判決,為數位時代智慧財產權保護樹立典範。圖/envato

近年來,影音平台的著作權爭議更趨複雜。2022 年,知名 YouTube 頻道「觸電網」就因為片商車庫娛樂檢舉七十多支未經授權的影片,導致經營 12 年的頻道被迫下架。車庫娛樂透過律師聲明,這是針對「未經合法授權影音內容」的標準處理,並表明將追究民事與刑事責任。

受害了怎麼辦?申訴管道報你知

當我們在網路上的權利受到侵害時,可以根據侵害類型尋求不同的救濟管道。最基本的言論自由權利受到侵犯時,可以先向社群平台提出檢舉。若遇到更嚴重的情況,如散布猥褻影像、非法性私密影片等,除了平台檢舉外,還可以向警方提告,或是尋求衛福部「性影像處理中心」的協助。

在面對網路霸凌、不實言論時,可以向台灣事實查核中心、MyGoPen 等組織求助,協助澄清真相。若發現有害兒少身心健康的不當內容,則可以向 iWIN 網路內容防護機構提出申訴。這個由國家通訊傳播委員會支持的組織,會在受理後進行查核、轉介業者改善或依法處理。

-----廣告,請繼續往下閱讀-----

智慧財產權的侵害在網路時代極為常見,就像「觸電網」遭片商檢舉下架的案例。這類情況可以透過平台既有的著作權保護機制處理,情節嚴重者也可以提起民事訴訟要求賠償。若發現可疑的廣告或不公平交易行為,則可以向公平交易委員會檢舉;若是特定領域的違規內容,則應該向各該主管機關反映,例如藥品廣告歸衛福部管轄、證券期貨廣告則由金管會負責。

網路時代的法律規範正不斷演進,從個人隱私到國家安全,從言論自由到智慧財產權,每個面向都在尋求數位環境下的最佳平衡點。作為網路使用者,我們必須理解並遵守這些法律界線,同時也要懂得運用各種救濟管道保護自身權益。唯有每個人都清楚了解並遵守這些規範,才能共同營造一個更安全、更有序的網路環境。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
222 篇文章 ・ 313 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

1
0

文字

分享

0
1
0
當心網路陷阱!從媒體識讀、防詐騙到個資保護的安全守則
鳥苷三磷酸 (PanSci Promo)_96
・2024/12/17 ・3006字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

本文由 國家通訊傳播委員會 委託,泛科學企劃執行。 

網路已成為現代人生活中不可或缺的一部分,可伴隨著便利而來的,還有層出不窮的風險與威脅。從充斥網路的惡假害訊息,到日益精進的詐騙手法,再到個人隱私的安全隱憂,這些都是我們每天必須面對的潛在危機。2023 年網路購物詐欺案件達 4,600 起,較前一年多出 41%。這樣的數據背後,正反映出我們對網路安全意識的迫切需求⋯⋯

「第一手快訊」背後的騙局真相

在深入探討網路世界的風險之前,我們必須先理解「錯誤訊息」和「假訊息」的本質差異。錯誤訊息通常源於時效性考量下的查證不足或作業疏漏,屬於非刻意造假的不實資訊。相較之下,假訊息則帶有「惡、假、害」的特性,是出於惡意、虛偽假造且意圖造成危害的資訊。

2018 年的關西機場事件就是一個鮮明的例子。當時,燕子颱風重創日本關西機場,數千旅客受困其中。中國媒體隨即大肆宣傳他們的大使館如何派車前往營救中國旅客,這則未經證實的消息從微博開始蔓延,很快就擴散到各個內容農場。更令人遺憾的是,這則假訊息最終導致當時的外交部駐大阪辦事處處長蘇啟誠,因不堪輿論壓力而選擇結束生命。

-----廣告,請繼續往下閱讀-----

同年,另一則「5G 會抑制人體免疫系統」的不實訊息在網路上廣為流傳。這則訊息聲稱 5G 技術會影響人體免疫力、導致更容易感染疾病。儘管科學家多次出面澄清這完全是毫無根據的說法,但仍有許多人選擇相信並持續轉發。類似的例子還有 2018 年 2 月底 3 月初,因量販業者不當行銷與造謠漲價,加上媒體跟進報導,而導致民眾瘋狂搶購衛生紙的「安屎之亂」。這些案例都說明了假訊息對社會秩序的巨大衝擊。

提升媒體識讀能力,對抗錯假訊息

面對如此猖獗的假訊息,我們首要之務就是提升媒體識讀能力。每當接觸到訊息時,都應先評估發布該消息的媒體背景,包括其成立時間、背後所有者以及過往的報導記錄。知名度高、歷史悠久的主流媒體通常較為可靠,但仍然不能完全放下戒心。如果某則消息只出現在不知名的網站或社群媒體帳號上,而主流媒體卻未有相關報導,就更要多加留意了。

提升媒體識讀能力,檢視媒體背景,警惕來源不明的訊息。圖/envato

在實際的資訊查證過程中,我們還需要特別關注作者的身分背景。一篇可信的報導通常會具名,而且作者往往是該領域的資深記者或專家。我們可以搜索作者的其他作品,了解他們的專業背景和過往信譽。相對地,匿名或難以查證作者背景的文章,就需要更謹慎對待。同時,也要追溯消息的原始來源,確認報導是否明確指出消息從何而來,是一手資料還是二手轉述。留意發布日期也很重要,以免落入被重新包裝的舊聞陷阱。

這優惠好得太誇張?談網路詐騙與個資安全

除了假訊息的威脅,網路詐騙同樣令人憂心。從最基本的網路釣魚到複雜的身分盜用,詐騙手法不斷推陳出新。就拿網路釣魚來說,犯罪者通常會偽裝成合法機構的人員,透過電子郵件、電話或簡訊聯繫目標,企圖誘使當事人提供個人身分、銀行和信用卡詳細資料以及密碼等敏感資訊。這些資訊一旦落入歹徒手中,很可能被用來進行身分盜用和造成經濟損失。

-----廣告,請繼續往下閱讀-----
網路詐騙手法不斷進化,釣魚詐騙便常以偽裝合法機構誘取敏感資訊。圖/envato

資安業者趨勢科技的調查就發現,中國駭客組織「Earth Lusca」在 2023 年 12 月至隔年 1 月期間,利用談論兩岸地緣政治議題的文件,發起了一連串的網路釣魚攻擊。這些看似專業的政治分析文件,實際上是在臺灣總統大選投票日的兩天前才建立的誘餌,目的就是為了竊取資訊,企圖影響國家的政治情勢。

網路詐騙還有一些更常見的特徵。首先是那些好到令人難以置信的優惠,像是「中獎得到 iPhone 或其他奢侈品」的訊息。其次是製造緊迫感,這是詐騙集團最常用的策略之一,他們會要求受害者必須在極短時間內作出回應。此外,不尋常的寄件者與可疑的附件也都是警訊,一不小心可能就會點到含有勒索軟體或其他惡意程式的連結。

在個人隱私保護方面,社群媒體的普及更是帶來了新的挑戰。2020 年,一個發生在澳洲的案例就很具有警示意義。當時的澳洲前總理艾伯特在 Instagram 上分享了自己的登機證照片,結果一位網路安全服務公司主管僅憑這張圖片,就成功取得了艾伯特的電話與護照號碼等個人資料。雖然這位駭客最終選擇善意提醒而非惡意使用這些資訊,但這個事件仍然引發了對於在社群媒體上分享個人資訊安全性的廣泛討論。

安全防護一把罩!更新裝置、慎用 Wi-Fi、強化密碼管理

為了確保網路使用的安全,我們必須建立完整的防護網。首先是確保裝置和軟體都及時更新到最新版本,包括作業系統、瀏覽器、外掛程式和各類應用程式等。許多網路攻擊都是利用系統或軟體的既有弱點入侵,而這些更新往往包含了對已知安全漏洞的修補。

-----廣告,請繼續往下閱讀-----

在使用公共 Wi-Fi 時也要特別當心。許多公共 Wi-Fi 缺乏適當的加密和身分驗證機制,讓不法分子有機可乘,能夠輕易地攔截使用者的網路流量,竊取帳號密碼、信用卡資訊等敏感數據。因此,在咖啡廳、機場、車站等公共場所,都應該避免使用不明的免費 Wi-Fi 處理重要事務或進行線上購物。如果必須連上公用 Wi-Fi,也要記得停用裝置的檔案共享功能。

使用公共 Wi-Fi 時,避免處理敏感事務,因可能存在數據被攔截與盜取的風險。圖/envato

密碼管理同樣至關重要。我們應該為不同的帳戶設置獨特且具有高強度的密碼,結合大小寫字母、數字和符號,創造出難以被猜測的組合。密碼長度通常建議在 8~12 個字元之間,且要避免使用個人資訊相關的詞彙,如姓名、生日或電話號碼。定期更換密碼也是必要的,建議每 3~6 個月更換一次。研究顯示,在網路犯罪的受害者中,高達八成的案例都與密碼強度不足有關。

最後,我們還要特別注意社群媒體上的隱私設定。許多人在初次設定後就不再關心,但實際上我們都必須定期檢查並調整這些設定,確保自己清楚瞭解「誰可以查看你的貼文」。同時,也要謹慎管理好友名單,適時移除一些不再聯繫或根本不認識的人。在安裝新的應用程式時,也要仔細審視其要求的權限,只給予必要的存取權限。

提升網路安全基於習慣培養。辨識假訊息的特徵、防範詐騙的警覺心、保護個人隱私的方法⋯⋯每一個環節都不容忽視。唯有這樣,我們才能在享受網路帶來便利的同時,也確保自身的安全!

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
222 篇文章 ・ 313 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

4
2

文字

分享

0
4
2
看電影學統計:「多重宇宙」與統計學「隨機變異」的概念
林澤民_96
・2023/03/15 ・2854字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

「多重宇宙」是我教統計時常用到的名詞,我用它來解釋隨機變異(stochastic variation)的概念:

例如民調抽得一個樣本,此樣本的受訪者固然是一群特定人士,但理論上我們可以抽出許多許多樣本,這些樣本之間雖然會有隨機變異,但樣本彼此的宏觀性質仍會相近。這些不同的隨機樣本,可以以「多重宇宙」一詞來形容。即使事實上只有一個樣本(一個宇宙),我們可以想像在多重宇宙的每個宇宙裡,都有一個微觀上隨機變異的樣本存在。

一個樣本(一個宇宙),在多重宇宙裡,每個宇宙都有一個微觀上隨機變異的樣本存在。 圖/IMDb

什麼是隨機樣本?

其實,數理統計學中「隨機樣本」(random sample)的概念指的是「一組獨立且同一分布的隨機變數」(a set of independently and identically distributed random variables)

在這個定義之下,樣本的每一個單位(資料點)都不是固定不變的數值,而是一個依循某機率分布的隨機變數。「隨機樣本」的要求是樣本所有的 N 個單位不但要互相獨立,而且要依循同一的機率分布。

我們可以想像我們平常所謂「一個樣本」的 N 個觀察值,每一個觀察值背後都有一個產生這個數值的隨機變數,也可以說所謂「一個樣本」其實只是這「一組獨立且同一分布的隨機變數」的一個「實現」(realization)。那麼,不同的樣本就是這「一組獨立且同一分布的隨機變數」的不同「實現」。這樣了解之下的不同樣本、不同「實現」,我喜歡把它們稱為「多重宇宙」。

-----廣告,請繼續往下閱讀-----

多重宇宙中的隨機變異,是我們在分析一個樣本的資料時必須作統計推論的原因。

比如我們分析本屆所有 113 位立委的議事行為,既然立委一共只有 113 人,我們分析的對象不就是立委的母體嗎?那是不是就不必做統計推論?

不是!原因是我們仍然可以想像有多重宇宙存在,每個宇宙都有 113 位立委,而同一位立委在不同的宇宙裡其議事行為會有隨機變異。正是因為這隨機變異的緣故,我們即使分析的是所謂「母體」,我們仍然要做統計推論。

圖/IMDb

「多重宇宙」的概念可以說就是「假如我們可以重來」的反事實思想實驗。被分析的單位不是在時間中重來一次,而是在多重宇宙的空間中展現「假如我們可以重來」的隨機變異的可能性。

名為 Monday 的這集 X 檔案電視劇中,主角的夢境不斷重複,每次夢境的結構大致類似,但細節卻有所不同,這正是「多重宇宙—隨機變異」概念的戲劇化。

-----廣告,請繼續往下閱讀-----

【媽的多重宇宙】(Everything Everywhere All at Once)也是。

「看,這是你的宇宙,一個漂浮在存在宇宙泡沫中的泡泡。周圍的每個氣泡都有細微的變化。但你離你的宇宙越遠,差異就越大。」——【媽的多重宇宙】對白

這是說:變異程度越小的是離你越近的宇宙,程度越大的是離你越遠的宇宙。這裡所謂變異的程度,在統計學裡可以用誤差機率分布的標準差來衡量。

什麼是隨機變異?

關於「隨機變異」這個概念,我最喜歡的例子是研究所入學申請的評審。

例如有 120 人申請入學,我詳細閱讀每人投遞的申請資料(包括性別、年齡等個人特質還有 SOP、大學成績單、GRE 分數、推薦信等),然後打一個 Y=0~100 的分數。全部評閱完畢,我便得到一份 N=120 的資料。這個資料包括了所有的申請者,那麼它是樣本呢?還是母體?

-----廣告,請繼續往下閱讀-----

如果我要分析我自己評分的決定因素,我會把分數 Y 回歸到性別、年齡等個人特質以及資料中可以量化的變數,例如大學成績平均分數(GPA)和 GRE 分數。跑這個迴歸時,需不需要做統計推論,看迴歸係數是不是有統計的顯著性?

我的看法是這份 N=120 的資料是樣本而不是母體,做迴歸分析當然要做統計推論。

那麼我資料的母體是什麼?

迴歸分析資料的母體其實是所謂「母體迴歸函數」(population regression function),也就是通常所說的「資料產生過程」(data generating process, DGP)。

這個 DGP 就是我在評閱每份資料時腦海中的思考機制,它考量了許多量化和質化的變數,賦予不同的權重,然後加總起來產生 Y。

分析資料的母體,也就是常說的「資料產生過程」。 圖/envato.elements

量化變數的權重就是母體迴歸函數的係數,質化變數則是母體迴歸函數的係數的誤差項。如果有很多質化變數攏總納入誤差項,我們通常可以根據中央極限定理,假設誤差項是呈現常態分布的隨機變數。這個誤差項就是「隨機變異」的來源。

評審入學申請,我通常只把所有資料評閱一次。這一次評審結果,會有幾家歡樂幾家愁,這便構成了一個「宇宙」。如果我第二天又把所有 120 份資料重新評分一遍,得到第二個樣本。因為我腦中的「資料產生過程」包括隨機變數,這個新樣本保證跟第一個樣本會有差異。用白話說:我的評分機制不精確,我自己甚至不知道我給每個量化變數多少權重,而且第二次評閱所用的權重也會跟第一次不盡相同,更不用說質化變數如何影響我的評分了。

-----廣告,請繼續往下閱讀-----

這第二個樣本,申請者的排比不會跟第一個樣本一樣,雖然也是幾家歡樂幾家愁,歡樂與愁悶的人也可能不一樣。這是第二個宇宙。依此類推,我們可以想像同樣的120位申請者,因為我「資料產生過程」的隨機變異,活在多重宇宙裡。

這些宇宙有的差異不大,根據【媽的多重宇宙】的說法,它們的泡泡互相之間的距離就較近,差異較大的宇宙,距離就較遠。如果申請者可以像電影所述那樣做宇宙跳躍,他們會看到自己在不同宇宙裡的命運。

我擔任德州大學政府系的研究部主任時,常耽心有申請者拿我們入學評審委員的評分資料去做迴歸分析。如果分析結果顯示種族、性別等變數有統計顯著性,說不定會被拿去控告我違反所謂「平權行動」(affirmative action)的相關法律。如果沒有顯著性,我就不耽心了。

多重宇宙之間會不會有「蝴蝶效應」?也就是宇宙跳躍時,隨機變異產生的微小差異,會不會造成新舊宇宙生命路徑的決然不同?

-----廣告,請繼續往下閱讀-----

在【媽的多重宇宙】中,伊芙琳只要當初做了一個不同的決定,以後的生命便可能跟現世(home universe)有很不一樣的命運。這在統計學也不是不可能。時間序列分析中,有些非線性模式只要初始值稍微改變,其後在時間中的路徑便會與原來的路徑發散開來。

你做時間序列分析時,會不會想想:時間序列資料究竟是樣本還是母體?如果你的研究興趣就只限於資料期間,那要不要做統計推論?當然要的,因為隨機變異的緣故。

如果你今年申請外國研究所不順利,也許在另一個宇宙裡,你不但獲名校錄取,得到鉅額獎學金,而且你的人生旅途將自此一路順遂,事業婚姻兩得意呢。

-----廣告,請繼續往下閱讀-----
林澤民_96
37 篇文章 ・ 245 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。