0

2
0

文字

分享

0
2
0

人為逼出研究的顯著結果:「披薩門」事件是怎麼一回事?

活躍星系核_96
・2017/04/07 ・4445字 ・閱讀時間約 9 分鐘 ・SR值 547 ・八年級

編按:本文事件起因於曾出版過科普書《 瞎吃》的康乃爾大學布萊恩.汪辛克教授(Brian Wansink)在2016 年 11 月 21 日刊登在個人部落格的文章:「永不說『不』的研究生」(原文已遭刪除,Cornell的事件處理相關資訊在此)。此文中汪辛克教授簡述了他與研究生合作的成果,而此篇研究與披薩有關,因此本文標題「披薩門」,為作者借用哥倫比亞大學統計學教授、知名學術部落客安德魯.蓋爾曼(Andrew Gelman)從 2017 年 1 月 31 號起,在個人部落格對此事件的稱呼「Pizzagate」[1]。

圖/Yoshihide Nomura @ Flickr
  • 文/ 陳紹慶,慈濟大學人類發展與心理學系助理教授、開放科學中心大使(Center for Open Science Ambassador)

如果你是位關心人類飲食習慣研究最新資訊的科普作家,在2016年11月21日看到出版暢銷書《瞎吃:為什麼我們吃下去的比心裡想的還要多(Mindless Eating: Why We Eat More Than We Think)》的康乃爾大學布萊恩.汪辛克教授(Brian Wansink)在個人部落格張貼的文章「永不說“不”的研究生」,應該會想寫篇文章轉述教授與這位研究生的合作成果。轉述內容必定會引用這篇文章提到的論文,以及評論為何一夥人想聚餐吃披薩,總是以吃到飽餐廳做為首選。

康乃爾大學布萊恩.汪辛克教授(Brian Wansink)的著作《 瞎吃(Mindless Eating: Why We Eat More Than We Think)》。 圖/Amazon

然而汪辛克教授的首版部落格文章,有幾段文字吸引了近幾年學術圈內惡名昭彰的方法學恐怖份子(methodological terrorists)注意;2017 年開始沒有幾天,文章裡提到的四篇論文就被挑出多達 150 筆錯誤的統計數字。汪辛克看到這篇尚未經同儕審查的論文[7],完全無法辯解被指出的錯誤,只能在原始部落格文章兩度發佈追加致歉訊息,還有向各方聲明會針對出現錯誤的四篇論文,檢討自己的研究方法與指導學生的方式,並召集人員重新進行核實研究[11]。也有關心社會科學假報告揭發爭議的媒體記者,向大學及實驗室公關請求採訪汪辛克本人有關數據為何出錯的細節,汪辛克卻做出二十多年以來首次閃避媒體採訪的舉動[4]。

汪辛克在個人部落格說了什麼話而引起這新一波學術爭議?論文中的錯誤怎麼被人挑出來?「方法學恐怖份子」又是何方神聖?

公開示範人為逼出的顯著結果(p-hacking)

汪辛克在部落格文章提到剛發表的五篇論文,是與一位來自土耳其,與他短期合作的研究生,一起分析一批以前在某家義式餐廳收集完成的資料。

文章中提到當時他對這位研究生說「收集這些資料花了很多時間與經費,因為這批資料裡可以挖出很多酷玩意,我們應該能做點什麼補救。」

  • (“This cost us a lot of time and our own money to collect. There’s got to be something here we can salvage because it’s a cool (rich & unique) data set.”)。

他們的討論過程提到幾個可能的補救方式,也提到如果這位研究生願意出手的話,汪辛克期望看到的分析結果與圖表是什麼模樣。

  • (“I told her what the analyses should be and what the tables should look like. I then asked her if she wanted to do them.”)

這段現在看起來像是不打自招的說法,看在方法學恐怖份子眼裡,馬上就察覺這不就是人為逼出顯著結果的標準作業程序?也就是為了得到小於顯著水準的 p 值,資料分析過程裡不擇手段修改與增減研究資料的一切行為。

社會科學,特別是社會心理學,已經有好幾起受到大眾媒體青睞的主題,起初被發現當成鐵證的原始研究結果,最後被證實是人為過度操作資料分析的產物。像是丹尼爾.卡尼曼(Daniel Kahneman)在暢銷著作《快思慢想》(Thinking, Fast and Slow)引用約翰.巴赫(John Bargh)的老年化促發(Elderly Priming),因為這一系列的相關論文報告列出的多數 p 值恰好接近顯著水準(比如0.04),已被專業統計方法認證是人為逼出的顯著結果[5]。

透過恣意的增減統計數據,來達成人為逼出的顯著結果。圖/Matt McGee @ Flickr

統計數據錯誤太多而導致的胃食道逆流(Statistical heartburn)

兩位荷蘭博士生,提姆.凡迪利(Tim van de Zee)與尼克.布朗(Nick Brown),加上一位美國的統計學家喬丹.安那亞(Jordan Anaya)決定合作破解這些論文是不是人為逼出顯著結果的謎題。

尼克.布朗與其指導教授在 2016 年於社會心理與人格科學(Social Psychological and Personality Science)發表一篇論文,介紹偵測心理學論文中報告的平均值,與其報告的樣本數不一致程度的方法:GRIM測試[6]。喬丹將 GRIM 測試結合網路爬蟲程式,開發出可探勘大量文獻並挑出錯誤的應用軟體。看了汪辛克的部落格文章之後,他們與提姆決定要好好檢視汪辛克列出的其中四篇論文,因為他們研判這四篇的資料來源應該是同一家餐廳的現地實驗(Field Experiment)。

在 2017 年 1 月 27 日公開尚未經同儕審查的手稿,三人簡述曾向汪辛克主持的實驗室索取原始資料,卻被婉拒的過程。這個轉折之後,三人決定使用手邊能運用的壞科學探測器(Bad Science Detectors [註1])檢查論文之中的數據。除了喬丹開發的程式,還有荷蘭蒂爾堡大學的博士生蜜雪兒.諾特(Michele Nuijten)開發,用來檢查 t 分數等統計值是否有計算錯誤的應用程式 statcheck[8]。

最後,他們從四篇論文挑出 150 項錯誤,大多數錯誤是圖表中的樣本數與正文報告的樣本數兜不攏,還有同一筆資料在不同表格列出的平均值與樣本數彼此不一致。如果讀者是在大學裡教統計的老師們,甚至是在中小學教數學的老師們,看到幾十頁的數據和圖表充滿這樣的錯誤,想必都需要趕緊來一錠「吉胃服適」。

提姆等人掃瞄汪辛克過去19年(1997~2016)的著作,挑出的錯誤圖表拼圖。請點擊看大圖。圖/Tim van der Zee 個人部落格

方法學恐怖份子從何而來?

提姆、尼克、與喬丹的行動完美揭發虛假科學報告,讓世人減少被虛假科學消息誤導的機會。但是對於像汪辛克等成名已久,習慣傳統社會科學研究模式的學者們來說,這種行徑猶如恐怖行動。

普林斯頓大學的資深社會心理學教授蘇珊.費斯克(Susan Fiske),曾在 2016 年 9 月被人發現,本來要發表在心理科學學會(Association of Psychological Science)的學會會員刊物專欄文章裡,草稿曾使用方法學恐怖主義(methodological terrorism)一詞,形容這些公開挑論文數據錯誤、指出某項研究無法再現等非常規學術發表樣態[9]。

這項消息見報的時機,也剛好發生蘇珊.費斯克的高徒艾美.柯蒂(Amy Cuddy)的成名作《權力姿勢效應(power posing effect)》,其昔日同儕戴娜.卡奈(Dana Carney)公開坦承「權力姿勢效應是虛假的效應」的事件[10]。

艾美.柯蒂曾於 2012 年在 TED 演講擺出高權力姿勢的好處[12],從此成為家喻戶曉的社會心理學教授。事件發生之前一年,其他實驗室發表以比原始研究多出四倍的樣本數,卻無法再現原始研究的結果[15],接著一系列研究的 p 值被其他學者使用另一種壞科學探測器 P-Curve[13] 分析之後,確定是無真正顯著結果的效應,因此造成昔日同儕與艾美.柯蒂分道揚鑣。現在的艾美.柯蒂在美國大眾的形象,有些像南韓世越號事件發生之後的朴槿惠,有興趣的讀者可留意演講影片[12]下方的討論留言,看到近幾個月要求影片下架與支持艾美.柯蒂的意見相互交鋒,也許哪天她從演講權力姿勢效應得到的光環會徹底消失。

科普圈如何面對另類事實

布萊恩.汪辛克與艾美.柯蒂向大眾傳達的資訊,在中文世界,或者至少是台灣的科普圈,依然被多數閱聽者認為是科學事實。科普文章與專業科學論文一樣,要傳遞的是真實的科學知識。即使是由實驗室裡的科學家,親自面向大眾介紹最新研究成果,讀者也要保持求真的意志,而非以內容夠不夠新奇,傳播者有沒有名氣來判斷內容的價值。

然而這對處於專業科學家與讀者之間的科普作家,將帶來更巨大的挑戰。雖然沒有明確規範,科普作家應當具備比一般讀者更好的批判能力,研判科學成果的真實性,特別是許多作家身兼大學教師或研究生,甚至是第一線科學家的身份。不過現在的事實是,多數中文讀者認識布萊恩.汪辛克與艾美.柯蒂,主要是透過這群科普作家的著作及演講,也因此相信這兩人的「研究成果」是有助個人生命成長的正面建議。

我並非在此否定這群科普作家的貢獻,只想藉由說明這些事件,提醒現在的中文科普是不是已經來到必須升級的時刻。除了傳達最新的科學知識,科普作家也要負起啟發讀者辨識科學資訊真實性的責任。在個人與群體之間交換資訊的各種場域,許多科普作家應該能預見查核資訊真實性的實際方法無法配合傳達真實知識的理想,而衍生各種問題。要如何掌握與解決這些問題,還需要更多的資訊與討論,不過我相信隨著這類事件不斷浮現,問題的輪廓將越來越清晰。

  • [註1]:壞科學探測器(Bad Science Detectors)一詞出自英國醫師與科普作家班.高達可(Ben Goldacre)的著作《壞科學》(Bad Science)。有興趣的讀者可參考班.高達可的TED演講

原文刊載於作者部落格,原文為披薩門:「瞎吃」教主的完美自爆

  • [1]: http://andrewgelman.com/2017/02/03/pizzagate-curious-incident-researcher-response-people-pointing-150-errors-four-papers-2/ “Pizzagate, or the curious incident of the researcher in response to people pointing out 150 errors in four of his papers.”
  • [2]: http://andrewgelman.com/2016/12/15/hark-hark-p-value-heavens-gate-sings/ “Hark, hark! the p-value at heaven’s gate sings.”
  • [3]: http://www.brianwansink.com/phd-advice/the-grad-student-who-never-said-no “The grad student who never say ‘no’.”
  • [4]: http://www.chronicle.com/article/Spoiled-Science/239529 “Spoiled Science.”
  • [5]: http://ssrn.com/abstract=2381936 or http://dx.doi.org/10.2139/ssrn.2381936 “Lakens, D. (2014). Professors are not elderly: Evaluating the evidential value of two social priming effects through p-curve analyses.”
  • [6]:https://www.researchgate.net/publication/309275131_The_GRIM_Test_A_Simple_Technique_Detects_Numerous_Anomalies_in_the_Reporting_of_Results_in_Psychology “The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology”
  • [7]: https://peerj.com/preprints/2748/ “Statistical heartburn: An attempt to digest four pizza publications from the Cornell Food and Brand Lab”
  • [8]: https://github.com/MicheleNuijten/statcheck “MicheleNuijten/statcheck”
  • [9]: http://www.businessinsider.com/susan-fiske-methodological-terrorism-2016-9 “Scientists are furious after a famous psychologist accused her peers of ‘methodological terrorism'”
  • [10]: http://scchen.com/Text/text_2016005/ “擺姿勢也許能增加你的自信,但是不能真正改變你”
  • [11]: http://retractionwatch.com/2017/02/16/social-science-isnt-definitive-like-chemistry-embattled-food-researcher-defends-work/ “‘Social science isn’t definitive like chemistry:’ Embattled food researcher defends his work”
  • [12]: https://www.ted.com/talks/amy_cuddy_your_body_language_shapes_who_you_are “Amy Cuddy: Your body language shapes who you are.”
  • [13]: http://www.p-curve.com/ “P-curve.com”
  • [14]: https://www.ted.com/talks/ben_goldacre_battling_bad_science “Ben Goldarcre: Batting bad science.” [15]: http://journals.sagepub.com/doi/10.1177/0956797614553946 “Assessing the Robustness of Power Posing: No Effect on Hormones and Risk Tolerance in a Large Sample of Men and Women”

數感宇宙探索課程,現正募資中!

文章難易度
活躍星系核_96
755 篇文章 ・ 90 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia


0

0
0

文字

分享

0
0
0

遲來報到的質數——《數學,這樣看才精采》

天下文化_96
・2022/05/20 ・2868字 ・閱讀時間約 5 分鐘

2013 年國際數學界最轟動的新聞,應屬中國留美學者張益唐在孿生質數問題上所作出的突破。他個人的經歷更增加了整件事的傳奇性。

數學家張益唐。圖/VOA, 公有領域

張益唐雖然是北大數學系的高材生,但是 37 歲從美國普渡大學拿到博士學位之後,因與指導教授意趣不合,一時在學界無法發展,多年靠打工餬口。1999 年才好不容易至新罕布夏大學數學系任講師。在張益唐長期不得意的歲月裡,他雖然沒有發表什麼數學論文,但是也不曾喪失志氣,還是堅持研究自己喜歡的數學問題。

張益唐在 58 歲暴得大名,各種獎項與頭銜接踵而來,在最是少年逞英豪的數學世界裡,真成為一個異數。英國數學家哈代在他著名的小冊子《一個數學家的辯白》裡曾說:「我不知道有任何一項數學的主要進展,是由超過五十歲的人所啟動。」張益唐正好給哈代的偏見一個反例。

張益唐研究的是關於質數的性質。

一個自然數 p 是質數(也稱為素數)的條件有二:其一,p 大於 1;其二,除了 1 與 p 自己之外,沒有別的自然數能整除 p。全體質數可以從小到大排成一個數列 2, 3, 5, 7, 11, 13, …,通常把排在第 n 個位置的質數記作 pn。如果 pn 與 pn+1 相差為2,則稱質數對 (pn, pn+1) 為一對孿生質數,例如 3 與 5,5 與 7,11 與 13。

圖/envato elements

「孿生質數猜想」就說這樣的質數對有無窮多組。因為古希臘的歐幾里得在他的巨著《原本》裡,曾經證明質數有無窮多個,所以有人以為也是歐幾里得最先提出孿生質數猜想。其實不然,目前從文獻中所見, 1879 年英國數學家格萊舍(James Whitbread Lee Glaisher)在《數學信使》(Messenger of Mathematics)雜誌上的一篇文章,才是第一次將孿生質數猜想見諸文字。

張益唐的大突破是證明有無窮多組質數對 (pn, pn+1) 使得 pn 與 pn+1 相距不超過 7 千萬。

為什麼這是一個大突破呢?因為在張益唐之前,不管給出什麼固定數 m,完全不知道相差在 m 之內的質數對,到底是有限多個還是無窮多個。自從 2013 年 5 月他的成就在國際媒體上廣為流傳之後,世界上很多數學家努力要把 7千萬的差距往下壓縮,目前已經改善到 246 之內。但是距離孿生質數猜想所需的 2,還有巨大而艱困的鴻溝。

一般人從媒體得知張益唐對數學做出了重大貢獻,可能會好奇問他的結果有什麼用?這裡「用」當然是指實際的應用。其實,他的成果目前還只有純學術價值,與國計民生毫不相干。自從古希臘人辨識出質數,在兩千多年的時間裡,除了數學家關心質數外,質數一直缺乏任何應用價值。二十世紀電腦發達之後,才利用因數分解成質數的超級困難特性,產生了某些幾乎無法有效破解的密碼系統,廣泛的應用到金融、通信、資料保密上。

圖/envato elements

在中國古算裡缺席?

一個基本的數學概念,經歷了兩千多年的滄桑,才顯現出它的實用價值,這不是一件平凡的成就。因此,我們不得不佩服希臘人研究質數的真知灼見,並且感嘆十八世紀前的中國傳統數學裡卻不見質數的蹤跡。質數為什麼會在中國遲來報到?實在是一個令人費解的現象。

歐幾里得的《原本》約在西元前 300 年左右成書,是古希臘數學集大成之作。第七卷討論數的性質,是使用幾何的觀點來理解數。也就是從「單位」的概念出發,以度量直線段的方式引入「數」。第七卷定義 2 說「一個數是由許多單位合成的。」因此,1 代表單位而不算作「數」。定義 11 說「質數是只能為一個單位所量盡者。」定義 16 說「兩數相乘得出的數稱為面,其兩邊就是相乘的數。」所以質數只能是線,而不能稱為面。

歐幾里德畫像。圖/wiki, 公有領域

從這些定義可看出來,古希臘人所謂的「數」是依附在幾何的體系裡而得以操作。中國古代缺乏像《原本》這種按照邏輯次序鋪陳結果的數學書,通常是以解決實際問題的風貌來書寫,因此不太可能探討與闡述「數」的純粹性質。

例如,以《九章算術》為代表的中國古算裡,數字是與矩形、直角三角形的面積緊密相連結,但卻沒有像希臘人那樣分辨,有些數是可以表現為面,而有些數卻不可以。

也許古代中國缺乏一項歐幾里得所擁有的知識背景,因而造成了雙方關注問題的差異。古希臘有一位重要的哲人德謨克利特(Democritus),他主張萬物皆由不可分割的「原子」所構成。在「原子論」的知識背景下,數目 1 就不會與其他數目等量齊觀了,1 是「單位」,是數的「原子」。

圖/envato elements

中國古代沒有明確的「原子論」,《墨子.經說下》所說:「非半,進前取也。前,則中無為半,猶端也。」其中切得不能再切的「端」在《墨子.經說上》解釋為「端,體之無序而最前者也。」也只是類似「原子」的概念,並未發展到德謨克利特的思想程度。「原子論」思想的欠缺,或許是質數在中國古算裡缺席的因素之一。

難以望其項背

康熙敕編的《御製數理精蘊》(簡稱《數理精蘊》)是融合中西數學的百科全書,其中將質數譯為「數根」,並且在附表〈對數闡微〉中列有質數表。雖然質數已經在中國現身,但是數學家並沒有感到相見恨晚而深入探討。

晚清數學名家李善蘭在翻譯歐幾里得《原本》後九卷時,第一卷第一界說為:「數根者唯一能度而他數不能度」,也把質數翻譯成「數根」。

數學家李善蘭。圖/傅任敢 《中華教育界》 1936 -1937年, 公有領域

李善蘭很可能受《數理精蘊》的影響,而去研究判別給定數是否為質數的方法。英國傳教師偉烈亞力(Alexander Wylie)將其中一法,以給編輯的信公布在香港一家英文雜誌上,其敘述為「以 2 的對數乘給定的數,求出其真數,以 2 減同數,以給定數除餘數,若能除盡,則給定數為質數;若不能除盡,則不是質數。」

此命題常被稱為「中國定理」,其實是歐洲早已知道的「費馬小定理」的逆命題,該定理斷言若 p 為質數,則 2p − 2 ≣ 0 (mod p)。

其實李善蘭的方法並不永遠正確,例如:2341 − 2 是 341 的整倍數,但是 341 = 11 × 31 並不是一個質數。1872 年李善蘭在《中西聞見錄》報刊發表了〈考數根法〉一文,成為清末關於質數研究的重要成果,但是他並沒有收錄「中國定理」,應該是他已經知道命題並不為真。

要知道李善蘭與高斯的生命是有重疊的時期,因此當西方以質數為基礎所建立的數論,已經繁複深刻美不勝收之時,也許連李善蘭都不曾完全清楚中國落後的程度是多麼巨大!


數感宇宙探索課程,現正募資中!

天下文化_96
9 篇文章 ・ 7 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。