「培養媒體識讀能力」已是這個資訊爆炸時代,人人都須具備的基本素養。閱讀報章雜誌時檢查資料出處、收到危言聳聽的訊息時先查明是否為假消息,這些幾乎都己經是基本常識。然而,撇除一些惡意扭曲事實的報導、刻意造假的研究結果不算,那些發表在國際科學期刊、經過嚴謹審查機制的研究報告,我們就真能全盤相信嗎?首先,讓我們從 2015 年心理學界的再現性危機1(reproducibility crisis,或作replication crisis)案例說起……
2015 年,有鑒於學界出版偏誤2(publication bias,註一)、選擇性分析資料、選擇性報告結果等問題,一大群世界各地的心理學家集結一起,合作進行了 100 個複製性研究 (replication studies),要看看如果以同樣的研究方法、實驗配置,能否成功重現一些刊登於三個心理學領域重要期刊(註二)的研究結果。畢竟,若一現象為真,研究人員能再次發現相同結果的機率應是相當高。心理學家們先是利用準隨機抽樣 (quasi-random sampling) 方式選擇要進行重複驗證的研究題目,分工合作、嚴謹複製原實驗的研究設計、程序與工具,過程也經過原作者的認證,並以相當高的統計考驗力(average replication power = 0.92)去檢定原實驗效果。原本,在他們參照的 100 個已發表研究結果中,高達97%的結果是有統計顯著性的,簡單來說,幾乎所有的原始研究都成功驗證某假說,或者發現某個顯著的現象、關聯。
然而令人驚訝且失望的是,重複驗證的結果中僅有 36% 是有統計顯著性的,即使是那些達到統計顯著的結果,新發現的平均效果值(mean effect size = 0.197)也小於原本發表於期刊上的效果值(mean effect size = 0.403)。這樣的結果給心理學界丟下了一個巨大的震撼彈!畢竟,可重複性(或作再現性,reproducibility)是科學的重要特徵之一,在眾多條件都控制的情況下,仍有如此高比例的研究結果無法被再現,不禁使人懷疑,是否多數心理學發現僅是曇花一現?在某個陰錯陽差的機緣下「幸運」達到的統計顯著性?再者,如果一項科學發現可以有時候是對的、很多時候是錯的,那這項科學發現的價值何在?
2018 年,另一批超過 200 位心理學家參與的大型研究計畫(Many Lab 2)3, 4中,他們針對 28 個常見的心理學現象進行重複驗證。類似於前述 2015 年的例子1,28 個重複驗證的研究中只有約一半(15 個)結果是支持原發現的,並有高達 75%(21 個)研究的效果值是低於原期刊中報告的效果值。另外,Many Lab 2 這項大型研究計畫廣納 36 個國家的 15305 位受試者,以確認心理學研究結果是否會受到族群間異質性等背景因素影響,他們的結果顯示,只有 39%(11 個)的研究結果呈現群體異質性(heterogeneity),而這 11 個研究大多是那些成功被重複驗證、效果值很大的研究題目。
換句話說,要以受試者、情境的不同來解釋那些無法被重複驗證的結果,似乎是不成立的,因為反而是那些能成功重複驗證的研究題目會受到群體異質性影響4。複製性研究的成敗,更多取決於研究的現象本身1, 4。真實存在的現象、貼近事實的理論與假設,通常都能在不同環境、對象、時空背景下被重複驗證;相對的,僅因為偽陽性 (false positive) 機率或其他因素而發現的顯著結果,即使完美重現原研究場域、工具、對象,能再次有相同發現的機率也不高。
更令人吃驚的是,在近年無法被重複驗證的案例中,甚至不乏一些對心理系學生來說耳熟能詳、出現於教科書的經典心理學現象,例如,「臉部回饋假說」(facial-feedback hypothesis,註三)4-6、促發效應(priming effect,註四)4和自我耗損(Ego Depletion,註五)7, 8。
在這波重複驗證風潮中最諷刺的莫過於,最經得住考驗的發現居然是「大約只有一半的心理學研究結果能被重複驗證」9。
讀到這,先別急著把心理學教科書、期刊丟進垃圾桶!也先別急著下定論說:「果然心理學、社會科學都是主觀的!是不可信的!」當然不是。事實上,再現性不高的現象,在生物學、工程學、物理學、甚至醫學,都不算罕見10, 11。在質疑批判之前,或許我們更該思考:是什麼造成目前的現狀?以及,作為知識的產出者、使用者、讀者,我們能做些什麼?
為何無法重複驗證?
假設研究員 A 和研究員 B 使用同樣研究設計、實驗方法,但得出的結果卻不一致,例如 A 發現的東西 B 沒發現,我們可以懷疑的解釋有:
- A、B 所研究的對象與環境不同,情境與個體差異的因素造成結果不同
- A 或 B 在研究時不小心出了錯,以至於 A 與 B 的實驗事實上不完全一樣
- 結果不同僅是由於抽樣誤差(sampling error)、機率的關係,A 的結果可能是偽陽性(false positive),或者 B 的結果是偽陰性(false negative)。此點的深入探討可參考「p 值的陷阱:p 值是什麼?又不是什麼?」12一文。
像是在 2015 年1與 2018 年4的大型複製性研究中,無法重複驗證的原因較不可能是實驗方法誤差或個體差異等混淆變項。原因是,可能影響結果、但無關於研究主題的混淆因素,都已被研究人員納入考量並透過統計方法排除,例如,樣本數、個體差異、文化差異等。並且,研究團隊在進行重複驗證時都與經過原作者審核、同儕審查,以確認實驗程序成功複製原始實驗。也就是說,現實條件下能控制的都控制了,但仍有如此高比例的研究結果與原始發現不同,究竟是哪裡出了問題?
Open Science Collaboration 團隊認為1,多數研究無法重複驗證的結果,指出了目前心理學領域出現的出版偏誤與選擇性報告等問題。一直以來,期刊出版者重視原創性研究多於複製性研究,加上過去期刊多半傾向發表有統計顯著性的結果,少數研究者甚至為了能成功在期刊發表,選擇性的報告結果,甚至修改原先假設、操弄資料以達到成功驗證假說的假象。而重複驗證危機正是顯現了這樣不當的風氣、行為造成的後果,並彰顯施行複製性研究的重要性與必要性。
當然,針對個別研究,單一一次重複驗證的失敗,不代表我們應該全盤否認原始發現,而應是蒐集更多、更透明、更全面的證據,以後設分析 (meta-analysis) 等統計方式,得出真正有可信度的結論1, 4。
研究人員可以如何應對?面對這樣系統性的問題,矯正方法當然也需要系統性的合作與改變。出版決策者在判斷是否發表一篇研究報告的標準,不該單靠結果的顯著與否,而是主題重要性、研究方法正確性、嚴謹性等,並給予支持性與不支持性的證據同等重視;研究資金贊助者,可以更鼓勵這類複製型研究、而非僅是創新研究;此外,目前學者也建議研究人員在開始進行實驗前進行預先註冊(Preregistration)13,或選擇進行註冊研究(registered report)14。
例如,在 OSF (Open Science Framework)15此平台上,研究人員可以在實驗、收資料之前,先將實驗設計、實驗假設、受試者的排除標準(Exclusion Criteria)等,先在網頁上進行註冊16,如此一來便能保證研究的透明性、可信性,並避免有心懷不軌的研究人員在蒐集資料後,才事後操弄假設、扭曲數據13。
此外,也越來越多心理學期刊提供「註冊研究」(registered report)17。此投稿方式,有別於以往只在完整撰寫完一篇研究報告後才投稿,進行註冊研究時,會在研究緒論、方法撰寫好時(實驗開始前),就先投稿到期刊接受第一階段審查(Stage 1 peer review),待該領域專家認可其研究價值、方法正確性之後,再開始實際進行實驗、收受試者的步驟。此舉也確保了,不管之後的研究結果是支持或不支持原先假設,其結果的報告都會在第二階段審查(Stage 2 peer review)之後刊登在該期刊上,藉此,多少有辦法校正目前文獻中支持性和不支持性證據失衡、研究發現過於正向的狀況14。
同時,Open Science Collaboration 團隊也強調1,再現性危機不代表心理學家們應該志在讓所有初始研究都能在未來被重複驗證,因為這樣反而是變相地鼓勵研究者只去探討那些「明顯會成功」的研究題目,限制了該領域的創新性與探索性。也許我們該做的,單純就是回歸科學、理性的本質,真正聚焦在一研究主題的價值、方法嚴謹度、結果解釋的正確性等。而非單純因為某一研究題目有多「吸睛」或是某一研究「感覺」會不會成功,來決定研究以及領域的走向。
身為讀者、知識使用者,我們可以如何看待再現性危機?
科學成果的品質很大程度取決於研究者,但同時,任何研究人員都不是完人、每個研究都可能因資源限制、現實考量而有其限制。另一方面,我們也不太可能要求社會上所有人都熟悉統計、數據分析的判讀,但身為讀者、知識使用者,我們可以做到的是,用正確、理性的態度面對所接受到的資訊。尤其是針對新穎、單一、小規模、樣本數少的研究證據,不要馬上視之為「真理」,並在之後有相斥、反駁的證據出現時,保持開放的心態,才不會落入確認偏見 (confirmation bias) 的陷阱中18。
科學是一種問題解決、探究世界的方式,而非一種盲目的「信仰」。更重要的是,科學是依循序漸進的過程,也許我們很多時候會以為,科學發現的過程像是卡通、故事中的那樣,研究者經過幾年埋頭苦幹,在某個天時地利人和的當下,對天大喊「Aha!我找到了(某現象、某理論、某關聯)!」然後留下改變世代的研究成果與發現。
當然,這種故事可能在少數案例是真的,但大多時候,科學是一個集眾人之力、不斷自我修正、相互辯論,最後達到一個「趨近」真理的過程,過程中,可能會走岔路、會誤判虛實、會自相矛對,這不代表我們必須對科學失望,相反地,我們應該為「發現錯誤與不足」感到欣喜,因為唯有診斷出現有的病灶,我們才能真正對症下藥,從而將知識探索推向一個更正確的方向。
備註
註一:出版偏誤(publication bias)意指,科學期刊傾向於發表有顯著結果、成功驗證假設的研究結果,而非無顯著性、不支持假說的其他證據,造成學界充斥著過於正向的支持性證據,使學者難以權衡正負向證據、達成客觀觀點。
註二:Open Science Collaboration(2015)進行複製性研究的主題選自2008年刊登於Psychological Science (PSCI)、Journal of Personality and Social Psychology (JPSP)、以及 Journal of Experimental Psychology: Learning, Memory, and Cognition (JEP: LMC)的共100個研究
註三:「臉部回饋假說」(facial-feedback hypothesis)由美國心理學家William James提出,其假說認為臉部表情、肌肉的變化能導致心裡情緒反應上的變化,例如,咬一支筆時,做出嘴角上揚的表情能讓人心情感到快樂。
註四:促發效應(priming effect)指,藉由激發人們心中的某個概念,相關、類似的態度、信念、行為也會一同被激發。如,激發「熱」的概念,會強化人們對溫室效應的信念。
註五:自我耗損(Ego Depletion)理論認為,人的意志力(willpower)為有限資源,因此進行任何需要消耗心理能源的事之後,如自我控制、決策等,再從事其他作業的效能就會降低。例如,壓抑自己想吃零食的欲望後,專心於解數學難題的毅力就會降低。
參考資料
- Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251).
- Van Aert, R. C., Wicherts, J. M., & Van Assen, M. A. (2019). Publication bias examined in meta-analyses from psychology and medicine: A meta-meta-analysis. PloS one, 14(4), e0215052.
- https://osf.io/8cd4r/
- Klein, R. A., Vianello, M., Hasselman, F., Adams, B. G., Adams Jr, R. B., Alper, S., … & Sowden, W. (2018). Many Labs 2: Investigating variation in replicability across samples and settings. Advances in Methods and Practices in Psychological Science, 1(4), 443-490.
- https://digest.bps.org.uk/2016/09/01/no-reason-to-smile-another-modern-psychology-classic-has-failed-to-replicate/
- https://pansci.asia/archives/170845#:~:text=%E3%80%8C%E8%87%89%E9%83%A8%E5%9B%9E%E9%A5%8B%E5%81%87%E8%AA%AA%E3%80%8D%E6%B8%AC%E8%A9%A6,%E6%94%AF%E7%AD%86%EF%BC%8C%E4%B8%80%E9%83%A8%E7%89%87&text=%E7%84%B6%E8%80%8C%EF%BC%8C%E6%9C%89%E4%BA%BA%E8%AA%8D%E7%82%BA%E5%8F%8D%E9%81%8E%E4%BE%86,%E4%BA%86%E5%8F%88%E6%9C%83%E6%9B%B4%E5%BF%AB%E6%A8%82%EF%BC%81
- http://www.slate.com/articles/health_and_science/cover_story/2016/03/ego_depletion_an_influential_theory_in_psychology_may_have_just_been_debunked.html?via=gdpr-consent
- Hagger, M. S., Chatzisarantis, N. L., Alberts, H., Anggono, C. O., Batailler, C., Birt, A. R., … & Zwienenberg, M. (2016). A multilab preregistered replication of the ego-depletion effect. Perspectives on Psychological Science, 11(4), 546-573.
- https://www.theatlantic.com/science/archive/2018/11/psychologys-replication-crisis-real/576223/
- Baker, M. (2016). Reproducibility crisis. Nature, 533(26), 353-66.
- http://www.angle.com.tw/ahlr/discovery/post.aspx?ipost=2658#:~:text=%E6%A0%B9%E6%93%9AKNAW%E5%A0%B1%E5%91%8A%E4%B8%AD%E7%9A%84,%E7%9A%84%E7%9B%B8%E5%90%8C%E7%9A%84%E7%B5%90%E8%AB%96%EF%BC%8C%E5%8D%B3
- https://pansci.asia/archives/110923
- Lakens, D. (2019). The value of preregistration for psychological science: A conceptual analysis. Japanese Psychological Review, 62(3), 221-230.
- Nosek, B. A., & Lakens, D. (2014). Registered Reports. Social Psychology, 45(3), 137–141. https://doi.org/10.1027/1864-9335/a000192
- https://osf.io
- https://www.cos.io/initiatives/prereg?_ga=2.70913104.1585635274.1623426782-1610779414.1622469013
- https://www.cos.io/initiatives/registered-reports
- https://pansci.asia/archives/185705