網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策

0

0
0

文字

分享

0
0
0

演進中的科學研究方法(3/4) – 假設檢定能衡量研究結果的價值嗎?

活躍星系核_96
・2014/08/08 ・3320字 ・閱讀時間約 6 分鐘 ・SR值 567 ・九年級

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

這一篇要談談證偽邏輯在心理科學研究未充分思考的情況,特別是運用假設檢定評估資料有沒有意義所造成的問題。了解什麼是特設假設,就能理解證偽邏輯的思考模式:排除所有可以解釋原因的特設假設之後,剩下的就是最有解釋力的理論。特設假設是因果關係的概念推論,設定者儘可能列舉各種特設假設會成立的證據要件,讓統計訊息顯現可以排除的特設假設。以證據為本的實驗科學家,任務是確認手上的資料是否符合特設假設的條件,如果符合,就不能以設定為真的理論解釋原因;如果不符合,才能接受設定為真的理論。假設檢定就是完成判斷任務的統計工具,抱著這個認識,來談談運用工具的問題意識如何產生可靠的知識、錯誤的知識和無法帶來啟發的知識等困境。

一、不虛無的虛無假設

不論你的假設檢定學得好或不好,必定記得最後步驟要根據得到的p值,判斷研究資料是不是符合假設的預期。還有一種情況是因為有完成課程要求而收集資料,並且要進行統計檢定撰寫報告,得到的p值越小似乎代表自己做的研究越成功。不過現在了解特設假設的意義,可知虛無假設就是一種特設假設,p值表示不接受虛無假設但結論錯誤的機率。嚴格來說真正的研究假設是不是成立並不能依據p值的大小判斷,除非研究設計讓研究假設與唯一的特設假設相互對決。然而一個研究主題已經進展到公認只有一種假設能解釋因果關係,通常是有多重虛無假設(或特設假設)要逐步排除。這也是為何許多實驗研究報告不會只有一個實驗,也是心理科學的學習與規劃研究的最大難關。

藉著分析一個語言演化理論的筆戰案例,我在此試著呈現設定研究假設與特設假設對決的複雜性。Hauser、Chomsky與Fitch發表在2002年的「自然」期刊,提出遞迴(recursion)是人類語言獨有成份的假設與支持假設的證據。遞迴是程式設計中常見的名詞,指一道編程(program)輸出的結果自動成為下一步計算的輸入,人類語言中有此結構的認知機制僅限於發語習得,語法(syntax)及特化的語義概念等認知結構適用遞迴運作的機制。Hauser等人將這些設定為狹義語言機關(Faculty of Language Narrow, FLN),只屬人類獨有。其它也是構成人類語言的認知機制,例如語音辦識與詞彙知識,與非語言的心理功能有相同的演化來源,而且是包括人類在內的靈長類動物都能觀察到的認知能力。Hauser等人將這部分稱為廣義語言機關(Faculty of Language Broad, FLB),整理支持兩種機關相互獨立的各種證據,大致如下表所示。

1

如此的區分使心理學者與語言學者可以透過非人類的靈長類動物為研究對象,測試是否有屬於FLB的能力,以及是否沒有屬於FLN的能力。如果研究的是FLB的能力,特設假設就是此能力並非研究對象所有;反之,如果研究的是FLN的能力,特設假設是研究對象能掌握此類能力。這一套證偽邏輯的推理,是Pinker與Jackendoff發表在2005年「認知」期刊的文章批判重點,因為每種能力的各項證據都不足以支持兩種機關之間的區別,他們花了許多篇幅說明每個主題尚且無法排除對應的特設假設為真的可能性。雖然Pinker與Jakendoff沒有提到研究方法與統計分析的術語(有提到虛無假設,但使用的脈絡其實是指特設假設),這兩篇論文照出有證偽邏輯瑕疵的理論推理,會妨害有效研究的設計。

現在可以了解研究設計的優劣在設定對立假設與虛無假設的成立條件時,就已經確定,顯著的結果並非好研究的充分條件。以假設檢定做出結論的報告,除非能確定除了對立假設與虛無假設立之外,沒有第三種解釋結果的可能性,否則必須檢討實驗結果的限制與需要改進的地方。現實的科學研究生態是沒有達到統計顯著性的實驗結果通常很難獲得發表機會,造成兩個方面的問題。一個是原始研究結果無法重現的問題,另一個是本系列第一集提過的「不見天日」效應。前者會傷害科學知識的誠篤性(scientific integrity),後者阻礙科學知識的進展。

二、無法重現的研究 = 不能重覆推翻的特設假設

舉Hauser與Pinker的筆戰為例是有用意的,Hauser違反學術倫理的事件是近年心理學界探討的重大案例之一。根據案件爆發當年(2010)曾志朗院士在科學人雜誌發表的專欄文章,可知事件的引爆點是Hauser的團隊測試猿猴語音辨識能力的實驗,也就是證實是語音辨識是FLB一部分的證據。當時在哈佛大學組織的調查委員會調查過程中,還發生接受爭議論文發表的「認知」(cognition)期刊主編辭職的事件,隔年(2011)調查即將結束時,Hauser主動辭去教授職位,並宣佈致力投入中輟學生的輔導工作,不再參與語言與道德演化的研究。這個動作讓哈佛調查委員會完成報告後,決定不公開發表,當時部落客Neuroskeptic就指出如此一來世人將無法得知全部真相,無法從Hauser的案例學到教訓。

Marc Hauser。圖片來源:Scitable
Marc Hauser。圖片來源:Scitable

不過在撰寫本文的時候(快寫不下去?),2014年5月,不再做研究的Hauser在Frontiers in Psychology發表兩篇回顧性論文(Hauser et al., 2014, Watumull, J. and Hauser, 2014),一篇是自已掛第一作者,而且有2002年一起在「科學」發表論文的Chomsky並列共同作者,主要是整理語言演化的理論主張。另一篇是談論語言演化理論與實驗研究面臨的困難。 也許是沈寂三年突然有論文發表,波士頓致力資訊透明化的公民團體,找出當年調查委員會封存的報告並透露給當地媒體。2014年5月30日的新聞報導透露的報告內容指出,Hauser早期研究的行為反應編碼資料,有部分並非呈現研究對象(猿猴)的實際表現,導致調查小組從實驗錄影重新編碼的行為資料做出不同的統計分析結果,曾經發表的論文並未忠實呈現編碼與行為觀察的不一致,可以確定Hauser為了得到有顯著性的統計結果而變造部分資料。

我認為可以從Hauser與Pinker的筆戰論點能發現讓Hauser鋌而走險的遠因,儘管理論能明確區分相互對立的假設成立的條件(FLB,FLN),非人類對象的實驗會有較大的隨機誤差,可以預期得到的差異效果遠較人類實驗小,不大容易獲得顯著的統計結果,而且相同實驗由不同研究團隊進行也會得到不一致的統計結果。但是限於發表的壓力,對於差一點就顯著的差異效果,很難有不去調整的動機。Hauser的早年研究生涯也面臨這樣的壓力,而且他的實驗方法如果可行,能擴大心理學實驗的研究範疇,這是能功成名就的誘惑,凡人能抵抗者幾希。

三、無法發表的研究 = 很難推翻的特設假設

極少數研究只會有一個特設假設需要推翻,多數研究要經過許多回合的實驗技術與設計的改良,逐一消去各種特設假設,並且實驗效果經過多次重覆,都能得到一致的統計顯著結果,才能得到同行人士的接受。這也表示有理論意義,但是結果未達到統計顯著的實驗,在早期大多面臨被鎖進抽屜的命運,也就是第一篇提到的「不見天日」偏誤(file drawer bias)。比較著名的案例是錯誤記憶的實驗典範DRM效應,這是首見於1959年Deese發表的論文,1994年由Roediger與McDermott改良,成為今天記憶研究者廣泛運用的實驗方法,也改變認知心理學對於記憶的看法。

為何以上提到的兩篇論文相差35年?因為Deese的論文發表後並未在其它心理學者的實驗室裡獲得穩定的重現,相當於被鎖在抽屜多年才得到應有的重視。Hauser與DRM的例子互為極端,都指出即使研究者的點子相同不錯,若實驗結果不能穩定地證實特設假設可被推翻,很難在現代科學知識生產體系中出線。實驗結果的統計顯著性並非是確定某個特設假設可被推翻的指標,而是能不能獲得發表機會的基本門檻。現實情況對科學知識的累積有如雙面刃:有好主意但研究結果不顯著的研究者,冒著造假的風險發表有問題的研究,或著沉潛多年等待被肯定的機會。無論是那一種情況,對於科學知識的進步都是損失,但有沒有方法可以改變現況?最後一篇要介紹現在正在進行的一些方式,還有我對未來研究教學趨勢的想法。

參考文獻

  1. Deese, J. (1959). On the prediction of occurrence of particular verbal intrusions in immediate recall. Journal of Experimental Psychology, 58, 17–22.
  2. Hauser, M. D., Chomsky, N., and Fitch, (2002). The Faculty of Language: What Is It, Who Has It, and How Did It Evolve? Science, 298, 1569-1579. doi: 10.1126/science.298.5598.1569
  3. Hauser MD, Yang C, Berwick RC, Tattersall I, Ryan MJ, Watumull J, Chomsky N and Lewontin RC (2014) The mystery of language evolution. Frontiers in Psychology. 5:401. doi: 10.3389/fpsyg.2014.00401
  4. Roediger, H.L., & McDermott, K. B. (1995). Creating false memories: Remembering words not presented in lists. Journal of Experimental Psychology: Learning, Memory and Cognition, 24(4), 803–814.
  5. Pinker, S., & Jackendoff, R. (2005). The faculty of language: What’s special about it? Cognition, 95, 201-236. doi: 10.1016/j.cognition.2004.08.004
  6. Watumull, J. & Hauser MD, (2014). Conceptual and empirical problems with game theoretic approaches to language evolution. Front. Psychol. 5:226. doi: 10.3389/fpsyg.2014.00226

延伸閱讀

文章難易度
活躍星系核_96
752 篇文章 ・ 79 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia


1

3
0

文字

分享

1
3
0

逼近 50% 的癌症研究實驗無法被重現? RPCB 耗時 8 年點出「再現性危機」

Yiting
・2022/01/14 ・2367字 ・閱讀時間約 4 分鐘

你聽過科學研究的「再現性」(reproducibility)嗎?如果一個科學研究結果具有再現性,代表它可以被另一個研究團隊,以同樣的控制條件、操作步驟進行重複測量,並獲得與前人相近的結果。這也代表著這項實驗是可以被驗證的,該研究的可信度也越高。

近年來,許多領域都開始重視科學研究的再現性問題,例如 2015 年由科學開放平台(Open Science Framework, OSF)發表在《科學》(Science)的一篇心理學實驗再現性的研究,就重複了三個重要的心理學期刊,包括 Psychological ScienceJournal of Personality and Social PsychologyJournal of Experimental Psychology: Learning, Memory, and Cognition 在 2008 年間發表的 100 個研究,結果顯示僅有 36%的研究具有統計顯著性[1]

而在 2016 年刊載於《自然》(Nature)的一篇報導中,團隊以線上問卷調查了 1576 位研究者,發現有超過 70% 的研究者,無法重現其他科學家曾經做過的研究結果;更有超過 50% 研究者無法重現「自己的」研究結果[2]

再現研究論文時,會遇到哪些困難?

同樣的科學研究再現性驗證也出現在生醫領域。一項由 RPCB(Reproducibility Project: Cancer Biology)團隊耗資 200 萬美元、歷時 8 年,嘗試複製各大具影響力的臨床前癌症研究,其結果於去年(2021)12 月發表於 eLife[3]

在看這項研究結果之前,或許我們可以先了解 RPCB 究竟是何方神聖?RPCB 是一個由非營利組織「開放科學中心」(Center for Open Science)與學術平台「科學交流」(Science Exchange),在 2013 年開始合作執行的一項計畫。團隊期望能系統性地重現出 53 篇於 2010~2012 年間,刊登在知名期刊《自然》、《科學》、《細胞》(Cell)中的臨床前癌症相關研究。

cos_logo
非營利組織「開放科學中心」的標誌。圖/RPCB

即使一開始團隊預計重複 53 篇論文中共 193 項實驗,但最終能成功執行的僅有來自 23 篇論文裡的 50 個實驗,且仍使該計畫延宕了五年才完成。為什麼理想這麼豐滿,現實卻如此骨感?研究團隊在論文中提到了幾項實驗再現的困難與挑戰,例如:

  1. 許多原始論文缺少敘述統計(descriptive statistics)和推論統計(inferential statistics)的關鍵數據,像是效果量(effect size)、統計檢定力(power)等資訊,儘管團隊聯繫了原始論文的作者,仍有 68% 的數據無法取得。
  2. 在這 193 項實驗中,沒有一個具有足夠詳細的說明,令團隊能設計出重複的實驗步驟。這使得他們不得不轉向論文原始作者,以尋求更進一步的實驗建議,而在詢問的過程中,約 26% 作者給了極大的幫助,而有約 32% 作者對實驗完全沒幫助(或是無任何回應)。

癌症研究實驗的再現性僅 46%?

在缺乏合作、需要詳細檢查並調整實驗步驟的情況下,研究團隊平均需要花費 197 週的時間才能複製出一項實驗。此外,每複製一次實驗的成本高達 5 萬 3000 美元——大約是原先預估花費的兩倍,因此再現 193 項實驗的雄心壯志終究無法達成。

那麼這項耗時 8 年、斥資百萬的實驗再現性研究,給了我們什麼結果呢?

根據團隊在 eLife 發布的第二篇論文顯示,這些臨床前癌症相關研究的實驗再現性僅有 46%,且平均的統計效果量也比原始論文低了 85%[4]

在這些被再現的實驗中,原始研究效果量大的往往更容易被複製,而動物實驗則是再現性最差的,這可能是因為在生物體內(in vivo)實驗的效果量,大多低於體外(in vitro)實驗。

白色實驗室禮服的女人
RPCB 團隊發現,再現一個實驗需要將近四年的時間,且成本是預想中的兩倍,無法完成 193 項實驗。圖/Pexels

只做一次的再現實驗,公信力足夠嗎?

發表在知名期刊上的臨床前癌症研究論文,其實驗再現性居然不到一半,這對於生物醫學相關領域的研究者來說,無疑是一項沉重的打擊。

不過僅憑一次的再現實驗,就評斷一項研究的公信力,對這些研究者來說公平嗎?其中一位研究無法被 RPCB 再現的學者就表示:「他無法確定這些一次性實驗有多少價值。」而那些被選中重現的實驗,當中也不乏已經開始進行第二期藥物臨床試驗的研究。同時也有研究者指出,RPCB 在複製實驗時使用了與原研究不同的細胞株(cell line),也並未在實驗中進行三重複確認最終結果[5]

有丝分裂, 减数分裂, 细胞, 细胞分裂, 人类, 癌症, 紧急情况, 血, 生物学, 科学, 药品, 健康
若能使用相同細胞株並進行三重複,應該能減少再現實驗的誤差。圖/Pixabay

針對這些指控,RPCB 說明這項計畫的目的,並非藉此斷言某些特定研究是無用,或需要被停止的,而是為了點出現今研究的再現性危機(reproducibility crisis),以期望找出相對應的解方。目前也有一些提升研究再現性的方法被提出,像是以盲性研究(blinding)進行體外實驗或動物實驗、採用更大的樣本量、更嚴謹的統計分析方法,以及研究計畫的預先註冊制度(preregistration)〔註 1〕

雖然這項大型研究充滿著許多爭議,但也提醒了各領域的研究人員:對於自身研究的每個步驟、統計方法等,都應更加詳盡、仔細的記錄。除了能使後人有辦法針對已發表的內容,進行深入探討外,亦可以提升該實驗被再現的可能性,增加研究的公信力。

而看完文章的你,對於科學研究的再現性又有什麼看法呢?

註解

註 1:研究計畫的預註冊是指研究者在進行科學研究之前,先對他提出的假設、方法、分析方式上傳到註冊機構,經由該單位的期刊編輯、同儕審查通過後,再進行研究的一種做法。

參考資料

  1. Open Science Collaboration, Estimating the reproducibility of psychological science, Science, Vol 349, Issue 6251, 2015. https://www.science.org/doi/10.1126/science.aac4716
  2. Monya Baker, 1,500 scientists lift the lid on reproducibility, Nature, volume 533, pages452–454, 2016. https://www.nature.com/articles/533452a
  3. Timothy M Errington et al., Reproducibility in Cancer Biology: Challenges for assessing replicability in preclinical cancer biology, eLife, 2021. https://elifesciences.org/articles/67995
  4. Timothy M Errington et al.,Investigating the replicability of preclinical cancer biology, eLife, 2021. https://elifesciences.org/articles/71601
  5. Asher Mullard, Half of top cancer studies fail high-profile reproducibility effort, Nature, 09 December 2021. https://www.nature.com/articles/d41586-021-03691-0

所有討論 1
Yiting
84 篇文章 ・ 331 位粉絲
在鳳梨田裡唸生科的人類,畢業後意外走上了科普路,目前還在緩慢前行中。喜歡有趣怪知識、諧音爛笑話,還有床。