網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策

0

0
0

文字

分享

0
0
0

演進中的科學研究方法(4/4) – 運用巨量資料評價實驗結果的再現性

活躍星系核_96
・2014/08/08 ・4129字 ・閱讀時間約 8 分鐘 ・SR值 537 ・八年級
Credit:Paul Mison CC BY-NC-SA 2.0
Credit: Paul Mison CC BY-NC-SA 2.0

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

前三篇文章討論難以透過統計分析顯現的實驗效應,有可能是統計分析方法的限制,或者實驗方法還不能穩定再現實驗效應,或者實驗效應本來就很微弱。如果某種實驗效應有明確的理論意義,實際發生的案例故事告訴我們,曾經面對如此困境的研究者,會冒著竄改或假造資料數據的風險,爭取發表的機會,或者坦然面對同儕審查的考驗,投稿數十寒暑皆無法發表的「暗無天日」歲月。無論是那種狀況,對於科學知識的前進,或是科學研究者的生涯進程都是一種損耗。到底有沒有讓微弱但有意義的實驗效應,又能兼顧研究品質與誠信的研究及發表程序?使認真做實驗的研究者可以不走險路,發表再現性經得起同儕考驗的研究呢?

最後這一篇介紹二種有研究者或組織正在嘗試的方式,認識這些方式能理解考自已正在接受的科學新知是在什麼樣的狀況所產生的。因為我自已是從事行為科學領域的研究與教學,介紹的內容侷限於這領域的方法,如果讀者在其它科學領域涉獵已有一定程度,可做個比較,看看能不能從其中獲得啟發。

一、先登錄再現研究(Registered Replication Research)

我曾經在〈可重覆的實驗結果是科學進步的基礎?〉這篇文章介紹兩位心理學者,Rolf ZwaanDaniel Simons,發起並參與先登錄再現研究(Registered Replication Research)的過程所產生的討論,這次一起合作重現Hart與Albarracin於2011年發表在Pscyhological Science的原創性研究。這份研究設計兩篇內容相同的犯罪情節報導,一篇描述嫌疑犯意圖行為的動詞以未完成時貌描寫(imperfect aspect,例如 was doing),另一篇的動詞以完成時貌描寫(perfect aspect,例如did)。參與者隨機閱讀其中一篇報導,接著進行缺字母填空作業(例如將S _ _ P,中間缺少的兩個字母補起來),評估報導中主角的行為動機,或評估報導中犯人與受害者之間的意圖理解。三種評估都顯示閱讀用未完成時貌描寫的報導,參與者的表現分數都高於閱讀另一種報導的參與者,Hart與Albarracin稱此為未完成時貌效應(effect of imperfect aspect)。Zwann與Simons參與的這個專案,就是在不同實驗室以相同的程序及材料,測試此效應的再現性。

寫這篇文章的時候這個專案還在進行中,我的介紹重點放在串連合作研究者的平台:open science framework (以下簡稱OSF),以及參與專案的研究與專業期刊的合作模式。OSF是一家非營利組織,成立於2011年,辦公室位於美國維吉尼亞州Charlottesville,採用github的運作架構,提供註冊的研究者組織合作研究的平台。現在已有結案的研究專案發表正式論文,例如之前我曾介紹的Many Lab Project(Klein et al., 2014)。Zwann與Simons都有參與的這個專案更是採用APS公布的預先登錄研究規劃協議(Pre-registered Protocol,專案成立之初就登錄於psychological science,投稿程序也同時開始,所有共同合作者都是未來通過psychological science的審查程序後,論文的共同作者。

不僅是研究完成後的原始數據,研究準備到執行的過程一切公開透明,不僅可維持研究誠信,因為投稿程序也同時展開,也可以加速實驗完成之後的審查時程。但是這種模式有研究題材的侷限性,最明顯的是專案題目一定要有明確預測結果的假設及實驗效應,因此再現已發表但多數研究者依然質疑的研究是最可能成案的題目,如果研究結果會牽涉科學發現產生的公益之外的利益,例如這篇blog提到的藥物開發研究,能否成案的因素有非科學的商業或政治因素考量。

為了達到參與專案的合作研究者都能在最接近的研究條件進行實驗,像是相同型號的電腦設備,個別差異條件接近的參與者,執行實驗的成本必定不能太高。因為每位合作者擁有的資源條件都不相同,需要高檔配備的神經電位紀錄或腦部活動造影研究,很難達成跨實驗室的共同再現。所以至目前為止經過OSF平台「揪團」的專案,多數是透過網路施測,或在個人電腦進行實驗的研究。而且除非主題有普世性,並非所有有意願的研究者都能合作。當重現Hart與Albarracin的專題開放徵求合作者時,我曾致信詢問專案發起人能否將實驗材料轉換為中文,找母語為中文的人士參與實驗,探討有無動詞時貌效應。果不其然得到無法合作的回覆,不過專案發起人肯定在不同語言文化背景中,探討有沒有存在類似效應的想法,也許中文地區的心理學者可以合作進行一個新的題目。

二、巨量研究(Mega Study)

實驗心理學的巨量研究是一種實驗讓有能力的人類產生反應的所有刺激,分批呈現給參與者,紀錄而得的資料庫,可以說是數個小實驗組合而成的超大型實驗。這種研究方式的概念可以追溯到實驗心理學的祖師爺Wilhelm Wundt,上個世紀末研究字詞閱讀的語言心理學家們開始使用這種方法突破不同小型實驗結果不一致的限制,方法就是請參與實驗的人員,對學過所有的母語詞彙(英語),進行真假詞判斷(Lexicon decision)與朗讀(reading aloud),參與者對每一條字詞的反應時間與錯誤反應,都用規劃好的紀錄方式儲存為資料庫。

在此介紹兩種語言心理學的巨量研究實例。第一種是由單一實驗團隊完成的英文詞彙專案(English Lexicon Project),這是由華盛頓大學聖路易校區的David Balota教授領導的團隊收集815位的參與者對40,481個英文真詞與40,481個英文假詞進行的反應,讓有興趣應用的研究者能檢索這些資料,或者運用有理論意義的拼寫或拼音規則,從資料庫選擇可做小型實驗的詞彙。所以這個專案絕對沒有把所有心理學者的實驗都做盡,反而產生新的實驗操作指標,例如orthographic Levenshtein distance 20 (OLD 20,Yarkoni, Balota, and Yap, 2008)。

這個指標的定義非專業人士要理解會有些困難,但指標帶來的後續研究對科學新知有興趣的人者會想了解。OLD 20是評價英文詞彙之間外形相似度的量尺,如果用中文字類比,OLD 20可以告訴我們「王」與「玉」的外形相似度,和「王」與「主」的外形相似度是不同的,而且可以用數字表達相似的程度。這個指標比只用筆劃或字母的差異的相似度基準,提供更明確的計量尺度,之後引用這個指標的著名研究是法國Grainger教授領導的團隊,進行的狒狒識字實驗(Grainger, Dufau, Montant, Ziegler, and Fagot,  2012),泛科學的編輯也曾做過中文報導,只是不論中英文報導都沒有寫到Grainger教授是用OLD 20挑選給狒狒的實驗材料,以及做為分析狒狒識字反應的指標。如果因為我的解說,能促成研究中文的心理學家挑戰台灣彌猴的識字能力研究,也是不錯的貢獻。

另一種實例是跨實驗室團隊的合作成果,類似先登錄再現研究的模式,但是參與合作者不只關切一種或數種實驗的再現,而是所有能產生反應的刺激,以及長期以來相關的實驗研究因為程序的設定而有不一致的發現,例如呈現刺激的時間控制。語義促發(Semantic priming ,Hutchison et al., 2013)和遮蔽促發(Masked priming,Adelman et al., 2014)是這類代表,兩者都是讓要反應的刺激項目跟在呈現促發項目(probe 或 prime word)之後呈現,測量促發項目與刺激項目有關(例如「護士-醫生」,「蝴蝶-蜜蜂」)與兩者無關產生的反應差異。語義促發的項目之間時間差距較長(至少200毫秒),關聯性的操作以字詞語義為主;遮蔽促發的項目之間時間差距極短(約50毫秒左右),關聯性的操作以字詞外形相似度為主。兩種實驗分別用於探討晚期語義處理與早期知覺歷程,有心理學者提出整合兩者的理論,但直到今天還是以專注於一種歷程的理論與實驗方法的研究最有成果,也累積不少爭議。舉遮蔽促發的一項爭議,有英文字詞辨識是一個字母接著一個字母處理的理論,還是整體一起處理的理論。兩種理論的壁壘分明,傳統同儕審查很可能會使其中一方過度挑另一方的毛病,造成「不見天日」的問題。

Adelman等人合作的遮蔽促發巨量研究就有突破「不見天日」的目的,不僅納入已被兩方廣泛接受的實驗效應,也同時測量有爭議的實驗效應。這種模式可稱為「母雞帶小雞」,不是指學術界大咖帶領小咖,而是再現程度高的穩定實驗效應,與再現程度低但有理論意義的實驗效應放在一起測量。同時也能嘗試小型實驗少用的分析方法,例如這份遮蔽促發的巨量研究是供參與的各實驗室設備與參與者個別差異參數,各式已知的字詞外形相似度指標(如OLD 20),與各種實驗效應的相關性分析,讓其它研究者能探討有爭議的實驗效應為何微弱的原因。

三、新世代的學習思維

實驗結果的可再現性是所有科學知識能被人類記載與傳達的基礎,行為科學的複雜度讓多數理論不易獲得有穩定再現的實驗證據支持,因此有先登錄再現研究與巨量研究的出現,補充小型實驗無法呈現所有可能性的侷限,這系列的前三篇說明這些侷限與研究者設定可驗證假設的否證哲學有關。小型實驗依然是研究者最能掌握的知識工具,這篇文章介紹的例子都顯示先登錄再現研究與巨量研究是開拓新題材的作業模式,大量資料為微弱實驗效應的再現性提供充份的評估,讓需要驗證或不易發表的小型研究有獲得肯定的機會。

傳統學習實驗的設計與分析的方針是再現經典小型實驗效應,著重實驗操作細節的安排與分析方法的演練, 不過缺乏對實驗主題演進的體認。我認為這樣的體認才能刺激學習者產生對知識現狀的了解,並提出新的問題與解決方法。先登錄再現研究不只完整公開研究過程,也強調有意願合作者必須理解參與過程的責任,如果能將這種模式落實於學習或訓練,不但能培養後進研究者鑑賞研究題目的眼光,以及執行研究過程應遵守的誠篤原則。我寫這四篇文章的期許是未來能培養有此見識的科學研究者,這樣的科學家才有能力將自已專攻的知識領域,真正落實在自已身處的社會環境之中。

參考文獻

  1. Adelman, J., Johnson, R., McCormick, S., McKague, M., Kinoshita, S., Bowers, J., . . . Davis, C. (2014). A behavioral database for masked form priming. Behavior Research Methods, 1-16. doi: 10.3758/s13428-013-0442-y
  2. Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B., … Treiman, R. (2007, 12). The English Lexicon Project. Behavior Research Methods,39(3), 445-459. doi: 10.3758/BF03193014
  3. Grainger, J., Dufau, S., Montant, M., Ziegler, J. C., & Fagot, J. (2012, 12). Orthographic Processing in Baboons (Papio papio). Science,336(6078), 245-248. doi: 10.1126/science.1218152
  4. Hart, W., & Albarracin, D. (2011, 12). Learning About What Others Were Doing: Verb Aspect and Attributions of Mundane and Criminal Intent for Past Actions. Psychological Science,22(2), 261-266. doi: 10.1177/0956797610395393
  5. Hutchison, K. A., Balota, D. A., Neely, J. H., Cortese, M. J., Cohen-Shikora, E. R., Tse, C., … Buchanan, E. (2013, 12). The semantic priming project. Behavior Research Methods,45(4), 1099-1114. doi: 10.3758/s13428-012-0304-z
  6. Klein, R. A., Ratliff, K. A., Vianello, M., Adams Jr, R. B., Bahník, Š., Bernstein, M. J., . . . Nosek, B. A. (2014). Investigating Variation in Replicability. Social Psychology, 45(3), 142-152. doi: 10.1027/1864-9335/a000178
  7. Yarkoni, T., Balota, D., & Yap, M. (2008, 12). Moving beyond Coltheart’s N: A new measure of orthographic similarity. Psychonomic Bulletin & Review,15(5), 971-979. doi: 10.3758/PBR.15.5.971

延伸閱讀

文章難易度
活躍星系核_96
752 篇文章 ・ 79 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia


1

3
0

文字

分享

1
3
0

逼近 50% 的癌症研究實驗無法被重現? RPCB 耗時 8 年點出「再現性危機」

Yiting
・2022/01/14 ・2367字 ・閱讀時間約 4 分鐘

你聽過科學研究的「再現性」(reproducibility)嗎?如果一個科學研究結果具有再現性,代表它可以被另一個研究團隊,以同樣的控制條件、操作步驟進行重複測量,並獲得與前人相近的結果。這也代表著這項實驗是可以被驗證的,該研究的可信度也越高。

近年來,許多領域都開始重視科學研究的再現性問題,例如 2015 年由科學開放平台(Open Science Framework, OSF)發表在《科學》(Science)的一篇心理學實驗再現性的研究,就重複了三個重要的心理學期刊,包括 Psychological ScienceJournal of Personality and Social PsychologyJournal of Experimental Psychology: Learning, Memory, and Cognition 在 2008 年間發表的 100 個研究,結果顯示僅有 36%的研究具有統計顯著性[1]

而在 2016 年刊載於《自然》(Nature)的一篇報導中,團隊以線上問卷調查了 1576 位研究者,發現有超過 70% 的研究者,無法重現其他科學家曾經做過的研究結果;更有超過 50% 研究者無法重現「自己的」研究結果[2]

再現研究論文時,會遇到哪些困難?

同樣的科學研究再現性驗證也出現在生醫領域。一項由 RPCB(Reproducibility Project: Cancer Biology)團隊耗資 200 萬美元、歷時 8 年,嘗試複製各大具影響力的臨床前癌症研究,其結果於去年(2021)12 月發表於 eLife[3]

在看這項研究結果之前,或許我們可以先了解 RPCB 究竟是何方神聖?RPCB 是一個由非營利組織「開放科學中心」(Center for Open Science)與學術平台「科學交流」(Science Exchange),在 2013 年開始合作執行的一項計畫。團隊期望能系統性地重現出 53 篇於 2010~2012 年間,刊登在知名期刊《自然》、《科學》、《細胞》(Cell)中的臨床前癌症相關研究。

cos_logo
非營利組織「開放科學中心」的標誌。圖/RPCB

即使一開始團隊預計重複 53 篇論文中共 193 項實驗,但最終能成功執行的僅有來自 23 篇論文裡的 50 個實驗,且仍使該計畫延宕了五年才完成。為什麼理想這麼豐滿,現實卻如此骨感?研究團隊在論文中提到了幾項實驗再現的困難與挑戰,例如:

  1. 許多原始論文缺少敘述統計(descriptive statistics)和推論統計(inferential statistics)的關鍵數據,像是效果量(effect size)、統計檢定力(power)等資訊,儘管團隊聯繫了原始論文的作者,仍有 68% 的數據無法取得。
  2. 在這 193 項實驗中,沒有一個具有足夠詳細的說明,令團隊能設計出重複的實驗步驟。這使得他們不得不轉向論文原始作者,以尋求更進一步的實驗建議,而在詢問的過程中,約 26% 作者給了極大的幫助,而有約 32% 作者對實驗完全沒幫助(或是無任何回應)。

癌症研究實驗的再現性僅 46%?

在缺乏合作、需要詳細檢查並調整實驗步驟的情況下,研究團隊平均需要花費 197 週的時間才能複製出一項實驗。此外,每複製一次實驗的成本高達 5 萬 3000 美元——大約是原先預估花費的兩倍,因此再現 193 項實驗的雄心壯志終究無法達成。

那麼這項耗時 8 年、斥資百萬的實驗再現性研究,給了我們什麼結果呢?

根據團隊在 eLife 發布的第二篇論文顯示,這些臨床前癌症相關研究的實驗再現性僅有 46%,且平均的統計效果量也比原始論文低了 85%[4]

在這些被再現的實驗中,原始研究效果量大的往往更容易被複製,而動物實驗則是再現性最差的,這可能是因為在生物體內(in vivo)實驗的效果量,大多低於體外(in vitro)實驗。

白色實驗室禮服的女人
RPCB 團隊發現,再現一個實驗需要將近四年的時間,且成本是預想中的兩倍,無法完成 193 項實驗。圖/Pexels

只做一次的再現實驗,公信力足夠嗎?

發表在知名期刊上的臨床前癌症研究論文,其實驗再現性居然不到一半,這對於生物醫學相關領域的研究者來說,無疑是一項沉重的打擊。

不過僅憑一次的再現實驗,就評斷一項研究的公信力,對這些研究者來說公平嗎?其中一位研究無法被 RPCB 再現的學者就表示:「他無法確定這些一次性實驗有多少價值。」而那些被選中重現的實驗,當中也不乏已經開始進行第二期藥物臨床試驗的研究。同時也有研究者指出,RPCB 在複製實驗時使用了與原研究不同的細胞株(cell line),也並未在實驗中進行三重複確認最終結果[5]

有丝分裂, 减数分裂, 细胞, 细胞分裂, 人类, 癌症, 紧急情况, 血, 生物学, 科学, 药品, 健康
若能使用相同細胞株並進行三重複,應該能減少再現實驗的誤差。圖/Pixabay

針對這些指控,RPCB 說明這項計畫的目的,並非藉此斷言某些特定研究是無用,或需要被停止的,而是為了點出現今研究的再現性危機(reproducibility crisis),以期望找出相對應的解方。目前也有一些提升研究再現性的方法被提出,像是以盲性研究(blinding)進行體外實驗或動物實驗、採用更大的樣本量、更嚴謹的統計分析方法,以及研究計畫的預先註冊制度(preregistration)〔註 1〕

雖然這項大型研究充滿著許多爭議,但也提醒了各領域的研究人員:對於自身研究的每個步驟、統計方法等,都應更加詳盡、仔細的記錄。除了能使後人有辦法針對已發表的內容,進行深入探討外,亦可以提升該實驗被再現的可能性,增加研究的公信力。

而看完文章的你,對於科學研究的再現性又有什麼看法呢?

註解

註 1:研究計畫的預註冊是指研究者在進行科學研究之前,先對他提出的假設、方法、分析方式上傳到註冊機構,經由該單位的期刊編輯、同儕審查通過後,再進行研究的一種做法。

參考資料

  1. Open Science Collaboration, Estimating the reproducibility of psychological science, Science, Vol 349, Issue 6251, 2015. https://www.science.org/doi/10.1126/science.aac4716
  2. Monya Baker, 1,500 scientists lift the lid on reproducibility, Nature, volume 533, pages452–454, 2016. https://www.nature.com/articles/533452a
  3. Timothy M Errington et al., Reproducibility in Cancer Biology: Challenges for assessing replicability in preclinical cancer biology, eLife, 2021. https://elifesciences.org/articles/67995
  4. Timothy M Errington et al.,Investigating the replicability of preclinical cancer biology, eLife, 2021. https://elifesciences.org/articles/71601
  5. Asher Mullard, Half of top cancer studies fail high-profile reproducibility effort, Nature, 09 December 2021. https://www.nature.com/articles/d41586-021-03691-0

所有討論 1
Yiting
84 篇文章 ・ 331 位粉絲
在鳳梨田裡唸生科的人類,畢業後意外走上了科普路,目前還在緩慢前行中。喜歡有趣怪知識、諧音爛笑話,還有床。