分享本文至 E-mail 信箱

學術引用格式

MLA (點一下全選)

APA (點一下全選)

EndNote(.enw)

演進中的科學研究方法(4/4) – 運用巨量資料評價實驗結果的再現性

Credit:Paul Mison CC BY-NC-SA 2.0

Credit: Paul Mison CC BY-NC-SA 2.0

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

前三篇文章討論難以透過統計分析顯現的實驗效應,有可能是統計分析方法的限制,或者實驗方法還不能穩定再現實驗效應,或者實驗效應本來就很微弱。如果某種實驗效應有明確的理論意義,實際發生的案例故事告訴我們,曾經面對如此困境的研究者,會冒著竄改或假造資料數據的風險,爭取發表的機會,或者坦然面對同儕審查的考驗,投稿數十寒暑皆無法發表的「暗無天日」歲月。無論是那種狀況,對於科學知識的前進,或是科學研究者的生涯進程都是一種損耗。到底有沒有讓微弱但有意義的實驗效應,又能兼顧研究品質與誠信的研究及發表程序?使認真做實驗的研究者可以不走險路,發表再現性經得起同儕考驗的研究呢?

最後這一篇介紹二種有研究者或組織正在嘗試的方式,認識這些方式能理解考自已正在接受的科學新知是在什麼樣的狀況所產生的。因為我自已是從事行為科學領域的研究與教學,介紹的內容侷限於這領域的方法,如果讀者在其它科學領域涉獵已有一定程度,可做個比較,看看能不能從其中獲得啟發。

一、先登錄再現研究(Registered Replication Research)

我曾經在〈可重覆的實驗結果是科學進步的基礎?〉這篇文章介紹兩位心理學者,Rolf ZwaanDaniel Simons,發起並參與先登錄再現研究(Registered Replication Research)的過程所產生的討論,這次一起合作重現Hart與Albarracin於2011年發表在Pscyhological Science的原創性研究。這份研究設計兩篇內容相同的犯罪情節報導,一篇描述嫌疑犯意圖行為的動詞以未完成時貌描寫(imperfect aspect,例如 was doing),另一篇的動詞以完成時貌描寫(perfect aspect,例如did)。參與者隨機閱讀其中一篇報導,接著進行缺字母填空作業(例如將S _ _ P,中間缺少的兩個字母補起來),評估報導中主角的行為動機,或評估報導中犯人與受害者之間的意圖理解。三種評估都顯示閱讀用未完成時貌描寫的報導,參與者的表現分數都高於閱讀另一種報導的參與者,Hart與Albarracin稱此為未完成時貌效應(effect of imperfect aspect)。Zwann與Simons參與的這個專案,就是在不同實驗室以相同的程序及材料,測試此效應的再現性。

寫這篇文章的時候這個專案還在進行中,我的介紹重點放在串連合作研究者的平台:open science framework (以下簡稱OSF),以及參與專案的研究與專業期刊的合作模式。OSF是一家非營利組織,成立於2011年,辦公室位於美國維吉尼亞州Charlottesville,採用github的運作架構,提供註冊的研究者組織合作研究的平台。現在已有結案的研究專案發表正式論文,例如之前我曾介紹的Many Lab Project(Klein et al., 2014)。Zwann與Simons都有參與的這個專案更是採用APS公布的預先登錄研究規劃協議(Pre-registered Protocol,專案成立之初就登錄於psychological science,投稿程序也同時開始,所有共同合作者都是未來通過psychological science的審查程序後,論文的共同作者。

不僅是研究完成後的原始數據,研究準備到執行的過程一切公開透明,不僅可維持研究誠信,因為投稿程序也同時展開,也可以加速實驗完成之後的審查時程。但是這種模式有研究題材的侷限性,最明顯的是專案題目一定要有明確預測結果的假設及實驗效應,因此再現已發表但多數研究者依然質疑的研究是最可能成案的題目,如果研究結果會牽涉科學發現產生的公益之外的利益,例如這篇blog提到的藥物開發研究,能否成案的因素有非科學的商業或政治因素考量。

為了達到參與專案的合作研究者都能在最接近的研究條件進行實驗,像是相同型號的電腦設備,個別差異條件接近的參與者,執行實驗的成本必定不能太高。因為每位合作者擁有的資源條件都不相同,需要高檔配備的神經電位紀錄或腦部活動造影研究,很難達成跨實驗室的共同再現。所以至目前為止經過OSF平台「揪團」的專案,多數是透過網路施測,或在個人電腦進行實驗的研究。而且除非主題有普世性,並非所有有意願的研究者都能合作。當重現Hart與Albarracin的專題開放徵求合作者時,我曾致信詢問專案發起人能否將實驗材料轉換為中文,找母語為中文的人士參與實驗,探討有無動詞時貌效應。果不其然得到無法合作的回覆,不過專案發起人肯定在不同語言文化背景中,探討有沒有存在類似效應的想法,也許中文地區的心理學者可以合作進行一個新的題目。

二、巨量研究(Mega Study)

實驗心理學的巨量研究是一種實驗讓有能力的人類產生反應的所有刺激,分批呈現給參與者,紀錄而得的資料庫,可以說是數個小實驗組合而成的超大型實驗。這種研究方式的概念可以追溯到實驗心理學的祖師爺Wilhelm Wundt,上個世紀末研究字詞閱讀的語言心理學家們開始使用這種方法突破不同小型實驗結果不一致的限制,方法就是請參與實驗的人員,對學過所有的母語詞彙(英語),進行真假詞判斷(Lexicon decision)與朗讀(reading aloud),參與者對每一條字詞的反應時間與錯誤反應,都用規劃好的紀錄方式儲存為資料庫。

在此介紹兩種語言心理學的巨量研究實例。第一種是由單一實驗團隊完成的英文詞彙專案(English Lexicon Project),這是由華盛頓大學聖路易校區的David Balota教授領導的團隊收集815位的參與者對40,481個英文真詞與40,481個英文假詞進行的反應,讓有興趣應用的研究者能檢索這些資料,或者運用有理論意義的拼寫或拼音規則,從資料庫選擇可做小型實驗的詞彙。所以這個專案絕對沒有把所有心理學者的實驗都做盡,反而產生新的實驗操作指標,例如orthographic Levenshtein distance 20 (OLD 20,Yarkoni, Balota, and Yap, 2008)。

這個指標的定義非專業人士要理解會有些困難,但指標帶來的後續研究對科學新知有興趣的人者會想了解。OLD 20是評價英文詞彙之間外形相似度的量尺,如果用中文字類比,OLD 20可以告訴我們「王」與「玉」的外形相似度,和「王」與「主」的外形相似度是不同的,而且可以用數字表達相似的程度。這個指標比只用筆劃或字母的差異的相似度基準,提供更明確的計量尺度,之後引用這個指標的著名研究是法國Grainger教授領導的團隊,進行的狒狒識字實驗(Grainger, Dufau, Montant, Ziegler, and Fagot,  2012),泛科學的編輯也曾做過中文報導,只是不論中英文報導都沒有寫到Grainger教授是用OLD 20挑選給狒狒的實驗材料,以及做為分析狒狒識字反應的指標。如果因為我的解說,能促成研究中文的心理學家挑戰台灣彌猴的識字能力研究,也是不錯的貢獻。

另一種實例是跨實驗室團隊的合作成果,類似先登錄再現研究的模式,但是參與合作者不只關切一種或數種實驗的再現,而是所有能產生反應的刺激,以及長期以來相關的實驗研究因為程序的設定而有不一致的發現,例如呈現刺激的時間控制。語義促發(Semantic priming ,Hutchison et al., 2013)和遮蔽促發(Masked priming,Adelman et al., 2014)是這類代表,兩者都是讓要反應的刺激項目跟在呈現促發項目(probe 或 prime word)之後呈現,測量促發項目與刺激項目有關(例如「護士-醫生」,「蝴蝶-蜜蜂」)與兩者無關產生的反應差異。語義促發的項目之間時間差距較長(至少200毫秒),關聯性的操作以字詞語義為主;遮蔽促發的項目之間時間差距極短(約50毫秒左右),關聯性的操作以字詞外形相似度為主。兩種實驗分別用於探討晚期語義處理與早期知覺歷程,有心理學者提出整合兩者的理論,但直到今天還是以專注於一種歷程的理論與實驗方法的研究最有成果,也累積不少爭議。舉遮蔽促發的一項爭議,有英文字詞辨識是一個字母接著一個字母處理的理論,還是整體一起處理的理論。兩種理論的壁壘分明,傳統同儕審查很可能會使其中一方過度挑另一方的毛病,造成「不見天日」的問題。

Adelman等人合作的遮蔽促發巨量研究就有突破「不見天日」的目的,不僅納入已被兩方廣泛接受的實驗效應,也同時測量有爭議的實驗效應。這種模式可稱為「母雞帶小雞」,不是指學術界大咖帶領小咖,而是再現程度高的穩定實驗效應,與再現程度低但有理論意義的實驗效應放在一起測量。同時也能嘗試小型實驗少用的分析方法,例如這份遮蔽促發的巨量研究是供參與的各實驗室設備與參與者個別差異參數,各式已知的字詞外形相似度指標(如OLD 20),與各種實驗效應的相關性分析,讓其它研究者能探討有爭議的實驗效應為何微弱的原因。

三、新世代的學習思維

實驗結果的可再現性是所有科學知識能被人類記載與傳達的基礎,行為科學的複雜度讓多數理論不易獲得有穩定再現的實驗證據支持,因此有先登錄再現研究與巨量研究的出現,補充小型實驗無法呈現所有可能性的侷限,這系列的前三篇說明這些侷限與研究者設定可驗證假設的否證哲學有關。小型實驗依然是研究者最能掌握的知識工具,這篇文章介紹的例子都顯示先登錄再現研究與巨量研究是開拓新題材的作業模式,大量資料為微弱實驗效應的再現性提供充份的評估,讓需要驗證或不易發表的小型研究有獲得肯定的機會。

傳統學習實驗的設計與分析的方針是再現經典小型實驗效應,著重實驗操作細節的安排與分析方法的演練, 不過缺乏對實驗主題演進的體認。我認為這樣的體認才能刺激學習者產生對知識現狀的了解,並提出新的問題與解決方法。先登錄再現研究不只完整公開研究過程,也強調有意願合作者必須理解參與過程的責任,如果能將這種模式落實於學習或訓練,不但能培養後進研究者鑑賞研究題目的眼光,以及執行研究過程應遵守的誠篤原則。我寫這四篇文章的期許是未來能培養有此見識的科學研究者,這樣的科學家才有能力將自已專攻的知識領域,真正落實在自已身處的社會環境之中。

參考文獻

  1. Adelman, J., Johnson, R., McCormick, S., McKague, M., Kinoshita, S., Bowers, J., . . . Davis, C. (2014). A behavioral database for masked form priming. Behavior Research Methods, 1-16. doi: 10.3758/s13428-013-0442-y
  2. Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B., … Treiman, R. (2007, 12). The English Lexicon Project. Behavior Research Methods,39(3), 445-459. doi: 10.3758/BF03193014
  3. Grainger, J., Dufau, S., Montant, M., Ziegler, J. C., & Fagot, J. (2012, 12). Orthographic Processing in Baboons (Papio papio). Science,336(6078), 245-248. doi: 10.1126/science.1218152
  4. Hart, W., & Albarracin, D. (2011, 12). Learning About What Others Were Doing: Verb Aspect and Attributions of Mundane and Criminal Intent for Past Actions. Psychological Science,22(2), 261-266. doi: 10.1177/0956797610395393
  5. Hutchison, K. A., Balota, D. A., Neely, J. H., Cortese, M. J., Cohen-Shikora, E. R., Tse, C., … Buchanan, E. (2013, 12). The semantic priming project. Behavior Research Methods,45(4), 1099-1114. doi: 10.3758/s13428-012-0304-z
  6. Klein, R. A., Ratliff, K. A., Vianello, M., Adams Jr, R. B., Bahník, Š., Bernstein, M. J., . . . Nosek, B. A. (2014). Investigating Variation in Replicability. Social Psychology, 45(3), 142-152. doi: 10.1027/1864-9335/a000178
  7. Yarkoni, T., Balota, D., & Yap, M. (2008, 12). Moving beyond Coltheart’s N: A new measure of orthographic similarity. Psychonomic Bulletin & Review,15(5), 971-979. doi: 10.3758/PBR.15.5.971

延伸閱讀

關於作者

活躍星系核

活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。