演進中的科學研究方法(3/4) – 假設檢定能衡量研究結果的價值嗎？

Marc Hauser。圖片來源：Scitable

文/ 陳紹慶（慈濟大學人類發展學系專任助理教授）

這一篇要談談證偽邏輯在心理科學研究未充分思考的情況，特別是運用假設檢定評估資料有沒有意義所造成的問題。了解什麼是特設假設，就能理解證偽邏輯的思考模式：排除所有可以解釋原因的特設假設之後，剩下的就是最有解釋力的理論。特設假設是因果關係的概念推論，設定者儘可能列舉各種特設假設會成立的證據要件，讓統計訊息顯現可以排除的特設假設。以證據為本的實驗科學家，任務是確認手上的資料是否符合特設假設的條件，如果符合，就不能以設定為真的理論解釋原因；如果不符合，才能接受設定為真的理論。假設檢定就是完成判斷任務的統計工具，抱著這個認識，來談談運用工具的問題意識如何產生可靠的知識、錯誤的知識和無法帶來啟發的知識等困境。

一、不虛無的虛無假設

不論你的假設檢定學得好或不好，必定記得最後步驟要根據得到的p值，判斷研究資料是不是符合假設的預期。還有一種情況是因為有完成課程要求而收集資料，並且要進行統計檢定撰寫報告，得到的p值越小似乎代表自己做的研究越成功。不過現在了解特設假設的意義，可知虛無假設就是一種特設假設，p值表示不接受虛無假設但結論錯誤的機率。嚴格來說真正的研究假設是不是成立並不能依據p值的大小判斷，除非研究設計讓研究假設與唯一的特設假設相互對決。然而一個研究主題已經進展到公認只有一種假設能解釋因果關係，通常是有多重虛無假設（或特設假設）要逐步排除。這也是為何許多實驗研究報告不會只有一個實驗，也是心理科學的學習與規劃研究的最大難關。

藉著分析一個語言演化理論的筆戰案例，我在此試著呈現設定研究假設與特設假設對決的複雜性。Hauser、Chomsky與Fitch發表在2002年的「自然」期刊，提出遞迴（recursion）是人類語言獨有成份的假設與支持假設的證據。遞迴是程式設計中常見的名詞，指一道編程（program）輸出的結果自動成為下一步計算的輸入，人類語言中有此結構的認知機制僅限於發語習得，語法（syntax）及特化的語義概念等認知結構適用遞迴運作的機制。Hauser等人將這些設定為狹義語言機關（Faculty of Language Narrow, FLN），只屬人類獨有。其它也是構成人類語言的認知機制，例如語音辦識與詞彙知識，與非語言的心理功能有相同的演化來源，而且是包括人類在內的靈長類動物都能觀察到的認知能力。Hauser等人將這部分稱為廣義語言機關（Faculty of Language Broad, FLB），整理支持兩種機關相互獨立的各種證據，大致如下表所示。

-----廣告，請繼續往下閱讀-----

如此的區分使心理學者與語言學者可以透過非人類的靈長類動物為研究對象，測試是否有屬於FLB的能力，以及是否沒有屬於FLN的能力。如果研究的是FLB的能力，特設假設就是此能力並非研究對象所有；反之，如果研究的是FLN的能力，特設假設是研究對象能掌握此類能力。這一套證偽邏輯的推理，是Pinker與Jackendoff發表在2005年「認知」期刊的文章批判重點，因為每種能力的各項證據都不足以支持兩種機關之間的區別，他們花了許多篇幅說明每個主題尚且無法排除對應的特設假設為真的可能性。雖然Pinker與Jakendoff沒有提到研究方法與統計分析的術語（有提到虛無假設，但使用的脈絡其實是指特設假設），這兩篇論文照出有證偽邏輯瑕疵的理論推理，會妨害有效研究的設計。

現在可以了解研究設計的優劣在設定對立假設與虛無假設的成立條件時，就已經確定，顯著的結果並非好研究的充分條件。以假設檢定做出結論的報告，除非能確定除了對立假設與虛無假設立之外，沒有第三種解釋結果的可能性，否則必須檢討實驗結果的限制與需要改進的地方。現實的科學研究生態是沒有達到統計顯著性的實驗結果通常很難獲得發表機會，造成兩個方面的問題。一個是原始研究結果無法重現的問題，另一個是本系列第一集提過的「不見天日」效應。前者會傷害科學知識的誠篤性（scientific integrity），後者阻礙科學知識的進展。

二、無法重現的研究＝不能重覆推翻的特設假設

舉Hauser與Pinker的筆戰為例是有用意的，Hauser違反學術倫理的事件是近年心理學界探討的重大案例之一。根據案件爆發當年（2010）曾志朗院士在科學人雜誌發表的專欄文章，可知事件的引爆點是Hauser的團隊測試猿猴語音辨識能力的實驗，也就是證實是語音辨識是FLB一部分的證據。當時在哈佛大學組織的調查委員會調查過程中，還發生接受爭議論文發表的「認知」（cognition）期刊主編辭職的事件，隔年（2011）調查即將結束時，Hauser主動辭去教授職位，並宣佈致力投入中輟學生的輔導工作，不再參與語言與道德演化的研究。這個動作讓哈佛調查委員會完成報告後，決定不公開發表，當時部落客Neuroskeptic就指出如此一來世人將無法得知全部真相，無法從Hauser的案例學到教訓。

Marc Hauser。圖片來源：Scitable

不過在撰寫本文的時候（快寫不下去？），2014年5月，不再做研究的Hauser在Frontiers in Psychology發表兩篇回顧性論文（Hauser et al., 2014, Watumull, J. and Hauser, 2014），一篇是自已掛第一作者，而且有2002年一起在「科學」發表論文的Chomsky並列共同作者，主要是整理語言演化的理論主張。另一篇是談論語言演化理論與實驗研究面臨的困難。也許是沈寂三年突然有論文發表，波士頓致力資訊透明化的公民團體，找出當年調查委員會封存的報告並透露給當地媒體。2014年5月30日的新聞報導透露的報告內容指出，Hauser早期研究的行為反應編碼資料，有部分並非呈現研究對象（猿猴）的實際表現，導致調查小組從實驗錄影重新編碼的行為資料做出不同的統計分析結果，曾經發表的論文並未忠實呈現編碼與行為觀察的不一致，可以確定Hauser為了得到有顯著性的統計結果而變造部分資料。

-----廣告，請繼續往下閱讀-----

我認為可以從Hauser與Pinker的筆戰論點能發現讓Hauser鋌而走險的遠因，儘管理論能明確區分相互對立的假設成立的條件（FLB,FLN），非人類對象的實驗會有較大的隨機誤差，可以預期得到的差異效果遠較人類實驗小，不大容易獲得顯著的統計結果，而且相同實驗由不同研究團隊進行也會得到不一致的統計結果。但是限於發表的壓力，對於差一點就顯著的差異效果，很難有不去調整的動機。Hauser的早年研究生涯也面臨這樣的壓力，而且他的實驗方法如果可行，能擴大心理學實驗的研究範疇，這是能功成名就的誘惑，凡人能抵抗者幾希。

三、無法發表的研究＝很難推翻的特設假設

極少數研究只會有一個特設假設需要推翻，多數研究要經過許多回合的實驗技術與設計的改良，逐一消去各種特設假設，並且實驗效果經過多次重覆，都能得到一致的統計顯著結果，才能得到同行人士的接受。這也表示有理論意義，但是結果未達到統計顯著的實驗，在早期大多面臨被鎖進抽屜的命運，也就是第一篇提到的「不見天日」偏誤（file drawer bias）。比較著名的案例是錯誤記憶的實驗典範DRM效應，這是首見於1959年Deese發表的論文，1994年由Roediger與McDermott改良，成為今天記憶研究者廣泛運用的實驗方法，也改變認知心理學對於記憶的看法。

為何以上提到的兩篇論文相差35年？因為Deese的論文發表後並未在其它心理學者的實驗室裡獲得穩定的重現，相當於被鎖在抽屜多年才得到應有的重視。Hauser與DRM的例子互為極端，都指出即使研究者的點子相同不錯，若實驗結果不能穩定地證實特設假設可被推翻，很難在現代科學知識生產體系中出線。實驗結果的統計顯著性並非是確定某個特設假設可被推翻的指標，而是能不能獲得發表機會的基本門檻。現實情況對科學知識的累積有如雙面刃：有好主意但研究結果不顯著的研究者，冒著造假的風險發表有問題的研究，或著沉潛多年等待被肯定的機會。無論是那一種情況，對於科學知識的進步都是損失，但有沒有方法可以改變現況？最後一篇要介紹現在正在進行的一些方式，還有我對未來研究教學趨勢的想法。

參考文獻

Deese, J. (1959). On the prediction of occurrence of particular verbal intrusions in immediate recall. Journal of Experimental Psychology, 58, 17–22.
Hauser, M. D., Chomsky, N., and Fitch, (2002). The Faculty of Language: What Is It, Who Has It, and How Did It Evolve? Science, 298, 1569-1579. doi: 10.1126/science.298.5598.1569
Hauser MD, Yang C, Berwick RC, Tattersall I, Ryan MJ, Watumull J, Chomsky N and Lewontin RC (2014) The mystery of language evolution. Frontiers in Psychology. 5:401. doi: 10.3389/fpsyg.2014.00401
Roediger, H.L., & McDermott, K. B. (1995). Creating false memories: Remembering words not presented in lists. Journal of Experimental Psychology: Learning, Memory and Cognition, 24(4), 803–814.
Pinker, S., & Jackendoff, R. (2005). The faculty of language: What’s special about it? Cognition, 95, 201-236. doi: 10.1016/j.cognition.2004.08.004
Watumull, J. & Hauser MD, (2014). Conceptual and empirical problems with game theoretic approaches to language evolution. Front. Psychol. 5:226. doi: 10.3389/fpsyg.2014.00226

延伸閱讀

-----廣告，請繼續往下閱讀-----

活躍星系核

活躍星系核（active galactic nucleus, AGN）是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍，在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。本帳號發表來自各方的投稿。附有資料出處的科學好文，都歡迎你來投稿喔。 Email: contact@pansci.asia