0

0
0

文字

分享

0
0
0

演進中的科學研究方法(4/4) – 運用巨量資料評價實驗結果的再現性

活躍星系核_96
・2014/08/08 ・4129字 ・閱讀時間約 8 分鐘 ・SR值 537 ・八年級

Credit:Paul Mison CC BY-NC-SA 2.0
Credit: Paul Mison CC BY-NC-SA 2.0

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

前三篇文章討論難以透過統計分析顯現的實驗效應,有可能是統計分析方法的限制,或者實驗方法還不能穩定再現實驗效應,或者實驗效應本來就很微弱。如果某種實驗效應有明確的理論意義,實際發生的案例故事告訴我們,曾經面對如此困境的研究者,會冒著竄改或假造資料數據的風險,爭取發表的機會,或者坦然面對同儕審查的考驗,投稿數十寒暑皆無法發表的「暗無天日」歲月。無論是那種狀況,對於科學知識的前進,或是科學研究者的生涯進程都是一種損耗。到底有沒有讓微弱但有意義的實驗效應,又能兼顧研究品質與誠信的研究及發表程序?使認真做實驗的研究者可以不走險路,發表再現性經得起同儕考驗的研究呢?

最後這一篇介紹二種有研究者或組織正在嘗試的方式,認識這些方式能理解考自已正在接受的科學新知是在什麼樣的狀況所產生的。因為我自已是從事行為科學領域的研究與教學,介紹的內容侷限於這領域的方法,如果讀者在其它科學領域涉獵已有一定程度,可做個比較,看看能不能從其中獲得啟發。

一、先登錄再現研究(Registered Replication Research)

我曾經在〈可重覆的實驗結果是科學進步的基礎?〉這篇文章介紹兩位心理學者,Rolf ZwaanDaniel Simons,發起並參與先登錄再現研究(Registered Replication Research)的過程所產生的討論,這次一起合作重現Hart與Albarracin於2011年發表在Pscyhological Science的原創性研究。這份研究設計兩篇內容相同的犯罪情節報導,一篇描述嫌疑犯意圖行為的動詞以未完成時貌描寫(imperfect aspect,例如 was doing),另一篇的動詞以完成時貌描寫(perfect aspect,例如did)。參與者隨機閱讀其中一篇報導,接著進行缺字母填空作業(例如將S _ _ P,中間缺少的兩個字母補起來),評估報導中主角的行為動機,或評估報導中犯人與受害者之間的意圖理解。三種評估都顯示閱讀用未完成時貌描寫的報導,參與者的表現分數都高於閱讀另一種報導的參與者,Hart與Albarracin稱此為未完成時貌效應(effect of imperfect aspect)。Zwann與Simons參與的這個專案,就是在不同實驗室以相同的程序及材料,測試此效應的再現性。

-----廣告,請繼續往下閱讀-----

寫這篇文章的時候這個專案還在進行中,我的介紹重點放在串連合作研究者的平台:open science framework (以下簡稱OSF),以及參與專案的研究與專業期刊的合作模式。OSF是一家非營利組織,成立於2011年,辦公室位於美國維吉尼亞州Charlottesville,採用github的運作架構,提供註冊的研究者組織合作研究的平台。現在已有結案的研究專案發表正式論文,例如之前我曾介紹的Many Lab Project(Klein et al., 2014)。Zwann與Simons都有參與的這個專案更是採用APS公布的預先登錄研究規劃協議(Pre-registered Protocol,專案成立之初就登錄於psychological science,投稿程序也同時開始,所有共同合作者都是未來通過psychological science的審查程序後,論文的共同作者。

不僅是研究完成後的原始數據,研究準備到執行的過程一切公開透明,不僅可維持研究誠信,因為投稿程序也同時展開,也可以加速實驗完成之後的審查時程。但是這種模式有研究題材的侷限性,最明顯的是專案題目一定要有明確預測結果的假設及實驗效應,因此再現已發表但多數研究者依然質疑的研究是最可能成案的題目,如果研究結果會牽涉科學發現產生的公益之外的利益,例如這篇blog提到的藥物開發研究,能否成案的因素有非科學的商業或政治因素考量。

為了達到參與專案的合作研究者都能在最接近的研究條件進行實驗,像是相同型號的電腦設備,個別差異條件接近的參與者,執行實驗的成本必定不能太高。因為每位合作者擁有的資源條件都不相同,需要高檔配備的神經電位紀錄或腦部活動造影研究,很難達成跨實驗室的共同再現。所以至目前為止經過OSF平台「揪團」的專案,多數是透過網路施測,或在個人電腦進行實驗的研究。而且除非主題有普世性,並非所有有意願的研究者都能合作。當重現Hart與Albarracin的專題開放徵求合作者時,我曾致信詢問專案發起人能否將實驗材料轉換為中文,找母語為中文的人士參與實驗,探討有無動詞時貌效應。果不其然得到無法合作的回覆,不過專案發起人肯定在不同語言文化背景中,探討有沒有存在類似效應的想法,也許中文地區的心理學者可以合作進行一個新的題目。

二、巨量研究(Mega Study)

實驗心理學的巨量研究是一種實驗讓有能力的人類產生反應的所有刺激,分批呈現給參與者,紀錄而得的資料庫,可以說是數個小實驗組合而成的超大型實驗。這種研究方式的概念可以追溯到實驗心理學的祖師爺Wilhelm Wundt,上個世紀末研究字詞閱讀的語言心理學家們開始使用這種方法突破不同小型實驗結果不一致的限制,方法就是請參與實驗的人員,對學過所有的母語詞彙(英語),進行真假詞判斷(Lexicon decision)與朗讀(reading aloud),參與者對每一條字詞的反應時間與錯誤反應,都用規劃好的紀錄方式儲存為資料庫。

-----廣告,請繼續往下閱讀-----

在此介紹兩種語言心理學的巨量研究實例。第一種是由單一實驗團隊完成的英文詞彙專案(English Lexicon Project),這是由華盛頓大學聖路易校區的David Balota教授領導的團隊收集815位的參與者對40,481個英文真詞與40,481個英文假詞進行的反應,讓有興趣應用的研究者能檢索這些資料,或者運用有理論意義的拼寫或拼音規則,從資料庫選擇可做小型實驗的詞彙。所以這個專案絕對沒有把所有心理學者的實驗都做盡,反而產生新的實驗操作指標,例如orthographic Levenshtein distance 20 (OLD 20,Yarkoni, Balota, and Yap, 2008)。

這個指標的定義非專業人士要理解會有些困難,但指標帶來的後續研究對科學新知有興趣的人者會想了解。OLD 20是評價英文詞彙之間外形相似度的量尺,如果用中文字類比,OLD 20可以告訴我們「王」與「玉」的外形相似度,和「王」與「主」的外形相似度是不同的,而且可以用數字表達相似的程度。這個指標比只用筆劃或字母的差異的相似度基準,提供更明確的計量尺度,之後引用這個指標的著名研究是法國Grainger教授領導的團隊,進行的狒狒識字實驗(Grainger, Dufau, Montant, Ziegler, and Fagot,  2012),泛科學的編輯也曾做過中文報導,只是不論中英文報導都沒有寫到Grainger教授是用OLD 20挑選給狒狒的實驗材料,以及做為分析狒狒識字反應的指標。如果因為我的解說,能促成研究中文的心理學家挑戰台灣彌猴的識字能力研究,也是不錯的貢獻。

另一種實例是跨實驗室團隊的合作成果,類似先登錄再現研究的模式,但是參與合作者不只關切一種或數種實驗的再現,而是所有能產生反應的刺激,以及長期以來相關的實驗研究因為程序的設定而有不一致的發現,例如呈現刺激的時間控制。語義促發(Semantic priming ,Hutchison et al., 2013)和遮蔽促發(Masked priming,Adelman et al., 2014)是這類代表,兩者都是讓要反應的刺激項目跟在呈現促發項目(probe 或 prime word)之後呈現,測量促發項目與刺激項目有關(例如「護士-醫生」,「蝴蝶-蜜蜂」)與兩者無關產生的反應差異。語義促發的項目之間時間差距較長(至少200毫秒),關聯性的操作以字詞語義為主;遮蔽促發的項目之間時間差距極短(約50毫秒左右),關聯性的操作以字詞外形相似度為主。兩種實驗分別用於探討晚期語義處理與早期知覺歷程,有心理學者提出整合兩者的理論,但直到今天還是以專注於一種歷程的理論與實驗方法的研究最有成果,也累積不少爭議。舉遮蔽促發的一項爭議,有英文字詞辨識是一個字母接著一個字母處理的理論,還是整體一起處理的理論。兩種理論的壁壘分明,傳統同儕審查很可能會使其中一方過度挑另一方的毛病,造成「不見天日」的問題。

Adelman等人合作的遮蔽促發巨量研究就有突破「不見天日」的目的,不僅納入已被兩方廣泛接受的實驗效應,也同時測量有爭議的實驗效應。這種模式可稱為「母雞帶小雞」,不是指學術界大咖帶領小咖,而是再現程度高的穩定實驗效應,與再現程度低但有理論意義的實驗效應放在一起測量。同時也能嘗試小型實驗少用的分析方法,例如這份遮蔽促發的巨量研究是供參與的各實驗室設備與參與者個別差異參數,各式已知的字詞外形相似度指標(如OLD 20),與各種實驗效應的相關性分析,讓其它研究者能探討有爭議的實驗效應為何微弱的原因。

-----廣告,請繼續往下閱讀-----

三、新世代的學習思維

實驗結果的可再現性是所有科學知識能被人類記載與傳達的基礎,行為科學的複雜度讓多數理論不易獲得有穩定再現的實驗證據支持,因此有先登錄再現研究與巨量研究的出現,補充小型實驗無法呈現所有可能性的侷限,這系列的前三篇說明這些侷限與研究者設定可驗證假設的否證哲學有關。小型實驗依然是研究者最能掌握的知識工具,這篇文章介紹的例子都顯示先登錄再現研究與巨量研究是開拓新題材的作業模式,大量資料為微弱實驗效應的再現性提供充份的評估,讓需要驗證或不易發表的小型研究有獲得肯定的機會。

傳統學習實驗的設計與分析的方針是再現經典小型實驗效應,著重實驗操作細節的安排與分析方法的演練, 不過缺乏對實驗主題演進的體認。我認為這樣的體認才能刺激學習者產生對知識現狀的了解,並提出新的問題與解決方法。先登錄再現研究不只完整公開研究過程,也強調有意願合作者必須理解參與過程的責任,如果能將這種模式落實於學習或訓練,不但能培養後進研究者鑑賞研究題目的眼光,以及執行研究過程應遵守的誠篤原則。我寫這四篇文章的期許是未來能培養有此見識的科學研究者,這樣的科學家才有能力將自已專攻的知識領域,真正落實在自已身處的社會環境之中。

參考文獻

  1. Adelman, J., Johnson, R., McCormick, S., McKague, M., Kinoshita, S., Bowers, J., . . . Davis, C. (2014). A behavioral database for masked form priming. Behavior Research Methods, 1-16. doi: 10.3758/s13428-013-0442-y
  2. Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B., … Treiman, R. (2007, 12). The English Lexicon Project. Behavior Research Methods,39(3), 445-459. doi: 10.3758/BF03193014
  3. Grainger, J., Dufau, S., Montant, M., Ziegler, J. C., & Fagot, J. (2012, 12). Orthographic Processing in Baboons (Papio papio). Science,336(6078), 245-248. doi: 10.1126/science.1218152
  4. Hart, W., & Albarracin, D. (2011, 12). Learning About What Others Were Doing: Verb Aspect and Attributions of Mundane and Criminal Intent for Past Actions. Psychological Science,22(2), 261-266. doi: 10.1177/0956797610395393
  5. Hutchison, K. A., Balota, D. A., Neely, J. H., Cortese, M. J., Cohen-Shikora, E. R., Tse, C., … Buchanan, E. (2013, 12). The semantic priming project. Behavior Research Methods,45(4), 1099-1114. doi: 10.3758/s13428-012-0304-z
  6. Klein, R. A., Ratliff, K. A., Vianello, M., Adams Jr, R. B., Bahník, Š., Bernstein, M. J., . . . Nosek, B. A. (2014). Investigating Variation in Replicability. Social Psychology, 45(3), 142-152. doi: 10.1027/1864-9335/a000178
  7. Yarkoni, T., Balota, D., & Yap, M. (2008, 12). Moving beyond Coltheart’s N: A new measure of orthographic similarity. Psychonomic Bulletin & Review,15(5), 971-979. doi: 10.3758/PBR.15.5.971

延伸閱讀

文章難易度
活躍星系核_96
752 篇文章 ・ 126 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

1

0
1

文字

分享

1
0
1
傳說「吃鳳梨可對抗飛蚊症」,這個「研究結果」搞錯了些什麼?
Mr. S
・2019/05/30 ・4002字 ・閱讀時間約 8 分鐘 ・SR值 543 ・八年級

最近幾日,一篇有關吃鳳梨可以減緩或消滅飛蚊症的文章在各個社群媒體瘋傳,大概看了不下五則貼文,覺得實在不對勁,就看了一下原始論文。不看不知道,一看不得了,這實在不是一個嚴謹的研究,研究結果必須要打上一個大問號。如果這種似是而非的結論,加上媒體的渲染,可能會造成一些負面結果。至於有哪些懷疑的根據與擔心,就請看下去。

編按:相關的網路新聞如下,族繁不及備載

什麼是飛蚊症?

眼球中有很大部分充滿著無色透明的膠狀物質,稱作玻璃體(vitreous body),正常情況下的玻璃體是澄清的,可以讓光線通過,在視網膜上成象。如果今天因為一些原因,讓玻璃體中的液體不再澄清,有一些懸浮物,就會影響成象,就好像眼前出現一隻打不到的蚊子一樣。

飛蚊症的成因,主要有幾種:玻璃體混濁(有懸浮物)、周邊組織出血流入玻璃體、周邊視網膜破裂、玻璃體後脫離(posterior vitreous detachment,PVD)。

「吃鳳梨可對抗飛蚊症」文章來源

這一篇文章,標題是「Pharmacologic vitreolysis of vitreous floaters by 3-month pineapple supplement in Taiwan: a pilot study」,由輔英科技大學附設醫院眼科主治醫師洪啟庭、大仁科技大學藥學系陳福安、郭代璜、謝博銓教授、陳立材助理教授、中山醫學大學視光學系黃宣瑜教授,另外還有一位作者是政府官員:高雄市社會局長葉壽山;文章發表於 Journal of American Science。

-----廣告,請繼續往下閱讀-----

文章內容:固定吃鳳梨,減少飛蚊症?!

文章中找了共 388 位受試者,分成兩組,一組依照分成玻璃體內懸浮物多寡,再分成兩小組,每天固定吃兩塊 100 克的鳳梨;另一組再分成三小組,分別給予每天 120、240、360 克的鳳梨。兩組每個月各追蹤一次,總共追蹤三個月。最後發現到了第三個月,所有組別的懸浮物數量都有減少,好轉人數比例 54.5% 到 74.2% 不等;玻璃體懸浮物有所減少的人數,與開始吃鳳梨前,呈現顯著減少關係。在討論中,作者也舉了一些關於鳳梨酵素(bromelain,鳳梨蛋白酶)的研究,試圖解釋實驗結果與機轉,最後作者做出以下的宣稱:

  1. 鳳梨酵素可以為人類飛蚊症、PVD 與 玻璃體纖維化帶來新的研究觀點。
  2. 持續食用鳳梨有助於飛蚊症的改善。
  3. 這篇研究是全世界第一篇提出「每日補充鳳梨,可以作為目前飛蚊症常規醫療之外的便宜另類療法」的文章。
    (原文:Our studies revealed that the pineapple supplement every day can offer a cheap alternative to current therapies for the vitreous floaters which is the first report in the world.)

感覺好像期刊論文該有的格式與格局都有了,但是細細一看,其中大有疑竇。

「吃鳳梨可對抗飛蚊症」發表的文章乍看之下格式跟描述像有這麼回事,但其中值得懷疑的點很多。Photo via Good Free Photos

此研究值得懷疑的要點

1. 沒有交代受試者背景

一開始的介紹提到了,造成飛蚊症有許多的原因,其實就連玻璃體混濁,也有許多成因。文章中沒有提到這些飛蚊症患者的病因或背景,就連男女與年紀比例都沒有提到。

-----廣告,請繼續往下閱讀-----

2. 研究缺乏對照組

國小、國中就教過了,做實驗必須要有對照組,才可以知道應變變因和操縱變因之間的關係。簡單來說,如果飛蚊症病人在實驗期間照常生活,但不吃鳳梨三個月,他們的飛蚊症會不會也改善了?這篇文章沒辦法回答。

在醫學研究中,大家可能有聽過安慰劑(placebo),這就屬於一種對照組實驗會使用的方法。另外,如果一開始設計實驗時,就想探究鳳梨的某個特定成分(例如鳳梨酵素)會不會才是改善飛蚊症的主要因子,也可以加入測試,會讓說服力大於僅止在討論章節中進行文獻探討。

3. 統計方法的錯用

在這邊使用了變異數分析(analysis of variance, ANOVA),但以這份資料的型態,一般不會使用 ANOVA 分析。

4. 措辭誇張異常

從文章第一句「 This survey is the first one in world……」,到文章討論也可見「the first report in the world」,似乎作者興奮得想向全世界展示這份研究成果,文中也可見其他似乎不必要的溢美詞句;搭配結果讀來,似乎少了一些期刊的嚴謹性。
如果這篇真的是確確實實的世界 number 1,大可以投到頂尖期刊如《新英格蘭醫學雜誌》(NEJM, IF=79.258)、《刺胳針》(The Lancet, IF=53.254),或者眼科界的頂尖期刊《British Journal of Ophthalmology》(IF=3.384)啊!為何會投在一篇比較少人聽聞的期刊呢?

-----廣告,請繼續往下閱讀-----

5. 許多令人感到不可思議的錯誤

隨便看看,就可以發現不少錯字與格式不一致。

  • 文章一開頭的作者服務單位,中山醫學大學附設醫院被打成了「Chunmg Shan Medical Hospital」,多了一個 m。
  • 表格中的 1st 和 2rd,前者有上標,後者沒有,那到底是要不要上標?
  • 表格中的「3rd」竟然寫成「3th」,原本的 rd 還誤植到 2 那邊!這是國小高年級的英文課內容吧,這種錯誤太不應該。
  • 93 頁尾,Müller and his ci-workers also found……,應該是想寫 co-workers 吧!

文章內幾個謬誤與誇張宣稱部分的截圖與標註。圖/截自原文期刊

6. 期刊編審素質堪憂

看到那麼多的謬誤,除了作者要負一部份責任,期刊編輯也是。一篇被刊出的文章可以被找到那麼多荒謬的錯誤,編輯責無旁貸,也說明了這家期刊的編審素質堪憂。

再看看這期的文章列表頁面,發現這篇文章的標題同時是第 3 篇與第 10 篇,差別就是作者之一的葉壽山局長在第 10 篇被拿掉了;而第 2 和第 5 篇根本是完全一模一樣的文章。這家期刊的編輯還好嗎?把文章重複放在期刊中,是想要衝出版量嗎?

-----廣告,請繼續往下閱讀-----

話說回來,這到底是哪家期刊?

The Journal of American Science 這家期刊自 2005 年創立,到今年也活到了第 15 年。

再來很功利地看看所謂的期刊影響因子(impact factor, IF),這家期刊在 Journal Citation Reports 網站中,沒有找到任何影響因子數字,可能未達收錄標準,實在是和作者那個誇張的宣稱無法匹配。

在查詢過程中發現一件很有趣的事。關於這個期刊的資訊並不多,但另外查到一個名字很像的期刊《American Journal of Science》,成立於 1818 年,是地球科學界的老牌頂尖期刊了,2017 年的 IF 值高達 3.893。看到這邊,是不是要懷疑一下這個《The Journal of American Science》,有沒有可能屬於之前引起廣泛討論的「掠奪型期刊」(predatory journals)?

還真的是掠奪型期刊啊!

掠奪性期刊與出版社,常披著開放取用、出版的理念與經營模式到處邀稿,藉此收入論文處理費,獲取大量的金錢利益。這些期刊大多數重量不重質,缺乏完整的同儕審閱(peer-review)與編審流程,常常是繳了錢,文章就可以被刊登、出版。

-----廣告,請繼續往下閱讀-----

這些掠奪性期刊除了繳錢就可刊之外,名字常常取得跟頂尖期刊一樣,常讓投稿者混淆,最後只好付錢了事,根本就像上了詐騙集團的當一樣。

近年來學界越來越重視掠奪型期刊議題,也統整了一些掠奪性期刊的名冊,可以讓研究者在投稿前先行檢查,以免踩雷。這邊查找了許多人使用的兩個清單:HBI list for Predatory JournalsBeall’s List,發現這個期刊和出版商 Marsland Press 赫然版上有名。

搭啦!原來這個「全世界第一篇」的研究,可能是個詐騙呢!

媒體報導沒有說出來的問題

雖然被我們發現這篇文章可能是個詐騙,但偏偏許多媒體的標題十分吸引注意力,彷彿每天乖乖吃鳳梨就可以扭轉飛蚊症。從前面的幾個質疑,可以知道「每天食用鳳梨」與「改善飛蚊症」之間的因果關係尚不明確(連有沒有關聯都要打上問號),因此可能沒辦法期待每天吃鳳梨三個月之後,眼前打不到的蚊子會因此變少。

-----廣告,請繼續往下閱讀-----

鳳梨雖然含有豐富的維他命 C 與纖維,但也含有比較高的糖份,如果長期、大量食用,可能讓體重悄悄上升。

另外,鳳梨的升糖指數也高(65),而飛蚊症的患者有一大部分是年長者,可能同時有糖尿病,這時候就要非常小心地控制鳳梨的食用量;如果因為看到心無標題就開始大量吃鳳梨,對於血糖控制相當不利,這是看到報導後應該要擔心的。

鳳梨的糖份相對來說比較高,長期大量食用也不太好啊。圖/photo by Claudia caloclau@Pixabay

結語:正視飛蚊症,但別輕信新聞啊

總體而言,有個新聞讓大家正視飛蚊症,或許是件好事,但看到有些不合理的措辭,就要再三小心。

-----廣告,請繼續往下閱讀-----

就算沒有把原始文獻找來看,也應當諮詢醫師,綜合評估後,再考慮是否選擇其他輔助治療措施。

相關資料

期刊原始文獻連結(建議不要邊吃飯邊看,有可能氣到吃不下)

附上熱心網友補充的文章與報導:

 

所有討論 1
Mr. S
5 篇文章 ・ 0 位粉絲
是個喜歡到處看看、隨便想想,不務正業的小勾椎;希望能把知識的可愛美好之處與大家分享。有一方小小儲思盆,歡迎來看看。

0

0
0

文字

分享

0
0
0
演進中的科學研究方法(4/4) – 運用巨量資料評價實驗結果的再現性
活躍星系核_96
・2014/08/08 ・4129字 ・閱讀時間約 8 分鐘 ・SR值 537 ・八年級

Credit:Paul Mison CC BY-NC-SA 2.0
Credit: Paul Mison CC BY-NC-SA 2.0

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

前三篇文章討論難以透過統計分析顯現的實驗效應,有可能是統計分析方法的限制,或者實驗方法還不能穩定再現實驗效應,或者實驗效應本來就很微弱。如果某種實驗效應有明確的理論意義,實際發生的案例故事告訴我們,曾經面對如此困境的研究者,會冒著竄改或假造資料數據的風險,爭取發表的機會,或者坦然面對同儕審查的考驗,投稿數十寒暑皆無法發表的「暗無天日」歲月。無論是那種狀況,對於科學知識的前進,或是科學研究者的生涯進程都是一種損耗。到底有沒有讓微弱但有意義的實驗效應,又能兼顧研究品質與誠信的研究及發表程序?使認真做實驗的研究者可以不走險路,發表再現性經得起同儕考驗的研究呢?

最後這一篇介紹二種有研究者或組織正在嘗試的方式,認識這些方式能理解考自已正在接受的科學新知是在什麼樣的狀況所產生的。因為我自已是從事行為科學領域的研究與教學,介紹的內容侷限於這領域的方法,如果讀者在其它科學領域涉獵已有一定程度,可做個比較,看看能不能從其中獲得啟發。

-----廣告,請繼續往下閱讀-----

一、先登錄再現研究(Registered Replication Research)

我曾經在〈可重覆的實驗結果是科學進步的基礎?〉這篇文章介紹兩位心理學者,Rolf ZwaanDaniel Simons,發起並參與先登錄再現研究(Registered Replication Research)的過程所產生的討論,這次一起合作重現Hart與Albarracin於2011年發表在Pscyhological Science的原創性研究。這份研究設計兩篇內容相同的犯罪情節報導,一篇描述嫌疑犯意圖行為的動詞以未完成時貌描寫(imperfect aspect,例如 was doing),另一篇的動詞以完成時貌描寫(perfect aspect,例如did)。參與者隨機閱讀其中一篇報導,接著進行缺字母填空作業(例如將S _ _ P,中間缺少的兩個字母補起來),評估報導中主角的行為動機,或評估報導中犯人與受害者之間的意圖理解。三種評估都顯示閱讀用未完成時貌描寫的報導,參與者的表現分數都高於閱讀另一種報導的參與者,Hart與Albarracin稱此為未完成時貌效應(effect of imperfect aspect)。Zwann與Simons參與的這個專案,就是在不同實驗室以相同的程序及材料,測試此效應的再現性。

寫這篇文章的時候這個專案還在進行中,我的介紹重點放在串連合作研究者的平台:open science framework (以下簡稱OSF),以及參與專案的研究與專業期刊的合作模式。OSF是一家非營利組織,成立於2011年,辦公室位於美國維吉尼亞州Charlottesville,採用github的運作架構,提供註冊的研究者組織合作研究的平台。現在已有結案的研究專案發表正式論文,例如之前我曾介紹的Many Lab Project(Klein et al., 2014)。Zwann與Simons都有參與的這個專案更是採用APS公布的預先登錄研究規劃協議(Pre-registered Protocol,專案成立之初就登錄於psychological science,投稿程序也同時開始,所有共同合作者都是未來通過psychological science的審查程序後,論文的共同作者。

不僅是研究完成後的原始數據,研究準備到執行的過程一切公開透明,不僅可維持研究誠信,因為投稿程序也同時展開,也可以加速實驗完成之後的審查時程。但是這種模式有研究題材的侷限性,最明顯的是專案題目一定要有明確預測結果的假設及實驗效應,因此再現已發表但多數研究者依然質疑的研究是最可能成案的題目,如果研究結果會牽涉科學發現產生的公益之外的利益,例如這篇blog提到的藥物開發研究,能否成案的因素有非科學的商業或政治因素考量。

為了達到參與專案的合作研究者都能在最接近的研究條件進行實驗,像是相同型號的電腦設備,個別差異條件接近的參與者,執行實驗的成本必定不能太高。因為每位合作者擁有的資源條件都不相同,需要高檔配備的神經電位紀錄或腦部活動造影研究,很難達成跨實驗室的共同再現。所以至目前為止經過OSF平台「揪團」的專案,多數是透過網路施測,或在個人電腦進行實驗的研究。而且除非主題有普世性,並非所有有意願的研究者都能合作。當重現Hart與Albarracin的專題開放徵求合作者時,我曾致信詢問專案發起人能否將實驗材料轉換為中文,找母語為中文的人士參與實驗,探討有無動詞時貌效應。果不其然得到無法合作的回覆,不過專案發起人肯定在不同語言文化背景中,探討有沒有存在類似效應的想法,也許中文地區的心理學者可以合作進行一個新的題目。

-----廣告,請繼續往下閱讀-----

二、巨量研究(Mega Study)

實驗心理學的巨量研究是一種實驗讓有能力的人類產生反應的所有刺激,分批呈現給參與者,紀錄而得的資料庫,可以說是數個小實驗組合而成的超大型實驗。這種研究方式的概念可以追溯到實驗心理學的祖師爺Wilhelm Wundt,上個世紀末研究字詞閱讀的語言心理學家們開始使用這種方法突破不同小型實驗結果不一致的限制,方法就是請參與實驗的人員,對學過所有的母語詞彙(英語),進行真假詞判斷(Lexicon decision)與朗讀(reading aloud),參與者對每一條字詞的反應時間與錯誤反應,都用規劃好的紀錄方式儲存為資料庫。

在此介紹兩種語言心理學的巨量研究實例。第一種是由單一實驗團隊完成的英文詞彙專案(English Lexicon Project),這是由華盛頓大學聖路易校區的David Balota教授領導的團隊收集815位的參與者對40,481個英文真詞與40,481個英文假詞進行的反應,讓有興趣應用的研究者能檢索這些資料,或者運用有理論意義的拼寫或拼音規則,從資料庫選擇可做小型實驗的詞彙。所以這個專案絕對沒有把所有心理學者的實驗都做盡,反而產生新的實驗操作指標,例如orthographic Levenshtein distance 20 (OLD 20,Yarkoni, Balota, and Yap, 2008)。

這個指標的定義非專業人士要理解會有些困難,但指標帶來的後續研究對科學新知有興趣的人者會想了解。OLD 20是評價英文詞彙之間外形相似度的量尺,如果用中文字類比,OLD 20可以告訴我們「王」與「玉」的外形相似度,和「王」與「主」的外形相似度是不同的,而且可以用數字表達相似的程度。這個指標比只用筆劃或字母的差異的相似度基準,提供更明確的計量尺度,之後引用這個指標的著名研究是法國Grainger教授領導的團隊,進行的狒狒識字實驗(Grainger, Dufau, Montant, Ziegler, and Fagot,  2012),泛科學的編輯也曾做過中文報導,只是不論中英文報導都沒有寫到Grainger教授是用OLD 20挑選給狒狒的實驗材料,以及做為分析狒狒識字反應的指標。如果因為我的解說,能促成研究中文的心理學家挑戰台灣彌猴的識字能力研究,也是不錯的貢獻。

另一種實例是跨實驗室團隊的合作成果,類似先登錄再現研究的模式,但是參與合作者不只關切一種或數種實驗的再現,而是所有能產生反應的刺激,以及長期以來相關的實驗研究因為程序的設定而有不一致的發現,例如呈現刺激的時間控制。語義促發(Semantic priming ,Hutchison et al., 2013)和遮蔽促發(Masked priming,Adelman et al., 2014)是這類代表,兩者都是讓要反應的刺激項目跟在呈現促發項目(probe 或 prime word)之後呈現,測量促發項目與刺激項目有關(例如「護士-醫生」,「蝴蝶-蜜蜂」)與兩者無關產生的反應差異。語義促發的項目之間時間差距較長(至少200毫秒),關聯性的操作以字詞語義為主;遮蔽促發的項目之間時間差距極短(約50毫秒左右),關聯性的操作以字詞外形相似度為主。兩種實驗分別用於探討晚期語義處理與早期知覺歷程,有心理學者提出整合兩者的理論,但直到今天還是以專注於一種歷程的理論與實驗方法的研究最有成果,也累積不少爭議。舉遮蔽促發的一項爭議,有英文字詞辨識是一個字母接著一個字母處理的理論,還是整體一起處理的理論。兩種理論的壁壘分明,傳統同儕審查很可能會使其中一方過度挑另一方的毛病,造成「不見天日」的問題。

-----廣告,請繼續往下閱讀-----

Adelman等人合作的遮蔽促發巨量研究就有突破「不見天日」的目的,不僅納入已被兩方廣泛接受的實驗效應,也同時測量有爭議的實驗效應。這種模式可稱為「母雞帶小雞」,不是指學術界大咖帶領小咖,而是再現程度高的穩定實驗效應,與再現程度低但有理論意義的實驗效應放在一起測量。同時也能嘗試小型實驗少用的分析方法,例如這份遮蔽促發的巨量研究是供參與的各實驗室設備與參與者個別差異參數,各式已知的字詞外形相似度指標(如OLD 20),與各種實驗效應的相關性分析,讓其它研究者能探討有爭議的實驗效應為何微弱的原因。

三、新世代的學習思維

實驗結果的可再現性是所有科學知識能被人類記載與傳達的基礎,行為科學的複雜度讓多數理論不易獲得有穩定再現的實驗證據支持,因此有先登錄再現研究與巨量研究的出現,補充小型實驗無法呈現所有可能性的侷限,這系列的前三篇說明這些侷限與研究者設定可驗證假設的否證哲學有關。小型實驗依然是研究者最能掌握的知識工具,這篇文章介紹的例子都顯示先登錄再現研究與巨量研究是開拓新題材的作業模式,大量資料為微弱實驗效應的再現性提供充份的評估,讓需要驗證或不易發表的小型研究有獲得肯定的機會。

傳統學習實驗的設計與分析的方針是再現經典小型實驗效應,著重實驗操作細節的安排與分析方法的演練, 不過缺乏對實驗主題演進的體認。我認為這樣的體認才能刺激學習者產生對知識現狀的了解,並提出新的問題與解決方法。先登錄再現研究不只完整公開研究過程,也強調有意願合作者必須理解參與過程的責任,如果能將這種模式落實於學習或訓練,不但能培養後進研究者鑑賞研究題目的眼光,以及執行研究過程應遵守的誠篤原則。我寫這四篇文章的期許是未來能培養有此見識的科學研究者,這樣的科學家才有能力將自已專攻的知識領域,真正落實在自已身處的社會環境之中。

參考文獻

  1. Adelman, J., Johnson, R., McCormick, S., McKague, M., Kinoshita, S., Bowers, J., . . . Davis, C. (2014). A behavioral database for masked form priming. Behavior Research Methods, 1-16. doi: 10.3758/s13428-013-0442-y
  2. Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B., … Treiman, R. (2007, 12). The English Lexicon Project. Behavior Research Methods,39(3), 445-459. doi: 10.3758/BF03193014
  3. Grainger, J., Dufau, S., Montant, M., Ziegler, J. C., & Fagot, J. (2012, 12). Orthographic Processing in Baboons (Papio papio). Science,336(6078), 245-248. doi: 10.1126/science.1218152
  4. Hart, W., & Albarracin, D. (2011, 12). Learning About What Others Were Doing: Verb Aspect and Attributions of Mundane and Criminal Intent for Past Actions. Psychological Science,22(2), 261-266. doi: 10.1177/0956797610395393
  5. Hutchison, K. A., Balota, D. A., Neely, J. H., Cortese, M. J., Cohen-Shikora, E. R., Tse, C., … Buchanan, E. (2013, 12). The semantic priming project. Behavior Research Methods,45(4), 1099-1114. doi: 10.3758/s13428-012-0304-z
  6. Klein, R. A., Ratliff, K. A., Vianello, M., Adams Jr, R. B., Bahník, Š., Bernstein, M. J., . . . Nosek, B. A. (2014). Investigating Variation in Replicability. Social Psychology, 45(3), 142-152. doi: 10.1027/1864-9335/a000178
  7. Yarkoni, T., Balota, D., & Yap, M. (2008, 12). Moving beyond Coltheart’s N: A new measure of orthographic similarity. Psychonomic Bulletin & Review,15(5), 971-979. doi: 10.3758/PBR.15.5.971

延伸閱讀

文章難易度
活躍星系核_96
752 篇文章 ・ 126 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

0
0

文字

分享

0
0
0
華萊士難題:演化,是否停格在人類頭上?——《你不知道我們有多聰明》
PanSci_96
・2017/12/21 ・5947字 ・閱讀時間約 12 分鐘 ・SR值 538 ・八年級

-----廣告,請繼續往下閱讀-----

新創世論雖然沒有明確表明,但它假定演化已停格在人類頭上。圖/Valerie@Flickr

由於中斷觀點(discontinuity stance)本質上屬於前演化(pre-evolutionary),我就直接把它稱為新創世論(Neo-Creationism)吧。千萬別把新創世論和智能設計論(Intelligent Design)混為一談,後者只是舊瓶裝新酒的創世論。新創世論比較巧妙,因為它接受了半套的演化論,其中新教條是我們的身體演化自猿類,但是我們的心智並非如此。雖然沒有明確表明,但它假定演化已停格在人類頭上。

在許多社會科學、哲學和人文學科領域,這種想法依然普遍。新創世論認為人類心智是如此原創,除了為其確立特殊地位之外,將人類心智與其他動物相比並沒有任何意義。既然明明沒有能夠比較之處,我們為何還需要關心其他物種?這種跳躍式觀點是基於人類必定在演化過程中發生了重大變化而與猿類分道揚鑣,這個過程可能是在近幾百萬年間。儘管這種神奇變化籠罩著神祕色彩,但今日已被授予一個專有名詞--「人化作用」(hominization),其中經常伴隨了火花、間隔和鴻溝等詞彙。該領域的現代學者顯然不敢提到什麼神聖的火花,更不敢說「特殊創造論」(special creation),但仍然很難撇除此一立場背後的宗教影響。

在生物學中,「演化停格在人類頭上」的概念被稱為華萊士難題。

一顆能譜曲、算數的大腦,是生存必需的嗎?

艾爾弗雷德.羅素.華萊士(Alfred Russel Wallace)是與達爾文生活在同一時代的偉大英國自然學家,被認為與達爾文同是天擇演化的發想者。事實上,天擇的概念也被稱為達爾文-華萊士理論。儘管華萊士毫無疑問地支持演化論,但是他為人類心智領域畫上一條界線。他對所謂的「人類尊嚴」抱持強烈情感,無法忍受拿猿類來與人類做比較。達爾文認為,所有特徵都是功利主義的產物,只有生存才是真正的必要條件,但華萊士認為此規則必定有例外—-那就是人的心智。

-----廣告,請繼續往下閱讀-----

大腦裡有音樂,對我們的祖先來說有助於生存嗎?圖/giphy

為何生活單純的人類,需要一顆能夠譜寫交響樂或計算數學的大腦?他寫道:「天擇,只賦予野蠻人稍微優於猿類的大腦,然而,也許這些野蠻人實際上擁有一顆不輸上流社會人士的大腦。」在東南亞旅行期間,華萊士開始對非使用文字的民族產生高度敬重,他認為我們之間「沒有差多少」的觀念,在當時盛行的種族主義觀點下是一項重大進展,當時認為這些野蠻民族的智力介於猿類和西方國家人民之間。雖然華萊士並無宗教信仰,但他將人類的高超智力歸因於「看不見的精神世界」。他認為人的靈魂幾乎無從解釋。達爾文對於看到他所尊敬的同僚援引上帝之手(無論以何種方式呈現)深感不安。他覺得根本不需要任何超自然的解釋,可是華萊士難題仍然潛伏在學術界四周,意圖讓人類心智擺脫生物學的束縛。

我最近前往聆聽一位著名哲學家的演講,聽眾大多為「意識」主題慕名而來,沒想到他在演講時突然提及人類在這方面「明顯」遠高於其他物種。我感到疑惑而搔了搔頭,這樣的說法代表他對於靈長類動物的看法其實有著矛盾,因為這位哲學家給人們的印象是正試圖尋找意識演化的成因。演講中,他提到大腦存在龐大的交互作用,指出意識源於神經相連的數量和複雜度。有位機器人專家也說過類似的話,認為如果電腦擁有足夠數量的微晶片,必定會出現類似意識的現象。我頗為願意相信這番言論,只是目前似乎無人知道如何從連結中產生意識,也不確定意識到底是什麼。

萬物之靈的大腦,有什麼特別的嗎?

若是把重點放在神經的連結,我不禁懷疑要如何看待腦部比人類的 1.35 kg 還重的動物。海豚的腦有 1.5 kg 重、大象 4 kg 、抹香鯨 8 kg,難道這些動物比我們「更有意識」嗎?還是該取決於神經元的數量?我們在這方面的了解還不足。過去我們一直以為,即使不考慮腦的大小,人類腦部的神經元數量是所有物種中最多的,後來發現大象腦部神經元的數量是我們的三倍-—高達兩千五百七十億個。不過,這些神經元的分布位置與我們有異,大象的神經元多分布在小腦。厚皮動物(如大象)的腦部如此巨大,有人推測其中的連結分布非常廣泛,就像額外加上的高速公路系統,大大增加複雜度。

-----廣告,請繼續往下閱讀-----

大象腦部的神經元竟然比「萬物之靈」還多?!圖/pixabay

面對人類腦部,我們往往強調被譽為理性所在的額葉(frontal lobe),但額葉在最新的解剖報告中並沒有那麼特別。目前,研究人員認為人類腦部是靈長類動物的「線性放大」,這表示人類不同腦區的大小比例和靈長類動物並無不同。總而言之,神經連結的差別似乎不足以支持人類獨特性的論點。如果我們真的能找到測量意識的方法,可能還會發現到意識是很普遍的現象,在那之前,我們可以參考達爾文提出的某些理論。

我並非否認人類的獨特性,在某些方面我們確實具有獨特性。不過,若是抱持這樣的假設看待所有生物的認知能力,我們便將遠離科學領域而進入信仰範疇。身為任職於心理學系的生物學家,我通常以不同方式探究這個問題。生物學、神經科學和醫學領域都默認了連續性(continuity)。若非如此,治療人類恐懼症時,為何要在實驗室研究大鼠杏仁核(amygdala)對於恐懼的反應?能如此實驗的前提,當然就是所有哺乳類動物的腦部皆相似。對這些領域而言,所有物種間的連續性是理所當然的,就算人類有多麼重要,也不過是全體自然界裡的一點塵埃。

心理學領域正逐漸朝向這個方向發展,但其他社會和人文科學仍然抱持傳統的不連續性假設,所以我每次在面對這些觀眾的演講中都會強調這一點。我的演講難免會提到人類與其他人科動物的相似之處(但也不是每次都會提到),聽眾每每不約而同地問道:「那麼,身而為人到底有什麼特別呢?」以「那麼」做為問題的起頭,就是想把人類與其他物種的所有相似性都推到一旁,並且只想突顯我們和其他物種有何不同。我通常會用冰山的譬喻回答此類問題,描述我們和靈長類親戚之間在認知、情感和行為上存在龐大的相似度,但當然也有類似冰山一角的差異。自然科學領域試圖理解整座冰山,然而其他學科比較想要從冰山的頂端開始研究。

-----廣告,請繼續往下閱讀-----

人是什麼?

西方國家迷戀這座冰山一角已久,而且還沒有要停止的跡象。人類的獨特總是被視為正面,甚至是高貴,但真要說出幾個不光彩的特點也沒想像中困難。我們一直在尋找人類的「獨特之處」,無論是拇指對生、合作、幽默、純粹的利他主義、性高潮、語言或是喉部結構。這個現象的源頭也許起始於柏拉圖(Plato)和第歐根尼(Diogenes)的辯論,他們試圖找出最簡潔的人類定義。柏拉圖提出人類是唯一的無毛兩足行走動物,但這個定義很快就被反駁了,當時第歐根尼帶了一隻毛被拔光的雞到柏拉圖的講學地點,一到柏拉圖面前,他便放手讓雞走路並說道:「瞧!我給你帶個人來。」人類的定義因此多添加了一條:「擁有寬指甲」。

一七八四年,約翰.沃夫岡.馮.歌德(Johann Wolfgang von Goethe)興奮地宣稱自己找到了人類生物學起源的證據:一小塊人類上顎骨頭,被稱為「頷間骨」(os intermaxillare)。雖然所有包括猿類在內的哺乳類動物都有這塊骨頭,但在此之前一直未能在人類身上找到,因此始終被解剖學家標誌為「較原始的」骨頭。人類也總是把身上找不到這塊骨頭視為值得自豪的現象。身為詩人的歌德也是一位自然科學家,他非常高興能找到這塊與哺乳類動物共享的原始骨頭,就此讓人類與自然界其他物種連結起來。歌德在達爾文提出演化論前的一個世紀就有這種想法,顯示演化概念已經醞釀許久。

直到今日,連續性和例外主義(exceptionalism)之間的張力依然存在,人類的獨特之處一次次地被點出,再一次次地被反駁。就像剛剛提到的頷間骨,人類獨特性的主張通常會歷經四個階段:言論會不停地被傳頌,隨後有人提出新證據反駁,該主張開始逐漸沒落,最後一腳踏進不光彩的墳墓。我常常覺得被這些主觀的論點打擊,這種吸引大眾目光的人類獨特性論點不知從何而來,大家好像也都忘了我們以前根本不覺得這些特質有什麼問題。

達爾文因其提出的理論衝擊了人類與動物之間的界線,因而被畫成猿諷刺。圖/jwyg@Flickr

-----廣告,請繼續往下閱讀-----

例如,在英語當中(其他語言也是如此),模仿行為的動詞常常用到我們的動物近親,暗示當時認為動物會模仿沒什麼大不了,而且這些行為由人類和猿類所共享。不過,當模仿被重新定義為是複雜的認知行為(也就是「真正的模仿」,”true imitation”),突然間,人類搖身一變成為唯一能掌握這種能力的物種。

這些論點的奇異共識是:「人類是唯一能模仿的猿類」。另一個例子關於心智理論,心智理論其實最早源自於靈長類動物研究。某種程度上,它曾經被重新定義成猿類沒有心智功能。定義與重新定義的循環讓我想起《週六夜現場》節目裡喬恩.洛維茲(Jon Lovitz)扮演的角色,他一直期待能合理化自己的行為,因此不停地思索和尋找理由,直到他能相信自己,於是帶著滿足的假笑說:「是的!這正是我要的!」

討論技術能力時也發生過同樣狀況。早期的印刷品和繪畫通常會將猿類描繪成手持拐杖或其他道具,最令人難忘的圖片是在卡爾.林奈(Carl Linnaeus)於一七三五年出版的《自然系統》(Systema Naturae)。猿類會使用工具眾所皆知,當時也從沒出現過一點爭議。二十世紀時,人類學家將工具使用提升為智力的跡象,因此提出這些藝術家讓牠們手持工具的原因,可能只是想要讓牠們看起來更像人類。此後,猿類的工具使用技術便飽受審視和質疑,甚至是嘲笑,而發生在人類身上的同樣能力則被推舉為智力超群的證明。

正是在這種歷史背景下,發現(或重新發現)野生猿類會使用工具的現象才會如此令人震驚,但人類學家仍試圖淡化其重要性。我聽過他們表示,黑猩猩可能是向人類學會如何使用工具,彷彿向人類學習使用工具會比自己發展出工具更為容易。這個提議顯然還沒碰到把模仿能力視為人類特有行為的論點。當李奇說我們不是選擇把黑猩猩當成人類,不然就得重新定義人類或重新定義工具,科學家總是直接擁抱第二個選項。重新定義人類永遠不會過時,每當我們找出一個新的特質時就會歡呼:「是的!這正是我要的!」

-----廣告,請繼續往下閱讀-----

比起宣稱只有人類的胸腔會跳動(這其實是所有靈長類動物的特點),更過分的是貶低其他物種。嗯,被貶低的不只有其他物種,認為白種男性的基因優於其他人種的觀點也是歷史悠久。種族優勝主義(ethnic triumphalism)的信念延伸至我們自身物種,於是有人會取笑尼安德塔人(Neanderthal)是頭腦簡單的野蠻人。不過,我們現在已經知道尼安德塔人的腦容量還比我們稍微大一點,我們的部分基因亦來自他們,而且他們擁有使用火、懂得墓葬、使用手斧和樂器等能力。即使尼安德塔人最終也許會獲得一點尊重,但每當談到猿類時,我們仍然充滿蔑視。

二○一三年,英國廣播公司(BBC)在其網站調查「您是否和黑猩猩一樣笨?」。我很好奇他們是如何確立黑猩猩的智力程度。後來發現該網頁(之後被移除了)只包含有關人類世界事務的測試,跟黑猩猩一點關係也沒有,標題如此只是想要與人類對比。不過,為什麼要拿猿類對比呢?為什麼不選擇蝗蟲或金魚?究其原因,顯然假定每個人都相信我們是最聰明的物種,只是很多人並不了解這些物種與我們的親緣關係。熱愛比較人類與其他人科動物的行為反應出我們沒有安全感,這也出現在書名上,例如《不止是黑猩猩》(Not a Chimp)和《只是隻猿類?》(Just Another Ape?)。

表現超過人類的黑猩猩阿步

面對黑猩猩阿步(Ayumu the chimpanzee)的表現,也有人展現同樣的不安。他們在網路上觀看阿步展現才能的影片,要不是不相信,就是認為這純粹是場騙局,或是做出「我不能接受我比黑猩猩還笨!」的評論。美國科學家認為這個實驗冒犯了他們,因此必須接受特殊訓練好擊敗這隻黑猩猩。當主導阿步研究計畫的日本科學家松澤哲郎第一次聽到這種回響時,他把頭靠在手上沉思。以下是維吉尼亞.莫瑞爾(Virginia Morrell)在報導演化認知領域背景時,描述了松澤哲郎的反應:

我真不敢相信他們有這種反應。如你所知,我們透過阿步發現黑猩猩在一種記憶測試中表現得比人類更好。這是黑猩猩能立即做到的事,但也只有這件事做得比人類好而已。我了解這讓有些人感到沮喪,但是現在居然有研究人員想透過訓練變得跟黑猩猩一樣好。我真的不明白為什麼我們必須在所有領域都是最優秀的。

儘管冰山已經開始融化了數十年,態度轉變的程度仍然很有限。我不打算深入探討這些問題,或是一一介紹最新的人類獨特性主張,在此我想帶領你們了解一些目前逐漸退流行的論述。這些言論描述了智力測試的方法論,這對於我們為動物進行的研究結果至關重要。我們該怎麼對黑猩猩、大象、章魚或馬進行智力測驗呢?這聽起來很像是在開玩笑,但這其實是科學界面對最棘手的問題之一。人類的智力差異本身就已經充滿爭議,尤其在比較不同文化或種族時,然而當我們在不同物種身上討論這個議題時,衝擊更是劇烈。

-----廣告,請繼續往下閱讀-----

我會樂意接受最近一項發現愛貓人士比愛狗人士更聰明的研究,假如研究裡探討的是貓和狗之間的智力比較,那就完全是另一回事了。這兩個物種間的差異如此之大,很難設計出可以讓兩者同時以相似方式接收和回應的智力測驗。然而,具爭議的不只是如何比較兩種動物,還包括我們往往視而不見、有關動物與人類之間的比較,而我們還經常在這方面放棄所有嚴謹的審查。

科學界對於動物認知領域的新發現都謹慎以待,但是對人類智力的主張卻是反其道而行。只要這些主張如我們預期,科學界就會全盤接受,於是阿步的壯舉便超出了理解範圍。大眾也因此感到困惑,因為不管有人宣稱了什麼,總會有人提出反駁的研究成果。這些研究結論的變動通常是方法論的問題,討論研究方法也許很無聊,但能直指問題核心—我們有能力知道動物有多聰明嗎?

所有科學研究都有其方法論,因此科學家非常重視研究方法。當我們研究的捲尾猴在觸碰螢幕的臉部辨識測試表現不佳時,我們會不斷追蹤數據,直到發現牠們會在每週特定的某天表現得很差。後來我們才發現原因出自一位學生志工,雖然她在測試過程中會仔細地遵循流程,卻做出了分散捲尾猴注意力的行為。這個學生不安且緊張,不斷地改變身體姿勢或調整頭髮,因此也讓猴子感到緊張。我們將這位年輕女性從這個計畫調走後,猴子的表現便大幅提升。

此外,最近也發現在進行小鼠(mouse)研究時,男性研究人員會帶給牠們過多的壓力而影響表現,女性研究人員則沒有這種現象。如果將男性穿過的衣服放在實驗室裡,也會造成相同效果,顯示嗅覺是關鍵。意指男性與女性研究人員執行的小鼠實驗可能有不同的結果。研究方法細節的重要性比我們想像的重要多了,這在進行物種間的比較時尤其關鍵。

-----廣告,請繼續往下閱讀-----

本文摘自《你不知道我們有多聰明:動物思考的時候,人類能學到什麼?》,馬可孛羅出版。

0

0
0

文字

分享

0
0
0
演進中的科學研究方法(4/4) – 運用巨量資料評價實驗結果的再現性
活躍星系核_96
・2014/08/08 ・4129字 ・閱讀時間約 8 分鐘 ・SR值 537 ・八年級

Credit:Paul Mison CC BY-NC-SA 2.0
Credit: Paul Mison CC BY-NC-SA 2.0

文/ 陳紹慶(慈濟大學人類發展學系專任助理教授)

前三篇文章討論難以透過統計分析顯現的實驗效應,有可能是統計分析方法的限制,或者實驗方法還不能穩定再現實驗效應,或者實驗效應本來就很微弱。如果某種實驗效應有明確的理論意義,實際發生的案例故事告訴我們,曾經面對如此困境的研究者,會冒著竄改或假造資料數據的風險,爭取發表的機會,或者坦然面對同儕審查的考驗,投稿數十寒暑皆無法發表的「暗無天日」歲月。無論是那種狀況,對於科學知識的前進,或是科學研究者的生涯進程都是一種損耗。到底有沒有讓微弱但有意義的實驗效應,又能兼顧研究品質與誠信的研究及發表程序?使認真做實驗的研究者可以不走險路,發表再現性經得起同儕考驗的研究呢?

最後這一篇介紹二種有研究者或組織正在嘗試的方式,認識這些方式能理解考自已正在接受的科學新知是在什麼樣的狀況所產生的。因為我自已是從事行為科學領域的研究與教學,介紹的內容侷限於這領域的方法,如果讀者在其它科學領域涉獵已有一定程度,可做個比較,看看能不能從其中獲得啟發。

-----廣告,請繼續往下閱讀-----

一、先登錄再現研究(Registered Replication Research)

我曾經在〈可重覆的實驗結果是科學進步的基礎?〉這篇文章介紹兩位心理學者,Rolf ZwaanDaniel Simons,發起並參與先登錄再現研究(Registered Replication Research)的過程所產生的討論,這次一起合作重現Hart與Albarracin於2011年發表在Pscyhological Science的原創性研究。這份研究設計兩篇內容相同的犯罪情節報導,一篇描述嫌疑犯意圖行為的動詞以未完成時貌描寫(imperfect aspect,例如 was doing),另一篇的動詞以完成時貌描寫(perfect aspect,例如did)。參與者隨機閱讀其中一篇報導,接著進行缺字母填空作業(例如將S _ _ P,中間缺少的兩個字母補起來),評估報導中主角的行為動機,或評估報導中犯人與受害者之間的意圖理解。三種評估都顯示閱讀用未完成時貌描寫的報導,參與者的表現分數都高於閱讀另一種報導的參與者,Hart與Albarracin稱此為未完成時貌效應(effect of imperfect aspect)。Zwann與Simons參與的這個專案,就是在不同實驗室以相同的程序及材料,測試此效應的再現性。

寫這篇文章的時候這個專案還在進行中,我的介紹重點放在串連合作研究者的平台:open science framework (以下簡稱OSF),以及參與專案的研究與專業期刊的合作模式。OSF是一家非營利組織,成立於2011年,辦公室位於美國維吉尼亞州Charlottesville,採用github的運作架構,提供註冊的研究者組織合作研究的平台。現在已有結案的研究專案發表正式論文,例如之前我曾介紹的Many Lab Project(Klein et al., 2014)。Zwann與Simons都有參與的這個專案更是採用APS公布的預先登錄研究規劃協議(Pre-registered Protocol,專案成立之初就登錄於psychological science,投稿程序也同時開始,所有共同合作者都是未來通過psychological science的審查程序後,論文的共同作者。

不僅是研究完成後的原始數據,研究準備到執行的過程一切公開透明,不僅可維持研究誠信,因為投稿程序也同時展開,也可以加速實驗完成之後的審查時程。但是這種模式有研究題材的侷限性,最明顯的是專案題目一定要有明確預測結果的假設及實驗效應,因此再現已發表但多數研究者依然質疑的研究是最可能成案的題目,如果研究結果會牽涉科學發現產生的公益之外的利益,例如這篇blog提到的藥物開發研究,能否成案的因素有非科學的商業或政治因素考量。

為了達到參與專案的合作研究者都能在最接近的研究條件進行實驗,像是相同型號的電腦設備,個別差異條件接近的參與者,執行實驗的成本必定不能太高。因為每位合作者擁有的資源條件都不相同,需要高檔配備的神經電位紀錄或腦部活動造影研究,很難達成跨實驗室的共同再現。所以至目前為止經過OSF平台「揪團」的專案,多數是透過網路施測,或在個人電腦進行實驗的研究。而且除非主題有普世性,並非所有有意願的研究者都能合作。當重現Hart與Albarracin的專題開放徵求合作者時,我曾致信詢問專案發起人能否將實驗材料轉換為中文,找母語為中文的人士參與實驗,探討有無動詞時貌效應。果不其然得到無法合作的回覆,不過專案發起人肯定在不同語言文化背景中,探討有沒有存在類似效應的想法,也許中文地區的心理學者可以合作進行一個新的題目。

-----廣告,請繼續往下閱讀-----

二、巨量研究(Mega Study)

實驗心理學的巨量研究是一種實驗讓有能力的人類產生反應的所有刺激,分批呈現給參與者,紀錄而得的資料庫,可以說是數個小實驗組合而成的超大型實驗。這種研究方式的概念可以追溯到實驗心理學的祖師爺Wilhelm Wundt,上個世紀末研究字詞閱讀的語言心理學家們開始使用這種方法突破不同小型實驗結果不一致的限制,方法就是請參與實驗的人員,對學過所有的母語詞彙(英語),進行真假詞判斷(Lexicon decision)與朗讀(reading aloud),參與者對每一條字詞的反應時間與錯誤反應,都用規劃好的紀錄方式儲存為資料庫。

在此介紹兩種語言心理學的巨量研究實例。第一種是由單一實驗團隊完成的英文詞彙專案(English Lexicon Project),這是由華盛頓大學聖路易校區的David Balota教授領導的團隊收集815位的參與者對40,481個英文真詞與40,481個英文假詞進行的反應,讓有興趣應用的研究者能檢索這些資料,或者運用有理論意義的拼寫或拼音規則,從資料庫選擇可做小型實驗的詞彙。所以這個專案絕對沒有把所有心理學者的實驗都做盡,反而產生新的實驗操作指標,例如orthographic Levenshtein distance 20 (OLD 20,Yarkoni, Balota, and Yap, 2008)。

這個指標的定義非專業人士要理解會有些困難,但指標帶來的後續研究對科學新知有興趣的人者會想了解。OLD 20是評價英文詞彙之間外形相似度的量尺,如果用中文字類比,OLD 20可以告訴我們「王」與「玉」的外形相似度,和「王」與「主」的外形相似度是不同的,而且可以用數字表達相似的程度。這個指標比只用筆劃或字母的差異的相似度基準,提供更明確的計量尺度,之後引用這個指標的著名研究是法國Grainger教授領導的團隊,進行的狒狒識字實驗(Grainger, Dufau, Montant, Ziegler, and Fagot,  2012),泛科學的編輯也曾做過中文報導,只是不論中英文報導都沒有寫到Grainger教授是用OLD 20挑選給狒狒的實驗材料,以及做為分析狒狒識字反應的指標。如果因為我的解說,能促成研究中文的心理學家挑戰台灣彌猴的識字能力研究,也是不錯的貢獻。

另一種實例是跨實驗室團隊的合作成果,類似先登錄再現研究的模式,但是參與合作者不只關切一種或數種實驗的再現,而是所有能產生反應的刺激,以及長期以來相關的實驗研究因為程序的設定而有不一致的發現,例如呈現刺激的時間控制。語義促發(Semantic priming ,Hutchison et al., 2013)和遮蔽促發(Masked priming,Adelman et al., 2014)是這類代表,兩者都是讓要反應的刺激項目跟在呈現促發項目(probe 或 prime word)之後呈現,測量促發項目與刺激項目有關(例如「護士-醫生」,「蝴蝶-蜜蜂」)與兩者無關產生的反應差異。語義促發的項目之間時間差距較長(至少200毫秒),關聯性的操作以字詞語義為主;遮蔽促發的項目之間時間差距極短(約50毫秒左右),關聯性的操作以字詞外形相似度為主。兩種實驗分別用於探討晚期語義處理與早期知覺歷程,有心理學者提出整合兩者的理論,但直到今天還是以專注於一種歷程的理論與實驗方法的研究最有成果,也累積不少爭議。舉遮蔽促發的一項爭議,有英文字詞辨識是一個字母接著一個字母處理的理論,還是整體一起處理的理論。兩種理論的壁壘分明,傳統同儕審查很可能會使其中一方過度挑另一方的毛病,造成「不見天日」的問題。

-----廣告,請繼續往下閱讀-----

Adelman等人合作的遮蔽促發巨量研究就有突破「不見天日」的目的,不僅納入已被兩方廣泛接受的實驗效應,也同時測量有爭議的實驗效應。這種模式可稱為「母雞帶小雞」,不是指學術界大咖帶領小咖,而是再現程度高的穩定實驗效應,與再現程度低但有理論意義的實驗效應放在一起測量。同時也能嘗試小型實驗少用的分析方法,例如這份遮蔽促發的巨量研究是供參與的各實驗室設備與參與者個別差異參數,各式已知的字詞外形相似度指標(如OLD 20),與各種實驗效應的相關性分析,讓其它研究者能探討有爭議的實驗效應為何微弱的原因。

三、新世代的學習思維

實驗結果的可再現性是所有科學知識能被人類記載與傳達的基礎,行為科學的複雜度讓多數理論不易獲得有穩定再現的實驗證據支持,因此有先登錄再現研究與巨量研究的出現,補充小型實驗無法呈現所有可能性的侷限,這系列的前三篇說明這些侷限與研究者設定可驗證假設的否證哲學有關。小型實驗依然是研究者最能掌握的知識工具,這篇文章介紹的例子都顯示先登錄再現研究與巨量研究是開拓新題材的作業模式,大量資料為微弱實驗效應的再現性提供充份的評估,讓需要驗證或不易發表的小型研究有獲得肯定的機會。

傳統學習實驗的設計與分析的方針是再現經典小型實驗效應,著重實驗操作細節的安排與分析方法的演練, 不過缺乏對實驗主題演進的體認。我認為這樣的體認才能刺激學習者產生對知識現狀的了解,並提出新的問題與解決方法。先登錄再現研究不只完整公開研究過程,也強調有意願合作者必須理解參與過程的責任,如果能將這種模式落實於學習或訓練,不但能培養後進研究者鑑賞研究題目的眼光,以及執行研究過程應遵守的誠篤原則。我寫這四篇文章的期許是未來能培養有此見識的科學研究者,這樣的科學家才有能力將自已專攻的知識領域,真正落實在自已身處的社會環境之中。

參考文獻

  1. Adelman, J., Johnson, R., McCormick, S., McKague, M., Kinoshita, S., Bowers, J., . . . Davis, C. (2014). A behavioral database for masked form priming. Behavior Research Methods, 1-16. doi: 10.3758/s13428-013-0442-y
  2. Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B., … Treiman, R. (2007, 12). The English Lexicon Project. Behavior Research Methods,39(3), 445-459. doi: 10.3758/BF03193014
  3. Grainger, J., Dufau, S., Montant, M., Ziegler, J. C., & Fagot, J. (2012, 12). Orthographic Processing in Baboons (Papio papio). Science,336(6078), 245-248. doi: 10.1126/science.1218152
  4. Hart, W., & Albarracin, D. (2011, 12). Learning About What Others Were Doing: Verb Aspect and Attributions of Mundane and Criminal Intent for Past Actions. Psychological Science,22(2), 261-266. doi: 10.1177/0956797610395393
  5. Hutchison, K. A., Balota, D. A., Neely, J. H., Cortese, M. J., Cohen-Shikora, E. R., Tse, C., … Buchanan, E. (2013, 12). The semantic priming project. Behavior Research Methods,45(4), 1099-1114. doi: 10.3758/s13428-012-0304-z
  6. Klein, R. A., Ratliff, K. A., Vianello, M., Adams Jr, R. B., Bahník, Š., Bernstein, M. J., . . . Nosek, B. A. (2014). Investigating Variation in Replicability. Social Psychology, 45(3), 142-152. doi: 10.1027/1864-9335/a000178
  7. Yarkoni, T., Balota, D., & Yap, M. (2008, 12). Moving beyond Coltheart’s N: A new measure of orthographic similarity. Psychonomic Bulletin & Review,15(5), 971-979. doi: 10.3758/PBR.15.5.971

延伸閱讀

文章難易度
活躍星系核_96
752 篇文章 ・ 126 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia