這件事始於2005年,原本只是三位研究生的鬧劇而已。麻省理工學院(Massachusetts Institute of Technology)的電腦科學博士生傑里米.斯特里布林(Jeremy Stribling)、馬克斯.克倫(Max Krohn)和達納.阿瓜約(Dan Aguayo)編寫了一個程式SCIgen,它可以產生無意義的電腦科學研究論文。目前已為軟體工程師的斯特里布琳表示:「這個程式的目的是要揭發低質會議,這種會議缺乏同行審查,並以出版和開會費用詐騙研究人員。」
程式的使用者在短時間內遍布全球,而它自動產生的「傑作」更是被許多科學會議和期刊所接受。不過,如此打遍天下無敵手的SCIgen終於遇到了它的對手-SciDetect,學術出版商施普林格(Springer)利用這個開放原始碼的程式來自動偵測機械化產生的論文。(施普林格為學術出版巨頭,其總部設於德國海德堡,並在紐約設有電氣及電子工程師學會)
SCIgen使用「上下文無關文法」(context-free grammar)來生成詞彙,這些文句表面上看似合理,但實際上只需閱讀過便可以發現完全是一派胡言。以下為範例:
Cyberneticists agree that semantic modalities are an interesting new topic in the field of programming languages, and theorists concur. This is a direct result of the development of web browsers. After years of compelling research into access points, we confirm the visualization of kernels. Amphibious approaches are particularly theoretical when it comes to the refinement of massive multiplayer online role-playing games.
SCIgen也可以產生令人印象深刻但無意義的數據圖、流程圖和引文。他們投稿了三篇SCIgen論文至「世界系統學、控制論與信息學會議」(World Multiconference on Systemics, Cybernetics and Informatics,簡稱WMSCI),一場他們懷疑主辦方聲稱以同行審核呈件但實為詐欺的年度學術研討會。果不其然,其中的兩篇論文被WMSCI所接受。
後來,他們將SCIgen放上了網路供大眾免費使用,鼓勵研究人員自主性產生論文,並投稿至疑似低審查標準的會議,然後上網提交「戰績」。在過去的十年間,研究人員挖出了許多聲稱執行同行實質審查卻不然的期刊和會議,SCIgen也開始產生變異以應用在各個領域,從數學到後現代理論都逃不過它的「肆虐」。(作者延續了這個傳統,但使用了不同以往紙本的生成方式)
出版商飽受這場鬧劇折磨直到2013年,在2008到2011年間共有85篇SCIgen論文被發表在24項不同的電腦科學會議中,但也有成功擋下的出版商,施普林格就退回了122篇無意義論文。此項調查背後的首席研究員,同時也是法國約瑟夫.傅立葉大學(Joseph Fourier University)電腦科學家的斯瑞爾.拉貝(Cyril Labbé)表示:「假論文除了製造鬧劇外,從中還發現有中國學者和學生買來擴充其出版紀錄。」隔年,《科學》(Science)便破獲了專門買賣假學歷的地下市場,其中一些小販會利用SCIgen來省下手寫「正宗」假論文的力氣。
為了終結這場噩夢,施普林格向拉貝求助。他提供了一個可以精準搜尋無意義論文的方法,此法需要類似偵測垃圾郵件的統計技術,但不是像Viagra一樣的語法模式。此交易結果被刊登在新聞上,也正式宣告了SciDetect的誕生,這個由拉貝研究團隊產生的程式,可以自動偵測由SCIgen和類似程式所產生的論文。它的目的為確保所有不公平、快速作弊的方式無所遁形。
但有些人認為SciDetect的產生並不是為了抓騙子,而是為了避免尷尬。在出版界擔任諮詢的獨立研究者菲利普.戴維斯(Philip Davis)認為:「正如有人利用SCIgen來揭露編輯的缺失和期刊的同行審查,任何具備些許英文水平的人都應該能夠發現這些SCIgen或類似軟體的傑作。對我來說,這似乎只是出版商保護自己、免於被期刊編輯退件的招數。」
arXiv的創辦人保羅.金斯帕格(Paul Ginsparg)則表示:「施普林格排除由軟體刻意產生的無意義論文是立意良善,但對於人類作者無意間產生的無意義文句該怎麼辦呢?」(arXiv免費提供演算法偵測無意義文句)而對此,施普林格的代表表示:「軟體的確無法取代同行審查和學術評價,但將SciDetect出借給出版商等同於多了一隻手,有助於打擊詐欺和偽造論文。」她也補充說道,自從2013年撤稿後,便再也沒有SCIgen亂碼文章提交至施普林格會議。
參考資料: