- 本文轉載自研究資料管理推進室(Research Data Management Hub, RDM Hub)
- 文/何明諠(中央研究院資訊科技創新研究中心|研究資料寄存所專案經理)
想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。
國際資料週是什麼?
「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。
國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。
2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因 COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。
研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。
場次紀錄:如何提高研究成果的可再重現或可複製性?
SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES
本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。
有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。
研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。
對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。
上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。
CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。
- 場次錄影連結:https://vimeo.com/743397972
BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!
本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。
DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。
為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。
經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。
目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。
DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。
- 場次錄影:https://www.youtube.com/watch?v=rj4-MGJs1xQ
- 場次簡報:https://www.rd-alliance.org/system/files/documents/2022-RDA-DMP-VP19_0.pdf
- 相關資源:https://www.rd-alliance.org/node/56938/file-repository
DATA PUBLISHING IN THE OPEN SCIENCE ERA
本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。
分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。
類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。
資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。
要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡」(Data Curation Network, DCN)便是這樣的聯盟。
類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門」(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。
本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。
- 場次錄影:https://vimeo.com/743470994
- 場次簡報:https://drive.google.com/drive/folders/1KY4jbhg-Ftc2iXoQFz1lP3nS_ehTutT-
CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES
本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。
當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。
自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。
CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。
為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。
學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。
報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。
議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。
或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。
- 場次紀錄:https://docs.google.com/document/d/17KnrkBofsWY0Gr5sZqUoGbl4YU3oe08e77A-Z0iJYO4/edit#
- 場次錄影:https://www.youtube.com/watch?v=KL8oN67teJg
海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT
除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選。
作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。
小結
確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。
略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。
但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。
- International Data Week 2022 議程:https://idw2022.org/bbs/content.php?co_id=Agenda_en&lang=English
- SciDataCon 2022 錄影:https://vimeo.com/user91439529
- SciDataCon 2022 簡報:https://drive.google.com/drive/folders/1qDkGQ9y6JTYRE0_kbk3cuds13cjLFOE_
- RDA Plenary 19 錄影:https://www.youtube.com/watch?v=e9TcRkyvbBU&list=PL77Dq-HHs58bAhiHf7i-KjPsveTcu_dJj