0

2
2

文字

分享

0
2
2

資料科學與研究資料管理的最前沿:2022 國際資料週

研究資料寄存所 (depositar)_96
・2022/10/07 ・5342字 ・閱讀時間約 11 分鐘

-----廣告,請繼續往下閱讀-----

想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。

國際資料週是什麼?

「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。

國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。

2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因  COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。

-----廣告,請繼續往下閱讀-----

研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。

場次紀錄:如何提高研究成果的可再重現或可複製性?

SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES

本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。

有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。

研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。

-----廣告,請繼續往下閱讀-----

對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。

上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。

CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。

BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!

本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。

-----廣告,請繼續往下閱讀-----

DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。

為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。

經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。

目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。

-----廣告,請繼續往下閱讀-----
圖/Argos

DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。

DATA PUBLISHING IN THE OPEN SCIENCE ERA

本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。

分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。

類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。

-----廣告,請繼續往下閱讀-----

資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。

要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡(Data Curation Network, DCN)便是這樣的聯盟。

類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。

本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。

-----廣告,請繼續往下閱讀-----

CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES

本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。

當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。

自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。

資料來源/CODATA-RDA Data Schools – Ignition Report

CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。

-----廣告,請繼續往下閱讀-----

為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。

學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。

報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。

議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。

或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。

海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT

除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選

作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。

小結

確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。

略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。

但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。

文章難易度
研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。

1

6
0

文字

分享

1
6
0
智慧城市讓高科技超方便生活不再是夢!——專訪中興資管系助理教授洪智傑
科技大觀園_96
・2021/05/12 ・4097字 ・閱讀時間約 8 分鐘 ・SR值 540 ・八年級

-----廣告,請繼續往下閱讀-----

你有聽過「智慧城市」嗎?那是一個科技與生活交織的世界。

隨著通訊技術、電腦科技的進步,5G 網路、人工智慧、物聯網逐漸融入生活的每一個角落,智慧城市將資訊科技、城市建設結合在一起,讓市民的生活更加方便、更有品質,時至今日,智慧城市的概念已經成為世界各國建設城市、提升城市競爭力的重要指標!

為此,科技大觀園特別採訪了來自中興大學資訊管理學系的洪智傑助理教授,請他與我們分享智慧城市的概念,開啟我們對於未來科技生活的無限想像!

要怎麼做,才可以讓城市變得更「智慧」?

對於資料科學家來說,「智慧城市」到底是什麼?洪智傑表示,其實每個人對於智慧城市的定義與要求都不一樣,有的人注重蒐集更多、更好的資料,有的人則擅長在生活中找到需要解決的問題,並從現有的資料中找的解答或是解決方式。

你能想像嗎?未來你看到的每一支路燈,可能都不僅僅是路燈而已,這些「智慧燈桿」不但可以照明,同時也扮演了小氣象站、Wi-Fi 基地台、馬路攝影機、電子公布欄等多重角色,能夠即時偵測當地的空氣、交通狀況並做出因應。若是對此感到非常新鮮且好奇,大家可以前往台南市政府前的永華綠園觀摩智慧燈桿的示範成果囉!

每個人對於智慧城市的定義與要求都不一樣。圖/Pexels

經過智慧城市概念的改造後,下水道系統也不只是輸送汙水的管線而已,當科學家在管線中添加了特殊的感應器後,研究單位就可以從整個城市的工廠和家庭廢水中,分析汙水中的化學分子,找出各種疾病、污染的跡象和源頭,就像是阿嬤翻找你的房間垃圾桶一樣,從污水中破解隱藏在都市中的各種秘密。

由此可知,在物聯網的時代,當各個角落、各種物品都能連上網路之後,感測器也越來越多,以往城市中傳統的各項設施,都將增添更多功能並打破你對它們的既定印象,同時,資料科學家也因此蒐集到更多樣化的資料,並研發出更方便的應用。

-----廣告,請繼續往下閱讀-----

資訊科技將如何改造我們的生活?

在智慧城市的案例中,洪智傑建議大家可以從「食、衣、住、行、育、樂」和「基礎設施」七大類來盤點智慧城市的應用。

以打造智慧國為目標的新加坡為例子,新加坡健保局日前就推出了「Healthy 365」app,該 app 蒐集了全國上千種的食物,並發展出食物辨識的技術,當民眾下載 app 後,就可以用手機拍下食物的照片,馬上辨識並算出食物的熱量。

台南市政府則在熱門商圈的停車格設置了「地磁偵測系統」,並搭配智慧停車柱、app、馬路的 LED 顯示器,隨時偵測空位數量並分享給有需要的市民們,而智慧停車柱也會自動辨識車牌號碼和計算費用,從找車位、停車到繳費,讓停車的一條龍服務全都智慧化。

台南市政府則在熱門商圈停車格啓動智慧車位偵測系統。圖/tainan.gov.tw

在交通層面,國外 Uber 也申請了一項鼎鼎大名的專利:「利用  AI 技術抓出喝醉的乘客!」 當乘客叫車後,Uber 會透過手機分析乘客的行走速度、手機角度、打字準確度、轎車的時間與地點,並藉此來推斷乘客是否喝醉,一旦可能乘客可能喝醉、從酒店區搖搖晃晃地走出來, Uber 就會立刻提醒司機事先做好相應的準備。

-----廣告,請繼續往下閱讀-----

在基礎建設(infrastructure)的部分,用水、用電都是市民生活中最基本的需求。以自來水為例,一旦水管出現小小的裂縫,在輸水過程中就會浪費非常大量且寶貴的水資源,因此台北自來水管理處在管線加上了壓力感測器,隨時監控水壓變化,即時掌握各地水管的狀態和漏水處,在不知不覺間,提升每一位市民的生活品質。

藉由上面的案例,想必大家對於智慧城市的概念有更具體的了解,雖然智慧城市是相當廣義的概念,但它的核心概念可以用「利用資訊科技讓市民的生活更方便」一句話來解釋,而且每個人都可以在智慧城市的方向找到切入的角度和應用的可能。

揪出藏在資料海中的垃圾和警訊!

在資料科學領域有一句「垃圾進,垃圾出」的名言,若是輸入品質差勁的資料,即使經過電腦運算,也只會得到另外一堆垃圾。被問到如何解決這個經典的難題,洪智傑笑說,「垃圾進、垃圾出?哈哈哈,這是根本就是每天都會發生的事情啊!」而最常出現問題的地方,就是一切資料的源頭——感測器本身!

「量體溫」應該就是大家最有感的量測任務了,在 COVID-19 疫情期間,幾乎所有大學、車站出入口都會設置體溫量測站,然而,說句實話,你在畫面中看到的體溫,又有幾次是精確的?那些在紅外線熱像儀中行走的 33°C 、 34°C 人們 ,難道是一具具在城市中行走的喪屍?

-----廣告,請繼續往下閱讀-----
疫情生活下,體溫量測站已經成爲日常生活的一部分。圖/wikimedia

這些資料必須經過校準或是拿掉偏差值後,才會有分析和研究的意義與價值!

那麼要如何得知這些異常值是「警訊」還是「垃圾」呢?事實是,異常值的偵測與判斷也是一大難題!以臺灣知名的空氣盒子計畫為例,所有民眾都可以購買便宜的空氣感測器,感測當地空氣並回傳溫度、濕度、PM2.5 濃度的資料,組成密集的全臺空氣監測網,提供大量的空氣數據給專家分析。

但是,你以為這些便宜感測器的準確度真的可以跟高級儀器一模一樣嗎?實際上,空氣盒子時常因儀器損壞而出現不符實際狀況的觀測結果,例如在一片綠油油的台北市中,突然有一個感測器呈現紫爆, PM2.5 濃度高達1918 μg/m³,此時,我們通常會下意識地認為,這一顆紫爆的空氣盒子肯定是壞掉了。  

然而,這一顆紫爆的空氣盒子到底是壞掉了,還是只是有人在旁邊抽菸?這就是處理大量數據時最令人頭痛的難處,也是資料科學家的專業所在。

-----廣告,請繼續往下閱讀-----

智慧城市的兩難:好方便 vs. 好監控

隨著智慧城市的潮流興起,市民似乎只要提供越多資料,就可以生活更方便、獲得更好的服務品質。

「Google 地圖可以隨時告訴我哪裡塞車,好方便!」

「欸?有了車牌辨識系統,停車繳費都不用再拿票卡了,好方便!」

現在幾乎沒有人會因為車牌被拍攝而感到疑惑、被侵犯了,讓 Google 蒐集自己的定位資料也是家常便飯的事,洪智傑指出,當「方便」達到一定程度時,人們很容易失去原有的警戒心。

-----廣告,請繼續往下閱讀-----

不過,一旦讓不懷好意的單位取得大量特定人口的數位足跡,這些有心人士即可輕易的掌握這些人群的行為模式,甚至藉此達到「監控」的目的,因此,近年來,個人資訊安全、隱私權的問題也因運而生。

當「方便」達到一定程度,人們很容易失去原有警戒心。圖/Pexels

不過,一旦讓不懷好意的單位取得大量特定人口的數位足跡,這些有心人士即可輕易的掌握這些人群的行為模式,甚至藉此達到「監控」的目的,因此,近年來,個人資訊安全、隱私權的問題也因運而生。

由於臺灣並非極權國家,大眾對於軌跡資料的蒐集也越來越敏感,洪智傑表示,現在的學者時常只能拿到去識別化的資料,或是經過轉換的統計資料。但慶幸的是,網路上仍有不少開源資料或開源社群可供參考,政府也有設置資料開放平臺民生公共物聯網提供大眾運用。

其中,為了鼓勵大眾參與、應用政府的開放資料,政府更舉辦了「民生公共物聯網資料應用競賽」,邀請業界、學界和民間整合並運用政府的公開資料,打開資料科學與產業的未來,大家不妨也可以前往競賽的網頁,欣賞一下各年度的得獎作品。

-----廣告,請繼續往下閱讀-----

如何在資料中找到價值?從生活中的隱性需求開始!

若你對於智慧城市、資料科學有興趣,你可以先列出一個你感興趣的命題,確定自己想要從資料中找到的東西是什麼,再從現有的開源資料尋找解答。

茫茫的資料大海中發生太多事情了,洪智傑建議大家先準備好命題,再開始分析資料、尋找有價值的寶藏,就像是我們在圖書館中找書一樣,與其茫然的在圖書館中遊走,不如先想好自己要在圖書館閱讀什麼書,再開始尋找寶藏的旅程。

大數據時代,資料科學的研究命題可從日常生活的隱性需求著手。圖/Pexels

在智慧城市中,提升市民的「方便性」是資料科學家的目標,然而,現有生活究竟隱藏了哪些不方便?我們又該如何發現這些命題呢?洪智傑表示,除了增進自己跨領域的涵養之外,仔細觀察你我每天的日常,也能有助於我們洞察出生活中的隱性需求。

智慧城市是一個與現代生活息息相關的議題,若你也著迷於智慧城市的概念,也想要一起走在科技融入生活的道路上,歡迎你與資料科學家一起化身為生活觀察家,在資料中找出更多讓生活變方便的小智慧吧!

-----廣告,請繼續往下閱讀-----

資料來源

  1. 政府資料開放平台
  2. 民生公共物聯網資料服務平台
  3. 民生公共物聯網資料應用競賽
  4. g0v臺灣零時政府
  5. 台南市政府智慧車位偵測系統 – 地磁佈建計畫啟動
  6. 政府把自己當成公司:新加坡推智慧城市,背後的超務實性格
  7. Smart City 2.0:「智慧物聯網」引領「智慧城市」再升級
  8. 智慧城市白皮書
  9. 賀喜能源 建置全球首座智慧城市微電網示範系統
所有討論 1
科技大觀園_96
82 篇文章 ・ 1124 位粉絲
為妥善保存多年來此類科普活動產出的成果,並使一般大眾能透過網際網路分享科普資源,科技部於2007年完成「科技大觀園」科普網站的建置,並於2008年1月正式上線營運。 「科技大觀園」網站為一數位整合平台,累積了大量的科普影音、科技新知、科普文章、科普演講及各類科普活動訊息,期使科學能扎根於每個人的生活與文化中。

0

2
2

文字

分享

0
2
2
資料科學與研究資料管理的最前沿:2022 國際資料週
研究資料寄存所 (depositar)_96
・2022/10/07 ・5342字 ・閱讀時間約 11 分鐘

-----廣告,請繼續往下閱讀-----

想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。

國際資料週是什麼?

「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。

國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。

2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因  COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。

-----廣告,請繼續往下閱讀-----

研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。

場次紀錄:如何提高研究成果的可再重現或可複製性?

SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES

本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。

有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。

研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。

-----廣告,請繼續往下閱讀-----

對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。

上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。

CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。

BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!

本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。

-----廣告,請繼續往下閱讀-----

DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。

為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。

經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。

目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。

-----廣告,請繼續往下閱讀-----
圖/Argos

DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。

DATA PUBLISHING IN THE OPEN SCIENCE ERA

本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。

分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。

類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。

-----廣告,請繼續往下閱讀-----

資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。

要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡(Data Curation Network, DCN)便是這樣的聯盟。

類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。

本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。

-----廣告,請繼續往下閱讀-----

CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES

本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。

當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。

自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。

資料來源/CODATA-RDA Data Schools – Ignition Report

CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。

-----廣告,請繼續往下閱讀-----

為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。

學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。

報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。

議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。

或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。

海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT

除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選

作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。

小結

確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。

略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。

但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。

文章難易度
研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。

0

4
0

文字

分享

0
4
0
想學機器學習、深度學習、資料科學、人工智慧的人照過來! 22 個線上社群網站助你一臂之力~
活躍星系核_96
・2020/04/21 ・3064字 ・閱讀時間約 6 分鐘 ・SR值 543 ・八年級

-----廣告,請繼續往下閱讀-----

  • 文 / Elsa│弱弱開發女子,在東京的開發者人生。
    2011年研究所畢業,2014年來日工作。不只寫關於開發的文章,也寫美食、在日工作樣貌、在日生活訊息。

機器學習資料科學的轉行潮

資料科學家、機器學習工程師被喻為 21 世紀最性感的職業。個人認為這份職業的工作內容一點都不性感,性感的應該是它水漲船高的薪酬條件。而根據史丹佛大學 在 2019 年的  AI 指標報告, 2019 年的人工智慧相關職位需求是 2015–2016 年的三倍,意指將會有越來越多的工程師或理工生轉向資料科學家或機器學習/資料工程師的行列。

然而,轉行的學習過程中,遇到問題最好還是要靠自己解決,但中間若有高人提點,痛苦會少一點。下面列出幾個線上社群,供有興趣入門的夥伴參考:

熱門的線上社群

RedditStack OverflowQuoraKaggle 在同行裡算是家喻戶曉。

Reddit美國第五大網站,截至 2018 年 3 月的每月活躍用戶量超過三億。與在台灣熟知的 PTTDcardBBS 論壇類似,有很多分類主題,用戶可以對貼文內容按讚或留言。在搜尋欄位輸入 data science、machine learning 等關鍵字就能找到相關分類主題版加入討論。

-----廣告,請繼續往下閱讀-----

Reddit 論壇。圖\Reddit網站截圖

在搜尋欄輸入關鍵字加入相關社群。圖\Reddit網站截圖

Stack OverflowQuora 都是問答系網站,加入會員後可以發問,還可邀請業界專家回答你的問題。

Stack Overflow 偏向程式設計領域,常見的主題有 JavaScript 、 Java 、 C# 、 Python 等程式語言。

-----廣告,請繼續往下閱讀-----

Quora 的主題編列範圍廣泛,除了技術社群,更網羅生活娛樂、人文社會、經濟等各式主題。一樣利用網站的搜尋欄位輸入自己感興趣的關鍵字,在相關主題群裡發問。

stack overflow 問答社群。圖\ Stack Overflow 網站截圖

Quora 問答社群。圖\ Quora 網站截圖

Kaggle 除了社群,還有很多資料集、專案及社群貢獻的資料分析代碼,不定期還會有競賽,是個很好的學習資源網站。

-----廣告,請繼續往下閱讀-----

Kaggle 社群。圖\ Kaggle 網站截圖

上述幾個社群都是英文為主,而中文社群我知道的有知乎將門技術社群TensorLayer

知乎,基本上就是中文版的  Quora ,就不多做介紹了。而專門技術社群要填表申請,通過群主審核才能加入,領域分門別類,有計算機視覺、自然語言處理、物聯網等,只能擇一加入。

至於 TensorLayer ,它其實是中國開發者把 TensorFlow 包裝起來的函式庫,據說就是親切易懂版的 TensorFlow ,他們有自己的 Slack 社群,使用上有問題可以在群裡問,在 TensorLayer 的官方 Github 有連結可加入。無論是 TensorLayer 、 TensorFlow 這種開源函式庫,為了活躍開源環境,讓開發者踴躍參與開發,幾乎都會有各自的專屬開源社群,在它們自己的開源專案網站都會具體說明如何參與社群,這邊就不多加詳述。

-----廣告,請繼續往下閱讀-----

台灣的社群使用 Facebook 社團算滿普遍的,活躍的有台灣人工智慧同好交流區、 AI 人工智慧與機器人社團、 AI Seminar Taiwan  、台灣人工智慧學校 — 舊稱:台灣資料科學年會等;此外, PTT 的資料科學版也是一個能參與討論的選擇。

怎麼找社群?

台灣普遍習慣使用 Facebook ,在 Facebook 搜尋關鍵字就能找到幾個活躍的社群。

而在海外的朋友,可以透過 Meetup 這個活動組織網站,用關鍵字搜尋找到當地的社群。 Meetup 上的社群多屬線下,也就是租個場地舉辦研討會、讀書會等,因為要面對面與人交流,一方面不符合我的個性,一方面是有些參差不良的活動會有獵頭推銷工作機會,我不是很喜歡。當然有部分 Meetup 聚會是線上舉辦,有興趣的朋友可以自己找找看。

Meetup 社群。圖\ Meetup 網站截圖

-----廣告,請繼續往下閱讀-----

而日本除了 Meetup ,還有幾個類似的社群如: conpass Doorkeeper TECH PLAY 。不知道出於什麼原因,日本很喜歡辦這種約出來見面的研討會或讀書會,然後會議結束後要再外掛個懇親會閒聊加吃喝,我只能說這種活動對社交障礙者真的很不友善。

針對 Slack 社群官方並沒有提供搜尋介面,雖然網路上有人把 Slack 社群爬下來做成資料庫,但資料沒那麼即時; Facebook  社團雖然可以輸入關鍵字搜尋相關社團,但是找不到私密社團。譬如在東京的澀谷,時常在 Meetup 舉辦讀書會的 Team AI ,從 2016 年開始每週開辦讀書會,到目前會員數超過七千人,官方也有 Slack 群 (Team AI Slack Group) 可加入學習討論。

像這樣利用 Meetup 等活動社群,也能知道 Slack Facebook 等線上社群的資訊。

其他線上社群

Kaggle Noobs

Kaggle Noobs 是關於 KaggleSlack 社群,線上有即時新聞、硬體效能、論文分享等學習資源。截至 2020/3 ,成員數超過一萬人。

-----廣告,請繼續往下閱讀-----

KaggleNoobs 社群。圖\ KaggleNoobs 網站截圖

AI Researchers

AI Researchers 有關於 OpenCV自然語言處理OpenAIGymKeras 等討論串,截至 2020/3 ,成員數超過五千人。

AI Researchers 社群。圖\ AI Researchers 網站截圖

Data Quest

Data Quest 是一個培育資料科學家的線上教育網站。除了提供整套教學課程外,還有自己的社群。社群算滿活躍的,這個公司基本上招募很多遠端資料科學工作者,所以來自世界各地的資料科學家都會參與這個社群。

-----廣告,請繼續往下閱讀-----

Dataquest 社群。圖\ Dataquest 網站截圖

Data Science Salon

Data Science Salon 在舊金山、紐約、洛杉磯等都市舉辦機器學習高峰會,跟各大公司合作並邀請各界名人演說,有點像是機器學習版的 TED Talks,收取高價門票的富人聚會(誤)。但你可以加入他們的 Slack 社群,觀察一下研討趨勢。可以到 https://info.datascience.salon/apply-to-dss-slack-workspace 填表加入社群,或寄信到 info@formulated.by  申請。

DSS Slack 社群。圖\ Data Science Salon 網站截圖

Watson Developer Community (WВC)

這個是專門給 IBM Watson 開發者討論的 Slack 社群。

R-Team for Data Analysis

使用 R 做資料分析的朋友,可以加入這個全球 Slack 社群。

有些社群知識範圍屬廣域,有些社群聚焦在特定主題,依照自己的需求及水平參與相對應的社群,多看多吸收。若有心參與社群反饋,正所謂教學相長,學習效果更好。

參考資料

  1. 2019 AI Index Report by Stanford University
  2. 15 Data Science Slack Communities to Join
  3. AI開発を仕事にするための具体的な行動計画を『機械学習エンジニアになりたい人のための本』から紹介
活躍星系核_96
752 篇文章 ・ 122 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

2
2

文字

分享

0
2
2
資料科學與研究資料管理的最前沿:2022 國際資料週
研究資料寄存所 (depositar)_96
・2022/10/07 ・5342字 ・閱讀時間約 11 分鐘

想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。

國際資料週是什麼?

「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。

國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。

2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因  COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。

-----廣告,請繼續往下閱讀-----

研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。

場次紀錄:如何提高研究成果的可再重現或可複製性?

SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES

本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。

有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。

研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。

-----廣告,請繼續往下閱讀-----

對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。

上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。

CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。

BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!

本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。

-----廣告,請繼續往下閱讀-----

DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。

為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。

經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。

目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。

-----廣告,請繼續往下閱讀-----
圖/Argos

DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。

DATA PUBLISHING IN THE OPEN SCIENCE ERA

本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。

分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。

類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。

-----廣告,請繼續往下閱讀-----

資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。

要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡(Data Curation Network, DCN)便是這樣的聯盟。

類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。

本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。

-----廣告,請繼續往下閱讀-----

CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES

本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。

當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。

自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。

資料來源/CODATA-RDA Data Schools – Ignition Report

CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。

-----廣告,請繼續往下閱讀-----

為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。

學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。

報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。

議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。

或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。

海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT

除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選

作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。

小結

確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。

略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。

但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。

文章難易度
研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。

0

0
0

文字

分享

0
0
0
路殺是意外,「路殺社」也是意外:公民科學路殺社的成功心法
研之有物│中央研究院_96
・2019/10/30 ・4632字 ・閱讀時間約 9 分鐘 ・SR值 471 ・五年級

-----廣告,請繼續往下閱讀-----

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

  • 採訪編輯|歐宇甜、美術編輯|林洵安

路殺社成立故事

2011 年 8 月創立的路殺社,成員已有一萬七千多名,是全世界首創利用社群媒體收集路殺資料的社團,目前上傳網站資料已逾十萬筆。運作這麼龐大的線上社團和資料庫,有什麼成功的「眉角」?路殺社社長林德恩以及中研院資訊科學研究所莊庭瑞副研究員,娓娓道來他們一路破關前行的精彩故事。

路殺社兩大幕後推手:路殺社社長暨特有生物研究保育中心助研究員林德恩 (右),以及中研院資訊科學研究所副研究員莊庭瑞 (左),在充滿野生氣息的南投特有生物研究保育中心,回顧路殺社成立、茁壯的過程。攝影│林洵安

林老師一直都在研究路殺問題嗎?

路殺社社長林德恩(以下簡稱為林):其實我是做動物的生理跟生態學研究的,專長是爬行類。長年研究發現:台灣的蛇很多,但在野外一百天可能只有不到二十天碰得到,卻常看到馬路上稀有蛇種被車壓死。於是我想:既然活蛇不好找,何不乾脆找死的,透過蛇類的路殺資料來推測族群狀況和分布地點。

-----廣告,請繼續往下閱讀-----

2008 年,特生中心培訓志工幫忙調查全台物種分布,我負責爬行類的培訓。蛇具危險性、不易找,大家對牠的恐懼感也大,我就訓練志工記錄死蛇,門檻較低。因為這個機緣,我開始做起動物的路殺調查。

對生態研究來說,找死蛇比活蛇容易得多,因為蛇多是夜行性,體型長,在馬路上移動慢,加上大家討厭牠、不會留情,被車子壓死的機率較高。而且蛇有鱗片,死後外形能保持完整、留在路面的時間較長。

路殺蛇類遺體。圖片來源│林德恩

後來為什麼會想成立路殺社呢?

林:路殺是意外,創立路殺社也是個意外!

-----廣告,請繼續往下閱讀-----

2009 年臉書進來台灣,為了方便志工聯絡,我在臉書成立「特生中心爬行類志工聯誼社」。我看社團裡什麼都沒有,隨手丟進一張路殺蛇類照片。結果一傳十、十傳百,大家紛紛把自己「壓箱底」的路殺照片上傳……一周後,社員暴增到兩百多人,我才驚覺臉書的傳播功能有多強大。

不過,最初的社員多是生態圈的老師、學生,大家習慣記錄珍稀物種,採樣嚴重偏差。於是有人建議:是不是把社團的功能改一下,擴大收集各種路殺動物的資料呢?我想臉書是免費的、操作方便,失敗了也沒負擔,決定試看看。後來又有人提議社團改叫「路殺社」,聽起來跟路透社很像。

透過臉書來收集路殺資料,會碰上什麼問題嗎?

林:當路殺社逐漸成長後,遇到第一個關卡是:上傳的資料要怎麼建檔?

我們起初以完全人工的方式,只要有人上傳一筆,就在 Excel 輸入一筆,並把照片抓下來、編號……。可是社團一天有一、兩百筆資料,我和助理又常跑野外,每次回來都要往前回溯數百、甚至上千筆資料,臉書文章洗版速度又很快,助理追資料追得精疲力竭。

-----廣告,請繼續往下閱讀-----

幸好,我們很快碰到貴人相助!

那時在莊庭瑞老師實驗室工作的鄧東波先生在網上尋找研究素材,意外發現這個古怪的社團:人家都是在臉書上「曬」漂亮的動物照片,我們卻是秀路死動物照片。 他是學資料科學,馬上就知道我們用臉書收集資料的工作有多「笨」,於是熱心的給了我們一些建議。

我心想:你可以給建議,就表示有辦法解決囉!於是,我邀請他與莊老師來幫忙。

莊老師認為用臉書收集資料有哪些問題呢?

中研院莊庭瑞(以下簡稱為莊):臉書是適合大家交流、互動的社群網站,但不是很好的資料收集平台,有一些先天的缺陷:

-----廣告,請繼續往下閱讀-----
  1. 臉書是商業公司,路殺社依附在其下,要同意臉書的使用條款,而且社團可能隨時被關閉。
  2. 大家上傳的高解析度照片,臉書會自動壓縮,再撈回來的皆是低解析度照片。
  3. 早期手機拍攝照片,很多沒有內建拍攝位置的空間資訊。即使有,上傳臉書後都會被清除,照片是在哪拍的只能仰賴作者的文字資訊。但有人用門牌號碼 ,有人用電線桿或配電箱的編號、知名景點或道路名稱,形式非常混亂。為此,我們還曾經設計一個爬蟲程式,先把每筆資料從臉書抓回來,再透過「自然語言」技術將文字位置資訊,轉換成經緯度的空間座標。

2013 年,特生中心委託我的實驗室處理資料時,我心想,資料先傳到臉書,再撈回來處理,明明大家上傳的照片和資訊是完整的,撈回來卻是殘缺的。因此,我打算做新的資料蒐集與處理流程,建置新的研究型網站為資料蒐集中心,說服社員先上傳資料到新的網站。

但光是這一關,就花掉三年時間!

用網站收集資料應該更有效率,為什麼反而不容易達成?

主要是使用者的習慣問題!大家會覺得:臉書很好用啊,為什麼要再申請一個網站的新帳號?

為了符合使用者習慣,我們一開始是做手機 App,讓大家透過 App 先傳資料到臉書,再傳到網站。但除了前面提過的問題,智慧型手機的作業系統 Android 、 iOS 皆會改版,臉書更是經常改版,每當它們一改,手機 App 就要跟著改。

-----廣告,請繼續往下閱讀-----

後來我們決定讓手機 App 上傳的資料不先到臉書,而是先進網站,但舊社員果然抱怨這樣繞了一條路、不自然。中間我們又嘗試:手機 App 上傳的資料同時到臉書與網站,只是這樣跟臉書的連動性依然很高,臉書一改版,手機 App 就會當掉……。

就這樣來回調整好多次,才改成現在的模式:不用手機 App,而是開發成網頁型式的 App,我們稱作 Web App。

Web App 在手機環境的操作方式跟手機 App 類似,可以將使用者回報的資料直接上傳到我們建置的網站「台灣動物路死觀察網」,雖然功能上稍微受到限制,維護成本大大降低。再由網站自動將統一格式的資料發文到臉書上的路殺社社團,讓社員覺得好像是自己發文到臉書上,總算兼顧了使用者習慣和資料品質(呼~)。

我們也不斷跟社員說明,直接上傳到路殺社網站對他大有好處!因為上傳臉書的照片,日後抓回來解析度會變差,上傳網站等於幫忙他保存歷年的高解析度照片與觀測紀錄,還可以畫成統計圖,回顧自己的的觀測歷程。更重要的是,可以保障上傳者及物種的隱私,避免詳細的地點資訊直接暴露在公開的社團。

-----廣告,請繼續往下閱讀-----

「台灣動物路死觀察網」 (Taiwan Roadkill Observation Network)目前的功能與介面已很完整。特生中心與中研院資訊所的合作計畫進行了四年,在後期莊庭瑞做了決定,持續調整資料流程,但把網站製作與維護的工作委託給拾穗者文化的張藝鴻。如此一來,在合作計畫結束之後,仍能保障網站的經營維護與永續發展。 圖片來源│台灣動物路死觀察網

除了使用者習慣,在網路上經營萬人規模的志工社團,還要考慮什麼?

莊:路殺社成功的另一個關鍵,就是上傳照片與資料的開放授權。

過去在生態領域,志工幫研究人員做的資料大多歸屬研究人員管理使用,最後發表或歸檔,再利用率比較低。如果路殺社也用這樣模式,大家可能想,我們的資料都被研究人員拿去用,當我看到其他社友的照片或資料很不錯,自己不能隨意使用,必須透過研究人員,或是另外開口去要,很不方便啊。

簡言之,同一個團體共同蒐集、建置的資料庫,應該讓成員都可以使用!

-----廣告,請繼續往下閱讀-----

我一開始接觸路殺社這類由公眾參與建立的資料庫,即積極推動開放授權的觀念,讓參與建立資料庫的眾人,也能自由使用成果資料。這類似維基百科的概念,眾人協作生產有文字、也有影像的著作內容,這著作可再授權給眾人改寫、編輯。參與者只要同意這樣的安排,就可以加入一起編寫,這對公眾有很大的吸引力。

我們推動社員使用 CC 授權條款 (Creative Commons Licenses) 釋出自己的照片給公眾,或更開放一點,將照片釋出到公眾領域 (Public Domain),讓任何人以任何方法自由運用。

林:有趣的是,一般網站要作者開放授權,通常難度很高,但路殺社都是動物死亡照片,大家較不在意,多半樂意配合。原本我們最大的缺點,卻變成最大的優點 (笑)。

在莊老師的協助下,路殺社的資料處理和著作權問題逐步得到解決,運作步上軌道,現在是透過網站收集與自動化處理資料。網站程式原始碼也可以開放給大眾運用,國內外許多團體紛起效尤,在臉書設立各種收集資料的社團。

路殺社資料越來越多,物種鑑定是否也是個問題?

林:的確!每筆路殺資料一定要正確鑑定物種,才會有價值。

起初幫忙鑑定者,多是生態界的教授、專家,只要有人丟照片,馬上有人搶著辨認,碰到不易辨認的還會展開激烈討論。

那時大家是覺得好玩,因為活體的特徵容易辨識,一旦被壓死,則要透過微小特徵去分辨,好像在練功。厲害的人只需觀察一根羽毛,就知道是哪種鳥,是公的還是母的。而且剛開始資料量不多,鑑定完成率有九成五以上!

但時間一久,問題來了。這些專家都有自己的工作,不可能天天掛在網上幫忙鑑定,加上資料越來越多,現在一年有幾萬筆,工作量大到無法想像,目前完成率只剩下七成。

最近我正設計一個破關遊戲程式,訓練志工鑑定能力。先將已鑑定的照片按照難度分階:初階是完整、好鑑定,中階是稍有破碎、特徵還在,高階是破損嚴重、只剩一點特徵,再設計是非題、選擇題或連連看,讓志工一路「練功」,達到某個程度還有考試,及格後就具備初階鑑定師資格並發給正式證書。如果未來能培養出一大批熱心的業餘鑑定師,網站就能自主運作了。

真是關關難過關關過啊!未來路殺社還有什麼計劃嗎?

林:最重要的工作是「系統化路死動物全台同步大調查」(路殺社 2.0)。目前網站上幾萬筆資料,雖然可以呈現一些現象,但無法做科學性的分析與比較。例如:當你問我全台一年路死多少動物?我無法估算。

因為過去社員都是隨機調查,任何時間、地點,只要看到就記錄,缺點是「努力量不一樣」。某個地方成為路殺熱點,可能是常常有人做調查,許多地方不是沒有路殺,只是沒人記錄。

為了解決這個問題,我們開始推動系統化調查。簡單來說,是把台灣分成 5 公里 乘 5公里,共 1440 個方格,開放社員認領。每個方格有三種不同變項,包括:八種生態氣候分區 (影響動物族群跟分布)、三種道路密度 (高、中、低密度)、四種道路型態(省道、縣道、鄉道、其他)。

第一階段,我們依生態氣候分區的面積比例,分層逢機挑選具有代表性的 252 個方格來調查:每個生態氣候分區兼顧三種道路密度,每種道路密度兼顧四種道路型態,務求做到真正的公平調查。資料來源│台灣動物路死觀察網、圖說重製│林洵安

社員可根據自己方便挑選方格並組隊,在每年 1、4 、7、10 月,去認領的方格做調查,路線要固定,每條路最少做三公里長度,一個區域至少做兩條不同型態的道路。

本來擔心沒人理我們,還好大家很支持!(汗!)第一階段 252 個格子都達成,未來將擴增到 420 個格子,透過取樣調查方式,研究者就有相同時間、相同努力量的資料可以做精確分析了。

路殺社從臉書起家,成員來自四面八方、各式各樣的專業與人才,彼此之間並不認識,但能夠同心協力走到今天,真的難能可貴。未來希望有更多人加入我們,讓這把改善路殺、保育動物的火苗繼續壯大,一同守護台灣的野生動物。

延伸閱讀

本文轉載自中央研究院研之有物,原文為公民科學萬人齊發!路殺社的成功心法,泛科學為宣傳推廣執行單位

研之有物│中央研究院_96
296 篇文章 ・ 3420 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook