0

0
0

文字

分享

0
0
0

路殺是意外,「路殺社」也是意外:公民科學路殺社的成功心法

研之有物│中央研究院_96
・2019/10/30 ・4632字 ・閱讀時間約 9 分鐘 ・SR值 471 ・五年級

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

  • 採訪編輯|歐宇甜、美術編輯|林洵安

路殺社成立故事

2011 年 8 月創立的路殺社,成員已有一萬七千多名,是全世界首創利用社群媒體收集路殺資料的社團,目前上傳網站資料已逾十萬筆。運作這麼龐大的線上社團和資料庫,有什麼成功的「眉角」?路殺社社長林德恩以及中研院資訊科學研究所莊庭瑞副研究員,娓娓道來他們一路破關前行的精彩故事。

路殺社兩大幕後推手:路殺社社長暨特有生物研究保育中心助研究員林德恩 (右),以及中研院資訊科學研究所副研究員莊庭瑞 (左),在充滿野生氣息的南投特有生物研究保育中心,回顧路殺社成立、茁壯的過程。攝影│林洵安

林老師一直都在研究路殺問題嗎?

路殺社社長林德恩(以下簡稱為林):其實我是做動物的生理跟生態學研究的,專長是爬行類。長年研究發現:台灣的蛇很多,但在野外一百天可能只有不到二十天碰得到,卻常看到馬路上稀有蛇種被車壓死。於是我想:既然活蛇不好找,何不乾脆找死的,透過蛇類的路殺資料來推測族群狀況和分布地點。

2008 年,特生中心培訓志工幫忙調查全台物種分布,我負責爬行類的培訓。蛇具危險性、不易找,大家對牠的恐懼感也大,我就訓練志工記錄死蛇,門檻較低。因為這個機緣,我開始做起動物的路殺調查。

-----廣告,請繼續往下閱讀-----

對生態研究來說,找死蛇比活蛇容易得多,因為蛇多是夜行性,體型長,在馬路上移動慢,加上大家討厭牠、不會留情,被車子壓死的機率較高。而且蛇有鱗片,死後外形能保持完整、留在路面的時間較長。

路殺蛇類遺體。圖片來源│林德恩

後來為什麼會想成立路殺社呢?

林:路殺是意外,創立路殺社也是個意外!

2009 年臉書進來台灣,為了方便志工聯絡,我在臉書成立「特生中心爬行類志工聯誼社」。我看社團裡什麼都沒有,隨手丟進一張路殺蛇類照片。結果一傳十、十傳百,大家紛紛把自己「壓箱底」的路殺照片上傳……一周後,社員暴增到兩百多人,我才驚覺臉書的傳播功能有多強大。

不過,最初的社員多是生態圈的老師、學生,大家習慣記錄珍稀物種,採樣嚴重偏差。於是有人建議:是不是把社團的功能改一下,擴大收集各種路殺動物的資料呢?我想臉書是免費的、操作方便,失敗了也沒負擔,決定試看看。後來又有人提議社團改叫「路殺社」,聽起來跟路透社很像。

-----廣告,請繼續往下閱讀-----

透過臉書來收集路殺資料,會碰上什麼問題嗎?

林:當路殺社逐漸成長後,遇到第一個關卡是:上傳的資料要怎麼建檔?

我們起初以完全人工的方式,只要有人上傳一筆,就在 Excel 輸入一筆,並把照片抓下來、編號……。可是社團一天有一、兩百筆資料,我和助理又常跑野外,每次回來都要往前回溯數百、甚至上千筆資料,臉書文章洗版速度又很快,助理追資料追得精疲力竭。

幸好,我們很快碰到貴人相助!

那時在莊庭瑞老師實驗室工作的鄧東波先生在網上尋找研究素材,意外發現這個古怪的社團:人家都是在臉書上「曬」漂亮的動物照片,我們卻是秀路死動物照片。 他是學資料科學,馬上就知道我們用臉書收集資料的工作有多「笨」,於是熱心的給了我們一些建議。

-----廣告,請繼續往下閱讀-----

我心想:你可以給建議,就表示有辦法解決囉!於是,我邀請他與莊老師來幫忙。

莊老師認為用臉書收集資料有哪些問題呢?

中研院莊庭瑞(以下簡稱為莊):臉書是適合大家交流、互動的社群網站,但不是很好的資料收集平台,有一些先天的缺陷:

  1. 臉書是商業公司,路殺社依附在其下,要同意臉書的使用條款,而且社團可能隨時被關閉。
  2. 大家上傳的高解析度照片,臉書會自動壓縮,再撈回來的皆是低解析度照片。
  3. 早期手機拍攝照片,很多沒有內建拍攝位置的空間資訊。即使有,上傳臉書後都會被清除,照片是在哪拍的只能仰賴作者的文字資訊。但有人用門牌號碼 ,有人用電線桿或配電箱的編號、知名景點或道路名稱,形式非常混亂。為此,我們還曾經設計一個爬蟲程式,先把每筆資料從臉書抓回來,再透過「自然語言」技術將文字位置資訊,轉換成經緯度的空間座標。

2013 年,特生中心委託我的實驗室處理資料時,我心想,資料先傳到臉書,再撈回來處理,明明大家上傳的照片和資訊是完整的,撈回來卻是殘缺的。因此,我打算做新的資料蒐集與處理流程,建置新的研究型網站為資料蒐集中心,說服社員先上傳資料到新的網站。

但光是這一關,就花掉三年時間!

-----廣告,請繼續往下閱讀-----

用網站收集資料應該更有效率,為什麼反而不容易達成?

主要是使用者的習慣問題!大家會覺得:臉書很好用啊,為什麼要再申請一個網站的新帳號?

為了符合使用者習慣,我們一開始是做手機 App,讓大家透過 App 先傳資料到臉書,再傳到網站。但除了前面提過的問題,智慧型手機的作業系統 Android 、 iOS 皆會改版,臉書更是經常改版,每當它們一改,手機 App 就要跟著改。

後來我們決定讓手機 App 上傳的資料不先到臉書,而是先進網站,但舊社員果然抱怨這樣繞了一條路、不自然。中間我們又嘗試:手機 App 上傳的資料同時到臉書與網站,只是這樣跟臉書的連動性依然很高,臉書一改版,手機 App 就會當掉……。

就這樣來回調整好多次,才改成現在的模式:不用手機 App,而是開發成網頁型式的 App,我們稱作 Web App。

-----廣告,請繼續往下閱讀-----

Web App 在手機環境的操作方式跟手機 App 類似,可以將使用者回報的資料直接上傳到我們建置的網站「台灣動物路死觀察網」,雖然功能上稍微受到限制,維護成本大大降低。再由網站自動將統一格式的資料發文到臉書上的路殺社社團,讓社員覺得好像是自己發文到臉書上,總算兼顧了使用者習慣和資料品質(呼~)。

我們也不斷跟社員說明,直接上傳到路殺社網站對他大有好處!因為上傳臉書的照片,日後抓回來解析度會變差,上傳網站等於幫忙他保存歷年的高解析度照片與觀測紀錄,還可以畫成統計圖,回顧自己的的觀測歷程。更重要的是,可以保障上傳者及物種的隱私,避免詳細的地點資訊直接暴露在公開的社團。

「台灣動物路死觀察網」 (Taiwan Roadkill Observation Network)目前的功能與介面已很完整。特生中心與中研院資訊所的合作計畫進行了四年,在後期莊庭瑞做了決定,持續調整資料流程,但把網站製作與維護的工作委託給拾穗者文化的張藝鴻。如此一來,在合作計畫結束之後,仍能保障網站的經營維護與永續發展。 圖片來源│台灣動物路死觀察網

除了使用者習慣,在網路上經營萬人規模的志工社團,還要考慮什麼?

莊:路殺社成功的另一個關鍵,就是上傳照片與資料的開放授權。

過去在生態領域,志工幫研究人員做的資料大多歸屬研究人員管理使用,最後發表或歸檔,再利用率比較低。如果路殺社也用這樣模式,大家可能想,我們的資料都被研究人員拿去用,當我看到其他社友的照片或資料很不錯,自己不能隨意使用,必須透過研究人員,或是另外開口去要,很不方便啊。

-----廣告,請繼續往下閱讀-----

簡言之,同一個團體共同蒐集、建置的資料庫,應該讓成員都可以使用!

我一開始接觸路殺社這類由公眾參與建立的資料庫,即積極推動開放授權的觀念,讓參與建立資料庫的眾人,也能自由使用成果資料。這類似維基百科的概念,眾人協作生產有文字、也有影像的著作內容,這著作可再授權給眾人改寫、編輯。參與者只要同意這樣的安排,就可以加入一起編寫,這對公眾有很大的吸引力。

我們推動社員使用 CC 授權條款 (Creative Commons Licenses) 釋出自己的照片給公眾,或更開放一點,將照片釋出到公眾領域 (Public Domain),讓任何人以任何方法自由運用。

林:有趣的是,一般網站要作者開放授權,通常難度很高,但路殺社都是動物死亡照片,大家較不在意,多半樂意配合。原本我們最大的缺點,卻變成最大的優點 (笑)。

-----廣告,請繼續往下閱讀-----

在莊老師的協助下,路殺社的資料處理和著作權問題逐步得到解決,運作步上軌道,現在是透過網站收集與自動化處理資料。網站程式原始碼也可以開放給大眾運用,國內外許多團體紛起效尤,在臉書設立各種收集資料的社團。

路殺社資料越來越多,物種鑑定是否也是個問題?

林:的確!每筆路殺資料一定要正確鑑定物種,才會有價值。

起初幫忙鑑定者,多是生態界的教授、專家,只要有人丟照片,馬上有人搶著辨認,碰到不易辨認的還會展開激烈討論。

那時大家是覺得好玩,因為活體的特徵容易辨識,一旦被壓死,則要透過微小特徵去分辨,好像在練功。厲害的人只需觀察一根羽毛,就知道是哪種鳥,是公的還是母的。而且剛開始資料量不多,鑑定完成率有九成五以上!

但時間一久,問題來了。這些專家都有自己的工作,不可能天天掛在網上幫忙鑑定,加上資料越來越多,現在一年有幾萬筆,工作量大到無法想像,目前完成率只剩下七成。

最近我正設計一個破關遊戲程式,訓練志工鑑定能力。先將已鑑定的照片按照難度分階:初階是完整、好鑑定,中階是稍有破碎、特徵還在,高階是破損嚴重、只剩一點特徵,再設計是非題、選擇題或連連看,讓志工一路「練功」,達到某個程度還有考試,及格後就具備初階鑑定師資格並發給正式證書。如果未來能培養出一大批熱心的業餘鑑定師,網站就能自主運作了。

真是關關難過關關過啊!未來路殺社還有什麼計劃嗎?

林:最重要的工作是「系統化路死動物全台同步大調查」(路殺社 2.0)。目前網站上幾萬筆資料,雖然可以呈現一些現象,但無法做科學性的分析與比較。例如:當你問我全台一年路死多少動物?我無法估算。

因為過去社員都是隨機調查,任何時間、地點,只要看到就記錄,缺點是「努力量不一樣」。某個地方成為路殺熱點,可能是常常有人做調查,許多地方不是沒有路殺,只是沒人記錄。

為了解決這個問題,我們開始推動系統化調查。簡單來說,是把台灣分成 5 公里 乘 5公里,共 1440 個方格,開放社員認領。每個方格有三種不同變項,包括:八種生態氣候分區 (影響動物族群跟分布)、三種道路密度 (高、中、低密度)、四種道路型態(省道、縣道、鄉道、其他)。

第一階段,我們依生態氣候分區的面積比例,分層逢機挑選具有代表性的 252 個方格來調查:每個生態氣候分區兼顧三種道路密度,每種道路密度兼顧四種道路型態,務求做到真正的公平調查。資料來源│台灣動物路死觀察網、圖說重製│林洵安

社員可根據自己方便挑選方格並組隊,在每年 1、4 、7、10 月,去認領的方格做調查,路線要固定,每條路最少做三公里長度,一個區域至少做兩條不同型態的道路。

本來擔心沒人理我們,還好大家很支持!(汗!)第一階段 252 個格子都達成,未來將擴增到 420 個格子,透過取樣調查方式,研究者就有相同時間、相同努力量的資料可以做精確分析了。

路殺社從臉書起家,成員來自四面八方、各式各樣的專業與人才,彼此之間並不認識,但能夠同心協力走到今天,真的難能可貴。未來希望有更多人加入我們,讓這把改善路殺、保育動物的火苗繼續壯大,一同守護台灣的野生動物。

延伸閱讀

本文轉載自中央研究院研之有物,原文為公民科學萬人齊發!路殺社的成功心法,泛科學為宣傳推廣執行單位

文章難易度
研之有物│中央研究院_96
296 篇文章 ・ 3568 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

2

1
1

文字

分享

2
1
1
2020 年公民科學事件簿:#長新冠(#Long Covid)
A.H._96
・2023/10/20 ・5564字 ・閱讀時間約 11 分鐘

通過患者主導的研究和患者主導的行動主義,
患者似乎正在編寫第一本關於長新冠的教科書

(Amali Lokugamage, 2020 而後被世衛總幹事引用1

時空回到 2020 年 5 月下旬,台灣的新冠疫情頭條新聞是國內新冠肺炎疫情趨緩,連續超過一個月沒有本土確診病例,然而全球確診數卻已衝破 500 萬大關 2。那是台灣全民和網路社群每日為 +0 歡欣鼓舞的日子,清零台灣很難想像其他國家在疫情狂飆下的生活樣貌。

全球大部分國家在封城與疫情無法控制的脈絡下,原本防疫科學辭典裡沒有的名詞,在 2020 年春季歐美英語使用者的網路社群中漸漸流傳開來。由於網路社群媒體允許患者在封鎖與身體狀態不佳的限制下,在網路社群中相互尋找和資訊交流,產生共鳴與共識進而發展出一個共通術語,也就是我們現在熟知的「長新冠(Long COVID)」或國內較不熟悉的另一個相似詞「長途運輸者(Long-hauler)/長途運輸的新冠 (long-haul COVID) 3」。

我們現在知道的「長新冠」已不是網路世界中的虛擬事件,而是科學家和國際組織認定的「科學物件 (scientific object)」。世界衛生組織正式定義:新冠後症狀(Post COVID-19 condition ),簡稱長新冠(Long COVID) 是指在初次感染新冠病毒三個月後繼續或出現新症狀,症狀持續至少兩個月,無法用其他診斷來解釋的病症 4。長新冠患者的發病率也從早期研究的 10%,20% 至近期《自然》期刊《科學報告》5 所敘述的 30-60% 。此篇論文主要提出感染新冠兩年後仍對免疫系統造成不良影響,再次令人不僅感嘆新冠的長尾還真是長,不過我們關注的焦點是論文中的這段敘述:

“有趣的是「長新冠」一詞是由倫敦大學考古學家艾爾莎・佩雷戈(Elsa Perego)在推特上推廣來自患者創造的術語而興起的。”

圖一:網路社群廣用的主題標籤來描述或分享長新冠資訊。圖/作者提供

這個來自 2020 年春天「患者創造的術語」, 2021 年 10 月 6 日世衛公布長新冠的正式定義,雖然使用的是「新冠後症狀(post COVID-19 condition)」,但長新冠仍是最通用的術語。在今年(2023)的 7 月 31 日美國衛生與公眾服務部(Health and Human Service, HHS)宣布正式成立「長新冠研究與實務辦公室 (the Office of Long COVID Research and Practice)」,同時也啟動了長新冠的臨床試驗 6。這場網路社群的公眾參與科學論述理念,由下而上的草根運動,進而引起廣泛群眾社會良知並驅動科學家研究,最後促成相關政策組織的成立過程,即是社會學家所稱的「公民科學(citizen science)」7

-----廣告,請繼續往下閱讀-----

那麼我們不禁好奇,這一切是如何開始的?

現在若按照世衛的「長新冠」定義,感染三個月後持續二個月症狀合計至少五個月的病程,那麼文獻上 2020 年 5 月這個時間點,反應了歐美國家初期大規模感染後,累積一定數量患者在確診後「理論上康復」但卻持續有各種症狀困擾的情形。當時各國的衛生當局和醫療機構尚未認識到新冠感染造成長期後遺症的可能性,而世衛最初資訊亦表示新冠輕症感染者的病程平均持續兩周。

佩雷戈在 2020 年 5 月 20 日(英國時間)是目前文獻上記載最早的長新冠推文,後續網路社群媒體陸續出現如圖一所標示與長新冠有關的主題標籤。佩雷戈與其他科學家 2020 年 9 月發表了一封公開信,標題是「為什麼我們需要患者所提出的『長新冠』術語」,說明長新冠一詞強調了當時輕症卻持續超過二周以上的多種後遺症,這個術語有助於認識新冠發病機制本身具有特異性,而術語本身的簡單性和力量則有助於在全球範圍內爭取公平認可,並確保公眾在接觸新冠風險時,瞭解感染的潛在長期影響 8

圖二:2020 年自 5 月起長新冠公民科學形成的過程。圖/作者提供
註:長新冠公民科學的發展並非完全線性的發展,其中多種面相是重疊的。
(點圖放大)

圖二摘要描述 2020 年自 5 月起長新冠公民科學形成的過程,主要依據佩雷戈與英國格拉斯哥大學人文地理學教授菲麗西蒂・卡拉德(Felicity Callard)、英國劍橋、牛津等大學研究學者梅洛迪・特納(Melody Turner)等人記錄這場 2020 年公民科學發展過程的三篇論文 9, 10, 11

以 2020 年自 5 月的第一條推文,推特社群與其他網路媒體(如臉書、 Slack 和 WhatsApp 社群)快速構建,並在此過程中引入了長新冠作為一種社會條件,導致在短短的三個月內被世衛確認長新冠為一種醫療狀況:世衛國際疾病分類(International Classification of Diseases 11th Revision, ICD-11)正式定義長新冠為新冠後症狀,圖二最後以《自然》期刊編輯於該年 10 月發表的公開呼籲做結:「長新冠:讓患者協助定義長新冠症狀」副標題:長新冠症狀的術語以及康復的定義必須納入患者的觀點。

-----廣告,請繼續往下閱讀-----

「從一條相當不起眼的推文(引入了一個新的主題標籤,最初只被『點讚』一次),在短短三個月內轉變為世衛使用的詞」佩雷戈回憶說明, #longcovid 的使用呈指數級增長。一週內從社群媒體轉向印刷媒體,短短一個月醫學期刊從討論、呼籲、科學家開始下定義、到「長新冠」的引號在主流媒體與科學期刊內容消失,直接使用長新冠一詞,三個月後 2020 年 8 月 21 日在世衛新冠技術負責人瑪麗亞・范克爾霍夫 (Maria Van Kerkhove)聯繫英國的長新冠 SOS 組織(LongCovidSOS)了解宣導者要求後,世衛組織總幹事在線上會議與長新冠宣導者討論這一個疾病。

患者症狀故事:新冠不只影響肺部

佩雷戈與卡拉德指出,長新冠患者在網路社群的公民運動中通過與其他經歷長期後遺症患者集體分享而出現,提供了後來科學的新知,其貢獻包括:口頭、書面、視覺敘述、證詞和論點以及宣傳和政策干預,對傳統科學提出了挑戰,例如在大流行初期的新冠公眾資訊傳遞過程中僅限對肺部影響的討論,長新冠網路社群則協助擴大範圍。

2020 年 4 月一篇廣為流傳的推文,而後經由報紙專欄強調這位患者的後遺症「純粹是胃部症狀」而不是肺部系統,其他患者的多重器官後遺症則陸續在各種平台上,各自分享自身的醫學檢查,要求醫療單位進行更深入調查並向傳統研究團體致電等。現在這些「症狀故事」已在許多科學期刊的出版物中得到驗證,換言之,這些患者不僅提供了早期複雜的症狀,更有助於修正新冠損害的範圍,強調了需要關注所有潛在的面相,並提供有關疾病的機制和治療方法的假設。

新冠不只影響肺部,有位患者的後遺症純粹是胃部症狀。
圖/pexels

特納等人 2023 年發表的研究,在論文中提到是特納本人經歷長新冠症狀後與其他研究人員著手展開的。她反思自己的經歷如何影響她的研究,並質疑患者如何以及為何能在各種醫療機構前識別出長新冠,進而質疑傳統實證醫學的過程。他們蒐集整理 3 萬多筆帶有 #longcovid 和 #longhauler 標籤推文,進一步語意分析 974 條推文內容中的關鍵字後歸納指出:推特使用者最初將長新冠描述為一種無情、多器官、致殘的疾病,卻也因當時公眾和醫療機構缺乏認知,這些推特使用者面臨著恥辱和歧視的不公平待遇。但這些長新冠的早期推特使用者,後來被研究記錄為長新冠最初經歷的科學實證者,藉由此次的集體社會運動 (collective social movement)對長新冠患者的醫療保健需求建立共識。

-----廣告,請繼續往下閱讀-----

同時另一個推特標籤 #researchrehabrecognition (#研究康復認知)也引起了世衛總幹事譚德賽的注意,最後承認長新冠問題並力促解決,特納等人解釋,長新冠患者賦予疾病經歷的含義在很大程度上被理解為有價值的知識形式,可以更全面地認識和治療病情及其影響,這些公民知識通過塑造臨床醫生與患者討論診斷的方式來直接影響臨床實踐,提高了就治療方案和任何建議的生活方式改變達成共識的能力。

長新冠公民運動:衛生服務部門的具體回應

佩雷戈與卡拉德提到的另一個網路社群運動也使得英國政府不得不採取具體行動。 2020 年 7 月,患有長新冠的英國南安普敦大學公共衛生教授尼斯林・阿爾萬(Nisreen Alwan)發起了社群媒體活動「#計算長新冠(#CountLongCovid)」,強調迫切需要正確的康復病例定義、收集數據的標準化方法以及大量基於人群的樣本資料,呼籲政府全面收集監測長新冠。

9 月,網友結合「六個月前」脈絡在推特上集合紛紛留下個人長新冠前後的對比故事。現在我們可藉由應用程式 Thread Reader App 將此推文串合併,一窺當時網路社群如何串連長新冠的個人經歷 12。 2020 年底英國國家統計局公布,「長新冠」監測數據,證實了真實患病率可能比以前認為的要高得多、患者症狀持續三個月或更長時間 13

另外針對兒童和青少年的長新冠症狀, 2020 年的 #兒童長新冠(#LongCovidKids)運動亦促成了英國國會跨黨派國會新冠小組(All-Party Parliamentary Group on Coronavirus in the UK)在 2021 年 1 月舉行的兒童長新冠公聽會,今(2023)年 2 月 16 日世衛也公布了兒童和青少年版長新冠的正式定義 14

-----廣告,請繼續往下閱讀-----
世界衛生組織也公布了兒童和青少年版長新冠的正式定義。
圖/unsplash

特納等人綜合歸納 #longcovid 推文標籤的六個主題:

  1. 個人長期恢復
  2. 看不見的疾病,例如考慮最初對長新冠缺乏認識可能是一種孤立和無形的體驗
  3. 意外族群,如參與者對觀察結果表示驚訝和擔憂,許多長新冠患者很年輕而且以前「身體健康」
  4. 通過量化進行驗證,如對疫情統計資料和醫療系統有限投入的憂慮,強調最初兩週的定義的不足,要求通過監測計算患者發病率來了解病情
  5. 支持和研究的需要,如推特使用者擔心由於知識的缺乏,醫療機構可能無法充分提供醫療保健服務或投資長新冠的研究,因此使用 #researchrehabrecognition,最後獲得世衛的重視
  6. 衛生服務部門的認可

如推文中參與者評論醫療機構如何逐漸意識到長新冠與受到官方醫療保健的認同,如當時的美國首席醫療顧問安東尼・福奇以及世衛譚德塞,從而創造了衛生服務部門的具體行動以及為社會和科學新的認識契機。

網路社群媒體的開放性

網路社群在 2020 年經歷了所謂的醫療煤氣燈(medical gaslighting)效應,當他們處於科學對長新冠不確定性的大環境時,經常覺得被敷衍或誤診,就像是 1944 年經典電影《煤氣燈下》(Gaslight)明明房間裡煤氣燈忽明忽暗,但影片中的老公卻堅持一切正常,這些求助無門的人們,經歷許多令人沮喪的醫療保健挫折,藉由網路群眾的長新冠公民運動,將確診後揮之不去的各種後遺症和醫療狀況與具有相同經歷的人們聯繫起來,以尋求資訊、支持和認可,最終獲得了疾病的驗證和社會的支援 15

當他們處於科學對長新冠不確定性的大環境時,經常覺得被敷衍或誤診。
圖/pexels

特納等人分析推特如何促進集體社會運動的形成社會共識,通過社群媒體的公開和開放的系統,推特的社交網絡使得以前互不相干的使用者能夠分享這些情緒、資訊與交換知識,從普通公民、醫生、科學家到世衛總幹事等知名人士。推特與其他社交網站(如臉書和 Slack )使用方法不同,後者的長新冠社群多是封閉群組,限制公開分享;推特則在長新冠的推文中具有「去中心化」的特性:如沒有單一的意見領袖、使用者間訊息自由流動等。

-----廣告,請繼續往下閱讀-----

例如推特使用者廣泛分享了 #research 、 #rehabilitation 和 #recognition 等單獨術語。 最終,使用者將這三個術語合併成 #researchrehabrecognition ,此標籤的演變展示了集體決策的過程,旨在挑戰長新冠患者由最初缺乏醫療認可和醫療保健規定而面臨的公民知識需求和認可狀態。

長新冠患者的知識因民眾直接地發起參與研究自己或社區、社群的環境和健康危害,提高學界醫界對新冠的新認識,知識從患者通過媒體傳播到正規的臨床和衛生政策管道,就像特納等人的分析,長新冠從一種看不見的疾病轉變為一種公認的疾病。

這些網路社群推文積極的行動,達成的集體共識足以令人信服地向包括世衛在內的醫療機構證明,儘管缺乏傳統的實證醫學,但長新冠是一種真實的疾病。一群網路公民在 2020 年集體編寫了第一本關於長新冠的教科書,此刻我們見證了網路社群的群眾力量,不僅促成了現實世界的真實變化,確保對醫療保健供應的認可,也揭開了科學研究的新序幕。

參考資料

  1. Lokugamage A, Rayner C, Simpson F, Carayon L. We have heard your message about long covid and we will act, says WHO. The BMJ. Published September 3, 2020. ↩︎
  2. Yahoo News:國際新冠肺炎疫情還在燒 全球確診數破 500 萬大關 ↩︎
  3. 目前已知「長途運輸者」在佩雷戈論文中引用來自 2020 年 6 月的推文:「長途運輸新冠戰士」的患者召集人艾咪・沃森(Amy Watson) ,她從她接受測試時戴的卡車司機帽子中衍生出來:https://twitter.com/katemeredithp/status/1277316840453267456 ↩︎
  4. WHO:https://www.who.int/europe/news-room/fact-sheets/item/post-covid-19-condition ↩︎
  5. López-Hernández, Y., Monárrez-Espino, J., López, D.A.G. et al. The plasma metabolome of long COVID patients two years after infection. Sci Rep 13, 12420 (2023) ↩︎
  6. HHS News: https://www.hhs.gov/about/news/2023/07/31/hhs-announces-formation-office-long-covid-research-practice-launch-long-covid-clinical-trials-through-recover-initiative.html ↩︎
  7. 泛科學、左岸文化 (2018/05/17),什麼是公民科學?誰是公民科學家? ↩︎
  8. Perego, Elisa, et al. “Why the patient-made term ‘long covid’ is needed.” Wellcome Open Research 5.224 (2020): 224. ↩︎
  9. Callard, Felicity, and Elisa Perego. “How and why patients made Long Covid.” Social science & medicine 268 (2021): 113426 ↩︎
  10. Perego, Elisa, and Felicity Callard. “Patient-made Long Covid changed COVID-19 (and the production of science, too).” (Feb. 2021) ↩︎
  11. Turner, Melody, et al. “The# longcovid revolution: A reflexive thematic analysis.” Social Science & Medicine (2023): 116130. ↩︎
  12. Thread Reader App#計算長新冠(#CountLongCovid)與“六個月前”結合的網頁: https://threadreaderapp.com/convos/1308678318821199872 ↩︎
  13. 英國獨立報 The Independent (16 December 2020) ,https://www.independent.co.uk/news/health/coronavirus-long-covid-ons-data-b1774821.html ↩︎
  14. WHO:A clinical case definition for post COVID-19 condition in children and adolescents by expert consensus, 16 February 2023 ↩︎
  15. Russell, David, et al. “Support amid uncertainty: Long COVID illness experiences and the role of online communities.” SSM-Qualitative Research in Health 2 (2022): 100177 ↩︎
所有討論 2

0

2
2

文字

分享

0
2
2
資料科學與研究資料管理的最前沿:2022 國際資料週
研究資料寄存所 (depositar)_96
・2022/10/07 ・5342字 ・閱讀時間約 11 分鐘

-----廣告,請繼續往下閱讀-----

想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。

國際資料週是什麼?

「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。

國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。

2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因  COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。

-----廣告,請繼續往下閱讀-----

研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。

場次紀錄:如何提高研究成果的可再重現或可複製性?

SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES

本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。

有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。

研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。

-----廣告,請繼續往下閱讀-----

對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。

上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。

CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。

BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!

本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。

-----廣告,請繼續往下閱讀-----

DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。

為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。

經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。

目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。

-----廣告,請繼續往下閱讀-----
圖/Argos

DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。

DATA PUBLISHING IN THE OPEN SCIENCE ERA

本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。

分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。

類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。

-----廣告,請繼續往下閱讀-----

資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。

要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡(Data Curation Network, DCN)便是這樣的聯盟。

類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。

本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。

-----廣告,請繼續往下閱讀-----

CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES

本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。

當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。

自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。

資料來源/CODATA-RDA Data Schools – Ignition Report

CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。

-----廣告,請繼續往下閱讀-----

為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。

學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。

報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。

議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。

或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。

海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT

除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選

作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。

小結

確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。

略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。

但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。

研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。