0

0
0

文字

分享

0
0
0

提昇大數據可信度,統計學用機率和抽樣優化分析模型-專訪典通公司總經理楊雅惠

陳妤寧
・2016/05/24 ・2883字 ・閱讀時間約 6 分鐘 ・SR值 557 ・八年級

採訪編輯 / 陳妤寧

大數據如果要化為能在市場上提供服務的產品,除了在要科技上持續突破,也需要能解決真實世界中的消費者、企業或政府決策者、等等不同使用者的難題。

典通股份有限公司多年來以民意和市場調查為主要經營項目,隨著大數據的興起,典通也轉投資新公司「Dataa」-浚鴻數據開發股份有限公司,以典通厚植的市場研究經驗為基礎,提供大數據解決方案。他們建議客戶,大數據和傳統民調不可偏廢,兩者應該扮演相輔相成的效果,這是為什麼?

輿情分析和民意調查,兩者相輔相成

成功的大數據服務商業模式,就如同過去股民手上拿的股票機一樣,廠商把上千支的股票資料進行分析,最後推薦用戶哪幾支股票的表現值得推薦。而在這個媒體發達、資訊爆炸的時代,公眾人物、公關從業者或是需要了解民意方向的地方首長,都需要了解大眾現在最關心的新聞是什麼?態度是正面是負面?哪些媒體對自己比較友善?這些運籌帷幄的智囊,如今都存乎於像典通這樣的公司提供的輿情分析服務中,一切的關鍵在於解決使用者的需求和問題。

-----廣告,請繼續往下閱讀-----

但典通的總經理楊雅惠單刀直入地說,如果單純爬梳網路上所有論壇和社群媒體上的意見就直接做出情勢判斷,是存在風險的。「不是所有的人都會在網路上發言,而我們正在分析的這些網路發文,會不會北部人遠多於南部人?會不會高學歷者多於教育程度偏低者?會不會除了少數意見領袖之外,還有太多的網友只有『潛水』瀏覽、而沒有發表意見?」為了確保輿情分析的結果能夠具有代表性(換言之,等於參考價值),楊雅惠主張過去的抽樣調查也必須同步進行,作為判讀輿情分析結果的輔助。

以典通自身為例,一方面透過內建的會員平台進行民調施測,由於平台不對外開放,得以控制會員年齡、性別、地理區域等特性分布的均質性,避免開放式民調平台無法控制同一人重複填答的問題。另一方面,典通也以傳統的電話訪問調查年齡層偏高的族群,以有別於出生長大都在網路發達環境的「網路原生代」。雖然樣本相對少,然而嚴謹確保代表性的做法,卻能夠和利用大數據進行輿情分析的結果互相參照、相輔相成,「如果兩者的顯示結果落差很大,那麼就值得深入研究其中蹊蹺。」

資訊工程和統計分析結合,同時洞悉趨勢和掌握因果

本身是統計學專業背景的楊雅惠從學門的角度分析,認為大數據以資訊工程和演算法為領頭,目標為「快」和「廣」,如何解釋因果關係反而不是重點。「例如我們的客戶中有產險公司,希望能夠建立一套如何判定『拒絕誰來投保』的機制,所以重點是從過去累積的海量資料中分析出規律,最後的結果很可能是費人思索的,例如身高體重等等無法立刻得到解釋的各種變數。但在此情況中,得知因果並不如準確洞悉大趨勢來的重要。」

但在其他情境很可能就恰好相反了,以醫療領域來說,確認因果關係就非常重要,也需要更多特定領域的專家加入分析判讀。而統計學以機率為基礎,雖然運算方式較為複雜,使得運算速度不如以「0 和 1」為邏輯的演算法來的快速,但更能深入研究因果關係。「時至今日,其實我們利用 R 語言建立迴歸分析,矩陣演算的速度也已大幅提昇。」楊雅惠細細解釋,當我們談到模型時,一是指產生統計指標的函數模型,二則是指整合不同統計指標、產出一個立體象限的決策模型,後者更靠近客戶直接做出決定的端點。

-----廣告,請繼續往下閱讀-----

雖然如此劃分兩種學門擔當的角色,楊雅惠認為兩者之間並非對立的關係。「大數據可以解決資料端的問題,統計分析則能在尋求因果解釋時突破片面,兩者互補合作,是對於客戶較為完整的解決方案。」在商業應用的世界中,一切終究需要回歸到客戶的需求:當科技和新技術持續推陳出新,哪些能夠為客戶的問題帶來解決方案?

提昇數據代表性,統計也能優化輿情分析模型

話說回輿情分析,難道「大」數據就沒有精緻化的可能嗎?其實透過深入研究大眾在網路上發表意見的行為模式,可以在分析過程中持續調整權重、減少代表性偏差、優化分析模型。舉例來說,如果同一個發言者連續且大量發言,這種情況就需要調降其權重,避免分析時擴大了單獨一個人的重要性;同樣的,發文者是一般大眾?意見領袖?還是試圖影響輿論的媒體?這些角色如果能分離,也能得出更細緻準確的分析結果。

在正評負評的情緒分析中,可以透過分析一般人使用語言的習慣,找出除了統計正負面的詞語數量之外的分析方法。例如同樣一篇文章標題,後面接的是問號還是驚嘆號,想要傳達的立場可能就完全不同。而許多媒體報導可能為了力求中立,在文章前半段平鋪直敘,直到最後一段才直抒其意,因此文章中的最後一段權重調高,也有助於更良好的判斷網路輿論的正負評聲量。

個人隱私及未統一的數據標準,醫療資料價值服務尚有挑戰

醫療領域的大數據,和其他領域相比有什麼特性?專長在醫療資料分析的楊雅惠表示,最大的癥結點仍在於個資和隱私問題,使得醫療資料的商業模式雖然明確,但利用上仍有諸多挑戰。「例如遠距醫療在技術上已經變成可能,許多穿戴式智慧裝置也都能蒐集個人化的生理資訊,但醫事法規定,醫師必須見到病患本人才能做出診斷。」

-----廣告,請繼續往下閱讀-----

楊雅惠表示,其實法令在今年已經有初步開放,在特定用戶同意的情況下,醫療服務的系統商可以介接健保資料庫的API,存取該特定用戶的健保資料,結合穿戴式智慧裝置記錄的個人生理資訊,協助判斷用戶的身體狀況並提供疾病警訊。

而「非個人化」的醫療資料分析其實已經存在,處於開放初期的健保資料庫,將去個人化的批量資料開放予研究單位,分析國人的健康趨勢。「資料庫會規範最細的分析單位,避免交叉分析造成個人醫療隱私的暴露風險。但可以研究各種預測疾病的模型,一旦個人化的資料到位,模型就能實現為多元的服務應用。」

目前除了醫療資料的隱私問題,另一個挑戰在於各家廠商所推出的個人化穿戴裝置規格不一,醫界對於如何採用這些裝置所記錄的生理數據尚無一致的標準。「例如現行的血壓計,醫界對於在什麼環境、什麼規格所測量出來的數據是否可信是具有共識的;然而現在各種新興的運動手環,可能還不足以成為醫生敢採信的正式醫療數據。」

從市場端的角度分析,楊雅惠認為掌握客戶需求,才能在資料之中問出好問題,進而做出具有代表性的數據分析。反而大數據的定義並不一定是筆數多,以基因資料庫為例,雖然人次不多,但每個人的基因蘊含的變數都很大,整體分析的複雜度也就會隨之提高。最重要的是,隨著機器設備和演算能力的進步、相關平台和工具出現開放的來源,研究大數據的門檻降低,有越來越多的小型團隊得以投入,即使不用昂貴的設備,也能共同開發大數據的未來。

-----廣告,請繼續往下閱讀-----

(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)

責任編輯:鄭國威

大數據專題報導系列:

  1. 資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
  2. 運用海量資料讓機器「自學」,電腦將成為更好的決策代理人-專訪台大資工教授林守德
  3. 不是只有數字才是數據,語意分析讓電腦掌握文字背後的情感-專訪意藍科技董事長楊立偉
  4. 從演算法設計到金融交易應用,數學在資料科學中無所不在-專訪東吳數學系教授吳牧恩
文章難易度
陳妤寧
38 篇文章 ・ 0 位粉絲
熱愛將知識拆解為簡單易懂的文字,喜歡把一件事的正反觀點都挖出來思考,希望用社會科學的視角創造更宏觀的視野。

2

3
0

文字

分享

2
3
0
數據塑造生活與社會,讓人既放心但又不安?——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/28 ・2760字 ・閱讀時間約 5 分鐘

數位世界已經改變了我們日常生活的體驗,一個人從早到晚都會接受到大量數據,受益於大量數據,也貢獻大量數據。這些數據龐大的程度,和消化資訊的方式已經太過繁多,人類心智根本無法處理。

與數位科技建立夥伴關係

所以人會本能地或潛意識地倚賴軟體來處理、組織、篩選出必要或有用的資訊,也就是根據用戶過去的偏好或目前的流行,來挑選要瀏覽的新項目、要看的電影、要播放的音樂。自動策劃的體驗很輕鬆容易,又能讓人滿足,人們只會在沒有自動化服務,例如閱讀別人臉書塗鴉牆上的貼文,或是用別人的網飛帳號看電影時,才會注意到這服務的存在。

有人工智慧協助的網路平臺加速整合,並加深了個人與數位科技間的連結。人工智慧經過設計和訓練,能直覺地解決人類的問題、掌握人類的目標,原本只有人類心智才能管理的各種選擇,現在能由網路平臺來引導、詮釋和記錄(儘管效率比較差)。

日常生活中很少察覺到對自動策劃的依賴。圖/Pexels

網路平臺收集資訊和體驗來完成這些任務,任何一個人的大腦在壽命期限內都不可能容納如此大量的資訊和體驗,所以網路平臺能產出看起來非常恰當的答案和建議。例如,採購員不管再怎麼投入工作,在挑選冬季長靴的時候,也不可能從全國成千上萬的類似商品、近期天氣預測、季節因素、回顧過去的搜尋記錄、調查物流模式之後,才決定最佳的採購項目,但人工智慧可以完整評估上述所有因素。

-----廣告,請繼續往下閱讀-----

因此,由人工智慧驅動的網路平臺經常和我們每個人互動,但我們在歷史上從未和其他產品、服務或機器這樣互動過。當我們個人在和人工智慧互動的時候,人工智慧會適應個人用戶的偏好(網際網路瀏覽記錄、搜尋記錄、旅遊史、收入水準、社交連結),開始形成一種隱形的夥伴關係。

個人用戶逐漸依賴這樣的平臺來完成一串功能,但這些功能過去可能由郵政、百貨公司,或是接待禮賓、懺悔自白的人和朋友,或是企業、政府或其他人類一起來完成。

網路平臺和用戶之間是既親密又遠距的聯繫。圖/Envato Elements

個人、網路平臺和平臺用戶之間的關係,是一種親密關係與遠距聯繫的新穎組合。人工智慧網路平臺審查大量的用戶數據,其中大部分是個人數據(如位置、聯絡資訊、朋友圈、同事圈、金融與健康資訊);網路會把人工智慧當成嚮導,或讓人工智慧來安排個人化體驗。

人工智慧如此精準、正確,是因為人工智慧有能力可以根據數億段類似的關係,以及上兆次空間(用戶群的地理範圍)與時間(集合了過去的使用)的互動來回顧和反應。網路平臺用戶與人工智慧形成了緊密的互動,並互相學習。

-----廣告,請繼續往下閱讀-----

網路平臺的人工智慧使用邏輯,在很多方面對人類來說都難以理解。例如,運用人工智慧的網路平臺在評估圖片、貼文或搜尋時,人類可能無法明確地理解人工智慧會在特定情境下如何運作。谷歌的工程師知道他們的搜尋功能若有人工智慧,就會有清楚的搜尋結果;若沒有人工智慧,搜尋結果就不會那麼清楚,但工程師沒辦法解釋為什麼某些結果的排序比較高。

要評鑑人工智慧的優劣,看的是結果實用不實用,不是看過程。這代表我們的輕重緩急已經和早期不一樣了,以前每個機械的步驟或思考的過程都會由人類來體驗(想法、對話、管理流程),或讓人類可以暫停、檢查、重複。

人工智慧陪伴現代人的生活

例如,在許多工業化地區,旅行的過程已經不需要「找方向」了。以前這過程需要人力,要先打電話給我們要拜訪的對象,查看紙本地圖,然後常常在加油站或便利商店停下來,確認我們的方向對不對。現在,透過手機應用程式,旅行的過程可以更有效率。

透過導航,為旅途帶來不少便利。圖/Pexels

這些應用程式不但可以根據他們「所知」的交通記錄來評估可能的路線與每條路線所花費的時間,還可以考量到當天的交通事故、可能造成延誤的特殊狀況(駕駛過程中的延誤)和其他跡象(其他用戶的搜尋),來避免和別人走同一條路。

-----廣告,請繼續往下閱讀-----

從看地圖到線上導航,這轉變如此方便,很少人會停下來想想這種變化有多大的革命性意義,又會帶來什麼後果。個人用戶、社會與網路平臺和營運商建立了新關係,並信任網路平臺與演算法可以產生準確的結果,獲得了便利,成為數據集的一部分,而這數據集又在持續進化(至少會在大家使用應用程式的時候追蹤個人的位置)。

在某種意義上,使用這種服務的人並不是獨自駕駛,而是系統的一部分。在系統內,人類和機器智慧一起協作,引導一群人透過各自的路線聚集在一起。

持續陪伴型的人工智慧會愈來愈普及,醫療保健、物流、零售、金融、通訊、媒體、運輸和娛樂等產業持續發展,我們的日常生活體驗透過網路平臺一直在變化。

網路平台協助我們完成各種事項。圖/Pexels

當用戶找人工智慧網路平臺來協助他們完成任務的時候,因為網路平臺可以收集、提煉資訊,所以用戶得到了益處,上個世代完全沒有這種經驗。這種平臺追求新穎模式的規模、力量、功能,讓個人用戶獲得前所未有的便利和能力;同時,這些用戶進入一種前所未有的人機對話中。

-----廣告,請繼續往下閱讀-----

運用人工智慧的網路平臺有能力可以用我們無法清楚理解,甚至無法明確定義或表示的方式來形塑人類的活動,這裡有一個很重要的問題:這種人工智慧的目標功能是什麼?由誰設計?在哪些監管參數範圍裡?

類似問題的答案會繼續塑造未來的生活與未來的社會:誰在操作?誰在定義這些流程的限制?這些人對於社會規範和制度會有什麼影響?有人可以存取人工智慧的感知嗎?有的話,這人是誰?

如果沒有人類可以完全理解或查看數據,或檢視每個步驟,也就是說假設人類的角色只負責設計、監控和設定人工智慧的參數,那麼對人工智慧的限制應該要讓我們放心?還是讓我們不安?還是既放心又不安?

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 2
聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

1
0

文字

分享

0
1
0
AI 的 3 種學習形式:不同的目標功能,不同的訓練方式——《 AI 世代與我們的未來》
聯經出版_96
・2022/12/27 ・2368字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

搭配不同的任務,人工智慧的應用方式也不一樣,所以開發人員用來創造人工智慧的科技也不一樣。這是部署機器學習時最基礎的挑戰:不同的目標和功能需要不同的訓練技巧。

機器學習最基礎的挑戰:不同目標和功能需配合不同訓練技巧。圖/Pexels

不過,結合不同的機器學習法,尤其是應用神經網路,就出現不同的可能性,例如發現癌症的人工智慧。

機器的 3 種學習形式

在我們撰寫本章的時候,機器學習的三種形式:受監督式學習、不受監督式學習和增強式學習,都值得注意。

受監督式學習催生了發現海利黴素的人工智慧。總結來說,麻省理工學院的研究人員想要找出有潛力的新抗生素,在資料庫裡放入二千種分子來訓練模型,輸入項目是分子結構,輸出項目是抑菌效果;研究人員把分子結構展示給人工智慧看,每一種結構都標示抗菌力,然後讓人工智慧去評估新化合物的抗菌效果。

-----廣告,請繼續往下閱讀-----

這種技巧稱為受監督式學習,因為人工智慧開發人員利用包含了輸入範例(即分子結構)的資料集,在這裡面,每一筆數據都單獨標示研究人員想要的輸出項目或結果(即抗菌力)。

開發人員已經把受監督式學習的技巧應用於許多處,例如創造人工智慧來辨識影像。為了這項任務,人工智慧先拿已經標示好的圖像來訓練,學著把圖像和標籤,例如把貓的照片和「貓」的標籤,聯想在一起,人工智慧把圖片和標籤的關係編碼之後,就可以正確地辨識新圖片。

貓貓!圖/Pexels

因此,當開發人員有一個資料集,其中每個輸入項目都有期望的輸出項目,受監督式學習就能有效地創造出模型,根據新的輸入項目來預測輸出項目。

不過,當開發人員只有大量資料,沒有建立關係的時候,他們可以透過不受監督式學習來找出可能有用的見解。因為網際網路與資料數位化,比過去更容易取得資料,現在企業、政府和研究人員都被淹沒在資料中。

-----廣告,請繼續往下閱讀-----

行銷人員擁有更多顧客資訊、生物學家擁有更多資料、銀行家有更多金融交易記錄。當行銷人員想要找出客戶群,或詐騙分析師想要在大量交易中找到不一致的資訊,不受監督式學習就可以讓人工智慧在不確定結果的資訊中找出異常模式。

這時,訓練資料只有輸入項目,然後工程師會要求學習演算法根據相似性來設定權重,將資料分類。舉例來說,像網飛(Netflix)這樣的影音串流服務,就是利用演算法來找出哪些觀眾群有類似的觀影習慣,才好向他們推薦更多節目;但要優化、微調這樣的演算法會很複雜:因為多數人有好幾種興趣,會同時出現在很多組別裡。

影音串流服務利用演算法,進而推薦使用者可能喜歡的節目。圖/Pexels

經過不受監督式學習法訓練的人工智慧,可以找出人類或許會錯過的模式,因為這些模式很微妙、數據規模又龐大。因為這樣的人工智慧在訓練時沒有明定什麼結果才「適當」,所以可以產生讓人驚豔的創新見解,這其實和人類的自我教育沒什麼不同——無論是人類自學或是人工智慧,都會產生稀奇古怪、荒謬無理的結果。

不管是受監督式學習法或不受監督式學習法,人工智慧都是運用資料來執行任務,以發現新趨勢、識別影像或做出預測。在資料分析之外,研究人員想要訓練人工智慧在多變的環境裡操作,第三種機器學習法就誕生了。

-----廣告,請繼續往下閱讀-----

增強式學習:需要理想的模擬情境與回饋機制

若用增強式學習,人工智慧就不是被動地識別資料間的關聯,而是在受控的環境裡具備「能動性」,觀察並記錄自己的行動會有什麼反應;通常這都是模擬的過程, 把複雜的真實世界給簡化了,在生產線上準確地模擬機器人比較容易,在擁擠的城市街道上模擬就困難得多了。

但即使是在模擬且簡化的環境裡,如西洋棋比賽,每一步都還是會引發一連串不同的機會與風險。因此,引導人工智慧在人造環境裡訓練自己,還不足以產生最佳表現,這訓練過程還需要回饋。

西洋棋比賽中的每一步會引發一連串機會與風險。圖/Pexels

提供反饋和獎勵,可以讓人工智慧知道這個方法成功了。沒有人類可以有效勝任這個角色:人工智慧因為在數位處理器上運作,所以可以在數小時或數日之內就訓練自己幾百次、幾千次或幾十億次,人類提供的回饋相比之下根本不切實際。

軟體工程師將這種回饋功能自動化,謹慎精確地說明這些功能要如何操作,以及這些功能的本質是要模擬現實。理想情況下,模擬器會提供擬真的環境,回饋功能則會讓人工智慧做出有效的決定。

-----廣告,請繼續往下閱讀-----

阿爾法元的模擬器就很簡單粗暴:對戰。阿爾法元為了評估自己的表現,運用獎勵功能,根據每一步創造的機會來評分。

增強式學習需要人類參與來創造人工智慧的訓練環境(儘管在訓練過程中不直接提供回饋):人類要定義模擬情境和回饋功能,人工智慧會在這基礎上自我訓練。為產生有意義的結果,謹慎明確地定義模擬情境和回饋功能至關重要。

——本文摘自《 AI 世代與我們的未來:人工智慧如何改變生活,甚至是世界?》,2022 年 12 月,聯經出版公司,未經同意請勿轉載。

聯經出版_96
27 篇文章 ・ 20 位粉絲
聯經出版公司創立於1974年5月4日,是一個綜合性的出版公司,為聯合報系關係企業之一。 三十多年來已經累積了近六千餘種圖書, 範圍包括人文、社會科學、科技以及小說、藝術、傳記、商業、工具書、保健、旅遊、兒童讀物等。

0

2
2

文字

分享

0
2
2
資料科學與研究資料管理的最前沿:2022 國際資料週
研究資料寄存所 (depositar)_96
・2022/10/07 ・5342字 ・閱讀時間約 11 分鐘

想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。

國際資料週是什麼?

「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。

國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。

2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因  COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。

-----廣告,請繼續往下閱讀-----

研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。

場次紀錄:如何提高研究成果的可再重現或可複製性?

SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES

本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。

有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。

研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。

-----廣告,請繼續往下閱讀-----

對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。

上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。

CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。

BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!

本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。

-----廣告,請繼續往下閱讀-----

DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。

為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。

經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。

目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。

-----廣告,請繼續往下閱讀-----
圖/Argos

DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。

DATA PUBLISHING IN THE OPEN SCIENCE ERA

本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。

分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。

類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。

-----廣告,請繼續往下閱讀-----

資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。

要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡(Data Curation Network, DCN)便是這樣的聯盟。

類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。

本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。

-----廣告,請繼續往下閱讀-----

CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES

本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。

當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。

自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。

資料來源/CODATA-RDA Data Schools – Ignition Report

CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。

-----廣告,請繼續往下閱讀-----

為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。

學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。

報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。

議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。

或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。

海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT

除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選

作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。

小結

確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。

略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。

但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。

研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。