0

0
1

文字

分享

0
0
1

蝙蝠的超音波到底在唱什麼?收集野外大型交響樂的「聲景」研究

研之有物│中央研究院_96
・2018/04/19 ・3589字 ・閱讀時間約 7 分鐘 ・SR值 551 ・八年級

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

  • 採訪編輯/嚴融怡 美術編輯/張語辰

你聽過「聲景」嗎?

走進公園或森林,你會聽到鳥聲、蟲叫、蛙鳴,甚至存在人耳無法聽見的蝙蝠超音波。這些生物聲響與環境音構成了「聲景」,是生物多樣性的重要指標。中研院生物多樣性研究中心助研究員──端木茂甯,與跨領域團隊正嘗試蒐集大量錄音資料、結合機器學習,探討生物的聲音反映生物進行了哪些活動、或生態環境中發生了哪些事件。

唱著超音波的蝙蝠

談到蝙蝠,你可能會想到身穿黑色緊身衣、痛揍敵人的蝙蝠俠?但在生態系統中,「蝙蝠」帶來的貢獻,可能比蝙蝠俠還要多(希望影迷不會抗議),例如移除害蟲、幫助傳播種子花粉、讓人類有機會發展生態旅遊等等。

在臺灣有 36 種蝙蝠,其中 33 種使用回聲定位,透過超音波偵測環境和獵物。
資料來源/端木茂甯提供 圖說重製/張語辰

但若想確切了解蝙蝠的行為,實在有些困難,除非你有雙翅膀、而且晚上不用睡覺,可以追蹤牠們飛來飛去,並且能用「超音波」和蝙蝠溝通。

生態學家雖然沒有這般能力,但靈活的大腦可以想出辦法,彌補感官與行動能力的不足。

端木茂甯團隊採用的研究方式是:錄下蝙蝠的超音波與環境音、運用機器學習分離出不同蝙蝠物種的聲音,並藉由「聲音特徵」辨別不同地區的蝙蝠、會發出哪些不同超音波,可能代表什麼樣的生態行為。

有趣的是,生活在不同環境的蝙蝠,叫聲類型也會不一樣。

以森林為主要活動範圍的蝙蝠,為有效偵測複雜的周圍環境,多使用「頻率變化大的短促叫聲」;相對地,喜好生活在開闊地區的蝙蝠,則多使用「固定頻率」的叫聲。且大多數的蝙蝠也會根據自己周遭環境的複雜程度,調整叫聲的頻率範圍與長度。

東亞摺翅蝠、臺灣小蹄鼻蝠,回聲定位發出的超音波頻率,因活動空間與生活型態而不同。 資料來源/端木茂甯、李佳紜提供 圖說重製/林婷嫻、張語辰

透過聲景監測,也可發現自然界一些「看不見」的因果關係。

當自然環境中某些高頻的噪音影響蝙蝠偵測空間,蝙蝠會改變超音波頻率、避開噪音。例如夏天時,有些暮蟬的吵雜跨及超音波的波段,蝙蝠為了不受干擾,會等到稍晚暮蟬發聲減緩之後,才展開活動、進行回聲定位。

運用聲景的概念與機器學習技術,可以解析不同物種的蝙蝠超音波、探討蝙蝠如何適應環境。「這講起來很容易,但要怎麼做,我在這方面也還是個新人。」端木茂甯說。

與「聲景」的初相遇

端木茂甯大學曾窩在實驗室做切片,也曾跟隨台大李玲玲教授至野外研究,與學長一起追尋山羌、飛鼠的腳步,碩班時則用無線電發報器與三角定位,追蹤神出鬼沒的食蟹獴。

「但野外最困難的是……動物不是想遇就遇得到,不確定因素太多了!」端木茂甯回想起來,仍能感到當時歲月流逝、生態觀測卻毫無進展的壓力。

後來在 2007 年美國的景觀生態學(Landscape Ecology)研討會,端木茂甯接觸到聲景生態學,「那時看到生物的聲音,如何在時間與空間上產生動態變化,感到很有趣,雖然當時還沒想到可以做這個題目。」

拿著蝙蝠的端木茂甯,與研究團隊。 攝影/張語辰

直到 2016 年,端木茂甯來到中研院生物多樣性研究中心,有了兩個強大的資料庫為基礎──邵廣昭博士帶領建立的台灣生物多樣性資料庫、來自林試所的王豫煌博士建立的亞洲聲景平台,加上跨領域專家的知識與技術合作,包含專精蝙蝠生態的黃俊嘉博士後研究員,以及中研院網格中心的研究副技師嚴漢偉,提供所需的雲端儲存運算空間。

天時地利人和,「聲景生態學」研究才得以實踐。

於是從 2017 年 3 月開始,沿著中橫海拔 100-3,350 公尺的山上,端木茂甯團隊辛苦地在蝙蝠容易經過的地方設置 15 個樣站,藉由 SM4 超音波錄音機、溫濕度計,蒐集蝙蝠的超音波與環境音,並同時紀錄環境氣候。

另一方面也要設置豎琴網,捕捉野外的蝙蝠、紀錄物種,再設置飛行帳錄下超音波,作為後續比對蝙蝠物種的音訊依據。

收錄蝙蝠聲音的超音波麥克風(Ultrasonic Microphone)與溫濕度計(HOBO)。 圖片來源/端木茂甯、李佳紜提供
在飛行帳中錄下蝙蝠的超音波。 圖片來源/端木茂甯、李佳紜提供
正在錄音的臺灣管鼻蝠,感謝牠提供後續比對蝙蝠物種的音訊依據。 圖片來源/端木茂甯、李佳紜提供

「我們每兩分鐘就錄一分鐘,從下午 4:30 錄到隔天早上 7:30 ,這是蝙蝠活動的時間。每個樣站每月至少錄音一個禮拜,一年下來共有 56 萬分鐘的音檔。」端木茂甯說明。

有了這些在不同環境條件取得的龐大音檔,接下來,讓專業的來。

從聲景交響樂,拆出蝙蝠的音符

與中研院資創中心曹昱副研究員、林子皓博士後研究員合作,端木茂甯團隊得以將在野外錄到的音檔,運用 PC-NMF 技術解析成可供後續生態分析的資料。

PC-NMF 技術、與聲音頻譜圖示意。 圖片來源/T.-H. Lin, S.-H. Fang, and Y, Tsao, “Improving Biodiversity Assessment via Unsupervised Separation of Biological Sounds from Long-duration Recordings,” Scientific Reports, volume 7, number 4547, pages 1, July 2017.  圖說重製/林婷嫻、張語辰

野外錄到的音檔像首交響樂,包含所有蝙蝠的超音波、嘈雜的背景噪音,幸好這兩者聲音有個區分之處:

蝙蝠的超音波通常有較強的週期性,因為每天活動時間、範圍幾乎都差不多。

因此, PC-NMF 技術藉由找出「較強週期性」的音頻,排除環境中沒有週期性的背景噪音,從聲景「交響樂章」中,分離出不同蝙蝠所唱的超音波「音符」。

聲景研究除了可以聲音為據,找出環境中不同種的蝙蝠,也能透過長期監測,觀察蝙蝠的回聲定位行為與環境條件的變化。

例如下圖,比較 2016/7/14~7/22 錄到的音訊,會發現每天分離出的蝙蝠超音波,在時間與頻率上有些不同。後續累積更多這類音訊變化、與環境氣候等資料,就能進一步探究讓蝙蝠改變回聲定位行為的因素。

團隊錄到的原始音訊(上方)、與 PC-NMF 分離出的蝙蝠超音波(下方)。
圖片來源/端木茂甯提供

聲音版的小獵犬號之旅

19 世紀達爾文航行小獵犬號,沿著各地海岸以紙筆、標本蒐集紀錄物種,那時尚無法錄下物種的聲音,並透過電腦分析音訊。現今受惠於錄音設備的普及、機器學習的發展,「聲景生態學」研究與延伸應用越趨成熟。

國際上有 〈xeno-canto〉 致力分享全世界的鳥類鳴聲,美國康乃爾大學有〈Macaulay Library〉 自 1929 年開始收集野生動物的聲音,而國內則有〈台灣聲景協會〉,促進大眾了解與參與保護聲景。

另外,〈雨林連結組織(Rainforest Connection, RFCx)〉也運用回收的舊手機、佈置在熱帶雨林中,透過遠端追蹤雨林中可疑的聲音,成功阻止了一些盜伐活動。

端木茂甯團隊以學術角度,希望在亞洲拼上更多片聲景保育拼圖,將繼續與王豫煌、林子皓等跨領域專家合作,將聲景研究擴展到東南亞國家,除了蝙蝠也會包含其他以聲音溝通的物種,橫跨水域和陸域。

最終期望將這些蒐集得到的聲景音訊與環境條件紀錄,轉換為公開資料,讓相關領域的研究團隊得以共享,一起保存生物多樣性。

人類雖然有兩只耳朵,但常常只聽見自己想聽的。或許今後可試著將注意力放在附近公園、野外踏青的聲景中,在寂靜的春天來臨之前,透過「聲音」展開屬於你的小獵犬號之旅。

本著作由研之有物製作,原文為《蝙蝠的超音波,藏了什麼訊息?》以創用CC 姓名標示–非商業性–禁止改作 4.0 國際 授權條款釋出。

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

延伸閱讀:

___________
你是國中生或家有國中生或正在教國中生?
科學生跟著課程進度每週更新科學文章並搭配測驗。來科學生陪你一起唸科學!

文章難易度
研之有物│中央研究院_96
253 篇文章 ・ 2220 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

1

133
3

文字

分享

1
133
3
AI 是理科「主場」? AI 也可以成為文科人的助力!
研之有物│中央研究院_96
・2022/08/13 ・5646字 ・閱讀時間約 11 分鐘

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪撰文/田偲妤
  • 美術設計/蔡宛潔

AI 的誕生,文理缺一不可

人工智慧(Artificial Intelligence,簡稱 AI)在 21 世紀的今日已大量運用在生活當中,近期掀起熱議的聊天機器人 LaMDA、特斯拉自駕系統、AI 算圖生成藝術品等,都是 AI 技術的應用。多數 AI 的研發秉持改善人類生活的人文思維,除了仰賴工程師的先進技術,更需要人文社會領域人才的加入。

中央研究院「研之有物」專訪院內人文社會科學研究中心蔡宗翰研究員,帶大家釐清什麼是 AI?文科人與工程師合作時,需具備什麼基本 AI 知識?AI 如何應用在人文社會領域的工作當中?

中央研究院人文社會科學研究中心蔡宗翰研究員。圖/研之有物

詩詞大對決:人與 AI 誰獲勝?

一場緊張刺激的詩詞對決在線上展開!人類代表是有「AI 界李白」稱號的蔡宗翰研究員,AI 代表則是能秒速成詩的北京清華九歌寫詩機器人,兩位以「人工智慧」、「類神經」為命題創作七言絕句,猜猜看以下兩首詩各是誰的創作?你比較喜歡哪一首詩呢?

猜猜哪首詩是 AI 做的?哪首詩是人類做的?圖/研之有物

答案揭曉!A 詩是蔡宗翰研究員的創作,B 詩是寫詩機器人的創作。細細賞讀可發覺,A 詩的內容充滿巧思,為了符合格律,將「類神經」改成「類審經」;詩中的「福落天赦」是「天赦福落」的倒裝,多念幾次會發現,原來是 Google 開發的機器學習開源軟體庫「Tensor Flow」的音譯;而「拍拓曲」則是 Facebook 開發的機器學習庫「Pytorch」的音譯,整首詩創意十足,充滿令人會心一笑的魅力!

相較之下,B 詩雖然有將「人工」兩字穿插引用在詩中,但整體內容並沒有呼應命題,只是在詩的既有框架內排列字句。這場人機詩詞對決明顯由人類獲勝!

由此可見,當前的 AI 缺乏創作所需的感受力與想像力,無法做出超越預先設定的創意行為。然而,在不久的將來,AI 是否會逐漸產生情感,演變成電影《A.I. 人工智慧》中渴望人類關愛的機器人?

AI 其實沒有想像中聰明?

近期有一則新聞「AI 有情感像 8 歲孩童?Google 工程師爆驚人對話遭停職」,讓 AI 是否已發展出「自我意識」再度成為眾人議論的焦點。蔡宗翰研究員表示:「當前的 AI 還是要看過資料、或是看過怎麼判讀資料,經過對應問題與答案的訓練才能夠運作。換而言之,AI 無法超越程式,做它沒看過的事情,更無法替人類主宰一切!

會產生 AI 可能發展出情感、甚至主宰人類命運的傳言,多半是因為我們對 AI 的訓練流程認識不足,也缺乏實際使用 AI 工具的經驗,因而對其懷抱戒慎恐懼的心態。這種狀況特別容易發生在文科人身上,更延伸到文科人與理科人的合作溝通上,因不了解彼此領域而產生誤會與衝突。如果文科人可以對 AI 的研發與應用有基本認識,不僅能讓跨領域的合作更加順利,還能在工作中應用 AI 解決許多棘手問題。

「職場上常遇到的狀況是,由於文科人不了解 AI 的訓練流程,因此對 AI 產生錯誤的期待,認為辛苦標注的上千筆資料,應該下個月就能看到成果,結果還是錯誤百出,準確率卡在 60、70% 而已。如果工程師又不肯解釋清楚,兩方就會陷入僵局,導致合作無疾而終。」蔡宗翰研究員分享多年的觀察與建議:

如果文科人了解基本的 AI 訓練流程,並在每個訓練階段協助分析:錯誤偏向哪些面向?AI 是否看過這方面資料?文科人就可以補充缺少的資料,讓 AI 再進行更完善的訓練。

史上最認真的學生:AI

認識 AI 的第一步,我們先從分辨什麼是 AI 做起。現在的數位工具五花八門,究竟什麼才是 AI 的應用?真正的 AI 有什麼樣的特徵?

基本上,有「預測」功能的才是 AI,你無法得知每次 AI 會做出什麼判斷。如果只是整合資料後視覺化呈現,而且人類手工操作就辦得到,那就不是 AI。

數位化到 AI 自動化作業的進程與舉例。圖/研之有物

蔡宗翰研究員以今日常見的語音辨識系統為例,大家可以試著對 Siri、Line 或 Google 上的語音辨識系統講一句話,你會發現自己無法事先知曉將產生什麼文字或回應,結果可能正是你想要的、也可能牛頭不對馬嘴。此現象點出 AI 與一般數位工具最明顯的不同:AI 無法百分之百正確!

因此,AI 的運作需建立在不斷訓練、測試與調整的基礎上,盡量維持 80、90% 的準確率。在整個製程中最重要的就是訓練階段,工程師彷彿化身老師,必須設計一套學習方法,提供有助學習的豐富教材。而 AI 則是史上最認真的學生,可以穩定、一字不漏、日以繼夜地學習所有課程。

AI 的學習方法主要分為「非監督式學習」、「監督式學習」。非監督式學習是將大批資料提供給 AI,讓其根據工程師所定義的資料相似度算法,逐漸學會將相似資料分在同一堆,再由人類檢視並標注每堆資料對應的類別,進而產生監督式學習所需的訓練資料。而監督式學習則是將大批「資料」和「答案」提供給 AI,讓其逐漸學會將任意資料對應到正確答案。

圖/研之有物

學習到一定階段後,工程師會出試題,測試 AI 的學習狀況,如果成績只有 60、70 分,AI 會針對答錯的地方調整自己的觀念,而工程師也應該與專門領域專家一起討論,想想是否需補充什麼教材,讓 AI 的準確率可以再往上提升。

就算 AI 最後通過測試、可以正式上場工作,也可能因為時事與技術的推陳出新,導致準確率下降。這時,AI 就要定時進修,針對使用者回報的錯誤進行修正,不斷補充新的學習內容,讓自己可以跟得上最新趨勢。

在了解 AI 的基本特徵與訓練流程後,蔡宗翰研究員建議:文科人可以看一些視覺化的操作影片,加深對訓練過程的認識,並實際參與檢視與標注資料的過程。現在網路上也有很多 playground,可以讓初學者練習怎麼訓練 AI,有了上述基本概念與實務經驗,就可以跟工程師溝通無礙了。

AI 能騙過人類,全靠「自然語言處理」

AI 的應用領域相當廣泛,而蔡宗翰研究員專精的是「自然語言處理」。問起當初想投入該領域的原因,他充滿自信地回答:因為自然語言處理是「AI 皇冠上的明珠」!這顆明珠開創 AI 發展的諸多可能性,可以快速讀過並分類所有資料,整理出能快速檢索的結構化內容,也可以如同真人般與人類溝通。

著名的「圖靈測試」(Turing Test)便證明了自然語言處理如何在 AI 智力提升上扮演關鍵角色。1950 年代,傳奇電腦科學家艾倫・圖靈(Alan Turing)設計了一個實驗,用來測試 AI 能否表現出與人類相當的智力水準。首先實驗者將 AI 架設好,並派一個人操作終端機,再找一個第三者來進行對話,判斷從終端機傳入的訊息是來自 AI 或真人,如果第三者無法判斷,代表 AI 通過測試。

圖靈測試:AI(A)與真人(B)同時傳訊息給第三者(C),如果 C 分不出訊息來自 A 或 B,代表 AI 通過實驗。圖/研之有物

換而言之,AI 必須擁有一定的智力,才可能成功騙過人類,讓人類不覺得自己在跟機器對話,而這有賴自然語言處理技術的精進。目前蔡宗翰的研究團隊有將自然語言處理應用在:人文研究文本分析、新聞真偽查核,更嘗試以合成語料訓練臺灣人專用的 AI 語言模型。

讓 AI 替你查資料,追溯文本的起源

目前幾乎所有正史、許多地方志都已經數位化,而大量數位化的經典更被主動分享到「Chinese Text Project」平台,讓 AI 自然語言處理有豐富的文本資料可以分析,包含一字不漏地快速閱讀大量文本,進一步畫出重點、分門別類、比較相似之處等功能,既節省整理文本的時間,更能橫跨大範圍的文本、時間、空間,擴展研究的多元可能性。

例如我們想了解經典傳說《白蛇傳》是怎麼形成的?就可以應用 AI 進行文本溯源。白蛇傳的故事起源於北宋,由鎮江、杭州一帶的說書人所創作,著有話本《西湖三塔記》流傳後世。直至明代馮夢龍的《警世通言》二十八卷〈白娘子永鎮雷峰塔〉,才讓流傳 600 年的故事大體成型。

我們可以透過「命名實體辨識技術」標記文本中的人名、地名、時間、職業、動植物等關鍵故事元素,接著用這批標記好的語料來訓練 BERT 等序列標注模型,以便將「文本向量化」,進而找出給定段落與其他文本的相似之處。

經過多種文本的比較之後發現,白蛇傳的原型可追溯自印度教的那伽蛇族故事,傳說那伽龍王的三女兒轉化成佛、輔佐觀世音,或許與白蛇誤食舍利成精的概念有所關連,推測印度神話應該是跟著海上絲路傳進鎮江與杭州等通商口岸。此外,故事的雛型可能早從唐代便開始醞釀,晚唐傳奇《博異志》便記載了白蛇化身美女誘惑男子的故事,而法海和尚、金山寺等關鍵人物與景點皆真實存在,金山寺最初就是由唐宣宗時期的高僧法海所建。

白蛇傳中鎮壓白娘子的雷峰塔。最早為五代吳越王錢俶於 972 年建造,北宋宣和二年(1120 年)曾因戰亂倒塌,大致為故事雛形到元素齊全的時期。照片中雷峰塔為 21 世紀重建。圖/Wikimedia

在 AI 的協助之下,我們得以跨時空比較不同文本,了解說書人如何結合印度神話、唐代傳奇、在地的真人真事,創作出流傳千年的白蛇傳經典。

最困難的挑戰:AI 如何判斷假新聞

除了應用在人文研究文本分析,AI 也可以查核新聞真偽,這對假新聞氾濫的當代社會是一大福音,但對 AI 來說可能是最困難的挑戰!蔡宗翰研究員指出 AI 的弱點:

如果是答案和數據很清楚的問題,就比較好訓練 AI。如果問題很複雜、變數很多,對 AI 來說就會很困難!

困難點在於新聞資訊的對錯會變動,可能這個時空是對的,另一個時空卻是錯的。雖然坊間有一些以「監督式學習」、「文本分類法」訓練出的假新聞分類器,可輸入當前的新聞讓機器去判讀真假,但過一段時間可能會失準,因為新的資訊源源不絕出現。而且道高一尺、魔高一丈,當 AI 好不容易能分辨出假新聞,製造假新聞的人就會破解偵測,創造出 AI 沒看過的新模式,讓先前的努力功虧一簣。

因此,現在多應用「事實查核法」,原理是讓 AI 模仿人類查核事實的過程,尋找權威資料庫中有無類似的陳述,可用來支持新聞上描述的事件、主張與說法。目前英國劍橋大學為主的學者群、Facebook 與 Amazon 等業界研究人員已組成 FEVEROUS 團隊,致力於建立英文事實查核法模型所能運用的資源,並透過舉辦國際競賽,廣邀全球學者專家投入研究。

蔡宗翰教授團隊 2021 年參加 FEVEROUS 競賽勇奪全球第三、學術團隊第一後,也與合作夥伴事實查核中心及資策會討論,正著手建立中文事實查核法模型所需資源。預期在不久的將來,AI 就能幫讀者標出新聞中所有說法的資料來源,節省讀者查證新聞真偽的時間。

AI 的無限可能:專屬於你的療癒「杯麵」

想像與 AI 共存的未來,蔡宗翰研究員驚嘆於 AI 的學習能力,只要提供夠好、夠多的資料,幾乎都可以訓練到讓人驚訝的地步!圖/研之有物

AI 的未來充滿無限可能,不僅可以成為分類與查證資料的得力助手,還能照護並撫慰人類的心靈,這對邁入高齡化社會的臺灣來說格外重要!許多青壯年陷入三明治人(上有老、下有小要照顧)的困境,期待有像動畫《大英雄天團》的「杯麵」(Baymax)機器人出現,幫忙分擔家務、照顧家人,在身心勞累時給你一個溫暖的擁抱。

機器人陪伴高齡者已是現在進行式,新加坡南洋理工大學 Gauri Tulsulkar 教授等學者於 2021 年發表了一項部署在長照機構的機器人實驗。這名外表與人類相似的機器人叫「娜丁」(Nadine),由感知、處理、互動等三層架構組成,可以透過麥克風、3D和網路鏡頭感知用戶特徵、所處環境,並將上述資訊發送到處理層。處理層會依據感知層提供的資訊,連結該用戶先前與娜丁互動的記憶,讓互動層可以進行適當的對話、變化臉部表情、用手勢做出反應。

長照機構的高齡住戶多數因身心因素、長期缺乏聊天對象,或對陌生事物感到不安,常選擇靜默不語,需要照護者主動引導。因此,娜丁內建了注視追蹤模型,當偵測到住戶已長時間處於被動狀態,就會自動發起話題。

實驗發現,在娜丁進駐長照機構一段時間後,住戶有一半的天數會去找她互動,而娜丁偵測到的住戶情緒多為微笑和中性,其中有 8 位認知障礙住戶的溝通能力與心理狀態有明顯改善。

照護機器人娜丁的運作架構。圖/研之有物

至於未來的改進方向,研究團隊認為「語音辨識系統」仍有很大的改進空間,需要讓機器人能配合老年人緩慢且停頓較長的語速,音量也要能讓重聽者可以清楚聽見,並加強對方言與多語混雜的理解能力。

臺灣如要發展出能順暢溝通的機器人,首要任務就是要開發一套臺灣人專用的 AI 語言模型,包含華語、臺語、客語、原住民語及混合以上兩種語言的理解引擎。這需花費大量人力與經費蒐集各種語料、發展預訓練模型,期待政府能整合學界與業界的力量,降低各行各業導入 AI 相關語言服務的門檻。

或許 AI 無法發展出情感,但卻可以成為人類大腦的延伸,協助我們節省處理資料的時間,更可以心平氣和地回應人們的身心需求。與 AI 共存的未來即將來臨,如何讓自己的行事邏輯跟上 AI 時代,讓 AI 成為自己的助力,是值得你我關注的課題。

延伸閱讀

文章難易度
所有討論 1
研之有物│中央研究院_96
253 篇文章 ・ 2220 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

2
2

文字

分享

0
2
2
資料科學與研究資料管理的最前沿:2022 國際資料週
研究資料寄存所 (depositar)_96
・2022/10/07 ・5342字 ・閱讀時間約 11 分鐘

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

想和來自全世界的科學家、研究者、政策制定者、企業領袖等一起討論資料議題,想跟上資料科學與研究資料管理最前沿的腳步?國際資料週(International Data Week, IDW)是最好的選擇之一。

國際資料週是什麼?

「國際資料週」是由研究資料聯盟(Research Data Alliance, RDA)以及國際科學理事會(Internatioanl Science Counci, lSC)所屬的資料委員會(Committee on Data, CODATA)、世界資料系統(World Data System, WDS)所共同舉辦的資料科學盛事。自 2016 年起,通常每兩年舉辦一次,吸引近千名全球參與者。因為 COVID-19,2020 年的大會延到今年六月在首爾舉行。

國際資料週的議程由兩個大型研討會構成。例如 2022 的國際資料週,即結合了 RDA 第 19 次大會(RDA 19th Plenary Meeting)與 2022 年的科學資料會議(SciDataCon 2022 )這兩項會議。RDA 大會專注於促進資料分享與再利用的討論,SciDataCon 則著墨在研究資料的前沿議題。

2022 為 IDW 第 3 次舉行,議程為期 5 天,於今年的 6 月 20-24 日,在南韓首爾舉行,主題為「用資料改善世界」(Data To Improve Our World)。因  COVID-19 疫情,採實體與虛擬會議併行,議程總計約 150 場次。在 8 月底,RDA 大會與 SciDataCon 已將多數議程的錄影開放給所有人線上觀看(連結見本文最末)。

研究資料寄存所(depositar) 團隊也參與了本次會議,我們除加入各場次的討論外,亦參加海報徵件,向所有與會者說明我們近來在研究資料管理上的工作。筆者參與會議的部分場次,礙於篇幅,以下僅紀錄筆者感興趣的報告與討論。

場次紀錄:如何提高研究成果的可再重現或可複製性?

SUPPORTING RESEARCH TRANSPARENCY, ACCOUNTABILITY, AND REPRODUCIBILITY: LESSONS FROM THE TRENCHES

本場次專注討論研究成果在「運算」上的可再重現(reproducibility)或可複製性(replicability)。

有關研究成果可否被重現或複製,攸關該研究的可信度與透明性。美國國家學院(The National Academy of Science, Engineer, Medicine)在 2019 年出版了《科學的可重現與可複製性》報告,是研究者可參考的重要指引。

研究不可重現的原因眾多,在本場次中,來自 AGU 的 Shelly Stall 即指出,如紀錄不足、報告不透明、數位技術過時、或嘗試重現的過程有缺陷等,皆可能是研究結果無法重現的原因;要改善這類狀況,則可從分享資料與工作流程、對數位物件編配持續識別碼、強化資料引用、建立數位物件的說明等方面著手進行。

對此,來自 CURE 的講者們亦分享其機構內的作法。CURE 是由康乃爾大學、北卡羅萊納大學教堂山分校、以及耶魯大學等組成的聯盟,致力於倡議並實作研究在運算領域的可重現性。CURE 的運作環繞著四個基本原則:(1) 透明、近用、信任 (2) 可使用性 (3) 獨立性 (4) 出版前的研究重現(pre-publication)。

上述四個原則的完整說明,可在 CURE 的網頁上取得,例如獨立性即意味著可重現性必須「能在獨立的運算環境,交由獨立的第三方來確認」。

CURE 的成員亦分享了其如何實踐計算上的可重現性。例如康乃爾的社會科學中心的講者即表示,他們提供了全整合的服務(All-in-one service),除提供程式碼驗證的服務外,亦有經營資料儲存庫,將研究重現所需的資料悉數打包,存放於該機構的服務內,供他人使用或引用。

BEYOND MACHINE-ACTIONABLE DMPS – LET’S GO FORWARD TOGETHER!

本場次介紹「機器可操作的資料管理方案(machine-actionable Data Management Plans, maDMPs)」的近來發展。

DMP 是描述研究資料將如何被蒐集、使用、管理、(短期或長期)保存、分享等歷程的文件(有關 DMP 的介紹可見此)。 傳統上在撰寫 DMP 時,多是仰賴書寫以整理多方資料整理的工具與資源;而若完成的內容要挪作他用,亦多只能以人工手動進行。

為使 DMP 的內容能取用不同機器的資料,並在機器間進行順暢流通,RDA 自 2017 年起組成工作小組,擬定共通的控制語彙,以在人類可讀的條件下,實現機器可操作的 DMP。

經歷了數年的發展,採用該語彙的 maDMPs 服務亦已逐漸成形。在介紹何謂 maDMP 時,本場次講者 Tomasz Miksa 即指出,maDMP 就如各系統間的「膠水」,它能連結各個不同的研究系統,並自動將資料搬進搬出。

目前已邁入實作階段的 maDMPs 服務有歐盟資助的 Argos,其與歐盟的 OpenAIRE 和 EOSC 的相關服務進行整合,可讓研究者迅速取用不同平台的資料。

圖/Argos

DAMAP 則是另一類似的工具,其遵循 Science Europe 出版的「國際合用的研究資料管理實用指南」,以引導使用者填寫 DMP,而 DAMAP 在欄位設計上,亦遵循 RDA 工作小組所制定的標準,其匯出的 DMP 資料因此可被採用相同標準的服務自動取用。

DATA PUBLISHING IN THE OPEN SCIENCE ERA

本場次討論在自然科學領域,發布研究資料的相關議題,也討論如何消彌資料發布的障礙。

分享研究資料是開放科學的重要實踐項目之一,但在實踐上時常遭遇眾多複雜的阻礙。本場次的講者之一 Ohseok Kwon 教授分享了一篇 2014 年發表於 BMC Public Health 期刊上的文章,該文章透過實證研究,歸納出 6 類的資料分享障礙:技術、動機、經濟、政治、法律、倫理,並再進一步細分為 20 種不同的阻礙,如資料並未搜集(技術型阻礙)、欠缺信任(政治型阻礙)等。資料分享的複雜性可見一斑。

類似的研究,2021 年發表於 Scientifc Data 的研究,在向 199 名論文作者詢問資料後,亦彙整了其中 67 個拒絕分享資料的理由,「沒時間找資料」和「資料遺失」高居其中前兩名。

資料分享的困境,亦可從研究的準備工作就見端倪。來自密西根大學圖書館的報告者指出,根據其對該校所有的 DMP 進行分析的結果,僅有約 21% 的 DMP 會包含後設資料的陳述、僅有約 32% 包含了研究流程文件化的陳述,而若進一步深究兩者皆有提及的 DMP,更僅剩約 9% 左右。報告者 Jake Carlson 指出,這反映了研究人員普遍仍未意識到後設資料與文件化的建立,對研究資料分享至關重要,這是未來須強化的地方。

要改變資料分享與寄存的文化,由單一研究機構著力十分有限,跨學術機構的結盟時常是必要的。由十多個學術機構組成的「資料策展網絡(Data Curation Network, DCN)便是這樣的聯盟。

類似 DCN 的跨機構網絡,匯集了更充足的資源,可用以培訓來自各方的研究者,更完善地落實資料分享。相關網絡亦可為後續的資料策展提供一致的流程,並發展資料的策展標準。例如 DCN 即發展出了「資料策展入門(Data Curation Premier),針對不同類型的資料(如 PDF、Google 文件、Twitter 推文等)提供收藏上應有的考量與實作,供相關人員參考。

本場次的最後一部分,是由韓國科學技術研究院(Korea Institute of Science and Technology, KITSI)報告其對「資料論文」(Data Paper)的研究。資料論文是研究領域近來用以確保資料品質的重要方式之一。 根據 KITSI 的分析,全球資料論文的產量約自 2016 年後大幅上升,Elsevier 的加入,看來是造成明顯變化的主因。

CODATA-RDA SCHOOLS FOR RESEARCH DATA SCIENCE GROUP UPDATES AND NEW CHALLENGES

本場次由 CODATA-RDA School of Research Data Science 發起,討論該短期學校在經營永續性上的可能財務模式。

當代科學使用並生產了各式各樣的資料,研究人員是否具備充足的資料技能,往往是研究能否順利推展的關鍵。為此,CODATA 和 RDA 自 2016 年起,建立了 CODATA-RDA School(下稱「學校」),學校以數天至數週短期課程的方式,培力來自各國(特別是中低收入國家)研究人員相關的資料技能。

自 2016 年至今,學校所開設的課程總計已吸引逾 800 名的參與者。但如同研究資料會面臨如何永續保存的問題,資料學校也持續面臨組織如何方能永續有效運作的問題。

資料來源/CODATA-RDA Data Schools – Ignition Report

CODATA-RDA School 目前的經費主要來自各國政府或私部門所資助的專案經費(project funds)。計畫經費的使用有著用途固定、明確的優點,但也時常受到資金提供者的各種限制。

為了打造長期運作的模式,學校擘劃了兩種未來可能發展方向:小幅擴展、大幅擴展,並評估了兩類發展方式各別所需的活動及人事需求。

學校並設想了五種可能的資金來源:專案經費、CODATA 國家會員的額外資助、高教機構或研究組織的訂閱或貢獻、參與者付費、募資捐款,這五類來源可能交雜構成了未來的財務模式。

報告者也分析了各項經費來源的優缺點。例如「參與者付費」的優點,可能是學生會有較強的學習動機,學生也有正當理由去找尋不同來源的經費支持;但缺點則是學生可能對課程有較高的期待,而目前僅靠志願講師擔綱的課程,可能無法達到對應的要求等。

議程並邀請參與者針對各種可能資金來源集思廣益,例如提供可能資金贊助者的名單、或建立需求者間的國際網絡等,都是會議上曾被提出的建議。

或許是議程本身定位在意見蒐集,本場次在討論上並未有明確的結論。但可預見的是,隨著資料的重要性日益提升,這些與資料基礎建設攸關的學術財務或行政議題,在未來只會越來越受到重視,並不斷浮上檯面被討論。

海報:研究資料寄存所推展研究資料管理的現況 – ADVOCATING GOOD DATA PRACTICES: FROM RESEARCH DATA REPOSITORY TO RESEARCH DATA MANAGEMENT

除工作坊的議程外,RDA 大會歷來亦會有海報徵件的活動,讓研究者能透過自製海報,向與會者展示近來的工作成果。研究資料寄存所(depositar)在本次會議中也投稿海報,並順利入選

作為資料儲存庫的經營者,我們以「提倡良好的資料實務:從研究資料儲存庫到研究資料管理」為題,簡述台灣在研究資料管理的現況與背景、depositar 在推廣研究資料管理上的實踐、所習得的教訓、並描繪了研究資料管理與資料儲存庫的互動關係。

小結

確保資料具良好品質、可相互操作、可長期保存等特性,是以資料為底的科學研究能被持續推展的基礎。參與跨國界的科學合作,它們更是須被優先處理的基本議題。這些基本議題時常是由技術、經濟、政策、與法律等多面向交織而成,它們也構成了 International Data Week 多數議程的討論核心。

略嫌可惜的是,台灣對於這些基礎議題的討論與實踐仍少,國際會議的參與人數也不多。

但無論如何,2022 年國際資料週的所有場次(含 SciDataCon 2022 和 RDA Plenary 19)錄影均已在 8 月底公開,如有興趣一覽本次議程內容,可至以下網址,再次回顧這個全球的科學資料盛事。

研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。

0

5
2

文字

分享

0
5
2
【2022 年搞笑諾貝爾工程學獎】旋鈕大小與手指數之間的完美關係:轉動音量鈕需要用到幾根手指?
linjunJR_96
・2022/09/29 ・1644字 ・閱讀時間約 3 分鐘

立即填寫問卷,預約【課程開賣早鳥優惠】與送你【問卷專屬折扣碼】!

 

旋鈕多大才好轉?誰知道啊!

有些問題是生活中不斷遇到,卻從來不會加以思索的。像是當你在開車時調整車上的冷氣溫度,還有聽音樂時調整藍芽音響的音量與音色。此時,指尖所操控的旋鈕該做多大,才是最好轉的呢?

「誰知道啊!」你心裡這麼想。

這種日常體驗的問題看似微不足道,但其實就是產品設計和工業設計這類領域最關注的焦點,甚至能幫你贏得搞笑諾貝爾獎!

本年度的搞笑諾貝爾獎頒獎典禮在線上舉辦,表揚世界各地的研究者如何用專業能力探討奇妙的問題。今天要介紹的工程學獎,頒給了日本千葉工業大學的松崎元教授,以及他扎實的研究論文《如何用手指操控柱狀旋鈕》。透過實驗室中的實際測量,松崎教授紀錄了人們使用各種大小的旋鈕時,如何下意識地將不同手指放在不同位置來操作。

圖/Pexels

當我們看見一顆旋鈕,我們會透過目測其大小,來決定該用怎麼樣的手勢轉它。如果是直徑一公分左右的小旋鈕,我們會選擇只用拇指和食指來操作,更多的手指只會徒增不便;但如果是快十公分的大旋鈕,就需要動用四五根手指。這個決定不單純只是個人偏好,而是跟人類手掌和手指的構造有關聯。只有某種握法才是最舒服方便的。

此外,通常看到旋鈕就直接給它轉下去了,不會在旋鈕上面嘗試並修正來達成「最佳觸感」。也就是說,這個決策過程從小多次練習後,已經完全變成下意識的過程,只能透過實際測試結果來描繪。

下意識的選擇,只有做實驗才知道

在實驗室中,松崎教授的透明桌面上平放一個白色的圓形旋鈕,並請 32 名受試者順時針旋轉這個旋鈕,並從桌面下的攝影機捕捉人們手指的位置。旋鈕的直徑從七毫米到十三公分,總共 45 種。結果顯示,當旋鈕越大,動用的手指數量越多(一如預期)。只要旋鈕直徑超過五公分,大多數受試者便會開始使用五根手指。

根據所有受試者的統計結果,松崎教授整理出了上方這個十分優雅的圖表。標靶一般的同心圓代表各種大小的旋鈕。圖下半的粗黑直線是基準線,所有測試結果的拇指位置統一對齊這條線,以利進行比較。上方的四條曲線,由左到右分別是食指到小指的位置,虛線則是統計標準差(當然,實際上的實驗結果應該是一個一個離散的點,這裡簡單地用二次曲線進行擬合,比較好看)。

圖/參考資料 3

這張圖總結了不同旋鈕大小的情況下,人們手指位置如何變化。有趣的是,隨著旋鈕變大,四根手指的位置並非簡單地輻射向外,而是呈現螺旋狀。猜測是跟手掌張開並旋轉的方式有關。這種細微的趨勢不做實驗還真猜不到。

不是為了搞笑,每份研究都超認真

這份研究其實在 1999 年就已經發表,時隔二十多年獲得搞笑諾貝爾獎。儘管中文翻譯是「搞笑」諾貝爾獎,但是包括松崎教授在內的所有獲獎者,可是從來沒有要搞笑,而是以非常專業的態度在做他們的工作,這些研究成果也都發表在正式的期刊。自 1999 年的旋鈕研究之後,松崎教授又相繼研究了提袋握把和雨傘握把,可說是精通抓握之道的男人。

雖然得到搞笑諾貝爾獎,但研究內容都是超認真。 圖/GIPHY

松崎教授表示,他很樂見這個獎項讓更多人開始關注設計工程的領域。這門學問專注於探索人與物品之間的關係,並藉此創造最舒適的使用體驗,打造出實用的工業產品。

更多有趣的研究,請到【2022 搞笑諾貝爾獎】

參考資料

  1. Japanese professor wins Ig Nobel prize for study on knob turning
  2. Japanese researchers win Ig Nobel for research on knob turning
  3. 松崎元, 大内一雄, 上原勝, 上野義雪, & 井村五郎. (1999). 円柱形つまみの回転操作における指の使用状況について. デザイン学研究, 45(5), 69-76.