0

5
1

文字

分享

0
5
1

如何斷開中文峰峰相連的詞彙鎖鍊,讓電腦能讀懂字裡行間的語意?

研之有物│中央研究院_96
・2018/07/13 ・7302字 ・閱讀時間約 15 分鐘 ・SR值 536 ・七年級

  • 執行編輯|林婷嫻  美術編輯|張語辰

「自然語言處理」是什麼?

讓電腦擁有理解人類語言的能力,就是自然語言處理(Natural Language Processing,縮寫 NLP)。然而,人和人之間就會誤會彼此的語言了,電腦要如何理解語義?中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。

電腦和人腦的語言不同,那要如何讓電腦擁有理解人類語言的能力呢?source:maxpixel

如何理解一種語言?

小時候學習中文,會背誦課文詞彙的注釋,在作業簿練習這個詞的寫法。到了國中時期學英文,面對像天書般的英文文章,會把不懂的單字圈起來,拿出字典查這個字的意思。為什麼這樣做?

因為,詞彙是語言的最小單位。

然而,中文有一個特殊現象,就是「詞」和「詞」之間沒有邊界,整句串起來像條鎖鏈,不像英文有空格將每個字斷開。所以,若要理解一篇中文文章,必須先學會斷詞,而要學會斷詞,必須先知道這是一個詞、以及這個詞的意思。否則可能會產生這種令人「難過」的情況:

中文的詞沒有邊界,若誤解「詞的意思」與「句法結構」,會寫出這般造句練習。 資料來源/網路趣聞

那麼,問題來了,如果聰明的人類都會誤解複雜的語言,那麼只懂 011000110 的電腦有可能學會斷詞、甚至理解同一個詞在不同上下文的意思嗎?其實,這就是自然語言處理(Natural Language Processing)的研究目標。本文專訪中研院中文詞知識庫小組計畫主持人馬偉雲,聊聊自然語言處理究竟是什麼。

-----廣告,請繼續往下閱讀-----
馬偉雲,是一名對於「讓機器擁有理解語言的能力」深感著迷的計算機科學家。 攝影/張語辰

「自然語言」有多自然?

我們先來了解「自然語言」的定義,與「程式語言」有什麼差別。

程式語言 vs. 自然語言 圖說設計/林婷嫻、張語辰

簡要來說,程式語言是人類為了與計算機溝通,而設計的人工語言;而自然語言的自然,是相對於「人工」語言的「自然」,換句話說,自然語言是人們溝通時自然地發展出來的語言。「自然語言處理」的目標,就在於讓電腦理解、或是運用人類語言。

如何教電腦學會一種語言?

若要讓電腦理解人類的語言,以中文來說,分成兩步驟:

第一步是斷詞、理解詞;第二步則是分析句子,包含語法及語義的自動解析。

自然語言處理透過這兩個步驟,將複雜的語言轉化為電腦容易處理、計算的形式。早期是人工訂定規則,現在則是讓機器自己學習。

-----廣告,請繼續往下閱讀-----

早期的方式是基於一套詞彙資料庫,用程式語言寫好人工訂定的規則,讓電腦依指令做出反應。但這種人工方式不可能包含所有語言的歧異性,例如,當同樣的詞在不同上下文產生不同意思,就會和原本的人工規則相互牴觸。

1980 年代末期,自然語言處理引進機器學習(Machine Learning)的演算法,不再用程式語言命令電腦所有規則,而是建立演算法模型,讓電腦學會從訓練的資料中,尋找資料所含的特定模式和趨勢。我們實驗室──中研院的「中文詞知識庫小組」團隊──就是利用機器學習的演算法,讓電腦學會從訓練的資料中,自動歸納出語言的特性。

自然語言處理的演變。 圖說設計/林婷嫻、張語辰

訓練電腦處理自然語言,需要什麼樣的資料?

我們團隊成員涵蓋中研院語言所、資訊所的研究人員,所以我們也充分利用這兩個領域的專長。

首先,語言學家為九萬多個中文詞彙定義了完整的語法、以及語義表達方式,並且也標明詞彙之間的關係,例如:「蝴蝶」和「昆蟲」具備「前者是後者的一種」這樣的詞彙關係;「醫生」和「病人」具備「前者醫治後者」這樣的詞彙關係。這樣的表達構建了中文的知識圖譜,我們稱為「廣義知網」。

-----廣告,請繼續往下閱讀-----

詞彙的語法、語義定義完畢後,接下來我們就依這些規則,大量分析文章中的每個句子、每個詞彙的語法和語義,並將分析的結果記錄下來 ,這就是「語料標注」的工作。這些標注的語料,提供給電腦系統進行機器學習,讓電腦學會自動歸納、找出語言的語法以及語義。

我們的想法是,既然語言學家已分析了某些語言結構的邏輯,那麼基於這些存在的語言學知識來教電腦歸納出語言的特性,是一種相當自然合理的方式。

只是我們大多數情況下,不會直接教電腦學會語言學上的規則,給它一條魚,不如給它一支釣竿。我們是給電腦看語言學家分析完成的大量結果,由電腦利用機器學習而自動歸納得到 「規則」, 並以參數的方式(請別擔心,一定是人們看得懂的形態),儲存在資訊學家所設計的模型當中。這種電腦自動學出來的模型,能夠很好地解決語言歧異性,也不會有人工寫死規則的問題。

電腦可以認識所有「詞」嗎?

語言的詞彙組合無窮無盡,不可能將所有詞都收進資料庫中訓練電腦。當電腦面對與時俱進的新詞,例如「郭書瑤」、「班奈狄克 · 康柏拜區」、「漫撕男」、「非典」,電腦就無法辨識、理解這個詞。

通常未知詞可分為幾種類型:可能是人名、可能是複合詞、或可能是專有名詞。

我們團隊將「中文斷詞」這個工作,切分成下圖 7 個步驟,每個步驟都是一種演算法模組,處理一種特別的問題。

-----廣告,請繼續往下閱讀-----
中文斷詞系統的處理步驟。
資料來源/〈未知詞擷取作法〉,作者:馬偉雲

教電腦擷取人名,是相對單純的工作,因為人名的結構有跡可循。

中文人名通常是三個字、或兩個字,甚至能參考百家姓、某一年考生的所有名字來建立資料庫,例如「慧」、「婷」常出現在女性人名中,而「雄」這個字常用在男性人名中。從統計機率來看,有些字則是不可能作為人名使用。人名的前後文也會有一些暗示訊息,例如「XXX 表示…」、「 XXX 做了…」、「執行長 XXX」。當電腦分析訓練用的文章資料,自己找出這些規律,電腦就能學會判斷某些未知詞是否為人名。

此外,「複合詞」也是舉不勝舉的未知詞來源。

中文的複合詞,由相當隨性的詞性結構組成,例如「趣味性」,隨意置換字尾,就變成「趣味感」或是「趣味化」。複合詞的字差一點點,就能延伸許多詞意,這讓電腦需辨識的詞彙量變得無比龐大。這部分透過前輩們的研究,漸漸找出複合詞的組成邏輯,整理在中央研究院漢語平衡語料庫(標記了一千多萬個詞彙),也整理出常用詞首、詞尾字資料庫。

-----廣告,請繼續往下閱讀-----

目前斷詞系統中的複合詞主要是針對「名詞複合詞」,但其實我們也在「動詞複合詞」上也累積了不少研究。舉一個實例來說明,例如「開聊」和「聊開」:

「開」的複合動詞結構舉例。
資料來源/〈現代漢語複合動詞之詞首詞尾研究〉,作者:邱智銘、駱季青、陳克健

從語言學的角度,動詞是句子的核心,也是最重要的中心語。「開」這個字有著動詞中心語的起始功能(inchoative),然而放在詞首、詞尾不同位置會產生些微差異。

除了人名、複合詞,新聞或網路文章還會看到許多新創的專有詞,例如:非典(SARS 重症非典型肺炎的簡稱)、河蟹(意指封鎖、掩蓋負面消息)。這類專有詞可以透過 bottom-up merging algorithm(合併字詞演算法)處理。

以「河蟹」為例,透過合併字詞演算法分析新聞、網路文章等資料,電腦會發現:通常「河」後面就是「蟹」,「蟹」前面就是「河」,「河蟹」兩個字一起出現的統計機率蠻高的,而且整組詞意無法單用「河」或「蟹」的各別字意取代。因此,電腦就會判斷「河蟹」最可能是個專有詞、並做出斷詞。

-----廣告,請繼續往下閱讀-----

此外,就算是字典當中已經有的詞彙,有時候仍然會有不同斷詞的情況,我們必須根據上下文決定哪一種斷法才是正確的。例如:「努力才能成功」的「才能」應該切分為兩個詞彙:「才」和「能」,語義接近英文的 “to make”;而「他的領導才能很突出」的「才能」是一個詞彙,不可切分,在此表達英文的 “ability” 的意思。

語言學家會把這樣子的斷詞標注清楚,供電腦進行機器學習。經過不同語句的大量標注,電腦最後會自己學會利用「才能」的上下文做判斷。 資料來源/馬偉雲說明

電腦理解「詞」了,那「句子」呢?

學會斷詞、並理解個別的詞義之後,下一步我們就要使電腦學會理解整個句子的意思。例如「張三打李四」和「李四被張三打」,兩個句子雖然句型不同,但是語義卻是一樣。

我們怎麼表達句子的語義呢?答案是透過「結構樹」。

「張三打李四」和「李四被張三打」,兩個句子的結構樹。 資料來源/馬偉雲說明

我們將每個詞彙集結成片語,再把每個片語標記上它所扮演的語義角色(semantic role)。「張三」在兩個結構樹中都是「打」的發動者(agent)的角色,而「李四」都是「打」的對象(goal)的角色。如此一來,透過包含語義角色的結構樹,我們可以得知這兩個句子擁有相同的語義。

先透過人工訂好結構樹的表達,下一步就是要利用機器學習,使電腦能夠自動針對每一句產生出正確的結構樹。歷年來,中文詞知識庫小組從中央研究院漢語平衡語料庫抽取句子,經由電腦初步剖析成結構樹,再加以人工修正檢驗,共整理了六萬多個中文句結構樹圖,標注了各個中文句的語法以及語義角色,這些就形成機器學習的訓練材料,使得電腦剖析結構樹的工作越做越好。

-----廣告,請繼續往下閱讀-----

自然語言處理的進展到了這裡,斷詞有解,句子結構及語義有解,但還有另一個難題──曖昧不清的指代詞。

寫作時為了避免某些詞重複出現,會使用別的指代詞,像是「他」、「某某職稱」等等。用句子舉例,「張三打李四,他很痛」,覺得痛的人究竟是誰?除了考量語句結構,也需基於常識和上下文來理解。

若要教電腦理解指代詞、處理「指代消解」(Coreference Resolution)的問題,有兩種方式。一種較傳統,用程式語言寫好所有判定的人工規則,好處是較精準,壞處是有其侷限,因為列舉的規則不可能對應至世間所有指代情形。另一種是機器學習的方式,當電腦分析所有訓練文章的上下文發現:幾乎都是被打的李四感到痛,「他 = 李四」這個相關性的機率即為最高,進而做為電腦日後判斷的準則。

自然語言處理的方法,有因「深度學習」而改變嗎?

近年來蓬勃發展的深度學習(Deep Learning),提出了另一種方法來教電腦表達詞彙。這種方法是將詞彙轉換為「詞向量」,也就是 Word Vector 或稱 Word Embedding,作法是讓電腦閱讀大量文章,利用前後文的統計特性,慢慢學習出每一個詞彙的詞向量,不必利用任何語言學知識。

詞向量的概念。(其中的向量數字為舉例) 資料來源/馬偉雲 圖說重製/林婷嫻、張語辰

舉例來說,傳統的符號學中,「蝴蝶」、「瓢蟲」、「爬」是不同的三個詞彙。但改成用向量思考,「蝴蝶」和「瓢蟲」的向量距離就會比較近,「蝴蝶」和「爬」的向量距離就會比較遠,隨著訓練的文本越來越多,電腦可以自動調整各個詞彙的向量,解決訓練資料不足的問題,並提升電腦的抽象化思考。

運用「詞向量」的好處是,很多時候針對特定的自然語言處理任務,訓練資料是不足的。因為許多字詞的語義,在人類語感上明明意思很接近、可以相通,但對機器來說,詞彙符號(也就是字元)不同,就是截然不同的詞彙,造成各個詞彙在訓練資料的統計佔比相當低,無法得到足夠信心水準的分析結果。

然而,訓練過程中,若我們以「詞彙向量」作統計,在向量空間上,有些字詞間的向量很靠近,團結力量大,就會發現相近的詞彙向量在訓練資料的統計佔比大幅提升,解決了訓練資料不足的困境。同時,詞彙向量在深度學習的模型之中,被視為可修改的參數,所以也具備了語義(詞彙向量)自動調整的能力。

You shall know a word by the company it keeps.

John Rupert Firth 這句古老的語言學名言,恰巧能說明「詞向量」的思維。其實每個詞就像一個人,若想了解這個人,可以觀察他身旁的人是什麼模樣,也就是物以類聚的概念。

我們團隊目前嘗試結合「傳統詞彙符號」與「詞向量」,共同從事自然語言處理的任務、以及教電腦表達知識。傳統詞彙符號的好處,在於提供清晰的解釋與穩定的應用,而詞向量可以解決訓練資料不足的困境,並且提供語義(詞彙向量)自動調整的能力。這兩者的長處互補,結合起來具有很高的學理價值、更多應用突破。

自然語言處理,有什麼用?

其實,自然語言處理的用途,已經悄悄在我們身邊幫上許多忙。

自然語言處理,常見的後續應用。 資料來源/李宏毅演講 圖說重製/林婷嫻、張語辰

例如,運用「摘要文本大綱」的能力,電腦可以擔任助手,幫助連睡覺時間都快沒有的醫生閱讀最新的醫學報告、篩選醫學文獻,找出眼前這位病患的病徵,可能跟哪些疾病相關、或是服用某種藥物可能有哪些副作用。像是 2017 年台北醫學大學,就導入 IBM 的 Watson for Oncology(人工智慧治療輔助系統),協助醫師診斷致病機制複雜的癌症。

現在許多人遇到地震、颱風等災害,第一步是上社群媒體發佈消息,例如哪裡的大樓倒了、哪些親友失聯了、各地需要捐助多少物資等等。若運用自然語言處理,讓電腦自動搜集、分析這些社群媒體的文本,就能幫助整合災情、協助救援。

另外,輿情分析聊天機器人等熱門應用,其基礎也需要先讓電腦理解人類所使用的語言,掌握其中的句法結構、分析字裡行間的情緒,才能統計輿情、或讓機器人做出適當的聊天回應。

自然語言處理,是時間的累積。從民國 75 年到現在,中研院資訊所和語言所合作建立許多語料庫和線上系統,我們很歡迎公家機關和公益團體無償使用,也歡迎有需求的單位來討論合作方式。

為什麼會對「讓電腦擁有語言能力」感到著迷?

我很幸運十幾年前有機會進入這個領域,那時候很驚嘆:怎麼會有一種學問,可以把「語言學」和「計算機科學」結合在一起。

語言是很複雜的現象,語言也代表人類的智慧,像是我們的思緒、意識,很多都是透過語言來展現。

1999 年那時候,我在交大電腦科學與資訊工程系碩士班是做語音辨識,那時候我只懂「聲音訊號」的處理,很好奇「語言」這塊怎麼讓電腦了解。當時和中研院接觸,知道中研院做了很多自然語言處理的工作,例如蒐集大量語料,用計算機的方式把語言的統計特性找出來。

後來我來到中研院服國防役,從研究助理做起,跟著陳克健老師研究中文的斷詞切分,也逐漸發現原來理解語言有非常多面向,包含:語音、詞彙本身的學問、語法結構(這句話怎麼說才合理)、語義解讀(這句話是什麼意思),還有「語用」,也就是什麼時候講這句話、為什麼要這樣講。

2006 年之後,我到美國哥倫比亞大學的電腦科學系讀碩博士,除了博士論文是做機器翻譯,也在那裡的實驗室研究電腦的 Q&A 系統:問電腦問題,讓電腦讀過一堆文獻後回答,這些文獻資料包含中文、英文和阿拉伯文,三種語言混合運用。因為國防上的需求,美國國防部需要透過電腦幫助,了解這些文本在說什麼。

有些對人工智慧發展的疑慮是,在近年電腦深度學習的運算過程中,不知道為什麼會這樣得出結果、難以控制電腦。但現在有一種發展方向,叫做「可解釋人工智慧」(Explainable AI),明確了解電腦運算過程,藉以優化表現、降低人們擔憂。舉例來說,當 IBM 的 Watson for Oncology 建議醫生要開刀治療病患,醫生也得知道電腦分析文本的過程、為什麼會下這個決策,不是電腦控制人而已。

至於之前曾傳出 Facebook 的 AI 對話失控,其實是過度擔憂。

因為這只是 Facebook 工程師教電腦學會「談判」的過程中,電腦自動將對話內容表達地極簡再極簡、能通就好。

當初唸書時,「自然語言」很冷門,跟別人說也不知道這是什麼東西,因為那時人工智慧在商業上還沒有實際應用,和我們的生活還很遙遠。選擇這個領域並不是因為有遠見,只是基於好奇參與、覺得這很有趣,過程就看到自然語言處理(NLP)蓬勃發展至今。

參考資料

本著作由研之有物製作,原文為〈斷開中文的鎖鍊!自然語言處理(NLP)〉以創用CC 姓名標示–非商業性–禁止改作 4.0 國際 授權條款釋出。
本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

在網站上看不過癮?研之有物出書啦!

研之有物:穿越古今!中研院的25堂人文公開課》等著你來認識更多中研院精彩的研究。





文章難易度
研之有物│中央研究院_96
296 篇文章 ・ 3447 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

0
0

文字

分享

0
0
0
人體吸收新突破:SEDDS 的魔力
鳥苷三磷酸 (PanSci Promo)_96
・2024/05/03 ・1194字 ・閱讀時間約 2 分鐘

本文由 紐崔萊 委託,泛科學企劃執行。 

營養品的吸收率如何?

藥物和營養補充品,似乎每天都在我們的生活中扮演著越來越重要的角色。但你有沒有想過,這些關鍵分子,可能無法全部被人體吸收?那該怎麼辦呢?答案或許就在於吸收率!讓我們一起來揭開這個謎團吧!

你吃下去的營養品,可以有效地被吸收嗎?圖/envato

當我們吞下一顆膠囊時,這個小小的丸子就開始了一場奇妙的旅程。從口進入消化道,與胃液混合,然後被推送到小腸,最後透過腸道被吸收進入血液。這個過程看似簡單,但其實充滿了挑戰。

首先,我們要面對的挑戰是藥物的溶解度。有些成分很難在水中溶解,這意味著它們在進入人體後可能無法被有效吸收。特別是對於脂溶性成分,它們需要透過油脂的介入才能被吸收,而這個過程相對複雜,吸收率也較低。

-----廣告,請繼續往下閱讀-----

你有聽過「藥物遞送系統」嗎?

為了解決這個問題,科學家們開發了許多藥物遞送系統,其中最引人注目的就是自乳化藥物遞送系統(Self-Emulsifying Drug Delivery Systems,簡稱 SEDDS),也被稱作吸收提升科技。這項科技的核心概念是利用遞送系統中的油脂、界面活性劑和輔助界面活性劑,讓藥物與營養補充品一進到腸道,就形成微細的乳糜微粒,從而提高藥物的吸收率。

自乳化藥物遞送系統,也被稱作吸收提升科技。 圖/envato

還有一點,這些經過 SEDDS 科技處理過的脂溶性藥物,在腸道中形成乳糜微粒之後,會經由腸道的淋巴系統吸收,因此可以繞過肝臟的首渡效應,減少損耗,同時保留了更多的藥物活性。這使得原本難以吸收的藥物,如用於愛滋病或新冠病毒療程的抗反轉錄病毒藥利托那韋(Ritonavir),以及緩解心絞痛的硝苯地平(Nifedipine),能夠更有效地發揮作用。

除了在藥物治療中的應用,SEDDS 科技還廣泛運用於營養補充品領域。許多脂溶性營養素,如維生素 A、D、E、K 和魚油中的 EPA、DHA,都可以通過 SEDDS 科技提高其吸收效率,從而更好地滿足人體的營養需求。

隨著科技的進步,藥品能打破過往的限制,發揮更大的療效,也就相當於有更高的 CP 值。SEDDS 科技的出現,便是增加藥物和營養補充品吸收率的解決方案之一。未來,隨著科學科技的不斷進步,相信會有更多藥物遞送系統 DDS(Drug Delivery System)問世,為人類健康帶來更多的好處。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
197 篇文章 ・ 303 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

1

1
1

文字

分享

1
1
1
讓 AI 取代真人執法可行嗎?將判斷全交給 AI 可能隱藏什麼危險?——專訪中研院歐美研究所陳弘儒助研究員
研之有物│中央研究院_96
・2024/03/18 ・6292字 ・閱讀時間約 13 分鐘

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|劉韋佐
  • 責任編輯|田偲妤
  • 美術設計|蔡宛潔

人工智慧將改變以人為主的法治領域?

由人工智慧擔任警察,再也不是科幻電影的情節,交通管制常見的科技執法就是應用 AI 辨識闖紅燈、未依規定轉彎、車輛不停讓行人等違規行為。 AI 的客觀、高效率正在挑戰以人為審判主體的法治領域,這樣的轉變會對我們產生什麼影響呢?中央研究院「研之有物」專訪院內歐美研究所陳弘儒助研究員,他將帶我們思考:當 AI 取代人類執法時,將如何改變人們對守法的認知?

交通尖峰時段,後方出現一台救護車,你願意闖紅燈讓道嗎?
圖|iStock

想像有一天你正在尖峰時段開車,車子停在十字路口等紅燈時,後方出現一輛急駛而來的救護車,你為了讓道必須開過停止線。這時你是否願意冒著違規被開罰的風險?還是承擔風險以換取他人盡速就醫?

在上述情境中,針對「要不要闖紅燈」我們經歷了一段價值判斷過程。如果剛好十字路口有真人警察,他的判斷可能是:這是情急之下不得不的行為,並非蓄意違規。

然而,如果負責執法的是「法律人工智慧系統」(Artificially legal intelligent,簡稱 ALI)情況可能截然不同。

-----廣告,請繼續往下閱讀-----

ALI 這個詞源自 Mireille Hildebrandt 的研究,在概念上可區分為兩類:採取傳統程式碼的 IFTTT(if this then that)、運用機器學習的資料驅動。前者是注重法律推理或論證的計算機模型,將法律規範轉為程式碼,藉由程式編寫來執行法律任務。後者則透過大量資料的學習,來預測行為範式,用於再犯率、判決結果預測上有較好的成果。

一般情況下,應用在交通管制的 ALI 會辨識車輛是否超速、闖紅燈等違規行為,不過交通情境千變萬化,ALI 能否做出包含「道德價值的判斷」將是一大挑戰!

中研院歐美研究所陳弘儒助研究員察覺,人工智慧(AI)正在左右人們對守法的價值判斷及背後的因果結構,進而反思當我們將原本由人來判斷的事項,全權交由 AI 來執行時,可能產生哪些潛移默化的影響?

讓我們與陳弘儒展開一場從法哲學出發的對話,探索 AI 與法治價值之間的緊張關係。

-----廣告,請繼續往下閱讀-----
中研院歐美研究所陳弘儒助研究員,從法哲學出發,探索 AI 與法治價值之間的緊張關係。
圖|之有物

問

怎麼會對「人工智慧」(AI)與「法律人工智慧系統」(ALI)產生研究興趣?

會對 AI 感興趣是因為我很早就對電腦有興趣,我原本大學想唸資訊工程,因為高中有些科目沒辦法唸,於是去唸文組,大學進入法律系就讀,研究所考入「基礎法學組」研讀法哲學。

後來我到美國讀書,當時 AlphaGo 的新聞造成很大的轟動,啟發我思考 AI 的應用應該有些法律課題值得探討,於是開始爬梳 AI 與法律的發展脈絡。

AI 這個詞大概在 1950 年代被提出,而 AI 與法律相關的討論則在 1970、80 年代就有學者開始思考:我們能否將法律推理過程電腦程式化,讓電腦做出跟法律人一樣的判斷?

事實上,AI 沒有在做推理,它做的是機率的演算,但法律是一種規範性的判斷,所有判斷必須奠基在法律條文的認識與解釋上,給予受審對象合理的判決理由。

這讓我好奇:如果未來廣泛應用 AI 執法,法律或受法律規範的民眾會怎麼轉變?

-----廣告,請繼續往下閱讀-----

至於真正開始研究「法律人工智慧系統」(ALI)是受到我父親的啟發。有一陣子我經常開車南北往返,有一天我跟父親聊到用區間測速執法的議題。交通部曾在萬里隧道使用區間測速,計算你在隧道裡的平均速率,如果超速就開罰。

父親就問我:「政府有什麼理由用區間測速罰我?如果要開罰就必須解釋是哪一個時間點超速。」依照一般的數學邏輯,你一定有在某個時間點超速,所以平均起來的速率才會超過速限,可是法律判斷涉及規範性,我們必須思考背後的正當性課題,不能只用邏輯解釋,這啟發我逐漸把問題勾勒出來,試圖分析執法背後的規範性意涵。

問

如果將執行法律任務的權限賦予 AI,可能暗藏什麼風險?

我們先來談人類和 AI 在做判斷時的差別。人類無時無刻都在做判斷,判斷的過程通常會先做「區分」,例如在你面前有 A 和 B 兩個選項,在做判斷前必須先把 A 和 B 區分開來,讓選項有「可區別性」。

在資料龐大的情況下,AI 的優勢在於能協助人類快速做好區分,可是做判斷還需經歷一段 AI 難以觸及的複雜過程。人類在成長過程中會發展出一套顧及社會與文化認知的世界觀,做判斷時通常會將要區分的選項放進這個世界觀中,最終做出符合社會或自身考量的抉擇。

-----廣告,請繼續往下閱讀-----

當我們將判斷程序交由 AI 執行,就會涉及「判斷權限移轉」的問題,這經常在日常生活中發生,你只要發現原本自己可以執行的事情,有另外一個對象做的比你好或差不多好,你就會漸漸把判斷的工作交給它,久而久之,你大概會覺得這是很好的做法,因為可以節省大量時間。

自駕車導航系統就是判斷權限移轉的例子,由於導航通常可以找出最佳行車路線,駕駛人幾乎會跟著走,但仍有可能誤入路況不佳或無法通行的地方。
圖|Vladimir Srajber, Pexels

我擔心這種判斷權限移轉會快速且廣泛的發生,因為 AI 的工作效率極高,可以大幅節省人力成本,但是哪一些權限可以放給 AI?哪一些權限人類一定要守住?我們經常沒有充足的討論,等到發生問題再亡羊補牢可能為時已晚。

以讓道給救護車而闖紅燈的情境為例,如果讓 AI 來做交管,可以節省警察人力,又可以快速精準地開罰,卻迫使民眾需額外花時間,證明闖紅燈有正當理由。如果是真人警察來判斷,警察通常會認為你的行為有正當理由而不開罰。這對於受法律規範的民眾來說,會產生兩種全然不同的規範作用。

AI 產生的規範作用會讓民眾擔心事後銷單的麻煩程序,如果無法順利解決,可能會訴諸民意代表或上爆料公社,並漸漸改變民眾對守法的態度。而真人警察產生的規範作用,將使民眾自主展現對法律的高度重視,雖然當下的行為牴觸法律,卻是行為人經過多方權衡後做的判斷,相信法律會支持自己出於同理心的行為。

-----廣告,請繼續往下閱讀-----

問

使用 AI 執法除了看上它的高效率,也是因為和真人相比 AI 不會受私情影響,比較可以做出公正的判斷。如果從法治觀念來看,為何決策權不能全權交由 AI 執行?

我認為法治的核心價值在臺灣並沒有很好的發展,我們常想的是怎麼用處罰促成民眾守法,長久下來可能會得到反效果。當人們養成凡事規避處罰的習慣,一旦哪天不再受法律約束,可能會失去守法的動機。

事實上,法治最根深柢固的價值為:

法律作為一種人類行為規範的展現,促使民眾守法的方式有很多種,關鍵在於尊重人的道德自主性,並向民眾陳述判決理由。

給理由非常重要,可以讓民眾不斷透過理由來跟自己和法律體系溝通。如此也可以形成一種互惠關係,使民眾相信,國家公權力能用適當的理由來制定法律,而制定出的法律是以尊重公民自主性為主。當民眾理解法律對我所處的社會有利,會比較願意自動產生守法的動機。

AI 執法看似比人類「公正無私」,但它的執法方式以處罰為主、缺乏理由陳述,也沒有對具體情境的「敏感性」。人跟人之間的互動經常需要敏感性,這樣才能理解他人到底在想什麼。這種敏感性是要鍛鍊的,真人警察可在執法過程中,透過拿捏不同情境的處理方式來累積經驗。

-----廣告,請繼續往下閱讀-----

例如在交通尖峰時段應該以維持交通順暢為原則,這時警察是否具備判斷的敏感性就很重要,例如看到輕微的違規不一定要大動作開罰,可以吹個警笛給駕駛警示一下就好。

我越來越覺得人類這種互動上的敏感性很重要,我們會在跟他人相處的過程中思考:跟我溝通的對象是什麼樣的人?我在他心中是什麼模樣?然後慢慢微調表現方式,這是人類和 AI 最根本的不同。

行動者受各種法律變項影響的因果圖。上圖是由真人警察執法,對於處罰之可能性有影響力,可依不同情境判斷是否開罰。下圖是由全自動法律人工智慧執法,由 AI 直接將處罰之可能性加諸在行動者身上,缺乏真人警察二次確認,很可能影響行動者對守法與否的衡量。
圖|之有物(資料來源|陳弘儒)

問

相較於法律人工智慧,ChatGPT 等生成式 AI 強大的語言功能似乎更接近理想中的 AI,其發展可能對我們產生哪些影響?

我認為會有更複雜的影響。ChatGPT 是基於大型語言模型的聊天機器人,使用大量自然語言文本進行深度學習,在文本生成、問答對話等任務上都有很好的表現。因此,在與 ChatGPT 互動的過程中,我們容易產生一種錯覺,覺得螢幕後好像有一名很有耐心的真人在跟你對話。

事實上,對於生成式 AI 來說,人類只是刺激它運作的外在環境,人機之間的互動並沒有想像中的對等。

仔細回想一下整個互動過程,每當外在環境(人類)給 ChatGPT 下指令,系統才會開始運作並生成內容,如果我們不滿意,可以再調整指令,系統又會生成更多成果,這跟平常的人際互動方式不太一樣。

-----廣告,請繼續往下閱讀-----
ChatGPT 能讓使用者分辨不出訊息來自 AI 或真人,但事實上 AI 只是接受外在環境(人類)刺激,依指令生成最佳內容,並以獲得正向回饋、提升準確率為目標。
圖|iStock

資工人員可能會用這個理由說明,生成式 AI 只是一種工具,透過學習大量資料的模式和結構,從而生成與原始資料有相似特徵的新資料。

上述想法可能會降低人們對「資料」(Data)的敏感性。由於在做 AI 訓練、測試與調整的過程中,都必須餵給 AI 大量資料,如果不知道資料的生產過程和內部結構,後續可能會產生爭議。

另一個關於資料的疑慮是,生成式 AI 的研發與使用涉及很多權力不對等問題。例如現在主流的人工智慧系統都是由私人公司推出,並往商業或使用者付費的方向發展,代表許多資料都掌握在這些私人公司手中。

資料有一種特性,它可以萃取出「資訊」(Information),誰有管道可以從一大群資料中分析出有價值的資訊,誰就有權力影響資源分配。換句話說,多數人透過輸入資料換取生成式 AI 的服務,可是從資料萃取出的資訊可能在我們不知情的狀況下對我們造成影響。

問

面對勢不可擋的生成式 AI 浪潮,人文社會學者可以做些什麼?

國外對於 AI 的運用開始提出很多法律規範,雖然國外關於價值課題的討論比臺灣多,但並不代表那些討論都很細緻深入,因為目前人類跟 AI 的相遇還沒有很久,大家還在探索哪些議題應該被提出,或賦予這些議題重新認識的架構。

這當中有一個重要課題值得思考:

我們需不需要訓練 AI 學會人類的價值判斷?

我認為訓練 AI 理解人類的價值判斷很可能是未來趨勢,因為 AI 的發展會朝人機互動模式邁進,唯有讓 AI 逐漸理解人類的價值為何,以及人類價值在 AI 運作中的局限,我們才有辦法呈現 AI 所涉及的價值課題。

當前的討論多數還停留在把 AI 當成一項技術,我認為這種觀點將來會出問題,強大的技術如果沒有明確的價值目標,是一件非常危險的事情。實際上,AI 的發展必定有很多價值課題涉入其中,或者在設計上有一些價值導向會隱而不顯,這將影響 AI 的運作與輸出成果。

思考怎麼讓 AI 理解人類價值判斷的同時,也等於在問我們人類:對我們來說哪一些價值是重要的?而這些重要價值的基本內容與歧異為何?

我目前的研究有幾個方向,一個是研究法律推理的計算機模型(Computational models of legal reasoning);另一個是從規範性的層面去探討,怎麼把價值理論、政治道德(Political morality)、政治哲學等想法跟科技界交流。未來也會透過新的視野省視公民不服從議題。

這將有助科技界得知,有很多價值課題需要事先想清楚,影響將擴及工程師怎麼設計人工智慧系統?設計過程面臨哪些局限?哪些局限不應該碰,或怎麼把某些局限展現出來?我覺得這些認識都非常重要!

鐵面無私的 ALI ?人類與人工智慧執法最大的分野是什麼?

陳弘儒的研究室有許多公仔,包括多尊金斯伯格(Ginsburg)公仔,她是美國首位猶太裔女性大法官,畢生為女權進步與性別平權奮鬥。
圖|之有物

陳弘儒是臺灣少數以法哲學理論研究法律人工智慧系統(ALI)的學者,他結合各種現實情境,與我們談論 ALI、生成式 AI 與當代法治價值的緊張關係。

由於 ALI 擅長的資料分類與演算,與人類判斷過程中涉及的世界觀與敏感性思辨,有著根本上的差異;以處罰為主、缺乏理由陳述的判斷方式,也容易影響民眾對公權力的信任。因此陳弘儒認為,目前 ALI 應該以「輔助人類執法」為發展目標,讓人類保有最終的判斷權限

至於現正快速發展的生成式 AI ,根據陳弘儒的觀察,目前仍有待各方專家探索其中的價值課題,包括資料提供與使用的權力不對等、哪些人類價值在訓練 AI 的過程中值得關注等。

在過去多是由人文社會學者提出警告,現在連 AI 領域的權威專家也簽署公開信並呼籲:AI 具有與人類競爭的智慧,這可能給社會和人類帶來巨大風險,應該以相應的關注和資源進行規劃和管理

在訪談過程中,有一件令人印象深刻的小插曲,陳弘儒希望我們不要稱呼他「老師」,因為他從小就畏懼老師、警察等有權威身分的人,希望以更平等的方式進行對話。

假如今天以 AI 進行採訪,整個談話過程或許能不受倫理輩分影響,但這也讓我們意識到,在 AI 的世界裡,許多人際互動特有的敏感性、同理反思都可能不復存在。

陳弘儒的研究讓我們體會,AI 在法治領域的應用不僅是法律問題,背後更包含深刻的哲學、道德與權力課題,也讓我們更了解法治的核心價值:

法律要做的不只是規範人們的行為,而是透過理由陳述與溝通展現對每個人道德自主性的尊重。

所有討論 1
研之有物│中央研究院_96
296 篇文章 ・ 3447 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

1
1

文字

分享

0
1
1
跨物種溝通即將成真!若有動物的「翻譯蒟蒻」你想擁有嗎?
鳥苷三磷酸 (PanSci Promo)_96
・2023/11/13 ・4484字 ・閱讀時間約 9 分鐘

-----廣告,請繼續往下閱讀-----

人與動物之間的溝通一直是科學界和哲學界十分引人關注的一個議題。傳統觀點認為,人類和其他動物之間的溝通受到生物學和語言能力的限制,因此很難實現真正的互相理解。然而,近年來,科學家們對這個問題的看法已經開始轉變,並且有一些跡象表明跨物種溝通有望成為現實。

為什麼科學家認為跨物種溝通即將成真?從海豚到水豚、從蜘蛛到山豬,人工智慧能成為所有生物的萬能「翻譯蒟蒻」嗎?當人類真的破解了另一物種的溝通方式,未來會發生什麼事呢?

跨物種溝通即將成真?圖/giphy

為什麼動物溝通,備「獸」關注?

從古代神話、經典傳說,到熱門動漫影視,都有不少能說人話、化為人形的動物,像是美猴王孫悟空、馴鹿喬巴、還有火箭浣熊,這些擬人化的角色雖然外表參雜獸的特質,卻往往更有人性,故事也著重呈現人與獸人如何從誤解到包容,讓我們為之動容。

在當代台灣的漫畫作品中,許多優秀的新一代漫畫家探討了擬人化動物和人類之間的隔閡、衝突以及理解,呈現了多元化的故事情節。其中,有一些引人入勝的作品,例如《瀕臨絕種團》,故事描述了被路殺後轉生成人類的石虎、黑熊和水獺,當上 YouTuber 還成為高中女生的故事。這個作品提供了獨特的視角,探討了不同物種之間的互動和冒險。

-----廣告,請繼續往下閱讀-----

另一部作品是《海巫事務所》,它將魔法元素融入生物學,講述了一個迷茫的廢業青年與擬人化海洋動物相遇並相互療癒的故事。還有一個短篇漫畫《IVE》,通過科幻的方式,描述了某種深海雌鮟鱇的繁殖和誘導機制,卻將目標對象設定為人類男性的謎般生物,及她和科學家之間的異色關係。

短篇漫畫《IVE》描述了有著雌鮟鱇的繁殖和誘導機制,卻將目標對象設定為人類男性的謎般生物,及她和科學家之間的異色關係。圖/CCC 追漫台

這些作品在畫風和故事情節方面都各有特色,無論你是一位一般漫畫愛好者還是偏愛條漫,你都可以在 CCC 追漫台找到它們,享受不同的視覺和情感體驗。

而這幾部作品的共通核心問題就是:如果動物能用人類的語言跟我們溝通,會怎樣?即使牠們能跟我們說話了,我們就能理解彼此嗎?要取得那唯一的真相,除了請出《不可知論偵探》海麟子(也是 CCC 追漫台 上的熱門作品),科學家還有一個辦法:就讓動物自己說話吧!今年 7 月 Science 期刊上發表了一篇觀點文章,標題為《用機器學習解碼動物溝通》表示新方法有望帶來全新的洞見,也有助於保育。不過在打電話給露洽露洽之前,我們得先了解什麼是動物溝通?

什麼是動物溝通?

首先要有一個清楚的認知,那就是人類跟所有其他的動物,都各自受限於自己的感官,活在不同的「環境界」(Umwelt),這個德文的意思是說每一種生物都活在獨有的感官泡泡裡,所見、所聞、所聽、所嚐、所觸都跟其他生物截然不同。你想想,連人與人之間都會因為家庭背景、生活環境、媒體教育而對同一件事物有天差地遠的詮釋了,對跨物種來說,不同的感官體驗讓彼此如同身處完全不同的世界。

-----廣告,請繼續往下閱讀-----

例如,海龜和許多鳥類能感知地球的磁場,藉此進行長距離遷徙;而響尾蛇具有紅外線感覺器官,能夠在黑暗中感知幾公尺外的獵物體溫。蝙蝠則使用回音定位來捕捉飛蛾等獵物,每秒發射兩百次超音波脈衝,並根據百萬分之一秒的時間差距來精準定位目標。斑海豹則依賴其特殊的鬍鬚來察覺魚游過的流體動力,猶如水中留下的軌跡。角蟬使用震動通信,能夠透過植物表面傳遞信息給其他角蟬,即使對人類來說是聽不見的。至於我們的忠實夥伴狗,它們的世界主要由氣味構成,能夠分辨地下埋藏的松露、潛藏的地雷、古蹟、毒品甚至主人身體內的腫瘤等各種氣味。

狗狗的世界主要由氣味構成。圖/giphy

那麼,海龜要如何跟我們這些沒有磁場感應的人類解釋牠們的感覺呢?蜂鳥又要怎樣才能描述它看到的一億種顏色呢?這真的是雞同鴨講,甚至比牛頭更不對馬嘴!

但有越來越多科學家認為,隨著人工智慧(AI)的快速進步,破譯動物的溝通方式不再是不可能的事情。AI 能幫上什麼忙呢?首先,機器不具備人類的偏見,因此能幫助研究者更理解動物溝通系統的結構和功能,同時辨識我們和動物之間的差異。

其次,機器學習技術能夠辨識那些對於人類難以想像或無法感知的動物感官訊號,這些包括聲音、振動、光線、化學物質等。機器可以幫助分析這些訊號,並幫助我們理解動物想要傳遞的訊息。

-----廣告,請繼續往下閱讀-----

最後,AI 還可以基於動物訊號,開發出預測動物行為的模型。例如預測動物的交配行為或遷徙模式,或何時可能需要尋找庇護避免捕食者。

此刻的我們對於深度學習能完美辨識圖像語音,以及 GPT-4 或 PaLM 2 等大型語言模型能生成語言,甚至跟我們交談,完全不覺得奇怪,但可能僅僅 10 年前,這都還像是天方夜譚。那麼將這份能力運用在動物身上,也將變得理所當然……嗎?

現在科學家已經做到什麼程度?破解了哪些動物語言呢?

科學家正在使用人工智慧來解讀各種物種的動物溝通方式。

例如烏鴉:英國聖安德魯斯大學的科學家 Christian Rutz 長期研究南太平洋的新喀里多尼亞烏鴉( New Caledonian Crow ),牠們是少數能夠製造工具的鳥類,會把樹枝的葉子拔掉,做成鉤子來釣蟲,不同群體的作法也有差異。他發現島上不同烏鴉群體有不同的叫聲,可能是文化得以傳播的關鍵。身為烏鴉專家的他加入了 ESP 地球物種計畫,研究二十年前已經野外滅絕,現在只剩圈養個體的夏威夷烏鴉,他們用機器學習來比較圈養跟野生烏鴉的錄音,了解圈養是否改變了烏鴉的詞彙,例如注意威脅、求偶等重要的叫聲,是否已經在圈養環境中失去了,如果我們破譯這些叫聲,可能可以幫助這些烏鴉重新野化。

-----廣告,請繼續往下閱讀-----
或許我們可以預測鯨魚會說什麼,反過來和牠們對話?圖/giphy

哺乳類的另一個成員鯨魚更是重點研究對象,2020年成立的 CETI,由 40 多名科學家、跨15 個機構組成,是最受關注的鯨語破譯團隊。他們除了駕船出海用水下麥克風偷聽鯨魚對話,也使用無人機從上方監看,更計畫在加勒比海海底安裝三個監聽站,從遠處捕捉離海岸 12 英里處抹香鯨聊天的喀噠咔嗒聲。以前啊,抹香鯨的聲音被比擬為單純的二進位代碼,但其實更為複雜,而機器學習可以重新辨識這些聲音。圖靈獎得主,加州大學柏克萊分校西蒙斯計算理論研究所所長莎菲·戈德瓦塞爾( Shafi Goldwasser )受訪時就說, CETI 的目標就是要像 ChatGPT 一樣,能預測鯨魚會說什麼,甚至反過來和鯨魚對話。

這些只是 AI 解讀的眾多物種中的一部分,其他還有不少鳥類、靈長類、海豚、蜘蛛、螞蟻、蜂類,或與人親近的貓、狗、豬等,也都是目前被科學家認為有機會破譯其「語言」的生物。

如果我們成功解讀出了動物的語言,我們又該從什麼角度與動物溝通?我們所「理解的語言」真的一樣嗎?

就算解讀動物溝通,能避免擬人化的陷阱嗎?

儘管機器學習在許多情況下表現出令人印象深刻的準確性,但動物的聲音、姿態和其他訊號往往具有多義性,也就是同一個訊號可能有多個意思,很難正確解釋它們的含義。此外,機器學習再強,目前也存在限制,特別是我們尚未完全理解的感知機制,如電感、磁感和費洛蒙等。

-----廣告,請繼續往下閱讀-----

在漫畫《瀕臨絕種團》跟《海巫事務所》中,動物跟人類除了偶爾吵架之外,基本上相處得極為融洽,這也是我們人類想像中希望的情境,就是能與動物友善地、無惡意地溝通。而在《 IVE 》這部異色科幻作品中,則提出更現實的問題。汪幼海博士認為 IVE 為了與人接觸,如鮟鱇魚一般的餌球竟然為了吸引人類而變成人形,甚至可以與人溝通。雖然令人驚喜,但這也意味 IVE 的目的就是要讓人類成為其血肉的一份子,獲取其基因,因此也使用類似費洛蒙的物質吸引人類男性。對鮟鱇魚或 IVE 來說,這是很自然、毫無惡意的,但對人類來說,就是一種恐懼的殺戮。大自然中本來就有許多「愛」是以殺為結局,包括蜘蛛、螳螂等。人類又要如何在對事物理解前提完全不同的情況下,與動物更深度溝通呢?

圖/pexels

在科學研究上,我們情不自禁地把動物擬人化更是個麻煩且不容易解決的問題,要是過於擬人化地認為動物跟人類共享一樣的情感,可能導致研究者在實驗設計和解釋結果時受到情感干擾,使研究不客觀。此外,擬人化也會使研究者更容易面臨到底是該保護動物權益,還是進行實驗研究之間的衝突,陷入倫理的困境。

但若反過來,要是有科學家認為動物跟人類完全不同,因此缺乏同情心,不尊重動物權益,倫理問題只會更嚴重。現在大家對動物福祉很關注,尤其是在涉及動物實驗和野生動物保護的時候,研究人員對動物無感情的態度反而可能導致研究受到質疑。更重要的是,這會讓科學家缺乏共鳴和洞察力,忘記我們也是動物。因此啊,如何拿捏分寸,在過分擬人跟缺乏同情的兩端之間找到適當的位置,也是動物溝通研究者的重要問題。

人類會將破譯動物溝通的能力拿來善用嗎?怎樣算是善用呢?

在石虎、黑熊跟水獺轉生變高中女生、IVE 開始對人類有興趣之前,機器學習的確可幫助我們監控和保護瀕臨絕種的野生物種,透過解讀其溝通方式,更了解牠們的需求和行為,制定更有效的保育策略。也能夠幫助我們理解圈養動物的情感和需求,從而改進在人類照顧下的生活品質。

-----廣告,請繼續往下閱讀-----

然而,當播放動物聲音以吸引它們或干擾它們時,會不會對它們的行為產生不可預測的影響?甚至不可逆地改變群體的文化,從而威脅它們的生存和生態系統的平衡?假訊息在人類世界已經夠麻煩的了,想像一下,若連動物世界也都被假訊息入侵時,會發生什麼事呢?

CCC 追漫台是一個臺灣原創漫畫平台

致力於推廣臺灣漫畫,並將臺灣漫畫融入日常生活。這個平台由本土新銳圖文創作者們打造,並結合國家典藏資料素材,以探索臺灣的豐富歷史、民俗、社會和生態等多元議題。

CCC 追漫台的使命是透過原創漫畫作品,傳達臺灣在地精神,讓讀者深入了解這個多元文化的島嶼。通過精心創作的漫畫,平台不僅提供了具娛樂性的閱讀體驗,還擴展了讀者對臺灣文化和歷史的認識。

文章中提及之漫畫皆可在追漫台上閱讀唷。

鳥苷三磷酸 (PanSci Promo)_96
197 篇文章 ・ 303 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia