0

1
0

文字

分享

0
1
0

講話太難語音助理聽不懂?利用互動設計讓人講「機器話」

人機共生你我它_96
・2020/07/27 ・2309字 ・閱讀時間約 4 分鐘 ・SR值 536 ・七年級

「這段時間,我們一直納悶控制的方法在哪裡……」
「沒想到就是我們自己。」

——《人生複本》 Blake Crouch

有沒有注意自己的日常用語會跟自己經常接觸的朋友們越趨接近?像是辦公室有人開始講:「是在哈囉?」身旁會也越來越多人在不經意間說出:「是在哈囉?」我們跟某個朋友聊天時,如果對方原本都沒有在用貼圖,但是突然有一天他/她開始用了貼圖,我們也開始跟著用貼圖來回應對方。

用語上的一致性 (lexical alignment / lexical entrainment)能夠讓人跟人之間距離更靠近,增加彼此的信任感。不僅在語言上,行為上一致性(姿勢、動作等)也能在兩個溝通越來越順暢的人們身上觀察到,而且人們在沒有察覺的情況下,對於那些語言與行為跟自己一致的人也展現較多好感。

大家下次在外面吃飯時,不妨觀察隔壁桌的兩人是否會輪流用手托腮。圖/Unsplash

語言一致性的涵蓋範圍廣泛,包含用詞選擇、腔調、語速,甚至是修辭結構。

舉例來說,當我們在跟朋友描述自己所在的位置時:「我在地下室一樓」此時,對方比較有可能回應「我在地下室二樓」,而不是「我在 B2」。

但人與人之間對話時的用語一致性跟語音助理設計有什麼關係呢?

無論與人或電腦對話,我們都會配合對方的用語

我們可以透過瞭解人跟電腦對話的時候,是否也會出現這樣的用語一致性。在這個實驗當中,研究者們會讓使用者分別跟三個不同的角色語音對話對話,分別是:

  • 真人
  • 較舊版本的電腦
  • 較新版本的電腦

而且使用者們會明確地被告知即將對話者的身分。如果是舊版電腦,就會看到一個螢幕開機畫面上寫著是 1987 年的作業系統版本;如果對話的是新版電腦,就會在螢幕上看到 2003 年的作業系統版本。

圖/pickpik

接著,請使用者在實驗過程中分別跟三個不同的角色互相看著圖片描述一個物品,例如:看一張電燈的圖片。不過「電燈」的另一個稱呼也可以是「檯燈」,這時候研究者就讓他們輪流向對方說出照片裡的物品,進而讓研究者們分析使用者會不會因為對方用了某個詞彙,後續再看到同樣的圖片時也用同樣的詞彙。

結果發現,是的!使用者不但會配合另一個人的用詞方式,也會配合電腦的用詞。

即便使用者知道自己在跟電腦對話,當電腦一直用固定的詞彙描述圖中物品時,使用者的描述用詞也會配合電腦,就如同配合人一樣,用同樣的詞彙來描述物品。

但是這種用同樣詞彙的配合程度不同,當使用者知道自己在跟一個舊版本的電腦對話時,配合的程度就高於最新版本的電腦或是人類。也就是說,當我們知道電腦可能「比較笨」的時候,我們就更容易去配合它的用語。而這個效果透過很表面的知覺操弄就可以做到,就像實驗中讓使用者看到不同版本作業系統就會達到配合程度不同的效果。

不只用詞,在句子結構上也會配合語音助理

除了看字彙選擇是不是會有一致性,研究者們也發現當請使用者分別跟另一個真人、另一個發出機器音的語音助理、另一個擬人聲的語音助理對話,無論和誰對話,使用者自己的句子結構都會有配合對方的傾向。

圖/Unsplash

研究者們邀請使用者向三個不同的角色互相描述圖片中的畫面,從中我們可以發現兩個不同的描述方式:

  • 左圖:「大明給小王一張卡片」=「大明把卡片給小王」;
  • 右圖:「一個藍色的圓圈」=「一個圓圈是藍色的」。

接著讓使用者分別跟三個角色輪流描述多長不同的圖片給對方聽。結果發現,如果對方一直用「A 把(物品)給 B」或是「形容詞 + 名詞」這種結構來描述圖片的話,自己後續描述圖片的方式也會趨向這個方式。

所以,無論跟自己對話的是人,或是機器音的語音助理,還是擬人聲的語音助理都有同樣的效果。

利用人們「一致性」本能,互動設計讓語音助理更好用

從我們與語音助理的互動經驗中可以發現,只要語音助理無法辨識我們說出來的內容,就無法給出符合期待的回應,所以自然語言處理(Natural language processing, NLP)的專家們持續發展語音辨識的技術。然而在新技術尚未推出之前,我們其實可以從人機互動的角度來修正語音助理的設計。

以本次回顧的系列研究的結論來說,人會隨著溝通對象而改變語言使用習慣,包含用語、句構。尤其當人認為電腦越不聰明時,配合程度越強。因此,設計師們不妨根據現有技術,先讓語音助理講出一些簡單的句子結構來開啟對話,再引導使用者也使用相似的簡單結構來回覆,而不是一定要專注在設計出能夠進行複雜對話的語音助理。

例如:當我們透過 Hey, bot 喚醒語音助理後,先讓語音助理說出:「嗨,下指令」這個簡單的句子結構,進而引導使用者說出:「好,播音樂」。

從系統設計角度來看,這麼做能在一開始就讓使用者在不知不覺中說出系統比較容易辨識的指令。就像我們在跟小小孩對話的時候,當他對我們說:「我要車車~」的時候,自己也會很自然的回應:「車車給你~」。

如此一來,使用者就不會因語音助理辨識錯誤而太失望了,不是嗎?

圖/unsplash

延伸閱讀

感謝沈奕超、張元嘉提供編輯建議

參考資料

  1. Cowan, B. R., Branigan, H. P., Obregón, M., Bugis, E., & Beale, R. (2015). Voice anthropomorphism, interlocutor modeling and alignment effects on syntactic choices in human-computer dialogue. International Journal of Human-Computer Studies, 83, 27-42.
  2. Branigan, H. P., Pickering, M. J., Pearson, J., McLean, J. F., & Brown, A. (2011). The role of beliefs in lexical alignment: Evidence from dialogs with humans and computers. Cognition, 121(1), 41-57.
文章難易度
人機共生你我它_96
12 篇文章 ・ 3 位粉絲
由致力於人機互動研究(HCI, Human-Computer Interaction)的研究者與實務工作者所創立,我們定期發表人機互動相關文章,與讀者一起思考科技對社會生活帶來的好處與限制。

1

3
3

文字

分享

1
3
3
AI 是理科「主場」? AI 也可以成為文科人的助力!
研之有物│中央研究院_96
・2022/08/13 ・5646字 ・閱讀時間約 11 分鐘

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪撰文/田偲妤
  • 美術設計/蔡宛潔

AI 的誕生,文理缺一不可

人工智慧(Artificial Intelligence,簡稱 AI)在 21 世紀的今日已大量運用在生活當中,近期掀起熱議的聊天機器人 LaMDA、特斯拉自駕系統、AI 算圖生成藝術品等,都是 AI 技術的應用。多數 AI 的研發秉持改善人類生活的人文思維,除了仰賴工程師的先進技術,更需要人文社會領域人才的加入。

中央研究院「研之有物」專訪院內人文社會科學研究中心蔡宗翰研究員,帶大家釐清什麼是 AI?文科人與工程師合作時,需具備什麼基本 AI 知識?AI 如何應用在人文社會領域的工作當中?

中央研究院人文社會科學研究中心蔡宗翰研究員。圖/研之有物

詩詞大對決:人與 AI 誰獲勝?

一場緊張刺激的詩詞對決在線上展開!人類代表是有「AI 界李白」稱號的蔡宗翰研究員,AI 代表則是能秒速成詩的北京清華九歌寫詩機器人,兩位以「人工智慧」、「類神經」為命題創作七言絕句,猜猜看以下兩首詩各是誰的創作?你比較喜歡哪一首詩呢?

猜猜哪首詩是 AI 做的?哪首詩是人類做的?圖/研之有物

答案揭曉!A 詩是蔡宗翰研究員的創作,B 詩是寫詩機器人的創作。細細賞讀可發覺,A 詩的內容充滿巧思,為了符合格律,將「類神經」改成「類審經」;詩中的「福落天赦」是「天赦福落」的倒裝,多念幾次會發現,原來是 Google 開發的機器學習開源軟體庫「Tensor Flow」的音譯;而「拍拓曲」則是 Facebook 開發的機器學習庫「Pytorch」的音譯,整首詩創意十足,充滿令人會心一笑的魅力!

相較之下,B 詩雖然有將「人工」兩字穿插引用在詩中,但整體內容並沒有呼應命題,只是在詩的既有框架內排列字句。這場人機詩詞對決明顯由人類獲勝!

由此可見,當前的 AI 缺乏創作所需的感受力與想像力,無法做出超越預先設定的創意行為。然而,在不久的將來,AI 是否會逐漸產生情感,演變成電影《A.I. 人工智慧》中渴望人類關愛的機器人?

AI 其實沒有想像中聰明?

近期有一則新聞「AI 有情感像 8 歲孩童?Google 工程師爆驚人對話遭停職」,讓 AI 是否已發展出「自我意識」再度成為眾人議論的焦點。蔡宗翰研究員表示:「當前的 AI 還是要看過資料、或是看過怎麼判讀資料,經過對應問題與答案的訓練才能夠運作。換而言之,AI 無法超越程式,做它沒看過的事情,更無法替人類主宰一切!

會產生 AI 可能發展出情感、甚至主宰人類命運的傳言,多半是因為我們對 AI 的訓練流程認識不足,也缺乏實際使用 AI 工具的經驗,因而對其懷抱戒慎恐懼的心態。這種狀況特別容易發生在文科人身上,更延伸到文科人與理科人的合作溝通上,因不了解彼此領域而產生誤會與衝突。如果文科人可以對 AI 的研發與應用有基本認識,不僅能讓跨領域的合作更加順利,還能在工作中應用 AI 解決許多棘手問題。

「職場上常遇到的狀況是,由於文科人不了解 AI 的訓練流程,因此對 AI 產生錯誤的期待,認為辛苦標注的上千筆資料,應該下個月就能看到成果,結果還是錯誤百出,準確率卡在 60、70% 而已。如果工程師又不肯解釋清楚,兩方就會陷入僵局,導致合作無疾而終。」蔡宗翰研究員分享多年的觀察與建議:

如果文科人了解基本的 AI 訓練流程,並在每個訓練階段協助分析:錯誤偏向哪些面向?AI 是否看過這方面資料?文科人就可以補充缺少的資料,讓 AI 再進行更完善的訓練。

史上最認真的學生:AI

認識 AI 的第一步,我們先從分辨什麼是 AI 做起。現在的數位工具五花八門,究竟什麼才是 AI 的應用?真正的 AI 有什麼樣的特徵?

基本上,有「預測」功能的才是 AI,你無法得知每次 AI 會做出什麼判斷。如果只是整合資料後視覺化呈現,而且人類手工操作就辦得到,那就不是 AI。

數位化到 AI 自動化作業的進程與舉例。圖/研之有物

蔡宗翰研究員以今日常見的語音辨識系統為例,大家可以試著對 Siri、Line 或 Google 上的語音辨識系統講一句話,你會發現自己無法事先知曉將產生什麼文字或回應,結果可能正是你想要的、也可能牛頭不對馬嘴。此現象點出 AI 與一般數位工具最明顯的不同:AI 無法百分之百正確!

因此,AI 的運作需建立在不斷訓練、測試與調整的基礎上,盡量維持 80、90% 的準確率。在整個製程中最重要的就是訓練階段,工程師彷彿化身老師,必須設計一套學習方法,提供有助學習的豐富教材。而 AI 則是史上最認真的學生,可以穩定、一字不漏、日以繼夜地學習所有課程。

AI 的學習方法主要分為「非監督式學習」、「監督式學習」。非監督式學習是將大批資料提供給 AI,讓其根據工程師所定義的資料相似度算法,逐漸學會將相似資料分在同一堆,再由人類檢視並標注每堆資料對應的類別,進而產生監督式學習所需的訓練資料。而監督式學習則是將大批「資料」和「答案」提供給 AI,讓其逐漸學會將任意資料對應到正確答案。

圖/研之有物

學習到一定階段後,工程師會出試題,測試 AI 的學習狀況,如果成績只有 60、70 分,AI 會針對答錯的地方調整自己的觀念,而工程師也應該與專門領域專家一起討論,想想是否需補充什麼教材,讓 AI 的準確率可以再往上提升。

就算 AI 最後通過測試、可以正式上場工作,也可能因為時事與技術的推陳出新,導致準確率下降。這時,AI 就要定時進修,針對使用者回報的錯誤進行修正,不斷補充新的學習內容,讓自己可以跟得上最新趨勢。

在了解 AI 的基本特徵與訓練流程後,蔡宗翰研究員建議:文科人可以看一些視覺化的操作影片,加深對訓練過程的認識,並實際參與檢視與標注資料的過程。現在網路上也有很多 playground,可以讓初學者練習怎麼訓練 AI,有了上述基本概念與實務經驗,就可以跟工程師溝通無礙了。

AI 能騙過人類,全靠「自然語言處理」

AI 的應用領域相當廣泛,而蔡宗翰研究員專精的是「自然語言處理」。問起當初想投入該領域的原因,他充滿自信地回答:因為自然語言處理是「AI 皇冠上的明珠」!這顆明珠開創 AI 發展的諸多可能性,可以快速讀過並分類所有資料,整理出能快速檢索的結構化內容,也可以如同真人般與人類溝通。

著名的「圖靈測試」(Turing Test)便證明了自然語言處理如何在 AI 智力提升上扮演關鍵角色。1950 年代,傳奇電腦科學家艾倫・圖靈(Alan Turing)設計了一個實驗,用來測試 AI 能否表現出與人類相當的智力水準。首先實驗者將 AI 架設好,並派一個人操作終端機,再找一個第三者來進行對話,判斷從終端機傳入的訊息是來自 AI 或真人,如果第三者無法判斷,代表 AI 通過測試。

圖靈測試:AI(A)與真人(B)同時傳訊息給第三者(C),如果 C 分不出訊息來自 A 或 B,代表 AI 通過實驗。圖/研之有物

換而言之,AI 必須擁有一定的智力,才可能成功騙過人類,讓人類不覺得自己在跟機器對話,而這有賴自然語言處理技術的精進。目前蔡宗翰的研究團隊有將自然語言處理應用在:人文研究文本分析、新聞真偽查核,更嘗試以合成語料訓練臺灣人專用的 AI 語言模型。

讓 AI 替你查資料,追溯文本的起源

目前幾乎所有正史、許多地方志都已經數位化,而大量數位化的經典更被主動分享到「Chinese Text Project」平台,讓 AI 自然語言處理有豐富的文本資料可以分析,包含一字不漏地快速閱讀大量文本,進一步畫出重點、分門別類、比較相似之處等功能,既節省整理文本的時間,更能橫跨大範圍的文本、時間、空間,擴展研究的多元可能性。

例如我們想了解經典傳說《白蛇傳》是怎麼形成的?就可以應用 AI 進行文本溯源。白蛇傳的故事起源於北宋,由鎮江、杭州一帶的說書人所創作,著有話本《西湖三塔記》流傳後世。直至明代馮夢龍的《警世通言》二十八卷〈白娘子永鎮雷峰塔〉,才讓流傳 600 年的故事大體成型。

我們可以透過「命名實體辨識技術」標記文本中的人名、地名、時間、職業、動植物等關鍵故事元素,接著用這批標記好的語料來訓練 BERT 等序列標注模型,以便將「文本向量化」,進而找出給定段落與其他文本的相似之處。

經過多種文本的比較之後發現,白蛇傳的原型可追溯自印度教的那伽蛇族故事,傳說那伽龍王的三女兒轉化成佛、輔佐觀世音,或許與白蛇誤食舍利成精的概念有所關連,推測印度神話應該是跟著海上絲路傳進鎮江與杭州等通商口岸。此外,故事的雛型可能早從唐代便開始醞釀,晚唐傳奇《博異志》便記載了白蛇化身美女誘惑男子的故事,而法海和尚、金山寺等關鍵人物與景點皆真實存在,金山寺最初就是由唐宣宗時期的高僧法海所建。

白蛇傳中鎮壓白娘子的雷峰塔。最早為五代吳越王錢俶於 972 年建造,北宋宣和二年(1120 年)曾因戰亂倒塌,大致為故事雛形到元素齊全的時期。照片中雷峰塔為 21 世紀重建。圖/Wikimedia

在 AI 的協助之下,我們得以跨時空比較不同文本,了解說書人如何結合印度神話、唐代傳奇、在地的真人真事,創作出流傳千年的白蛇傳經典。

最困難的挑戰:AI 如何判斷假新聞

除了應用在人文研究文本分析,AI 也可以查核新聞真偽,這對假新聞氾濫的當代社會是一大福音,但對 AI 來說可能是最困難的挑戰!蔡宗翰研究員指出 AI 的弱點:

如果是答案和數據很清楚的問題,就比較好訓練 AI。如果問題很複雜、變數很多,對 AI 來說就會很困難!

困難點在於新聞資訊的對錯會變動,可能這個時空是對的,另一個時空卻是錯的。雖然坊間有一些以「監督式學習」、「文本分類法」訓練出的假新聞分類器,可輸入當前的新聞讓機器去判讀真假,但過一段時間可能會失準,因為新的資訊源源不絕出現。而且道高一尺、魔高一丈,當 AI 好不容易能分辨出假新聞,製造假新聞的人就會破解偵測,創造出 AI 沒看過的新模式,讓先前的努力功虧一簣。

因此,現在多應用「事實查核法」,原理是讓 AI 模仿人類查核事實的過程,尋找權威資料庫中有無類似的陳述,可用來支持新聞上描述的事件、主張與說法。目前英國劍橋大學為主的學者群、Facebook 與 Amazon 等業界研究人員已組成 FEVEROUS 團隊,致力於建立英文事實查核法模型所能運用的資源,並透過舉辦國際競賽,廣邀全球學者專家投入研究。

蔡宗翰教授團隊 2021 年參加 FEVEROUS 競賽勇奪全球第三、學術團隊第一後,也與合作夥伴事實查核中心及資策會討論,正著手建立中文事實查核法模型所需資源。預期在不久的將來,AI 就能幫讀者標出新聞中所有說法的資料來源,節省讀者查證新聞真偽的時間。

AI 的無限可能:專屬於你的療癒「杯麵」

想像與 AI 共存的未來,蔡宗翰研究員驚嘆於 AI 的學習能力,只要提供夠好、夠多的資料,幾乎都可以訓練到讓人驚訝的地步!圖/研之有物

AI 的未來充滿無限可能,不僅可以成為分類與查證資料的得力助手,還能照護並撫慰人類的心靈,這對邁入高齡化社會的臺灣來說格外重要!許多青壯年陷入三明治人(上有老、下有小要照顧)的困境,期待有像動畫《大英雄天團》的「杯麵」(Baymax)機器人出現,幫忙分擔家務、照顧家人,在身心勞累時給你一個溫暖的擁抱。

機器人陪伴高齡者已是現在進行式,新加坡南洋理工大學 Gauri Tulsulkar 教授等學者於 2021 年發表了一項部署在長照機構的機器人實驗。這名外表與人類相似的機器人叫「娜丁」(Nadine),由感知、處理、互動等三層架構組成,可以透過麥克風、3D和網路鏡頭感知用戶特徵、所處環境,並將上述資訊發送到處理層。處理層會依據感知層提供的資訊,連結該用戶先前與娜丁互動的記憶,讓互動層可以進行適當的對話、變化臉部表情、用手勢做出反應。

長照機構的高齡住戶多數因身心因素、長期缺乏聊天對象,或對陌生事物感到不安,常選擇靜默不語,需要照護者主動引導。因此,娜丁內建了注視追蹤模型,當偵測到住戶已長時間處於被動狀態,就會自動發起話題。

實驗發現,在娜丁進駐長照機構一段時間後,住戶有一半的天數會去找她互動,而娜丁偵測到的住戶情緒多為微笑和中性,其中有 8 位認知障礙住戶的溝通能力與心理狀態有明顯改善。

照護機器人娜丁的運作架構。圖/研之有物

至於未來的改進方向,研究團隊認為「語音辨識系統」仍有很大的改進空間,需要讓機器人能配合老年人緩慢且停頓較長的語速,音量也要能讓重聽者可以清楚聽見,並加強對方言與多語混雜的理解能力。

臺灣如要發展出能順暢溝通的機器人,首要任務就是要開發一套臺灣人專用的 AI 語言模型,包含華語、臺語、客語、原住民語及混合以上兩種語言的理解引擎。這需花費大量人力與經費蒐集各種語料、發展預訓練模型,期待政府能整合學界與業界的力量,降低各行各業導入 AI 相關語言服務的門檻。

或許 AI 無法發展出情感,但卻可以成為人類大腦的延伸,協助我們節省處理資料的時間,更可以心平氣和地回應人們的身心需求。與 AI 共存的未來即將來臨,如何讓自己的行事邏輯跟上 AI 時代,讓 AI 成為自己的助力,是值得你我關注的課題。

延伸閱讀

所有討論 1
研之有物│中央研究院_96
248 篇文章 ・ 2038 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

2

6
0

文字

分享

2
6
0
用 coding 寫出《鋼鐵人》的 AI 助理 Jarvis 有多難?——專訪臺大資工系陳縕儂副教授
科技大觀園_96
・2022/01/04 ・3527字 ・閱讀時間約 7 分鐘

近年來因為人工智慧、大數據、區塊鏈等應用科技快速發展,以及 Google 等科技公司大舉來到臺灣進駐並招聘大量軟體工程師,臺灣頂大的資工科系成為超熱門志願。不過大家對資工系的印象就是要學寫程式,也就是俗稱的 coding,但 coding 在解決什麼問題?今天我們訪問了臺大資工系的陳縕儂副教授,從老師的專業「自然語言處理」(Natural Language Processing,縮寫 NLP)做切入,來帶大家了解資工系究竟在解決什麼問題。

讓 AI 聽得懂人話,就是「自然語言處理」

陳縕儂老師的機器智慧與理解實驗室,主要是針對語言處理及對話系統相關技術進行研發,藉由機器學習技術,透過資料讓機器自動學習,理解人類語言並且進行適當的互動,目標是希望能讓機器的智能比肩人類,甚至超越人類。

陳縕儂教授與實驗室今年參加 Amazon Alexa Prize Taskbot 競賽的研究生們合影。(圖/陳縕儂提供)

「自然語言處理」是資工領域中的一個分支,名字聽起來很抽象,但其實這項學門的目標就是讓電腦可以「聽懂」人類說的話、「理解」語意並給予「回應」,就像鋼鐵人電影中的 AI 助理 Jarvis,鋼鐵人只要說如常說話就可以下達指令,讓 Jarvis 協助生活中各種大小事。

不過理想很飽滿現實卻很骨感,要做到像 Jarvis 這樣有求必應的 AI 助理並不容易,目前市面上的智慧助理如 Apple Siri、Google Assistant 及 Amazon Alexa 都已經隨著 3C 產品普及化了,但很多時候它們仍會說:「很抱歉,我聽不懂你的意思。」可見,從 Siri 到到 Jarvis 仍有很長的一段路要走,但為什麼這是條漫漫長路?——歡迎來到「自然語言處理」的思考領域。

從「聽懂」到「回應」,AI 必須克服多項關卡

大家可以想像一下,今天要跟一個 AI 互動,通常是透過語音或者文字來下達指令,接著 AI 就會協助我們完成特定的任務,並解決特定的問題。

在這個過程中,有四個主要的環節必須克服,分別是語音辨識 (Automatic Speech Recognition; ASR)、語意理解 (Natural Language Understanding; NLU)、對話決策 (Dialogue Management)、以及語言生成 (Natural Language Generation; NLG),說的白話一點,就是接收你講的話、翻譯成 AI 能理解的指令、要如何處理指令,以及怎麼把回應翻譯成人類能聽懂的聲音或文字。

在這四個環節裡都有相當複雜的問題需要去解決,譬如語音辨識,在技術上通常是將語音訊號直接轉換成文字,讓 AI 去理解,但在將音訊輸入的過程中,就必須要排除掉我們口語中會用的「嗯」、「啊」、「喔」等贅字或不自然的停頓,又或者是新創的流行語、方言、口音……等等的問題必須先解決,才能讓 AI 真的能聽懂人類的自然語言。

在「語意理解」上,要讓 AI 去分析語言或文字的脈絡、理解關鍵字,再找出對應的資料(搜尋資料庫);而「對話決策」更是困難,前面理解了人類的語言或文字表意後,AI 應該要如何回應?可能使用者給的資訊不完整,AI 要追問使用者以釐清問題?又或者在語意理解上有聽不懂的字,得要再次詢問並確認?

這還只是 AI 面對人類自然語言時,其中幾個回應的選項,真實的對話情境可能更加複雜,而且整個對話過程只要有一個環節正確度不夠高,那 AI 後續也很難準確的回應,只要有一步錯了,就會對後續對話體驗造成負面影響。

不過好消息是,現在的深度學習技術已經相當成熟,只要餵資料給電腦時,告訴他怎麼樣是對、怎麼樣是錯,基本上電腦都可以不斷修正(餵的資料也要夠多),再加上現行語言代表模型的優化,智慧 AI 在特定領域的應用上都有蠻不錯的成果。

AI 處理語音指令的過程。圖/陳縕儂提供

Jarvis 仍遙遠,AI 的新突破是精準翻譯

聊到這幾年 AI 的重要突破,老師提到三年前 Google 所開發的語言代表模型 BERT(Bidirectional Encoder Representations from Transformers),當時 BERT 一出現市面上所有自然語言處理的模型都改採用了它的運作邏輯。相較於過去的語言模型,通常都是餵指定任務的文字來訓練電腦,BERT 是在給電腦任務前,先餵它吃很多的文章或書,接著再提供任務給它。

以翻譯為例,這就好像讓一般人翻譯,跟讀過很多書的人來翻譯一樣,讀過很多書的人懂得字彙跟用法,自然翻譯出來的成品更流暢。

而 BERT 的技術確實也得到相當好的成效,所以擊敗了當時許多正在開發的語言模型,成為了當前語言模型的基礎。有趣的是,BERT 的前身是一個名為 ELMo(Embeddings from Language Models,與芝麻街角色名字相同)的語言模型,所以 BERT 的開發者們就用芝麻街的角色,來為他們開發出來的語言模型命名。

當前 AI 發展的目標,為它建立「人的常識」

雖然說 NLP 領域在商業與學術上都有相當大的發展空間,但陳老師認為,目前要達到人的「common sense(常識)」對 AI 來說還是非常困難,舉例來說,今天我們跟智慧助理說我今天要跟某某人吃晚餐,這個時候如果是人類的助理,我們可能會聯想到「吃什麼」、「要不要聯絡某某人」、「交通方式是?」……等等與飯局相關的問題,但 AI 目前並沒有辦法執行這麼複雜的互動,還得必須跟 AI 說「幫我訂位」、「幫我叫車」,仍在一個指令一個動作的狀態,這種 AI「common sense」的建立,可說是目前非常有挑戰性的項目。

AI 的開發方向——人類的工作輔具

身為 AI 的設計者,陳縕儂老師認為 AI 會成為輔助人類的一部分,雖然說現階段許多人對於 AI 可以執行我們的工作感到彆扭,但實際上 AI 正在減輕我們的工作量,舉例來說,像是目前醫院已經有在使用協助診斷的 AI,但這樣的 AI 並不會取代醫生的工作,因為 AI 只是提供醫生診斷的相關依據,實務上對於病患的判斷最終還是得由醫生來做。

雖然 AI 已在產業中被廣泛利用,但基本上仍以「人機協作」為大宗,雖然能取代部分人力,但像是創造類型的工作 AI 就幾乎無法獨自完成。至於大家想像中,AI 恐對人類造成威脅的情節,基本上不會發生,因為 AI 是不會憑空出現意識的,AI 威脅人類的可能,比較會是人類不當利用造成的風險,所以在未來 AI 的開發上,基本上會往輔助人類的方向去做應用。

身為 AI 的設計者,陳縕儂老師認為 AI 會成為輔助人類的一部分。圖/Pixabay

資工領域瞬息萬變,「喜歡新知」很關鍵

談到什麼特質適合來讀資工系,陳縕儂老師認為,數學或是邏輯只是基礎,重要的是「喜歡接受新知」的特質,因為在資工領域瞬息萬變,資訊更新的相當快速,隨時都會有新東西出來,如果不喜歡吸收新知識,讀資工系可能會比較痛苦一點。另外,資工在應用上時常會和不同領域的人做合作,你必須了解對方的需求跟他們的條件,才能設計出能夠幫別人解決問題的方法,而這也是資工有趣的地方。

陳縕儂老師也和我們分享了在他眼中臺灣學生和外國學生的差異,他認為臺灣學生應用網路資源自學的能力非常強,而外國學生則是勇於在課堂上和老師提問並討論,各有各的優點,不過教授也認為由於臺灣學生擅長自己找答案,所以在協作與表達上的可能相較於外國會比較弱一些,但如果這一塊能做到加強,臺灣的學生其實是非常有競爭力的。

陳縕儂副教授認為,臺灣學生在協作與表達上相較於外國學生較弱一些,但若能加強這一塊能力,臺灣學生非常有競爭力。圖/呂元弘攝

最後老師還告訴我們,當初大學時機器學習與 NLP 領域並不是資工領域的主流,一開始只是選擇了自己有興趣的領域,也沒想到近幾年 NLP 會變成現在的顯學,他認為自己真的非常幸運,可以一路延續自己熱愛的主題。

最後的最後,陳縕儂老師建議有意投入資工領域的學員們,可以先了解這個領域需要的先備知識,像是 coding 要用到的程式語言、跟 AI 相關的內容則會牽涉到數學,最後當然就是對知識的熱情和態度,了解之後才比較能判斷這個領域適不適合你,千萬不要因為從眾而選擇。

所有討論 2
科技大觀園_96
82 篇文章 ・ 1097 位粉絲
為妥善保存多年來此類科普活動產出的成果,並使一般大眾能透過網際網路分享科普資源,科技部於2007年完成「科技大觀園」科普網站的建置,並於2008年1月正式上線營運。 「科技大觀園」網站為一數位整合平台,累積了大量的科普影音、科技新知、科普文章、科普演講及各類科普活動訊息,期使科學能扎根於每個人的生活與文化中。

2

6
0

文字

分享

2
6
0
別意外!Google 真的聽得懂「人話」:BERT 自然語意演算法如何提升關鍵字理解能力?
Abby T
・2021/10/12 ・3416字 ・閱讀時間約 7 分鐘

打開搜尋引擎,不知道要輸入什麼用詞才能找到需要的資訊?例如,明明心中的疑問是「今天會下雨嗎?」,但打開Google搜尋,輸入的關鍵字卻是「本日 降雨機率」。

為了要讓搜尋引擎理解問題,大多數的人在使用 Google 搜尋時往往會捨棄口語用詞,改為輸入幾個簡單的關鍵字,久而久之已變成一種慣用的搜尋習慣。好像不那麼做,Google 會看不懂關鍵字,也就無法順利搜尋到需要的資訊。

但看看「Google 助理向美髮沙龍預約剪髮」的實際對話影片,可以發現 Google 其實有能力理解口語對話,還能像人類一樣回覆流利答覆,而這樣的能力也能在 2019 年「BERT 自然語意演算法」推出後,使用 Google 搜尋查找資訊時獲得類似的經驗。 

號稱能理解人類語言的 BERT 演算法

BERT 演算法有個繞口又深奧的全名:Bidirectional Encoder Representations from Transformers,翻成中文的字面意思還是很難理解。

但簡單來說,它能幫助電腦更理解人類的語言。若應用在搜尋引擎方面,它能夠仔細辨識搜尋字串的「每個字」,再根據前後字詞的關係(上下文)去讀懂整個搜尋字串要表達的意思,而且與以往只擇一比對前一或後一個字詞不同的是,BERT 演算法是將前、後字詞都納入判斷語意的參考,所以能更精確判斷使用者搜尋該字串的意圖/目的。

BERT 演算法剛推出時,在美國地區、使用英文搜尋時的搜尋結果,約有 10% 受到影響,也就是每 10 個搜尋之中,會有 1 個搜尋結果受到影響,因此被稱為是繼 2015 年、號稱影響 Google 排名第三大因素的 RankBrain 推出後,Google 演算法史上目前最大的變革。除了英文以外,後來也逐漸推及到其他搜尋語言。

BERT 演算法背後的原理

1. 讓電腦聽懂「人話」:自然語言處理

自然語言指的是「人類自然而然說出來的語言」,因為正常狀況下,人類在對話時有上下文可以參考,因此能互相理解彼此的語意(當然偶爾還是可能出現溝通障礙,)。但電腦卻很難理解自然語言。而自然語言處理 Natural Language Processing (NLP),就是用來幫助電腦理解人類自然語言的一種技術。

以中文為例,因為中文句子不像英文句子,會用空格隔開各個單字,很容易因為斷句方式不同,而有不同的語意,因此,中文的自然語言處理至少要做到兩件事,第一件是將句子「斷成詞,以理解個別詞義」、第二件是「分析語意」,包括文法和整個句子的語意解讀。

舉例來說,「他・有・繪畫・的・才能」和「放下・才・能・得到」這兩句話雖然都有「才能」,但兩個句子的斷句方式不同,「才能」在這兩句話的意思也不同。研究人員會將大量的類似句子做出這樣的斷句,讓電腦學習,往後當「才能」這個詞又出現時,電腦也能學會從上下文判斷,並做出適當的斷句。

脑, 芯片, 神经元, 学习机, 代码, 程序员, 网络, 计算机科学, 计算机芯片的, 头脑, 心理学
自然語言處理在會因為語言的不同而遇到不同的難題,以中文而言,處理「斷句」是一大挑戰。圖/Pixabay

2. 電腦「自學」的關鍵:詞向量

但詞彙那麼多,要如何讓電腦學習呢?最常見的方式是將詞彙轉換為「詞向量/詞嵌入」(Word Vector/ Word Embedding),簡單來說,就是以一連串數字代表詞彙,讓電腦更能理解詞彙之間的關係。每個詞彙都有一組數字,而這些數字是由比對大量前後文而統計出來的結果,可以用來比較詞彙間的關係遠近。

字義越相關,詞向量的距離越近,例如「蝴蝶」跟「飛」的向量距離比跟「爬」的向量距離還近。而且,隨著資料量越多,統計出來的數字也會隨之調整,詞彙間的關係因此能越來越精確。如此一來,電腦不需要語言學相關知識,也能透過蒐集大量資料和統計來自主學習,並且根據統計數據處理語言。

回到BERT來說,起初,研究人員研發出多個不一樣的語言理解處理模型,每個模型都有特定的功能,專職處理特定類型的語言理解,例如有的負責斷詞、有的負責分析語法、有的負責情感分析。就好像廚房中有各種不同的工具,水果刀用來切水果、開瓶器用來開紅酒,每個器具各司其職;而BERT就像是一把瑞士刀,一把在手就能滿足多種功能需求,BERT能處理大部分的自然語言處理問題,也就不再需要使用多種語言理解處理模型,這也是Google將BERT導入演算法應用的原因之一。 

常見的自然語言處理有效運用案例有:客服常使用的聊天機器人、智慧型手機的詞彙建議等,能從幾個關鍵字判斷出完整句子,再從資料庫中找出適合的資料回應。

(補充:若想更深入了解BERT演算法原理,可參考Google官方釋出的Open Source說明。)

BERT 演算法的應用實例

Google 官方表示 BERT 將會擴大應用於多種語言的搜尋結果,但官方目前已釋出的舉例大多仍是以英文為主。

例如:使用者搜尋“2019 brazil traveler to usa need a visa”,是想知道「2019 年巴西旅客去美國旅遊是否需要簽證」,但在 BERT 演算法推出前,Google 忽略了使用者搜尋字串中的介係詞 “to”,因此將搜尋意圖錯誤理解為「美國旅客去巴西旅遊是否需要簽證」,提供的搜尋結果自然就會是針對美國人要去巴西旅遊的情境。

圖/ Google 截圖

BERT 演算法強調搜尋引擎能辨識搜尋字串的「每個字」,再去理解整個搜尋字串要表達的語意,所以加入介係詞 “to” 去分析以後,就會得到完全不同、更準確的搜尋意圖,提供的搜尋結果自然更能符合使用者的需求。

雖然沒有官方資料證實,BERT演算法對於繁體中文搜尋結果有何影響。但實際搜尋幾組繁體中文關鍵字,仍可發現有 BERT 的蹤影。例如搜尋口語化的句子「今天會下雨嗎」,和較為正式的關鍵字用法「本日 降雨機率」,Google 搜尋結果第一個列出的,都是使用者所在位置的降雨機率預報。

「今天會下雨嗎」的搜尋結果。圖/Google截圖

根據上述例子,可以推測出,即使「今天會下雨嗎」是相當口語化的自然語言搜尋用語,但Google仍然能夠理解,使用者輸入「今天會下雨嗎」和「本日 降雨機率」這兩組關鍵字,所要找的資料其實是一樣的。

「本日 降雨機率」的搜尋結果。圖/Google截圖

BERT 演算法也有極限

先不論 BERT 演算法,是否能改善英文以外其他語言的搜尋結果,BERT 演算法本身也有以下一些限制:

1. 不擅長理解否定敘述

語言學家 Allyson Ettinger 在他的研究論文 “What BERT is not” 中提出了幾個要點說明 BERT 的限制,其中特別指出 BERT 很難理解否定詞對於上下文語意的影響。

2. 不擅長理解長篇文件

電腦要理解長篇文件的挑戰性更高,因為大部分長篇文件會再細分為章節、段落、句子,即便是人類在閱讀長篇文件時,可能都需要參考文件架構才能理解整篇文件的內容。因此電腦在理解長篇文件時應該將架構一起納入處理,但理解長篇文件的架構對 BERT 演算法而言並不容易。

總結

Google 官方承認,即便導入了 BERT 來提升自然語言處理的成效,要精準理解自然語言對於電腦而言仍是非常有挑戰性。不過,針對搜尋結果優先列出的「精選摘要」部分,Google 表示目前至少在韓語、印地語和葡萄牙語都已有重大改善。在未來,Google 預計將 BERT 學習英文理解的這套模式套用到更多不同語言上,期待未來所有使用者在執行搜尋時,都能以最輕鬆自然的方式輸入,而不需要刻意思考應該輸入什麼關鍵字,才能被 Google 搜尋引擎所理解。

資料來源

  1. Google Duplex: AI will call and book your appointments
  2. FAQ: All about the BERT algorithm in Google search – Search Engine Land
  3. Open Sourcing BERT – Google AI Blog
  4. 如何斷開中文峰峰相連的詞彙鎖鍊,讓電腦能讀懂字裡行間的語意? – 泛科學 PanSci
  5. Understanding searches better than ever before – Google
  6. What BERT is not – Allyson Ettinger
  7. Google’s SMITH Algorithm Outperforms BERT – Search Engine Journal
所有討論 2
Abby T
5 篇文章 ・ 7 位粉絲
內容行銷專欄作家,JKL SEO 行銷公司行銷長 (CMO),對 SEO搜尋引擎優化相關演算法小有研究,致力於將 SEO 相關知識以淺顯易懂方式撰寫成科普文章,使普羅大眾有機會認識 SEO 這項專業數位行銷技術。