0

1
0

文字

分享

0
1
0

喜歡教書、喜歡台灣自由的研究學風 ,要讓語音助理「賈維斯」成真——陳縕儂專訪

Suzuki
・2019/12/11 ・2748字 ・閱讀時間約 5 分鐘 ・SR值 460 ・五年級

-----廣告,請繼續往下閱讀-----

「其實我已經不是最年輕的老師了!」陳縕儂笑著說,臺大資工系已經有比她更年輕的老師了,不到30歲就回臺任教不算少見。至於外界好奇她為何捨棄微軟千萬年薪工作回臺大當教授,她的答案很簡潔就是「喜歡」。

陳縕儂在四年半拼完博士,回台任教是當時臺大最年輕的教授之一(圖片提供/陳縕儂)。

喜歡教書、喜歡台灣自由的研究學風,做自己喜歡的事情比較重要。陳縕儂有著不隨波逐流的精神,十年前她選擇「語音辨識」作為研究領域時,資訊界盛行的研究是網路搜尋系統。

就讀研究所時,她跟著李琳山老師做語音辨識系統,當時在訓練機器做錄音和影片中的自動關鍵字擷取,主要是讓機器單向理解人類語言,後來至卡内基梅隆大學攻讀博士,開始做雙向的對話系統,機器不只要理解你說什麼,還要回應、給予相關的協助。

她的目標是讓機器成為鋼鐵人語音助理「賈維斯」(Jarvis)一樣,不只跟你說話,還會幫完成你交辦的訂機票、分析報表等一切任務。隨著深度學習演算法提出,這件事在將來變得可能。

-----廣告,請繼續往下閱讀-----

不過,現階段開發的語音助理Siri或Alexa都離Jarvis還有段距離。陳縕儂表示,訓練語音助理的一切事宜,包括:語言理解、自然語言處理、對話系統和機器智慧,都是她的研究範圍。

訓練一位Jarvis要克服哪些問題呢?現在就讓陳縕儂為我們解答吧~

和機器聊天有何困難?

你有沒有發現使用Siri時,常常話不投機半句多,更別說要幫忙處理訂車票、推薦飯店等雜事了。陳縕儂表示,機器要做到可以對話及像真人般的助理服務,從麥克風收音、語音轉成文字、語意理解,最後到協助擷取有用的資訊,每一步都是難關。


Siri是大家常接觸的語音聊天機器人,但它的功能還不算完備(圖片提供/Wikipedia)。

雖然「神經網絡」架構提升語音辨識之準確度,但比起影像辨識或單純語意理解,對話困難許多,因為每句話都有關聯性,百種人有百種答案,而百種答案可能也有百種的回應方式,因此傳統單純塞資料給機器的學習法是行不通的。

-----廣告,請繼續往下閱讀-----

陳縕儂表示,要克服這個難題,通常會設計兩台機器,將所有使用者的問題灌入機器中,一台機器當客服人員、一台機器當顧客開始互動,互動一段時間開放真人互動,想辦法讓互動變得更順暢,這是現行最好的方式了。

假使機器與人類可以對答如流,下一步面臨的問題就是機器能不能幫你辦事,當你跟他說「想去東京玩」時,他不會打哈哈叫你搭飛機去東京,而是能依據你的需求,提供你機票、住宿和旅遊景點的建議。

這下可就複雜了,試想你若是個旅行專員,除了回答自己已知的事項,如:旅遊注意事項、服務內容說明,還需要將各地的旅遊景點、飯店和餐廳資訊倒背如流,這對機器來說就得去找自己資料庫外的內容,可能是看完google的資訊或旅遊雜誌,才能回應客戶的需求。

結構化資料與非結構化資料的比較圖(圖片提供/陳縕儂)。

陳縕儂表示,語音助理若要成為Jarvis必須要擅長處理結構化(structured data)和非結構化(unstructured)兩種類型的數據資料。結構化數據是指已經整理成表格的資料,有欄位和數據,可立即做數據分析,這類似語音助理已經內建、整理好的資料庫,提到相關問題可以立即回覆,不需要額外找資料。

-----廣告,請繼續往下閱讀-----

然而,大部分的資料都是非結構化資料,像是文字、圖片、網頁和影片等,因此如何快速將沒結構化的資料結構化就是挑戰,這將大大影響機器人提供服務的速度與品質。陳縕儂坦言,目前這兩部分都做得不夠完善,因此她的研究會朝這部分努力。

遇到口音問題怎麼辦?

讓機器成為個人助理之前,更根本的是解決「聽不懂人話」問題,不同的口音確實常讓機器混肴,若把「台式餐廳」聽成「泰式餐廳」,助理找出來的東西就完全不同了!

因此,語音辨識得考慮聲音的錯誤,人才能順暢地與機器對話。陳縕儂表示,她是以跟BERT類似的GPT-2架構來做預訓練模型。概略來說,就是訓練機器學習語言的架構,然後讓機器會根據語音的內容去推估後面兩個字,這部分從Siri轉成文字很像,能依據你講的內容選字。

此時,再把語音的差異納入考量,並將發音相似的字像是「泰、台」調整為同個向量,使得機器得以辨識類似的發音,當機器判讀可能發生誤聽的狀況時,便能再次向使用者確認。

-----廣告,請繼續往下閱讀-----

不過陳縕儂坦言,這並不容易,因為聲音資料取得困難,大部分拿到的都是文字資料,再加上機器會算出最合適的語詞和句子結構,所以不同選字會影響後面的詞彙選取,「如何讓機器辨析口音問題」就是個挑戰。

熱愛教學 實踐夢想

語言理解、對話系統和機器智慧是很廣泛的領域,不缺研究主題,陳縕儂認為自己很幸運搭上這股熱潮,且最終回到研究自由度高的台灣繼續努力,她一點都不覺得捨棄微軟工作很可惜。

「教學是很快樂的事情!」她笑說,把自己會的東西交給學生,看到學生從不懂到成為專家,可以跟妳一起討論研究問題,是一件無比有成就感的事。

找一找陳老師在哪裡?陳縕儂表示,跟學生一起學習成長,比待在微軟的研究部門更快樂(圖片提供/陳縕儂)。

今年初,陳縕儂帶領臺大團隊在科技部「科技大擂台:與AI對話」比賽拿下冠軍,成績甚至超越華碩電腦達文西實驗室。她形容這是場艱難的馬拉松,從初賽、複賽至決賽比了快一年,決賽題目比照「華語文能力測驗」,機器在比賽現場得聽完一段文章和選項,並選出正確答案,除了選擇題,還有簡答題。

-----廣告,請繼續往下閱讀-----

陳縕儂笑說,學生為了訓練機器、調整類神經網絡,以及整合成一個系統熬了無數個夜,這對學生和她來說是個難得的體驗,目前團隊決賽成績是1000題中拿下約54%的正確率,希望未來能再提高,讓機器的成績有機會超過人類。

陳縕儂老師與李宏毅老師帶領臺大資工系學生在今年「科技大擂台:與AI對話」比賽拿下冠軍(圖片提供/陳縕儂)。

很多學生覺得自己不夠聰明,沒辦法學好code,陳縕儂認為,聰明確實可以幫你快速掌握code的規則,但是多練習也可以補足,它不會像物理或數學一樣轉不過來就是沒辦法。

她坦言,自己博班時也很拼,一部分是課業負擔重,一部分則是想縮短臺美遠距離戀愛的時間,所以硬是在四年半拼完博士。每天只睡四、五個小時,一睜開眼就坐在電腦前打code,「不過該玩的還是有玩,我是寧可犧牲睡眠,也要玩到的人!」

陳縕儂表示,她比其他人幸運,能一路延續研究旨趣,選到自己熱愛的研究主題。她建議國高中課程可以提早將寫程式納入課程中,這就像Excel和輸入法一樣是未來必備的技能,從中學生也可以挖掘未來志趣,對資訊科學有興趣的,就一起進來努力吧!

-----廣告,請繼續往下閱讀-----
陳縕儂認為玩樂與課業應該並重,生活才會多采多姿,圖為她與指導教授在卡内基梅隆大學的合影(圖片提供/陳縕儂)。
文章難易度
Suzuki
18 篇文章 ・ 0 位粉絲
超純社會組學生,對未知的一切感到好奇,意外掉入科技與科學領域,希望在猛點頭汲取知識的同時,也能將箇中妙趣分享給大家。

0

2
0

文字

分享

0
2
0
人體吸收新突破:SEDDS 的魔力
鳥苷三磷酸 (PanSci Promo)_96
・2024/05/03 ・1194字 ・閱讀時間約 2 分鐘

-----廣告,請繼續往下閱讀-----

本文由 紐崔萊 委託,泛科學企劃執行。 

營養品的吸收率如何?

藥物和營養補充品,似乎每天都在我們的生活中扮演著越來越重要的角色。但你有沒有想過,這些關鍵分子,可能無法全部被人體吸收?那該怎麼辦呢?答案或許就在於吸收率!讓我們一起來揭開這個謎團吧!

你吃下去的營養品,可以有效地被吸收嗎?圖/envato

當我們吞下一顆膠囊時,這個小小的丸子就開始了一場奇妙的旅程。從口進入消化道,與胃液混合,然後被推送到小腸,最後透過腸道被吸收進入血液。這個過程看似簡單,但其實充滿了挑戰。

首先,我們要面對的挑戰是藥物的溶解度。有些成分很難在水中溶解,這意味著它們在進入人體後可能無法被有效吸收。特別是對於脂溶性成分,它們需要透過油脂的介入才能被吸收,而這個過程相對複雜,吸收率也較低。

-----廣告,請繼續往下閱讀-----

你有聽過「藥物遞送系統」嗎?

為了解決這個問題,科學家們開發了許多藥物遞送系統,其中最引人注目的就是自乳化藥物遞送系統(Self-Emulsifying Drug Delivery Systems,簡稱 SEDDS),也被稱作吸收提升科技。這項科技的核心概念是利用遞送系統中的油脂、界面活性劑和輔助界面活性劑,讓藥物與營養補充品一進到腸道,就形成微細的乳糜微粒,從而提高藥物的吸收率。

自乳化藥物遞送系統,也被稱作吸收提升科技。 圖/envato

還有一點,這些經過 SEDDS 科技處理過的脂溶性藥物,在腸道中形成乳糜微粒之後,會經由腸道的淋巴系統吸收,因此可以繞過肝臟的首渡效應,減少損耗,同時保留了更多的藥物活性。這使得原本難以吸收的藥物,如用於愛滋病或新冠病毒療程的抗反轉錄病毒藥利托那韋(Ritonavir),以及緩解心絞痛的硝苯地平(Nifedipine),能夠更有效地發揮作用。

除了在藥物治療中的應用,SEDDS 科技還廣泛運用於營養補充品領域。許多脂溶性營養素,如維生素 A、D、E、K 和魚油中的 EPA、DHA,都可以通過 SEDDS 科技提高其吸收效率,從而更好地滿足人體的營養需求。

隨著科技的進步,藥品能打破過往的限制,發揮更大的療效,也就相當於有更高的 CP 值。SEDDS 科技的出現,便是增加藥物和營養補充品吸收率的解決方案之一。未來,隨著科學科技的不斷進步,相信會有更多藥物遞送系統 DDS(Drug Delivery System)問世,為人類健康帶來更多的好處。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
197 篇文章 ・ 303 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
雅文兒童聽語文教基金會_96
55 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。

1

38
1

文字

分享

1
38
1
回到 AlphaGo 打敗棋王的那一天,看 AI 如何顛覆世界——《AI 製造商沒說的祕密》
時報出版_96
・2023/01/30 ・4915字 ・閱讀時間約 10 分鐘

谷歌收購深度心智(DeepMind)幾週後,深度心智創辦人德米斯.哈薩比斯(Demis Hassabis)與其他幾位深度心智研究人員搭機來到北加州,與他們母公司的領袖舉行會議,並向他們展示深度學習如何破解「打磚塊」。

幕後推手——德米斯.哈薩比斯

會議結束後,哈薩比斯和谷歌創辦人賽吉.布林(Sergey Brin)聊了起來。他們聊著聊著發現有一共同的興趣:圍棋。布林表示當初他和賴利.佩吉(Larry Page)建立谷歌時,他沉迷在圍棋中,害得佩吉擔心他們根本無法成立公司。

哈薩比斯表示,如果他和他的團隊想要的話,他們能夠建造一套系統來打敗世界冠軍。「我覺得這是不可能的。」布林說道。就在這一刻,哈薩比斯下定決心要做到。

深度心智創辦人、英國人工智慧研究者——德米斯.哈薩比斯(Demis Hassabis)。圖/維基百科

「深度學習運動之父」傑弗瑞.辛頓(Geoffrey Hinton)將哈薩比斯比作羅伯.奧本海默(Robert Oppenheimer),二戰期間做出第一顆原子彈的曼哈頓計畫主持人。奧本海默是世界級的物理學家:他懂得眼前重大任務的科學原理,不過他更深諳激勵之道,他結合手下不斷擴大的科學家,將他們的力量合而為一,並且接納他們的弱點,一起為計畫目標努力。

-----廣告,請繼續往下閱讀-----

他知道如何感動男人(以及女人,包括辛頓的堂姊瓊安.辛頓),辛頓在哈薩比斯身上看到同樣的特質。「他主持 AlphaGo 就像奧本海默主持曼哈頓計畫,如果是別人來主持,他們可能就不會這麼快成功。」辛頓說。

揭開比賽序幕

深度心智的研究員們在 2014 年中曾發表一篇關於他們初期研究的論文,之後他們的研究規模大為擴大,並在第二年擊敗歐洲圍棋冠軍樊麾。此一結果震驚了全球圍棋界與人工智慧研究圈,但是 AlphaGo 對戰李世乭所造成的聲勢更是轟動。

IBM 的深藍超級電腦 1997 年在曼哈頓西城的一棟高樓裡擊敗世界頂尖的西洋棋高手,為電腦科學建立了一座里程碑,受到全球新聞界的廣為報導。但是若是與首爾的這場人機大戰相比,卻是小巫見大巫。在韓國——更別提日本與中國——圍棋是民族性的消遣活動。有超過二億人會觀看 AlphaGo 與李世乭的對弈,觀眾比超級盃多上一倍。

圍棋在中、日、韓具民族性,AlphaGo 與李世乭的對弈備受矚目。圖/維基百科

在總共五局對戰前夕的記者會上,李世乭誇口他能輕鬆獲勝:四比一或五比零。大部分的圍棋棋手也都有同感,雖然 AlphaGo 徹底擊敗樊麾,顯示這部機器是真正的贏家,但是樊麾的棋力遠不及李世乭。根據用來評估遊戲對戰能力的 ELO 等級制度,李世乭完全是在不同的等級。但是哈薩比斯卻認為這場人機大戰會有截然不同的結果。

-----廣告,請繼續往下閱讀-----

第二天下午,在展開第一局對戰的兩小時前,他與幾名記者共進午餐,他拿著一份《韓國先驅報》(Korea Herald),這是用桃色紙張印刷的韓國英文日報。他和李世乭的照片都出現在報紙的頭版上半部。他沒有想到竟會受到如此重視。

「我知道會受到關注,」這位像孩子般矮小,39 歲但已禿頂的英國人說道,「但是沒有想到會這麼多。」不過,在吃著餃子、韓式泡菜的午餐時,哈薩比斯表示他對這場棋賽「審慎樂觀」。他解釋,那些名嘴並不知道 AlphaGo 在十月的棋賽後仍在繼續苦練棋藝。

他和他的團隊初始是將三千萬步棋路輸入深度神經網路來教導機器學習圍棋,自此之後,AlphaGo 就開始不斷與自己對弈,並且記錄哪些棋路是成功的,哪些又是失敗的——其運作與實驗室用來破解雅達利老遊戲的系統類似。自擊敗樊麾以來這幾個月,AlphaGo 已和自己對弈了數百萬局;AlphaGo 持續自學圍棋,學習速度之快遠超過所有人類。

在四季飯店頂樓的賽前餐敘,谷歌董事長艾力克.施密特(Eric Schmidt)坐在哈薩比斯的對面,以他一貫冷峻的態度闡述深度學習的優點。一度有人稱他為工程師,他糾正他們,「我不是工程師,」他說道,「我是電腦科學家。」

-----廣告,請繼續往下閱讀-----
艾力克.施密特(Eric Schmidt)2001~2011 年間在 Google 擔任 CEO。圖/維基百科

他回憶他在 1970 年代研讀電腦科學時,人工智慧看來前景一片大好,但是隨著 1980 年代過去,進入 1990 年代,這樣的美景從未實現。如今,終於實現了。「這一科技,」他說道,「力量強大,引人入勝。」他表示,人工智慧不只是辨識照片的戲法,同時也代表谷歌 750 億美元的網際網路事業與其他無數的產業,包括保健產業。

機器與人類高手對決

在第一局,哈薩比斯是在私人觀賞室與走廊另一頭的 AlphaGo 控制室之間來回兩頭跑。控制室滿是個人電腦、筆記型電腦與平面顯示幕,這些設備全都與遠在太平洋彼端的谷歌數據中心內部數百台電腦相連。一支谷歌團隊在比賽前一週就已架設一條專屬的超高速光纖電纜直達控制室,以確保網際網路暢通無阻。

不過結果卻顯示控制室根本不需要進行多少操控:幾過多月的訓練之後,AlphaGo 已能完全獨力作業,不需要人為的幫助。同時,就算哈薩比斯與團隊想幫忙,也無用武之地。他們沒有一人的圍棋棋力達到大師級的水準,他們只能觀看棋局。

「我無法形容有多緊張,」深度心智研究員說道,「我們不知道該聽誰的。一邊是評論員的看法,你同時也看到 AlphaGo 的評估。所有的評論員都有不同的意見。」

-----廣告,請繼續往下閱讀-----

在第一天的棋賽,深度心智團隊與谷歌的重要人物都親眼目睹 AlphaGo 獲勝。

賽後記者會上,李世乭面對來自東、西方數百名記者與攝影師表示他感到震驚。這位 33 歲的棋士透過口譯員說道:「我沒想到 AlphaGo 下棋竟能夠如此完美。」經過逾四小時的對弈,AlphaGo 證明自己的棋力可與全球最厲害的高手匹敵,李世乭表示他被 AlphaGo 殺了個措手不及,他在第二局會改變策略。

左為代替 AlphaGo 移動棋子的深度心智台灣研究員黃士傑,右則為李世乭。圖/YouTube

神來一筆的第三十七手

第二局對弈進行一小時後,李世乭起身離開賽場,走到露台抽菸。坐在李世乭對面,代替 AlphaGo 移動棋子的是來自台灣的深度心智研究員黃士傑,他將一枚黑子落在棋盤右邊一大塊空地上單獨一枚白子的側邊下方,這是該局的第三十七手。

在角落的評論室內,西方唯一的圍棋最高段九段棋手邁克.雷蒙(Michael Redmond)忍不住多看了一眼確認,然後他告訴在線上觀看棋賽的兩百多萬英語觀眾:「我真的不知道這是高招還是爛招。」他的共同評論員克里斯.戈拉克(Chris Garlock)則表示:「我認為下錯了。」他是一本網路圍棋雜誌的資深編輯,同時也是美國圍棋協會的副會長。

-----廣告,請繼續往下閱讀-----

李世乭在幾分鐘後返回座椅,然後又緊盯著棋盤幾分鐘。他總共花了 15 分鐘才做出回應,在棋局的第一階段他有兩小時的時間,而這一手占用了他不少時間——而且此後他再也沒有找回節奏。在經過逾四小時的對弈後,他投子認輸,他連輸兩局了。

第三十七手也讓樊麾大感詫異,他在幾個月前遭到 AlphaGo 徹底擊敗,自此之後他就加入深度心智,在 AlphaGo 與李世乭對弈前擔任它的陪訓員。他從來沒有擊敗過這部人工智慧機器,但是他與 AlphaGo 的對弈也讓他對棋路的變化大開眼界。事實上,他在遭 AlphaGo 擊敗後的幾週內,與(人類)高手對弈連贏六場,他的世界排名也升至新高。

現在,他站在四季飯店七樓的評論室外面,在第三十七手落子幾分鐘後,他看出了此一怪招的威力。「這不是人類會下的棋路,我從來沒有看過有人這麼下,」他說道,「太美了。」他不斷地重複說道,太美了、太美了、太美了。

第二天上午,深度心智的研究員大衛.席瓦爾溜進控制室,他想知道 AlphaGo 如何做出第三十七手的選擇。AlphaGo 在每一局對弈中都會根據它所受過數千萬種人類落子變化的訓練,來計算人類做出此一選擇的機率,而在第三十七手,它算出的機率是萬分之一。

-----廣告,請繼續往下閱讀-----
AlphaGo 在對弈中會根據千萬種落子變化,計算出人類下此一步棋的機率。圖/YouTube

AlphaGo 知道這不是專業棋手會選擇的路數,然而它根據與自己對弈的數百萬次經驗——沒有人類參與的棋局——它仍是這麼做了;它已了解儘管人類不會選擇這一步,這一步棋仍是正確的選擇。「這是它自己發現的,」席瓦爾說道,「透過它的內省。」

這是一個既甜美又苦澀的時刻,儘管樊麾大讚此一步棋是神來之筆,但是一股鬱悶之情席捲四季飯店,甚至整個韓國。一位中國記者表示,儘管他為 AlphaGo 贏得第一局感到高興,可是現在他深感沮喪。

第二天,一位在首爾彼端經營一家新創企業育成中心的韓國人權五亨表示他也感到悲傷,這並非因為李世乭是一位韓國人,而是因為他是人類,「這是全人類的轉捩點,」權五亨說道,他的幾位同事點頭表示同意,「它讓我們了解人工智慧真的已在我們眼前——也讓我們了解到其中的危險。」

在那個週末,此一鬱悶的情緒只增不減。李世乭第三局也輸了,等於輸掉整個棋賽。坐在賽後記者會的桌子後面,李世乭懺悔之情溢於言表。「我不知道今天要說什麼,但是我首先要表達我的歉意,」他說道,「我應該拿出更好的成績,更好的結局,更好的比賽。」但是坐在李世乭身邊的哈薩比斯卻發現,自己衷心期盼這位韓國棋手在接下來的兩局中至少能贏一局。

-----廣告,請繼續往下閱讀-----

AlphaGo 認輸的那一局

在第四局的七十七手,李世乭再度陷入長考,就和第二局的情況一樣,但是這一回他考慮的時間更久。棋盤中間有一堆棋子,黑白相間,他有近二十分鐘只是緊盯著這些棋子,抓著後頸前後擺動。最後,他將他的白子落在棋盤中央的兩枚黑子之間,將棋勢一分為二,AlphaGo 方寸大亂。

在每一場對弈中,AlphaGo 都會不斷重新計算勝率,並且顯示在控制室的一台平面顯示幕上。

在李世乭落子後——第七十八手——這部機器的反擊很差,在顯示幕上的勝率立刻大降。「AlphaGo 累積到那一步之前的所有戰略都算是報銷了,」哈薩比斯說道,「它必須重新再來。」就在此刻,李世乭抬頭看著對面的黃士傑,彷彿他擊敗的是這人,不是機器。自此之後,AlphaGo 的勝率一路下跌,在近五個小時後,它投子認輸。

DeepMind 製作的 AlphaGo 與李世乭對弈紀綠片。/YouTube

兩天後,哈薩比斯穿過四季飯店的大廳,解釋 AlphaGo 為什麼會輸。AlphaGo 當時是假設沒有人類會這樣下第七十八手,它計算出來的機率是萬分之一——這是一個它熟悉的數字。

就像 AlphaGo 一樣,李世乭的棋力也達到一個新境界,他在棋賽最後一天的私人聚會場合中這樣告訴哈薩比斯。他說與機器對弈不僅讓他重燃對圍棋的熱情,同時也讓他茅塞頓開,使他有了新想法。「我已經進步了。」他告訴哈薩比斯,一如幾天前的樊麾,李世乭之後與人類高手對弈,連贏九場。

AlphaGo 與李世乭的對弈,使得人工智慧在世人眼前大爆發,它不僅是屬於人工智慧領域與科技公司,同時也是屬於市井小民的里程碑。在美國如此,在韓國與中國更是如此,因為這些國家視圍棋為人類智慧結晶的巔峰。這場棋賽彰顯出科技的力量與其終將超越人類的恐懼,同時也帶來樂觀的前景,此一科技往往會以出人意表的方式推動人類更上層樓。儘管馬斯克等人警告其中的危險性,但是這段時期人工智慧的前景一片光明。

裘蒂.英賽恩(Jordi Ensign)是佛羅里達州一位四十五歲的程式設計師,她在讀完棋賽報導後出去在身上紋了兩幅刺青,她在右臂內側紋了 AlphaGo 的第三十七手——左臂紋了李世乭的第七十八手。

——本文摘自《AI製造商沒說的祕密: 企業巨頭的搶才大戰如何改寫我們的世界?》,2022 年 8 月,時報出版,未經同意請勿轉載

所有討論 1
時報出版_96
174 篇文章 ・ 34 位粉絲
出版品包括文學、人文社科、商業、生活、科普、漫畫、趨勢、心理勵志等,活躍於書市中,累積出版品五千多種,獲得國內外專家讀者、各種獎項的肯定,打造出無數的暢銷傳奇及和重量級作者,在台灣引爆一波波的閱讀議題及風潮。