0

1

0

文字

繁 | 简

0

1

0

科學傳播科技能源電腦資訊

喜歡教書、喜歡台灣自由的研究學風，要讓語音助理「賈維斯」成真——陳縕儂專訪

Suzuki ・2019/12/11 ・2748字・閱讀時間約 5 分鐘・SR值 460

・五年級

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

「其實我已經不是最年輕的老師了！」陳縕儂笑著說，臺大資工系已經有比她更年輕的老師了，不到30歲就回臺任教不算少見。至於外界好奇她為何捨棄微軟千萬年薪工作回臺大當教授，她的答案很簡潔就是「喜歡」。

陳縕儂在四年半拼完博士，回台任教是當時臺大最年輕的教授之一（圖片提供／陳縕儂）。

喜歡教書、喜歡台灣自由的研究學風，做自己喜歡的事情比較重要。陳縕儂有著不隨波逐流的精神，十年前她選擇「語音辨識」作為研究領域時，資訊界盛行的研究是網路搜尋系統。

就讀研究所時，她跟著李琳山老師做語音辨識系統，當時在訓練機器做錄音和影片中的自動關鍵字擷取，主要是讓機器單向理解人類語言，後來至卡内基梅隆大學攻讀博士，開始做雙向的對話系統，機器不只要理解你說什麼，還要回應、給予相關的協助。

她的目標是讓機器成為鋼鐵人語音助理「賈維斯」（Jarvis）一樣，不只跟你說話，還會幫完成你交辦的訂機票、分析報表等一切任務。隨著深度學習演算法提出，這件事在將來變得可能。

-----廣告，請繼續往下閱讀-----

不過，現階段開發的語音助理Siri或Alexa都離Jarvis還有段距離。陳縕儂表示，訓練語音助理的一切事宜，包括：語言理解、自然語言處理、對話系統和機器智慧，都是她的研究範圍。

訓練一位Jarvis要克服哪些問題呢？現在就讓陳縕儂為我們解答吧～

和機器聊天有何困難？

你有沒有發現使用Siri時，常常話不投機半句多，更別說要幫忙處理訂車票、推薦飯店等雜事了。陳縕儂表示，機器要做到可以對話及像真人般的助理服務，從麥克風收音、語音轉成文字、語意理解，最後到協助擷取有用的資訊，每一步都是難關。

Siri是大家常接觸的語音聊天機器人，但它的功能還不算完備（圖片提供／Wikipedia）。

雖然「神經網絡」架構提升語音辨識之準確度，但比起影像辨識或單純語意理解，對話困難許多，因為每句話都有關聯性，百種人有百種答案，而百種答案可能也有百種的回應方式，因此傳統單純塞資料給機器的學習法是行不通的。

-----廣告，請繼續往下閱讀-----

陳縕儂表示，要克服這個難題，通常會設計兩台機器，將所有使用者的問題灌入機器中，一台機器當客服人員、一台機器當顧客開始互動，互動一段時間開放真人互動，想辦法讓互動變得更順暢，這是現行最好的方式了。

假使機器與人類可以對答如流，下一步面臨的問題就是機器能不能幫你辦事，當你跟他說「想去東京玩」時，他不會打哈哈叫你搭飛機去東京，而是能依據你的需求，提供你機票、住宿和旅遊景點的建議。

這下可就複雜了，試想你若是個旅行專員，除了回答自己已知的事項，如：旅遊注意事項、服務內容說明，還需要將各地的旅遊景點、飯店和餐廳資訊倒背如流，這對機器來說就得去找自己資料庫外的內容，可能是看完google的資訊或旅遊雜誌，才能回應客戶的需求。

陳縕儂表示，語音助理若要成為Jarvis必須要擅長處理結構化（structured data）和非結構化（unstructured）兩種類型的數據資料。結構化數據是指已經整理成表格的資料，有欄位和數據，可立即做數據分析，這類似語音助理已經內建、整理好的資料庫，提到相關問題可以立即回覆，不需要額外找資料。

-----廣告，請繼續往下閱讀-----

然而，大部分的資料都是非結構化資料，像是文字、圖片、網頁和影片等，因此如何快速將沒結構化的資料結構化就是挑戰，這將大大影響機器人提供服務的速度與品質。陳縕儂坦言，目前這兩部分都做得不夠完善，因此她的研究會朝這部分努力。

遇到口音問題怎麼辦？

讓機器成為個人助理之前，更根本的是解決「聽不懂人話」問題，不同的口音確實常讓機器混肴，若把「台式餐廳」聽成「泰式餐廳」，助理找出來的東西就完全不同了！

因此，語音辨識得考慮聲音的錯誤，人才能順暢地與機器對話。陳縕儂表示，她是以跟BERT類似的GPT-2架構來做預訓練模型。概略來說，就是訓練機器學習語言的架構，然後讓機器會根據語音的內容去推估後面兩個字，這部分從Siri轉成文字很像，能依據你講的內容選字。

此時，再把語音的差異納入考量，並將發音相似的字像是「泰、台」調整為同個向量，使得機器得以辨識類似的發音，當機器判讀可能發生誤聽的狀況時，便能再次向使用者確認。

-----廣告，請繼續往下閱讀-----

不過陳縕儂坦言，這並不容易，因為聲音資料取得困難，大部分拿到的都是文字資料，再加上機器會算出最合適的語詞和句子結構，所以不同選字會影響後面的詞彙選取，「如何讓機器辨析口音問題」就是個挑戰。

熱愛教學實踐夢想

語言理解、對話系統和機器智慧是很廣泛的領域，不缺研究主題，陳縕儂認為自己很幸運搭上這股熱潮，且最終回到研究自由度高的台灣繼續努力，她一點都不覺得捨棄微軟工作很可惜。

「教學是很快樂的事情！」她笑說，把自己會的東西交給學生，看到學生從不懂到成為專家，可以跟妳一起討論研究問題，是一件無比有成就感的事。

找一找陳老師在哪裡？陳縕儂表示，跟學生一起學習成長，比待在微軟的研究部門更快樂（圖片提供／陳縕儂）。

今年初，陳縕儂帶領臺大團隊在科技部「科技大擂台：與AI對話」比賽拿下冠軍，成績甚至超越華碩電腦達文西實驗室。她形容這是場艱難的馬拉松，從初賽、複賽至決賽比了快一年，決賽題目比照「華語文能力測驗」，機器在比賽現場得聽完一段文章和選項，並選出正確答案，除了選擇題，還有簡答題。

-----廣告，請繼續往下閱讀-----

陳縕儂笑說，學生為了訓練機器、調整類神經網絡，以及整合成一個系統熬了無數個夜，這對學生和她來說是個難得的體驗，目前團隊決賽成績是1000題中拿下約54%的正確率，希望未來能再提高，讓機器的成績有機會超過人類。

陳縕儂老師與李宏毅老師帶領臺大資工系學生在今年「科技大擂台：與AI對話」比賽拿下冠軍（圖片提供／陳縕儂）。

很多學生覺得自己不夠聰明，沒辦法學好code，陳縕儂認為，聰明確實可以幫你快速掌握code的規則，但是多練習也可以補足，它不會像物理或數學一樣轉不過來就是沒辦法。

她坦言，自己博班時也很拼，一部分是課業負擔重，一部分則是想縮短臺美遠距離戀愛的時間，所以硬是在四年半拼完博士。每天只睡四、五個小時，一睜開眼就坐在電腦前打code，「不過該玩的還是有玩，我是寧可犧牲睡眠，也要玩到的人！」

陳縕儂表示，她比其他人幸運，能一路延續研究旨趣，選到自己熱愛的研究主題。她建議國高中課程可以提早將寫程式納入課程中，這就像Excel和輸入法一樣是未來必備的技能，從中學生也可以挖掘未來志趣，對資訊科學有興趣的，就一起進來努力吧！

-----廣告，請繼續往下閱讀-----

陳縕儂認為玩樂與課業應該並重，生活才會多采多姿，圖為她與指導教授在卡内基梅隆大學的合影（圖片提供／陳縕儂）。

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

Suzuki

18 篇文章・ 0 位粉絲

超純社會組學生，對未知的一切感到好奇，意外掉入科技與科學領域，希望在猛點頭汲取知識的同時，也能將箇中妙趣分享給大家。

TRENDING 熱門討論

即時熱門

0

5

0

文字

0

5

0

來當一日語音設計師——如何設計好聽的合成語音？

雅文兒童聽語文教基金會・2023/03/31 ・3727字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

文／邱彥哲｜雅文基金會聽語科學研究中心助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎？你會要求他回答什麼呢？受限於目前的技術，你可能不會得到非常滿意的答案，但至少你會聽到一陣悅耳如同真人的語音吧！這項現今習以為常的技術，其實背後是由很多知識累積而成的。今天，讓我邀請你擔任一日「語音設計師」，從語音合成的技術開始，接著了解人類使用者的聽覺偏好，最後探索不同族群對聆聽合成語音的差異吧！

語音合成（speech synthesis），是指以人工方式，製造出說話的聲音，可以理解為使機器裝置說出人話的技術。廣義來說，很多人也會把文字轉語音（Text to Speech，簡稱 TTS），含括在語音合成的範疇。

語音合成像樂高，但樂高有兩種！

早在 1970 年代，人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事，最直接的方式就是請真人錄一段聲音，然後在指定的時機播放。不過，面對複雜的語言情境，我們不可能錄下所有可能的回應 ; 而且若要這樣做，也實在太沒效率。幸好，借助電腦運算技術，可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類，分別是單元選取合成（Unit Selection Synthesis）及參數合成（Parametric Synthesis）^[1]。

單元選取合成這種方法，是將某個語言的語音成分分別以人聲錄製起來，再根據需要的目標語音進行組合。簡單來說，如果需要機器說發出「八」的語音，就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便，但也有缺點。就是事先必須建立一個龐大的語音資料庫，這個資料庫必須包含一個語言所有語音成分，此外，還必須錄下這些語音成分在所有情境下的變化，光想起來就令人有點頭痛。

-----廣告，請繼續往下閱讀-----

所以後者，參數合成，就顯得方便許多。這種方法，是直接將語音參數輸入電腦，讓電腦直接根據參數發出聲音，再組成語音。使用參數合成，就可以免去請人錄音的步驟，但直接使用電腦生成的語音，聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高，都是將語音成分一塊一塊組合起來，只是前者的樂高是自然材質（比如說木頭製），後者是人造材質（比如說塑膠）。

借助深度學習，電腦說話很自動

不過，無論是上述哪種方法，都還是需要不少的人工調校，才能使聲音逐步接近人類的語音。但還好，隨著電腦演算的進步，將深度學習（deep learning）運用在語音合成的領域，不但減少了人工成本，也大大提升的語音的擬人性。所謂深度學習，簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法，設計者只需蒐集大量的語音資料，將資料「餵」給電腦，無須事先切分或分析，電腦便會自動學習其中的規律。如此一來，只要資料數量足夠龐大，電腦就可以自動產生符合自然規律且真實的語音。

但是，身為一位語音設計師，要進一步思考的是：「究竟要餵給電腦什麼呢？」這個問題又必須從使用者的角度來思考：「人類會偏好聆聽什麼樣的語音？」就像生產商品一樣，語音百百款，要能投其所好，才能讓使用者日日寸步不離，對吧！

-----廣告，請繼續往下閱讀-----

聆聽也要投其所好，性別頻率最重要

關於合成語音的聆聽偏好，最先被討論的，是性別。雖然我們都知道機器沒有性別，但若希望他和人一樣跟你互動，投射性別是很自然的。不過有人就提出質疑：「為什麼我們的語音助理，都是女性的聲音呢？」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查，測試了 8 種族裔的使用者，結果發現 64% 的人只偏好女性的聲音^[2]。

這樣看起來，預設為女性的聲音應該是沒問題的吧？不過，有人認為這是社會對「助理」的性別刻板印象所致；因為社會習慣女性作為「服務者」，所以在設計語音時，直覺地就挑選了女性聲音。雖然單就頻率方面，的確有研究指出，使用者確實是偏好頻率較高的合成語音^[3]，但若是一昧如此，也極有可能不斷複製性別偏見的印象^[4]。

有鑒於此，越來越多系統開始提供男性語音的選項。更甚者，哥本哈根研究團隊突發奇想，不以性別為選項，而是改以頻率作為調查標準。分析之後，他們得到一個最佳的頻率值──185 赫茲，設計出史上第一個無性別語音助理「Q」^[5]。如此一來，青菜蘿蔔各有所好，聆聽的偏好也朝著多元共好的目標邁進！

聽得舒服，語速考量不能少

解決的性別與頻率的問題，還得注意甚麼呢？專門研究輔助溝通系統（Augmentative and Alternative Communication，簡稱 AAC）的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」，是用以輔助溝通障礙者溝通的工具; 簡單如圖卡，複雜如電子溝通板，都算是其中一員。而像是電子溝通板這類，以螢幕顯示圖片，點擊後可以播放語音的輔具來說，合成語音是很關鍵的技術。

-----廣告，請繼續往下閱讀-----

這些溝通障礙專家想知道：「究竟什麼樣的語音速度，是最舒服的呢？」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者，對合成語音進行語速評分^[6]。語速的計算方式，採用每分鐘幾個字（Words per minute，簡稱 WPM）計算。他們將合成語音調整成不同的語速，範圍介於 120 到 250WPM 之間。結果發現，無論年輕人或年長者，偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍，其實與過去研究提出的人類平均語速，相去不遠^[7]。

如果想知道不同語速聽起來感受如何，可以到合成語音軟體 Speechify^[8]的網站試用，自行調整語速（以 WPM 計算），細細品味其中差異。或者，讓我為你朗讀，請聽示範（語速約 180WPM，內容為「我是彥哲，我是普通人。」）！

可見，語音合成的技術雖是極為理性的領域，但若要設計出美妙的語音，對人類感性的理解，也絕對不能偏廢。

-----廣告，請繼續往下閱讀-----

合成語音聆聽不易，考量族群差異最貼心

「所以，我只要想辦法把語音設計得很像人類就可以了吧？」你可能會這樣想，不過這裡頭還少了一個部分。現代社會提倡多元，客製化當道，每個人使用同個產品的狀況必然會有差異。

其實，即使是一般人，聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出：由於合成語音的清晰度普遍較差，因此聆聽者通常需要動用更多的認知資源（像是電腦需要動用較多記憶體），以及更多高層次的語言知識來彌補語音訊息的不完整^[9]。如果對普通人來說是如此，對於某些特殊族群來說，想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究^[10]。參與者的任務，是要在聽完自然語音及合成語音播放的八個詞彙之後，再將這八個詞彙回憶並說出來，回答無須按照順序。結果研究者發現，兩組兒童無論聆聽自然或合成語音，回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言，記憶合成語音的表現又更不理想。

由此可知，兒童本身的記憶能力就較成年人弱，在聆聽合成語音時，可以說是是難上加難。

-----廣告，請繼續往下閱讀-----

另一個被探討的，是聽障族群。聽障族群最主要的困難，就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難，那對聽障族群應該是更加艱困的挑戰吧！Kangas 和 Allen 的研究^[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音，並請他們在聆聽後寫出聽到的單字。結果可想而知，聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況，身為語音設計師的你，在設計語音的時候，是不是也應該從使用者的背景差異去調整你的語音呢？也許是調整語音的頻率，也許是調整語速，也可能，也可能有更多領域需要探索。唯有這樣，才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣？沒想到要設計語音，希望機器說出一句話，背後涉及理性的技術與感性的考量，非常不容易吧！看完之後，你還是可以輕鬆地要求你的行動裝置說個笑話，唱首歌給你聽，自娛娛人；但也千萬別忘記，多留點心思，給這人類文明的結晶致上敬意。一日語音設計師，功成身退！

參考資料

詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來：引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯，頁104-137)。商周出版。
Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
顏宏旭，楊麗平，宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4)，83-107。
West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
GenderLess Voice. (2023/3/3) Meet Q [Web message].
Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
Speechify. (2023/3/3) Speechify.
Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.

發表意見

所有討論 0

登入與大家一起討論

雅文兒童聽語文教基金會

55 篇文章・ 222 位粉絲

雅文基金會提供聽損兒早期療育服務，近年來更致力分享親子教養資訊、推動聽損兒童融合教育，並普及聽力保健知識，期盼在家庭、學校和社會埋下良善的種子，替聽損者營造更加友善的環境。

TRENDING 熱門討論

即時熱門

1

38

1

文字

1

38

1

回到 AlphaGo 打敗棋王的那一天，看 AI 如何顛覆世界——《AI 製造商沒說的祕密》

時報出版・2023/01/30 ・4915字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

谷歌收購深度心智（DeepMind）幾週後，深度心智創辦人德米斯．哈薩比斯（Demis Hassabis）與其他幾位深度心智研究人員搭機來到北加州，與他們母公司的領袖舉行會議，並向他們展示深度學習如何破解「打磚塊」。

幕後推手——德米斯．哈薩比斯

會議結束後，哈薩比斯和谷歌創辦人賽吉．布林（Sergey Brin）聊了起來。他們聊著聊著發現有一共同的興趣：圍棋。布林表示當初他和賴利．佩吉（Larry Page）建立谷歌時，他沉迷在圍棋中，害得佩吉擔心他們根本無法成立公司。

哈薩比斯表示，如果他和他的團隊想要的話，他們能夠建造一套系統來打敗世界冠軍。「我覺得這是不可能的。」布林說道。就在這一刻，哈薩比斯下定決心要做到。

深度心智創辦人、英國人工智慧研究者——德米斯．哈薩比斯（Demis Hassabis）。圖／維基百科

「深度學習運動之父」傑弗瑞．辛頓（Geoffrey Hinton）將哈薩比斯比作羅伯．奧本海默（Robert Oppenheimer），二戰期間做出第一顆原子彈的曼哈頓計畫主持人。奧本海默是世界級的物理學家：他懂得眼前重大任務的科學原理，不過他更深諳激勵之道，他結合手下不斷擴大的科學家，將他們的力量合而為一，並且接納他們的弱點，一起為計畫目標努力。

-----廣告，請繼續往下閱讀-----

他知道如何感動男人（以及女人，包括辛頓的堂姊瓊安．辛頓），辛頓在哈薩比斯身上看到同樣的特質。「他主持 AlphaGo 就像奧本海默主持曼哈頓計畫，如果是別人來主持，他們可能就不會這麼快成功。」辛頓說。

揭開比賽序幕

深度心智的研究員們在 2014 年中曾發表一篇關於他們初期研究的論文，之後他們的研究規模大為擴大，並在第二年擊敗歐洲圍棋冠軍樊麾。此一結果震驚了全球圍棋界與人工智慧研究圈，但是 AlphaGo 對戰李世乭所造成的聲勢更是轟動。

IBM 的深藍超級電腦 1997 年在曼哈頓西城的一棟高樓裡擊敗世界頂尖的西洋棋高手，為電腦科學建立了一座里程碑，受到全球新聞界的廣為報導。但是若是與首爾的這場人機大戰相比，卻是小巫見大巫。在韓國——更別提日本與中國——圍棋是民族性的消遣活動。有超過二億人會觀看 AlphaGo 與李世乭的對弈，觀眾比超級盃多上一倍。

在總共五局對戰前夕的記者會上，李世乭誇口他能輕鬆獲勝：四比一或五比零。大部分的圍棋棋手也都有同感，雖然 AlphaGo 徹底擊敗樊麾，顯示這部機器是真正的贏家，但是樊麾的棋力遠不及李世乭。根據用來評估遊戲對戰能力的 ELO 等級制度，李世乭完全是在不同的等級。但是哈薩比斯卻認為這場人機大戰會有截然不同的結果。

-----廣告，請繼續往下閱讀-----

第二天下午，在展開第一局對戰的兩小時前，他與幾名記者共進午餐，他拿著一份《韓國先驅報》（Korea Herald），這是用桃色紙張印刷的韓國英文日報。他和李世乭的照片都出現在報紙的頭版上半部。他沒有想到竟會受到如此重視。

「我知道會受到關注，」這位像孩子般矮小，39 歲但已禿頂的英國人說道，「但是沒有想到會這麼多。」不過，在吃著餃子、韓式泡菜的午餐時，哈薩比斯表示他對這場棋賽「審慎樂觀」。他解釋，那些名嘴並不知道 AlphaGo 在十月的棋賽後仍在繼續苦練棋藝。

他和他的團隊初始是將三千萬步棋路輸入深度神經網路來教導機器學習圍棋，自此之後，AlphaGo 就開始不斷與自己對弈，並且記錄哪些棋路是成功的，哪些又是失敗的——其運作與實驗室用來破解雅達利老遊戲的系統類似。自擊敗樊麾以來這幾個月，AlphaGo 已和自己對弈了數百萬局；AlphaGo 持續自學圍棋，學習速度之快遠超過所有人類。

在四季飯店頂樓的賽前餐敘，谷歌董事長艾力克．施密特（Eric Schmidt）坐在哈薩比斯的對面，以他一貫冷峻的態度闡述深度學習的優點。一度有人稱他為工程師，他糾正他們，「我不是工程師，」他說道，「我是電腦科學家。」

-----廣告，請繼續往下閱讀-----

艾力克．施密特（Eric Schmidt）2001～2011 年間在 Google 擔任 CEO。圖／維基百科

他回憶他在 1970 年代研讀電腦科學時，人工智慧看來前景一片大好，但是隨著 1980 年代過去，進入 1990 年代，這樣的美景從未實現。如今，終於實現了。「這一科技，」他說道，「力量強大，引人入勝。」他表示，人工智慧不只是辨識照片的戲法，同時也代表谷歌 750 億美元的網際網路事業與其他無數的產業，包括保健產業。

機器與人類高手對決

在第一局，哈薩比斯是在私人觀賞室與走廊另一頭的 AlphaGo 控制室之間來回兩頭跑。控制室滿是個人電腦、筆記型電腦與平面顯示幕，這些設備全都與遠在太平洋彼端的谷歌數據中心內部數百台電腦相連。一支谷歌團隊在比賽前一週就已架設一條專屬的超高速光纖電纜直達控制室，以確保網際網路暢通無阻。

不過結果卻顯示控制室根本不需要進行多少操控：幾過多月的訓練之後，AlphaGo 已能完全獨力作業，不需要人為的幫助。同時，就算哈薩比斯與團隊想幫忙，也無用武之地。他們沒有一人的圍棋棋力達到大師級的水準，他們只能觀看棋局。

「我無法形容有多緊張，」深度心智研究員說道，「我們不知道該聽誰的。一邊是評論員的看法，你同時也看到 AlphaGo 的評估。所有的評論員都有不同的意見。」

-----廣告，請繼續往下閱讀-----

在第一天的棋賽，深度心智團隊與谷歌的重要人物都親眼目睹 AlphaGo 獲勝。

賽後記者會上，李世乭面對來自東、西方數百名記者與攝影師表示他感到震驚。這位 33 歲的棋士透過口譯員說道：「我沒想到 AlphaGo 下棋竟能夠如此完美。」經過逾四小時的對弈，AlphaGo 證明自己的棋力可與全球最厲害的高手匹敵，李世乭表示他被 AlphaGo 殺了個措手不及，他在第二局會改變策略。

左為代替 AlphaGo 移動棋子的深度心智台灣研究員黃士傑，右則為李世乭。圖／YouTube

神來一筆的第三十七手

第二局對弈進行一小時後，李世乭起身離開賽場，走到露台抽菸。坐在李世乭對面，代替 AlphaGo 移動棋子的是來自台灣的深度心智研究員黃士傑，他將一枚黑子落在棋盤右邊一大塊空地上單獨一枚白子的側邊下方，這是該局的第三十七手。

在角落的評論室內，西方唯一的圍棋最高段九段棋手邁克．雷蒙（Michael Redmond）忍不住多看了一眼確認，然後他告訴在線上觀看棋賽的兩百多萬英語觀眾：「我真的不知道這是高招還是爛招。」他的共同評論員克里斯．戈拉克（Chris Garlock）則表示：「我認為下錯了。」他是一本網路圍棋雜誌的資深編輯，同時也是美國圍棋協會的副會長。

-----廣告，請繼續往下閱讀-----

李世乭在幾分鐘後返回座椅，然後又緊盯著棋盤幾分鐘。他總共花了 15 分鐘才做出回應，在棋局的第一階段他有兩小時的時間，而這一手占用了他不少時間——而且此後他再也沒有找回節奏。在經過逾四小時的對弈後，他投子認輸，他連輸兩局了。

第三十七手也讓樊麾大感詫異，他在幾個月前遭到 AlphaGo 徹底擊敗，自此之後他就加入深度心智，在 AlphaGo 與李世乭對弈前擔任它的陪訓員。他從來沒有擊敗過這部人工智慧機器，但是他與 AlphaGo 的對弈也讓他對棋路的變化大開眼界。事實上，他在遭 AlphaGo 擊敗後的幾週內，與（人類）高手對弈連贏六場，他的世界排名也升至新高。

現在，他站在四季飯店七樓的評論室外面，在第三十七手落子幾分鐘後，他看出了此一怪招的威力。「這不是人類會下的棋路，我從來沒有看過有人這麼下，」他說道，「太美了。」他不斷地重複說道，太美了、太美了、太美了。

第二天上午，深度心智的研究員大衛．席瓦爾溜進控制室，他想知道 AlphaGo 如何做出第三十七手的選擇。AlphaGo 在每一局對弈中都會根據它所受過數千萬種人類落子變化的訓練，來計算人類做出此一選擇的機率，而在第三十七手，它算出的機率是萬分之一。

-----廣告，請繼續往下閱讀-----

AlphaGo 在對弈中會根據千萬種落子變化，計算出人類下此一步棋的機率。圖／YouTube

AlphaGo 知道這不是專業棋手會選擇的路數，然而它根據與自己對弈的數百萬次經驗——沒有人類參與的棋局——它仍是這麼做了；它已了解儘管人類不會選擇這一步，這一步棋仍是正確的選擇。「這是它自己發現的，」席瓦爾說道，「透過它的內省。」

這是一個既甜美又苦澀的時刻，儘管樊麾大讚此一步棋是神來之筆，但是一股鬱悶之情席捲四季飯店，甚至整個韓國。一位中國記者表示，儘管他為 AlphaGo 贏得第一局感到高興，可是現在他深感沮喪。

第二天，一位在首爾彼端經營一家新創企業育成中心的韓國人權五亨表示他也感到悲傷，這並非因為李世乭是一位韓國人，而是因為他是人類，「這是全人類的轉捩點，」權五亨說道，他的幾位同事點頭表示同意，「它讓我們了解人工智慧真的已在我們眼前——也讓我們了解到其中的危險。」

在那個週末，此一鬱悶的情緒只增不減。李世乭第三局也輸了，等於輸掉整個棋賽。坐在賽後記者會的桌子後面，李世乭懺悔之情溢於言表。「我不知道今天要說什麼，但是我首先要表達我的歉意，」他說道，「我應該拿出更好的成績，更好的結局，更好的比賽。」但是坐在李世乭身邊的哈薩比斯卻發現，自己衷心期盼這位韓國棋手在接下來的兩局中至少能贏一局。

-----廣告，請繼續往下閱讀-----

AlphaGo 認輸的那一局

在第四局的七十七手，李世乭再度陷入長考，就和第二局的情況一樣，但是這一回他考慮的時間更久。棋盤中間有一堆棋子，黑白相間，他有近二十分鐘只是緊盯著這些棋子，抓著後頸前後擺動。最後，他將他的白子落在棋盤中央的兩枚黑子之間，將棋勢一分為二，AlphaGo 方寸大亂。

在每一場對弈中，AlphaGo 都會不斷重新計算勝率，並且顯示在控制室的一台平面顯示幕上。

在李世乭落子後——第七十八手——這部機器的反擊很差，在顯示幕上的勝率立刻大降。「AlphaGo 累積到那一步之前的所有戰略都算是報銷了，」哈薩比斯說道，「它必須重新再來。」就在此刻，李世乭抬頭看著對面的黃士傑，彷彿他擊敗的是這人，不是機器。自此之後，AlphaGo 的勝率一路下跌，在近五個小時後，它投子認輸。

DeepMind 製作的 AlphaGo 與李世乭對弈紀綠片。／YouTube

兩天後，哈薩比斯穿過四季飯店的大廳，解釋 AlphaGo 為什麼會輸。AlphaGo 當時是假設沒有人類會這樣下第七十八手，它計算出來的機率是萬分之一——這是一個它熟悉的數字。

就像 AlphaGo 一樣，李世乭的棋力也達到一個新境界，他在棋賽最後一天的私人聚會場合中這樣告訴哈薩比斯。他說與機器對弈不僅讓他重燃對圍棋的熱情，同時也讓他茅塞頓開，使他有了新想法。「我已經進步了。」他告訴哈薩比斯，一如幾天前的樊麾，李世乭之後與人類高手對弈，連贏九場。

AlphaGo 與李世乭的對弈，使得人工智慧在世人眼前大爆發，它不僅是屬於人工智慧領域與科技公司，同時也是屬於市井小民的里程碑。在美國如此，在韓國與中國更是如此，因為這些國家視圍棋為人類智慧結晶的巔峰。這場棋賽彰顯出科技的力量與其終將超越人類的恐懼，同時也帶來樂觀的前景，此一科技往往會以出人意表的方式推動人類更上層樓。儘管馬斯克等人警告其中的危險性，但是這段時期人工智慧的前景一片光明。

裘蒂．英賽恩（Jordi Ensign）是佛羅里達州一位四十五歲的程式設計師，她在讀完棋賽報導後出去在身上紋了兩幅刺青，她在右臂內側紋了 AlphaGo 的第三十七手——左臂紋了李世乭的第七十八手。

——本文摘自《AI製造商沒說的祕密：企業巨頭的搶才大戰如何改寫我們的世界？》，2022 年 8 月，時報出版，未經同意請勿轉載。

發表意見

所有討論 1

登入與大家一起討論

#1

狐禪 2023/01/30

AI目前只解答人類提出的問題。它自己不會發問。等到那一天來臨時，人類就真的要緊張了，要非常非常非常緊張。

時報出版

174 篇文章・ 34 位粉絲

出版品包括文學、人文社科、商業、生活、科普、漫畫、趨勢、心理勵志等，活躍於書市中，累積出版品五千多種，獲得國內外專家讀者、各種獎項的肯定，打造出無數的暢銷傳奇及和重量級作者，在台灣引爆一波波的閱讀議題及風潮。

TRENDING 熱門討論

即時熱門

0

3

2

文字

0

3

2

關於Deepfake色情影像：雖然內容是假的，但傷害是真的

雷雅淇 / y編・2022/01/29 ・3412字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

2021 年 5 月，鏡週刊的深度報導《臉被偷走之後——無法可管的數位性暴力？台灣 Deepfake 事件獨家調查》中，揭露了早在 2020 年就已經存在、利用 Deepfake 深度造假技術製作收費色情影片的 Telegram 群組，並訪問了數位影片中的受害女性。

2021 年 10 月，臺灣警方透過 Twitter 上的換臉色情影片追蹤到了該群組，逮捕了相關涉案人，「被換臉」的人除了名人之外，也包含一般人的換臉影片。此案在臺灣掀起了翻天覆地的討論，內容圍繞在 Deepfake 技術的濫用、和數位性暴力等相關議題。

到底 Deepfake 色情內容有多氾濫？而它又造成了什麼樣的傷害呢？

大部分的 Deepfake 影片都是色情內容

「Deepfake」指的是利用人工智慧深度學習技術，在某人沒有說過、拍過和錄過某些內容的狀況下，生成他的聲音、圖像或影片。（延伸閱讀：Deepfake 不一定是問題，不知道才是大問題！關於 Deepfake，你需要知道的是⋯⋯？）

-----廣告，請繼續往下閱讀-----

早在 2016 年，來自斯坦福大學、馬克斯普朗克研究所和埃爾蘭根－紐倫堡大學的研究人員，就已經創建了一個名為 Face2Face 的系統，透過捕捉演員的面部表情，在其他人臉上生成一樣表情的影像。不過，我們現在熟悉的「Deepfake」一詞，卻是 2017 年才現身；而且它最早的姿態，便是色情內容：由一位名為「deepfake」的 Reddit 的用戶，上傳的明星假性愛影片。

Face2Face: Real-time Face Capture and Reenactment of RGB Videos (CVPR 2016 Oral)

直到現在，網路上雖然不乏一些迷因、或是跟政治人物相關的 Deepfake 影片到處散播，而且數量越來越多，但 Deepfake 應用最多的，仍是色情內容。人工智慧公司 Sensity AI 的統計發現，自 2018 年以來，網路上的虛假影片每六個月成長一倍，截自 2020 年 12 月為止，他們透過自己的檢測技術，偵測到至少85047 個假影片在網路上流傳。

2019 年，Sensity AI（在當初的名稱為 Deeptrace）的報告統計，有 96%的 Deepfake 影片是色情內容，在色情網站上的內容幾乎百分之百都是以女性為主，被觀看次數超過 1.34 億次。由此可見，「色情內容」無疑是所有 Deepfake 應用中，內容最多、製造速度最快、傳播最廣的類型。

此外，儘管色情網站龍頭 Pornhub 指出，他們不會容許包含 Deepfake 影片在內的任何非自願性質的內容出現，但根據 Deeptrace 的統計，2019 年排名前十的色情網站中，有 8 個網站裡有 Deepfake 的內容，另外還有 9 個 only for Deepfake 的色情網站，而這些網站裡的內容，佔了 Deepfake 色情內容的九成以上。

-----廣告，請繼續往下閱讀-----

雖然，這些影片中被換臉的主角通常是名人，但受到 Deepfake 色情內容所苦的，不只有他們。

雖然內容是假的，但傷害是真的

2019 年 6 月 23 日，有一個叫做 DeepNude 的網站上線了：它提供可以免費下載的應用程式，並利用生成對抗網路（Generative Adversarial Network，簡稱GAN）技術，將女性有穿衣服的照片生成為裸照。雖然由它生成的照片都有浮水印，但只要付費就能把浮水印變小；重點是，它的使用方法很傻瓜，只需要一張女性的照片就行了，而且「穿越少」效果「越好」。

這個應用程式因為 Motherboard 的報導而爆紅，甚至一度因為下載量過大，導致網站不堪負荷。諷刺的是，Motherboard 報導的目的，原本是為了要批評 DeepNude 對於女性的傷害。雖然DeepNude 隨後在 6 月 27 日下架（其後又在同年 7 月 19 日以 30000 美元出售給匿名買家）；但其應用程式直到今天，仍在一些開源社群、種子網站等地方被不斷的上傳下載。

2020 年，Sensity AI 發現了另一個與 DeepNude 很相似的 Telegram bot，只要向這隻機器人傳送照片，便能直接生成裸照、且可以透過付費，得到去除浮水印或免等候等服務。根據統計，這當中起碼有十多萬名女性被生成裸照，當中包含未成年人。雖然被報導之後，相關群組一樣已經被官方刪除，但這絕對不會是最後一次，Deepfake 被這樣惡性利用。

-----廣告，請繼續往下閱讀-----

雖然 DeepNude 的創辦人表示，他當初設計這個程式的初衷，是被小時候在雜誌上看到的「X 光眼鏡」所啟發（其 logo 也是為此致敬），他有想過這個程式會不會傷害到人，但他也表示能用 DeepNude 做到的事，任何人用 Photoshop 也能做到；如果有任何人懷有惡意想要做壞事，那有沒有 DeepNude 並不會有影響。然而情況卻是，有人因為類似應用被威脅，甚至遭受到復仇式色情（Revenge porn，本用詞為俗稱，目前有倡議應稱呼「未經同意即散布之私密影像(Non-consensual pornography)」，以避免簡化問題本質）的攻擊。

Hi! DeepNude is offline. Why? Because we did not expect these visits and our servers need reinforcement. We are a small team. We need to fix some bugs and catch our breath. We are working to make DeepNude stable and working. We will be back online soon in a few days.
— deepnudeapp (@deepnudeapp) June 27, 2019

所謂「復仇式色情」，指的是未經過他人同意，任意散佈含有他人色情內容之照片或影片等影像的報復手段。美國心理學會的一項研究發現，每 12 名女性中，就有一名最終在她們生命的某個階段成為復仇式色情片的受害者。在過往，合意或是被偷拍的親密影像在非自願的狀況下外流就已經夠難防了，有了 Deepfake 之後就更難了：因為當事人根本不會意識到有這樣的影像的存在。而這些內容被用於勒索，甚或是威脅名人、記者等案例層出不窮。

「我要怎麼證明那不是我？我走在路上、搭捷運，可能有一些陌生人，他看我或交頭接耳的時候，我都會覺得，是不是他們看過那個影片？覺得我是那樣的女生？覺得我是很糟糕的人？」在鏡週刊的訪問中，被換臉的 Youtuber 球球這樣說道。儘管那真的不是自己，儘管內容是假的，但這類的色情內容造成的傷害卻是真實的。

波士頓大學法律學教授 Dielle Citron 在他的著作《網路空間裡的仇恨犯罪(Hate Crimes in Cyberspace)》中提到：Deepfake技術正在成為針對女性的武器，這些性愛影片當中的身體雖然不是自己的，卻會對當事人造成影響，讓他們不想再上網、難以獲得或維持工作、並且感到不安。

-----廣告，請繼續往下閱讀-----

Deepfake 最大的傷害不是來自技術，而是使用方式

從大量資料到一張照片、從專家操作到素人也行、從粗糙到以假亂真，Deepfake 的技術一直進步，而這已然打開的潘朵拉的盒子，要關上的方法，也必然需要人與科技的協力。

從辨偽技術的進步（延伸閱讀：Deepfake 辨偽技術如何在魔高一尺時，能道高一丈呢？）、法規制度的更新（延伸閱讀：應對Deepfake濫用，台灣修正刑法夠用嗎？），到協助被害人刪除與爭取權益等制度的完善，以及不看、不擴散，多理解技術對社會可能的影響：在面對 Deepfake 色情內容所造成的傷害，沒有人是局外人。

參考資料