0

文字

繁 | 简

0

Promo 科學傳播科技能源透視科學

教電腦「看」世界：電腦也能當球賽戰術分析員！

研之有物│中央研究院・2017/04/11 ・3258字・閱讀時間約 6 分鐘・SR值 552

・八年級

相關標籤：

熱門標籤：

為什麼要研究「電腦視覺」？

「電腦視覺（computer vision）」是研究怎麼讓機器「看」這個世界。在相機、手機、監視器、行車紀錄器等設備無所不在的今天，人類社會中的視訊資料量，前所未有地巨大。中研院資訊所特聘研究員廖弘源與團隊，教電腦懂得偵測、識別、分析這些影像訊息，進而做出判斷或行動，如此可衍生各種重要的應用，如人臉辨識、物件偵測、車輛追蹤、街景分析等。

輕按快門，相機可以快速找到人臉對焦；機場快速通關窗口，機器能在幾秒鐘之內認出你是誰；裝一台攝影機，就可以計算某段時間內有多少人車經過……「電腦視覺」加上「機器學習」技術的進步，讓我們的生活更加安全及便利。

不過，電腦可不是一開始就這麼聰明的。

研究電腦視覺及機器學習，設法讓電腦變聰明的廖弘源博士。圖／張語辰提供；黃楷元設計

教電腦看世界特徵辨認第一課

電腦「看」世界的方式，和你我很不一樣。在我們眼中，一張圖畫裡可能有人物有風景。但在電腦「眼」中，卻只是幾萬幾億個不同顏色的小點（其實就是像素，pixel），以某個順序排列起來而已。

但「電腦看世界」時，一棟建築或一個碼頭，在電腦眼中只是一堆像素、或一串位元。圖／廖弘源提供

中央研究院資訊所特聘研究員廖弘源，窮畢生之力，都在教電腦怎麼「看」世界：從 0 與 1 組合成的數位世界中，找出各種「特徵」、並據此識別出特定的物件，進而判斷視訊資料的意義。

-----廣告，請繼續往下閱讀-----

比方說，媽媽今天燙了個捲捲頭回家，爸爸可能會一時之間認不出來，但電腦依然能辨認這位捲髮女士是媽媽，因為五官並沒有改變。廖弘源和研究團隊在 2001 年發表的論文，探討此一問題，證明「五官特徵」才是電腦辨識人臉的依據，而非五官之外的髮型、衣著、首飾等，此知識讓業界的臉部辨識系統發展地更精準，也成為這領域近廿年來必讀的文獻之一。

以「識別」與「比對」為核心，電腦視覺延伸出很多用途。廖弘源和研究團隊廿多年來開發出了多項創新技術，像是人臉和車牌的辨識系統，現在已是治安保全的重要利器；而數位檔案加上「雞尾酒浮水印」，則可以防範辛苦的智慧結晶被盜用。

妙手回春老相片老電影重獲新生

2006 年起，廖弘源接手另一項艱難任務：「數位典藏與數位學習國家型科技計畫」。面對龐大的數位典藏檔案，首要工作就是快速有效地判讀、註解、並擷取多媒體內容。多媒體資料不只圖片，還包括影片。影片等於是一秒鐘 30 張圖片串接在一起，再加上聲音，資訊量非常龐大，因此分析難度，跟簡單的圖片不可同日而語。

另外一個大難題是，許多珍貴的老膠捲，有的被蟲蛀、有的甚至發霉了，眼看就要損毀。還好，廖弘源研究團隊成功打出一記「還我漂亮拳」！一連串視訊篡改（video inpainting）的研究，應用在數位修補技術上，成功幫受損的照片或影片「回春」。

-----廣告，請繼續往下閱讀-----

先要能「篡改」，才有能力「修復」。

什麼是視訊篡改？目的不是要捏造不存在的歷史、或是製造虛構的畫面，但透過「無中生有」的原理，卻可以還原已經被破壞的元素。像下圖照片所示，原本斑駁陳舊，但電腦程式可以自動擷取摺痕周邊的影像資訊，用類似「模擬」的方式，產生出原本不存在於照片上的元素，把缺損給填補起來。

充滿歲月痕跡的老照片（左），按一個鍵，色調不再泛黃、摺痕也消失無蹤（右）。圖／廖弘源提供；黃楷元設計

要修補動態的影片更加困難，廖弘源團隊做出了領先世界的創新研究，採用一種 ISOMAP 技術，以非線性的方式降低維度，不但減少了影片資料運算所需的記憶容量，還能用空間的轉換，填補上被破壞的片段，讓動作看起來自然而連續。許多發霉的老膠捲、經典電影或相片，在這項技術之下，重獲新生。

人連續的動作，經過 ISOMAP 技術進行轉換後，連結連續姿態變化的軌跡。圖／廖弘源提供；黃楷元、張語辰設計

人工智慧當道電腦視覺技術突飛猛進

以上所有研究與技術，在 2012 年遇到了一個重大分水嶺，那就是「深度學習（deep learning）」技術的應用。這是一種類神經網絡研究，也就是用數學模型去模擬生物中樞神經的結構和功能。

早期，這樣的研究受限於電腦運算速度，隨著電腦效能大幅提升，深度學習的成熟也一日千里。日前喧騰一時的 Google Alpha Go ，就是藉由輸入了無數的棋譜讓電腦進行深度學習，選出最可能獲勝的落子位置，逐一擊敗各國頂尖職業圍棋選手。

-----廣告，請繼續往下閱讀-----

而在電腦視覺領域的國際盛會──大規模視覺辨識競賽（Large Scale Visual Recognition Challenge, ILSVRC），主辦單位提供 1000 類超過 120 萬張的影像，讓參賽團隊設計的程式去判斷類別。 2010 年首次舉辦時，表現最佳的系統錯誤率仍高達 28% 。但來到分水嶺的 2012 年，透過深度學習技術，錯誤率大幅降低到 16% 。 2015 年更是一舉突破人類極限，錯誤率達到 3.7%（人眼辨識的極限是 5%），正式宣告，電腦視覺比人類更精準的時代來臨。

廖弘源的研究團隊，也著力於此，開展了兩項創新的研究。第一個，是「籃球進攻戰術分析」。電視轉播的球賽，常聽球評或教練，戰術分析得頭頭是道，未來，透過深度學習，可以讓電腦直接從比賽的影片中，球員跑動的軌跡，就判讀出這一波進攻是打什麼戰術。

電腦先擷取球賽的片段，辨認出移動的球員（上圖），然後轉換成平面，測量移動的軌跡與速度（中圖），最後，透過數學函數的分析，比對資料庫，找出相符的戰術（下圖）。圖／廖弘源提供；黃楷元設計

另一個研究則是「演唱會片段自動拼貼（mashup）」。一場演唱會，可能有數百個粉絲，從不同角度、不同距離，拍下了不同片段，上傳到 YouTube 上。那麼，有沒有可能，讓電腦自動挑出這些片段，然後重新剪輯成高品質的完整演唱會影像呢？這項大工程有許多問題，等著廖弘源研究團隊一一克服。

他們先用深度學習技術，讓電腦分辨影像中的不同物件（歌手、舞台、樂器、觀眾等），接著再用另一套模式（Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM）對影片的每一個鏡頭進行分類，辨認出是遠景、中景、近景、或是特寫。然後還要比對音訊，整理出影片的正確時間順序。最後，才依照順序、分鏡邏輯、和情緒鋪陳，組合出最佳的影片。

-----廣告，請繼續往下閱讀-----

不同角度、不同距離、不同段落的演唱會影片，混搭拼貼成完整的演出視訊。圖／廖弘源提供；黃楷元設計

為了「教」電腦分析這些資訊，廖弘源笑稱，自己看了無數的籃球影片，從不會打球變成了戰術大師；看了幾百場演唱會，也讓他從音痴化身成音樂總監。受訪時，廖弘源神采奕奕地談著這些研究，言談中除了自豪，更多的是一種身為「科學家」的使命感，強調無論做什麼研究，要當具有開創性的「科學家」，而不只是依循既定方法的「工程師」。

人類持續進步，電腦也是。我們過去總認為，電腦是工具，只能幫我們處理機械化的工作。但廖弘源博士兩個最新研究之中，都包含著非常複雜的深度學習運算技術，若研發成熟後，人工智慧在影片處理上的技巧，將會突飛猛進。或許，「電腦藝術家」誕生的一天，指日可待！

延伸閱讀：

廖弘源的個人網頁
〈虛實世界的串聯者與守護者〉第二十三屆東元獎科技類，廖弘源受訪報導
〈我在中研院的第二個十年：多媒體研究與數位典藏〉演講
L. F. Chen, H. Y. Mark Liao, (2001) Pattern Recognition, 34, 1393-1403.
C. W. Su, H. Y. Mark Liao, H. R. Tyan, K. C. Fan, and L.-H Chen, (2005), IEEE Trans. Multimedia, 7, 1106-1113.
C. S. Lu, S. K. Huang, C. J. Sze, and H. Y. Mark Liao, (2000), IEEE Trans. Multimedia, 2, 209-224.
H. Y. Sean Lin, H. Y. Mark Liao, and J. C. Lin, (2007), IEEE Trans. Multimedia, 9, 46-57.
C.J. Sze, H.Y. Mark Liao, and K.C. Fan, (2001), IEEE Trans. on Image Processing, 10, 296-306.

執行編輯｜黃楷元；美術編輯｜張語辰

本著作由研之有物製作，以創用CC 姓名標示–非商業性–禁止改作 4.0 國際授權條款釋出。

-----廣告，請繼續往下閱讀-----

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

研之有物│中央研究院

296 篇文章・ 3420 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

0

5

2

文字

0

5

2

植物口渴就喊：「啵、啵、啵～」

胡中行・2023/04/06 ・2954字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

久旱不雨，植物悲鳴，^{[1, 2]}類似教育部《臺灣閩南語常用詞辭典》所謂「因飢餓而吵鬧」的「哭枵」（khàu-iau）。^[3]別問為何沒聽過，也不怪天地寡情，人類無義，從來漠不關心。植物叫那種超音波，傳至咱們耳裡就只剩寧靜。幸好靠著以色列科學家幫忙，轉換到常人的聽覺範圍，並分享於 2023 年 3 月底的《細胞》（Cell）期刊，才廣為周知。^[1]

轉換到人類聽力範圍的番茄「叫聲」。音／參考資料 1，Audio S1（CC BY 4.0）

傾聽植物的聲音

面臨乾旱或草食動物的威脅，植物會做出多種反應，例如：改變外貌，或是以揮發性有機化合物影響鄰居等。^[1]過去的文獻指出，缺水引發空蝕現象（cavitation），使植物負責輸送水份的木質部，因氣泡形成、擴張和破裂而震動。^{[1, 4]}現在科學家想知道，這是否也會產生在特定距離內，能被其他物種聽見的聲音。^[1]

受試的對象是番茄與菸草，分別拆成乾旱、修剪和對照 3 組。對照組又有常態生長的一般對照、有土卻無植物的盆器，以及每株植物實驗前的自體對照 3 種。實驗大致有幾個階段：首先，在隔音箱裡，距離每個受試對象 10 公分處，各立 2 支麥克風收音。將聲音的紀錄分類後，拿去進行機器學習。接著移駕溫室，讓訓練好的模型，分辨雜音和不同情況下植物的聲音。再來，觀察乾旱程度與植物發聲的關係。最後，也測試其他的植物和狀態。^[1]

麥克風對著乾旱、修剪和對照組的植物收音。圖／參考資料 1，Graphical Abstract局部（CC BY 4.0）

植物錄音與機器學習

隔音箱裡常態生長的植物，每小時平均發聲少於一次；而沒植物的盆器當然完全無聲。相對地，遭受乾旱或修剪壓力的實驗組植物，反應則十分劇烈：^[1]

-----廣告，請繼續往下閱讀-----

	平均值（單位）	番茄	菸草
乾旱	發聲頻率（次／小時）	35.4 ± 6.1	11.0 ± 1.4
	音量（聲壓分貝；dBSPL）	61.6 ± 0.1	65.6 ± 0.4
	聲波頻率（千赫茲；kHz）	49.6 ± 0.4	54.8 ± 1.1
修剪	發聲頻率（次／小時）	25.2 ± 3.2	15.2 ± 2.6
	音量（聲壓分貝；dBSPL）	65.6 ± 0.2	63.3 ± 0.2
	聲波頻率（千赫茲；kHz）	57.3 ± 0.7	57.8 ± 0.7

隔音箱中實驗組的錄音，被依照植物品種以及所受的待遇，歸納為 4 個組別，各組別再彼此配對比較，例如：乾旱的番茄對修剪的番茄等。以此資料訓練出來的機器學習模型，判別配對中各組別的準確率為 70%。第二階段在溫室中進行，自然較隔音箱嘈雜。科學家拿空蕩溫室的環境錄音，來教模型分辨並過濾雜訊。訓練後，令其區別乾旱與對照組番茄的聲音，結果 84% 正確。^[1]既然能聽得出基本的差別，下一步就是了解水量對番茄發聲的影響。

體積含水量

為了操縱體積含水量（volumetric water content，縮寫VWC），即水份與泥土體積的比值或百分比，^{[1, 5]}科學家狠下心，連續幾天都不給溫室裡的番茄植栽喝水。一邊觀察 VWC 的變化；一邊錄下它們的聲音。起先水份充足，番茄不太吵鬧；4、5 天下來，發聲的次數逐漸增加至高峰；然後應該是快渴死了，有氣無力，所以次數又開始減少。此外，番茄通常都在早上 8 點（圖表較像 7 點）到中午 12 點，以及下午 4 點至晚上 7 點，這兩個時段出聲。^[1]科學家覺得這般作息，可能與規律的氣孔導度（stomatal conductance），也就是跟光合作用的換氣以及蒸散作用的水份蒸發，兩個透過氣孔進行的動作有關。^{[1, 6]}

大部份的聲音都是在 VWC < 0.05 時出現；當 VWC > 0.1，水份還足夠，就幾乎無聲。科學家將比較的條件進一步分成 VWC < 0.01 與 VWC > 0.05、VWC < 0.05 跟 VWC > 0.05，以及 VWC < 0.01、VWC > 0.05 和淨空溫室的聲音。機器學習模型分辨起來，都有七、八成的準確率。^[1]

縱軸為每日發聲次數；橫軸為缺乏灌溉的天數。圖／參考資料 1，Figure 3A（CC BY 4.0）

乾旱狀態下，番茄發聲的時段。縱軸為每小時發聲次數；橫軸為 24 小時制的時間。圖／參考資料 1，Figure 3B（CC BY 4.0）

植物發聲的原理

實驗觀察所得，都將植物發聲的機制，指向木質部導管中氣體的運動，也就是科學家先前預期的空蝕現象。^[1]下面為支持這項推論的理由：

-----廣告，請繼續往下閱讀-----

木質部導管的口徑，與植物被錄到的聲波頻率相關：寬的低；而窄的高。^[1]
乾旱與修剪所造成的聲音不同：在木質部導管中，前者氣泡形成緩慢，發聲時數較長；而後者則相當迅速，時數較短。^[1]
聲音是由植物的莖，向四面八方傳播。^[1]
空蝕現象造成的震動，跟記錄到的超音波，部份頻率重疊；而沒有重疊的，其實已經超出其他物種的聽力以及麥克風收音的範圍。^[1]

葡萄、菸草和番茄木質部導管的水平橫截面。圖／參考資料 1，Figure S4B（CC BY 4.0）

葡萄（綠色）、菸草（灰色）和番茄（橙色）的差異：縱軸為聲波頻率；橫軸是木質部導管的平均口徑。圖／參考資料 1，Figure S4A（CC BY 4.0）

問誰未發聲

觀察完番茄和菸草之後，科學家不禁好奇，別的植物是否也會為自己的處境發聲？還是它們都默默受苦，無聲地承擔？研究團隊拿小麥、玉米、卡本內蘇維濃葡萄（Cabernet Sauvignon grapevine）、奇隆丸仙人掌（Mammillaria spinosissima）與寶蓋草（henbit）來測試，發現它們果然有聲音。不過，像杏仁樹之類的木本植物，還有木質化的葡萄藤就沒有了。另外，科學家又監聽感染菸草嵌紋病毒（tobacco mosaic virus）的番茄，並錄到它們的病中呻吟。^[1]

你敢有聽著咱的歌

之前有研究指出，海邊月見草（Oenothera drummondii）暴露於蜜蜂的聲音時，會產出較甜的花蜜。^[2]若將角色對調過來：植物在乾旱、修剪或感染等壓力下釋出的超音波，頻率約在 20 至 100 kHz 之間，理論上 3 到 5 公尺內的某些哺乳動物或昆蟲，例如：蝙蝠、老鼠和飛蛾，應該聽得到。^{[1, 2]}以色列科學家認為幼蟲會寄住在番茄或菸草上的飛蛾，或許能辨識植物的聲波，並做出某些反應。同理，人類可以用機器學習模型，分辨農作物的聲音，再給予相應的照顧。如此不僅節省水源，精準培育，還能預防氣候變遷所導致的糧食危機。^[1]

備註

本文最後兩個子標題，借用音樂劇《Les Misérables》歌曲〈Do You Hear the People Sing?〉的粵語和臺語版曲名。^[7]

-----廣告，請繼續往下閱讀-----

參考資料

Khait I, Lewin-Epstein O, Sharon R. (2023) ‘Sounds emitted by plants under stress are airborne and informative’. Cell, 106(7): 1328-1336.
Marris E. (30 MAR 2023) ‘Stressed plants ‘cry’ — and some animals can probably hear them’. Nature.
教育部「哭枵」臺灣閩南語常用詞辭典（Accessed on 01 APR 2023）
McElrone A J, Choat B, Gambetta GA, et al. (2013) ‘Water Uptake and Transport in Vascular Plants’. Nature Education Knowledge, 4(5):6.
Datta S, Taghvaeian S, Stivers J. (AUG 2018) ‘Understanding Soil Water Content and Thresholds for Irrigation Management’. OSU Extension of Oklahoma State University.
Murray M, Soh WK, Yiotis C, et al. (2020) ‘Consistent Relationship between Field-Measured Stomatal Conductance and Theoretical Maximum Stomatal Conductance in C3 Woody Angiosperms in Four Major Biomes’. International Journal of Plant Sciences, 181, 1.
FireRock Music.（16 JUN 2019）「【問誰未發聲】歌詞 Mix全民超長版粵+國+台+英口琴+小童+學生+市民 Do you hear the people sing?」YouTube.

發表意見

所有討論 0

登入與大家一起討論

胡中行

169 篇文章・ 65 位粉絲

曾任澳洲臨床試驗研究護理師，以及臺、澳劇場工作者。西澳大學護理碩士、國立台北藝術大學戲劇學士（主修編劇）。邀稿請洽臉書「荒誕遊牧」，謝謝。

TRENDING 熱門討論

即時熱門

0

5

0

文字

0

5

0

來當一日語音設計師——如何設計好聽的合成語音？

雅文兒童聽語文教基金會・2023/03/31 ・3727字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

文／邱彥哲｜雅文基金會聽語科學研究中心助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎？你會要求他回答什麼呢？受限於目前的技術，你可能不會得到非常滿意的答案，但至少你會聽到一陣悅耳如同真人的語音吧！這項現今習以為常的技術，其實背後是由很多知識累積而成的。今天，讓我邀請你擔任一日「語音設計師」，從語音合成的技術開始，接著了解人類使用者的聽覺偏好，最後探索不同族群對聆聽合成語音的差異吧！

語音合成（speech synthesis），是指以人工方式，製造出說話的聲音，可以理解為使機器裝置說出人話的技術。廣義來說，很多人也會把文字轉語音（Text to Speech，簡稱 TTS），含括在語音合成的範疇。

語音合成像樂高，但樂高有兩種！

早在 1970 年代，人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事，最直接的方式就是請真人錄一段聲音，然後在指定的時機播放。不過，面對複雜的語言情境，我們不可能錄下所有可能的回應 ; 而且若要這樣做，也實在太沒效率。幸好，借助電腦運算技術，可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類，分別是單元選取合成（Unit Selection Synthesis）及參數合成（Parametric Synthesis）^[1]。

單元選取合成這種方法，是將某個語言的語音成分分別以人聲錄製起來，再根據需要的目標語音進行組合。簡單來說，如果需要機器說發出「八」的語音，就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便，但也有缺點。就是事先必須建立一個龐大的語音資料庫，這個資料庫必須包含一個語言所有語音成分，此外，還必須錄下這些語音成分在所有情境下的變化，光想起來就令人有點頭痛。

-----廣告，請繼續往下閱讀-----

所以後者，參數合成，就顯得方便許多。這種方法，是直接將語音參數輸入電腦，讓電腦直接根據參數發出聲音，再組成語音。使用參數合成，就可以免去請人錄音的步驟，但直接使用電腦生成的語音，聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高，都是將語音成分一塊一塊組合起來，只是前者的樂高是自然材質（比如說木頭製），後者是人造材質（比如說塑膠）。

借助深度學習，電腦說話很自動

不過，無論是上述哪種方法，都還是需要不少的人工調校，才能使聲音逐步接近人類的語音。但還好，隨著電腦演算的進步，將深度學習（deep learning）運用在語音合成的領域，不但減少了人工成本，也大大提升的語音的擬人性。所謂深度學習，簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法，設計者只需蒐集大量的語音資料，將資料「餵」給電腦，無須事先切分或分析，電腦便會自動學習其中的規律。如此一來，只要資料數量足夠龐大，電腦就可以自動產生符合自然規律且真實的語音。

但是，身為一位語音設計師，要進一步思考的是：「究竟要餵給電腦什麼呢？」這個問題又必須從使用者的角度來思考：「人類會偏好聆聽什麼樣的語音？」就像生產商品一樣，語音百百款，要能投其所好，才能讓使用者日日寸步不離，對吧！

-----廣告，請繼續往下閱讀-----

聆聽也要投其所好，性別頻率最重要

關於合成語音的聆聽偏好，最先被討論的，是性別。雖然我們都知道機器沒有性別，但若希望他和人一樣跟你互動，投射性別是很自然的。不過有人就提出質疑：「為什麼我們的語音助理，都是女性的聲音呢？」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查，測試了 8 種族裔的使用者，結果發現 64% 的人只偏好女性的聲音^[2]。

這樣看起來，預設為女性的聲音應該是沒問題的吧？不過，有人認為這是社會對「助理」的性別刻板印象所致；因為社會習慣女性作為「服務者」，所以在設計語音時，直覺地就挑選了女性聲音。雖然單就頻率方面，的確有研究指出，使用者確實是偏好頻率較高的合成語音^[3]，但若是一昧如此，也極有可能不斷複製性別偏見的印象^[4]。

有鑒於此，越來越多系統開始提供男性語音的選項。更甚者，哥本哈根研究團隊突發奇想，不以性別為選項，而是改以頻率作為調查標準。分析之後，他們得到一個最佳的頻率值──185 赫茲，設計出史上第一個無性別語音助理「Q」^[5]。如此一來，青菜蘿蔔各有所好，聆聽的偏好也朝著多元共好的目標邁進！

聽得舒服，語速考量不能少

解決的性別與頻率的問題，還得注意甚麼呢？專門研究輔助溝通系統（Augmentative and Alternative Communication，簡稱 AAC）的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」，是用以輔助溝通障礙者溝通的工具; 簡單如圖卡，複雜如電子溝通板，都算是其中一員。而像是電子溝通板這類，以螢幕顯示圖片，點擊後可以播放語音的輔具來說，合成語音是很關鍵的技術。

-----廣告，請繼續往下閱讀-----

這些溝通障礙專家想知道：「究竟什麼樣的語音速度，是最舒服的呢？」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者，對合成語音進行語速評分^[6]。語速的計算方式，採用每分鐘幾個字（Words per minute，簡稱 WPM）計算。他們將合成語音調整成不同的語速，範圍介於 120 到 250WPM 之間。結果發現，無論年輕人或年長者，偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍，其實與過去研究提出的人類平均語速，相去不遠^[7]。

如果想知道不同語速聽起來感受如何，可以到合成語音軟體 Speechify^[8]的網站試用，自行調整語速（以 WPM 計算），細細品味其中差異。或者，讓我為你朗讀，請聽示範（語速約 180WPM，內容為「我是彥哲，我是普通人。」）！

可見，語音合成的技術雖是極為理性的領域，但若要設計出美妙的語音，對人類感性的理解，也絕對不能偏廢。

-----廣告，請繼續往下閱讀-----

合成語音聆聽不易，考量族群差異最貼心

「所以，我只要想辦法把語音設計得很像人類就可以了吧？」你可能會這樣想，不過這裡頭還少了一個部分。現代社會提倡多元，客製化當道，每個人使用同個產品的狀況必然會有差異。

其實，即使是一般人，聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出：由於合成語音的清晰度普遍較差，因此聆聽者通常需要動用更多的認知資源（像是電腦需要動用較多記憶體），以及更多高層次的語言知識來彌補語音訊息的不完整^[9]。如果對普通人來說是如此，對於某些特殊族群來說，想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究^[10]。參與者的任務，是要在聽完自然語音及合成語音播放的八個詞彙之後，再將這八個詞彙回憶並說出來，回答無須按照順序。結果研究者發現，兩組兒童無論聆聽自然或合成語音，回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言，記憶合成語音的表現又更不理想。

由此可知，兒童本身的記憶能力就較成年人弱，在聆聽合成語音時，可以說是是難上加難。

-----廣告，請繼續往下閱讀-----

另一個被探討的，是聽障族群。聽障族群最主要的困難，就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難，那對聽障族群應該是更加艱困的挑戰吧！Kangas 和 Allen 的研究^[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音，並請他們在聆聽後寫出聽到的單字。結果可想而知，聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況，身為語音設計師的你，在設計語音的時候，是不是也應該從使用者的背景差異去調整你的語音呢？也許是調整語音的頻率，也許是調整語速，也可能，也可能有更多領域需要探索。唯有這樣，才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣？沒想到要設計語音，希望機器說出一句話，背後涉及理性的技術與感性的考量，非常不容易吧！看完之後，你還是可以輕鬆地要求你的行動裝置說個笑話，唱首歌給你聽，自娛娛人；但也千萬別忘記，多留點心思，給這人類文明的結晶致上敬意。一日語音設計師，功成身退！

參考資料

詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來：引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯，頁104-137)。商周出版。
Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
顏宏旭，楊麗平，宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4)，83-107。
West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
GenderLess Voice. (2023/3/3) Meet Q [Web message].
Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
Speechify. (2023/3/3) Speechify.
Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.

發表意見

所有討論 0

登入與大家一起討論

雅文兒童聽語文教基金會

55 篇文章・ 222 位粉絲

雅文基金會提供聽損兒早期療育服務，近年來更致力分享親子教養資訊、推動聽損兒童融合教育，並普及聽力保健知識，期盼在家庭、學校和社會埋下良善的種子，替聽損者營造更加友善的環境。

TRENDING 熱門討論

即時熱門

1

38

1

文字

1

38

1

回到 AlphaGo 打敗棋王的那一天，看 AI 如何顛覆世界——《AI 製造商沒說的祕密》

時報出版・2023/01/30 ・4915字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

谷歌收購深度心智（DeepMind）幾週後，深度心智創辦人德米斯．哈薩比斯（Demis Hassabis）與其他幾位深度心智研究人員搭機來到北加州，與他們母公司的領袖舉行會議，並向他們展示深度學習如何破解「打磚塊」。

幕後推手——德米斯．哈薩比斯

會議結束後，哈薩比斯和谷歌創辦人賽吉．布林（Sergey Brin）聊了起來。他們聊著聊著發現有一共同的興趣：圍棋。布林表示當初他和賴利．佩吉（Larry Page）建立谷歌時，他沉迷在圍棋中，害得佩吉擔心他們根本無法成立公司。

哈薩比斯表示，如果他和他的團隊想要的話，他們能夠建造一套系統來打敗世界冠軍。「我覺得這是不可能的。」布林說道。就在這一刻，哈薩比斯下定決心要做到。

深度心智創辦人、英國人工智慧研究者——德米斯．哈薩比斯（Demis Hassabis）。圖／維基百科

「深度學習運動之父」傑弗瑞．辛頓（Geoffrey Hinton）將哈薩比斯比作羅伯．奧本海默（Robert Oppenheimer），二戰期間做出第一顆原子彈的曼哈頓計畫主持人。奧本海默是世界級的物理學家：他懂得眼前重大任務的科學原理，不過他更深諳激勵之道，他結合手下不斷擴大的科學家，將他們的力量合而為一，並且接納他們的弱點，一起為計畫目標努力。

-----廣告，請繼續往下閱讀-----

他知道如何感動男人（以及女人，包括辛頓的堂姊瓊安．辛頓），辛頓在哈薩比斯身上看到同樣的特質。「他主持 AlphaGo 就像奧本海默主持曼哈頓計畫，如果是別人來主持，他們可能就不會這麼快成功。」辛頓說。

揭開比賽序幕

深度心智的研究員們在 2014 年中曾發表一篇關於他們初期研究的論文，之後他們的研究規模大為擴大，並在第二年擊敗歐洲圍棋冠軍樊麾。此一結果震驚了全球圍棋界與人工智慧研究圈，但是 AlphaGo 對戰李世乭所造成的聲勢更是轟動。

IBM 的深藍超級電腦 1997 年在曼哈頓西城的一棟高樓裡擊敗世界頂尖的西洋棋高手，為電腦科學建立了一座里程碑，受到全球新聞界的廣為報導。但是若是與首爾的這場人機大戰相比，卻是小巫見大巫。在韓國——更別提日本與中國——圍棋是民族性的消遣活動。有超過二億人會觀看 AlphaGo 與李世乭的對弈，觀眾比超級盃多上一倍。

在總共五局對戰前夕的記者會上，李世乭誇口他能輕鬆獲勝：四比一或五比零。大部分的圍棋棋手也都有同感，雖然 AlphaGo 徹底擊敗樊麾，顯示這部機器是真正的贏家，但是樊麾的棋力遠不及李世乭。根據用來評估遊戲對戰能力的 ELO 等級制度，李世乭完全是在不同的等級。但是哈薩比斯卻認為這場人機大戰會有截然不同的結果。

-----廣告，請繼續往下閱讀-----

第二天下午，在展開第一局對戰的兩小時前，他與幾名記者共進午餐，他拿著一份《韓國先驅報》（Korea Herald），這是用桃色紙張印刷的韓國英文日報。他和李世乭的照片都出現在報紙的頭版上半部。他沒有想到竟會受到如此重視。

「我知道會受到關注，」這位像孩子般矮小，39 歲但已禿頂的英國人說道，「但是沒有想到會這麼多。」不過，在吃著餃子、韓式泡菜的午餐時，哈薩比斯表示他對這場棋賽「審慎樂觀」。他解釋，那些名嘴並不知道 AlphaGo 在十月的棋賽後仍在繼續苦練棋藝。

他和他的團隊初始是將三千萬步棋路輸入深度神經網路來教導機器學習圍棋，自此之後，AlphaGo 就開始不斷與自己對弈，並且記錄哪些棋路是成功的，哪些又是失敗的——其運作與實驗室用來破解雅達利老遊戲的系統類似。自擊敗樊麾以來這幾個月，AlphaGo 已和自己對弈了數百萬局；AlphaGo 持續自學圍棋，學習速度之快遠超過所有人類。

在四季飯店頂樓的賽前餐敘，谷歌董事長艾力克．施密特（Eric Schmidt）坐在哈薩比斯的對面，以他一貫冷峻的態度闡述深度學習的優點。一度有人稱他為工程師，他糾正他們，「我不是工程師，」他說道，「我是電腦科學家。」

-----廣告，請繼續往下閱讀-----

艾力克．施密特（Eric Schmidt）2001～2011 年間在 Google 擔任 CEO。圖／維基百科

他回憶他在 1970 年代研讀電腦科學時，人工智慧看來前景一片大好，但是隨著 1980 年代過去，進入 1990 年代，這樣的美景從未實現。如今，終於實現了。「這一科技，」他說道，「力量強大，引人入勝。」他表示，人工智慧不只是辨識照片的戲法，同時也代表谷歌 750 億美元的網際網路事業與其他無數的產業，包括保健產業。

機器與人類高手對決

在第一局，哈薩比斯是在私人觀賞室與走廊另一頭的 AlphaGo 控制室之間來回兩頭跑。控制室滿是個人電腦、筆記型電腦與平面顯示幕，這些設備全都與遠在太平洋彼端的谷歌數據中心內部數百台電腦相連。一支谷歌團隊在比賽前一週就已架設一條專屬的超高速光纖電纜直達控制室，以確保網際網路暢通無阻。

不過結果卻顯示控制室根本不需要進行多少操控：幾過多月的訓練之後，AlphaGo 已能完全獨力作業，不需要人為的幫助。同時，就算哈薩比斯與團隊想幫忙，也無用武之地。他們沒有一人的圍棋棋力達到大師級的水準，他們只能觀看棋局。

「我無法形容有多緊張，」深度心智研究員說道，「我們不知道該聽誰的。一邊是評論員的看法，你同時也看到 AlphaGo 的評估。所有的評論員都有不同的意見。」

-----廣告，請繼續往下閱讀-----

在第一天的棋賽，深度心智團隊與谷歌的重要人物都親眼目睹 AlphaGo 獲勝。

賽後記者會上，李世乭面對來自東、西方數百名記者與攝影師表示他感到震驚。這位 33 歲的棋士透過口譯員說道：「我沒想到 AlphaGo 下棋竟能夠如此完美。」經過逾四小時的對弈，AlphaGo 證明自己的棋力可與全球最厲害的高手匹敵，李世乭表示他被 AlphaGo 殺了個措手不及，他在第二局會改變策略。

左為代替 AlphaGo 移動棋子的深度心智台灣研究員黃士傑，右則為李世乭。圖／YouTube

神來一筆的第三十七手

第二局對弈進行一小時後，李世乭起身離開賽場，走到露台抽菸。坐在李世乭對面，代替 AlphaGo 移動棋子的是來自台灣的深度心智研究員黃士傑，他將一枚黑子落在棋盤右邊一大塊空地上單獨一枚白子的側邊下方，這是該局的第三十七手。

在角落的評論室內，西方唯一的圍棋最高段九段棋手邁克．雷蒙（Michael Redmond）忍不住多看了一眼確認，然後他告訴在線上觀看棋賽的兩百多萬英語觀眾：「我真的不知道這是高招還是爛招。」他的共同評論員克里斯．戈拉克（Chris Garlock）則表示：「我認為下錯了。」他是一本網路圍棋雜誌的資深編輯，同時也是美國圍棋協會的副會長。

-----廣告，請繼續往下閱讀-----

李世乭在幾分鐘後返回座椅，然後又緊盯著棋盤幾分鐘。他總共花了 15 分鐘才做出回應，在棋局的第一階段他有兩小時的時間，而這一手占用了他不少時間——而且此後他再也沒有找回節奏。在經過逾四小時的對弈後，他投子認輸，他連輸兩局了。

第三十七手也讓樊麾大感詫異，他在幾個月前遭到 AlphaGo 徹底擊敗，自此之後他就加入深度心智，在 AlphaGo 與李世乭對弈前擔任它的陪訓員。他從來沒有擊敗過這部人工智慧機器，但是他與 AlphaGo 的對弈也讓他對棋路的變化大開眼界。事實上，他在遭 AlphaGo 擊敗後的幾週內，與（人類）高手對弈連贏六場，他的世界排名也升至新高。

現在，他站在四季飯店七樓的評論室外面，在第三十七手落子幾分鐘後，他看出了此一怪招的威力。「這不是人類會下的棋路，我從來沒有看過有人這麼下，」他說道，「太美了。」他不斷地重複說道，太美了、太美了、太美了。

第二天上午，深度心智的研究員大衛．席瓦爾溜進控制室，他想知道 AlphaGo 如何做出第三十七手的選擇。AlphaGo 在每一局對弈中都會根據它所受過數千萬種人類落子變化的訓練，來計算人類做出此一選擇的機率，而在第三十七手，它算出的機率是萬分之一。

-----廣告，請繼續往下閱讀-----

AlphaGo 在對弈中會根據千萬種落子變化，計算出人類下此一步棋的機率。圖／YouTube

AlphaGo 知道這不是專業棋手會選擇的路數，然而它根據與自己對弈的數百萬次經驗——沒有人類參與的棋局——它仍是這麼做了；它已了解儘管人類不會選擇這一步，這一步棋仍是正確的選擇。「這是它自己發現的，」席瓦爾說道，「透過它的內省。」

這是一個既甜美又苦澀的時刻，儘管樊麾大讚此一步棋是神來之筆，但是一股鬱悶之情席捲四季飯店，甚至整個韓國。一位中國記者表示，儘管他為 AlphaGo 贏得第一局感到高興，可是現在他深感沮喪。

第二天，一位在首爾彼端經營一家新創企業育成中心的韓國人權五亨表示他也感到悲傷，這並非因為李世乭是一位韓國人，而是因為他是人類，「這是全人類的轉捩點，」權五亨說道，他的幾位同事點頭表示同意，「它讓我們了解人工智慧真的已在我們眼前——也讓我們了解到其中的危險。」

在那個週末，此一鬱悶的情緒只增不減。李世乭第三局也輸了，等於輸掉整個棋賽。坐在賽後記者會的桌子後面，李世乭懺悔之情溢於言表。「我不知道今天要說什麼，但是我首先要表達我的歉意，」他說道，「我應該拿出更好的成績，更好的結局，更好的比賽。」但是坐在李世乭身邊的哈薩比斯卻發現，自己衷心期盼這位韓國棋手在接下來的兩局中至少能贏一局。

-----廣告，請繼續往下閱讀-----

AlphaGo 認輸的那一局

在第四局的七十七手，李世乭再度陷入長考，就和第二局的情況一樣，但是這一回他考慮的時間更久。棋盤中間有一堆棋子，黑白相間，他有近二十分鐘只是緊盯著這些棋子，抓著後頸前後擺動。最後，他將他的白子落在棋盤中央的兩枚黑子之間，將棋勢一分為二，AlphaGo 方寸大亂。

在每一場對弈中，AlphaGo 都會不斷重新計算勝率，並且顯示在控制室的一台平面顯示幕上。

在李世乭落子後——第七十八手——這部機器的反擊很差，在顯示幕上的勝率立刻大降。「AlphaGo 累積到那一步之前的所有戰略都算是報銷了，」哈薩比斯說道，「它必須重新再來。」就在此刻，李世乭抬頭看著對面的黃士傑，彷彿他擊敗的是這人，不是機器。自此之後，AlphaGo 的勝率一路下跌，在近五個小時後，它投子認輸。

DeepMind 製作的 AlphaGo 與李世乭對弈紀綠片。／YouTube

兩天後，哈薩比斯穿過四季飯店的大廳，解釋 AlphaGo 為什麼會輸。AlphaGo 當時是假設沒有人類會這樣下第七十八手，它計算出來的機率是萬分之一——這是一個它熟悉的數字。

就像 AlphaGo 一樣，李世乭的棋力也達到一個新境界，他在棋賽最後一天的私人聚會場合中這樣告訴哈薩比斯。他說與機器對弈不僅讓他重燃對圍棋的熱情，同時也讓他茅塞頓開，使他有了新想法。「我已經進步了。」他告訴哈薩比斯，一如幾天前的樊麾，李世乭之後與人類高手對弈，連贏九場。

AlphaGo 與李世乭的對弈，使得人工智慧在世人眼前大爆發，它不僅是屬於人工智慧領域與科技公司，同時也是屬於市井小民的里程碑。在美國如此，在韓國與中國更是如此，因為這些國家視圍棋為人類智慧結晶的巔峰。這場棋賽彰顯出科技的力量與其終將超越人類的恐懼，同時也帶來樂觀的前景，此一科技往往會以出人意表的方式推動人類更上層樓。儘管馬斯克等人警告其中的危險性，但是這段時期人工智慧的前景一片光明。

裘蒂．英賽恩（Jordi Ensign）是佛羅里達州一位四十五歲的程式設計師，她在讀完棋賽報導後出去在身上紋了兩幅刺青，她在右臂內側紋了 AlphaGo 的第三十七手——左臂紋了李世乭的第七十八手。