0

0
0

文字

分享

0
0
0

教電腦「看」世界:電腦也能當球賽戰術分析員!

研之有物│中央研究院_96
・2017/04/11 ・3258字 ・閱讀時間約 6 分鐘 ・SR值 552 ・八年級

-----廣告,請繼續往下閱讀-----

為什麼要研究「電腦視覺」?

「電腦視覺(computer vision)」是研究怎麼讓機器「看」這個世界。在相機、手機、監視器、行車紀錄器等設備無所不在的今天,人類社會中的視訊資料量,前所未有地巨大。中研院資訊所特聘研究員廖弘源與團隊,教電腦懂得偵測、識別、分析這些影像訊息,進而做出判斷或行動,如此可衍生各種重要的應用,如人臉辨識、物件偵測、車輛追蹤、街景分析等。

輕按快門,相機可以快速找到人臉對焦;機場快速通關窗口,機器能在幾秒鐘之內認出你是誰;裝一台攝影機,就可以計算某段時間內有多少人車經過……「電腦視覺」加上「機器學習」技術的進步,讓我們的生活更加安全及便利。

不過,電腦可不是一開始就這麼聰明的。

研究電腦視覺及機器學習,設法讓電腦變聰明的廖弘源博士。圖/張語辰提供;黃楷元設計

教電腦看世界 特徵辨認第一課

電腦「看」世界的方式,和你我很不一樣。在我們眼中,一張圖畫裡可能有人物有風景。但在電腦「眼」中,卻只是幾萬幾億個不同顏色的小點(其實就是像素,pixel),以某個順序排列起來而已。

當「人眼看世界」時,可以有邏輯地思考、解釋眼前的人事物。圖/廖弘源提供
但「電腦看世界」時,一棟建築或一個碼頭,在電腦眼中只是一堆像素、或一串位元。圖/廖弘源提供

中央研究院資訊所特聘研究員廖弘源,窮畢生之力,都在教電腦怎麼「看」世界:從 0 與 1 組合成的數位世界中,找出各種「特徵」、並據此識別出特定的物件,進而判斷視訊資料的意義。

-----廣告,請繼續往下閱讀-----

比方說,媽媽今天燙了個捲捲頭回家,爸爸可能會一時之間認不出來,但電腦依然能辨認這位捲髮女士是媽媽,因為五官並沒有改變。廖弘源和研究團隊在 2001 年發表的論文,探討此一問題,證明「五官特徵」才是電腦辨識人臉的依據,而非五官之外的髮型、衣著、首飾等,此知識讓業界的臉部辨識系統發展地更精準,也成為這領域近廿年來必讀的文獻之一。

以「識別」與「比對」為核心,電腦視覺延伸出很多用途。廖弘源和研究團隊廿多年來開發出了多項創新技術,像是人臉和車牌的辨識系統,現在已是治安保全的重要利器;而數位檔案加上「雞尾酒浮水印」,則可以防範辛苦的智慧結晶被盜用。

妙手回春 老相片老電影重獲新生

2006 年起,廖弘源接手另一項艱難任務:「數位典藏與數位學習國家型科技計畫」。面對龐大的數位典藏檔案,首要工作就是快速有效地判讀、註解、並擷取多媒體內容。多媒體資料不只圖片,還包括影片。影片等於是一秒鐘 30 張圖片串接在一起,再加上聲音,資訊量非常龐大,因此分析難度,跟簡單的圖片不可同日而語。

另外一個大難題是,許多珍貴的老膠捲,有的被蟲蛀、有的甚至發霉了,眼看就要損毀。還好,廖弘源研究團隊成功打出一記「還我漂亮拳」!一連串視訊篡改(video inpainting)的研究,應用在數位修補技術上,成功幫受損的照片或影片「回春」。

-----廣告,請繼續往下閱讀-----

先要能「篡改」,才有能力「修復」。

什麼是視訊篡改?目的不是要捏造不存在的歷史、或是製造虛構的畫面,但透過「無中生有」的原理,卻可以還原已經被破壞的元素。像下圖照片所示,原本斑駁陳舊,但電腦程式可以自動擷取摺痕周邊的影像資訊,用類似「模擬」的方式,產生出原本不存在於照片上的元素,把缺損給填補起來。

充滿歲月痕跡的老照片(左),按一個鍵,色調不再泛黃、摺痕也消失無蹤(右) 。圖/廖弘源提供;黃楷元設計

要修補動態的影片更加困難,廖弘源團隊做出了領先世界的創新研究,採用一種 ISOMAP 技術,以非線性的方式降低維度,不但減少了影片資料運算所需的記憶容量,還能用空間的轉換,填補上被破壞的片段,讓動作看起來自然而連續。許多發霉的老膠捲、經典電影或相片,在這項技術之下,重獲新生。

人連續的動作,經過 ISOMAP 技術進行轉換後,連結連續姿態變化的軌跡。圖/廖弘源提供;黃楷元、張語辰設計

人工智慧當道 電腦視覺技術突飛猛進

以上所有研究與技術,在 2012 年遇到了一個重大分水嶺,那就是「深度學習(deep learning)」技術的應用。這是一種類神經網絡研究,也就是用數學模型去模擬生物中樞神經的結構和功能。

早期,這樣的研究受限於電腦運算速度,隨著電腦效能大幅提升,深度學習的成熟也一日千里。日前喧騰一時的 Google Alpha Go ,就是藉由輸入了無數的棋譜讓電腦進行深度學習,選出最可能獲勝的落子位置,逐一擊敗各國頂尖職業圍棋選手。

-----廣告,請繼續往下閱讀-----

而在電腦視覺領域的國際盛會──大規模視覺辨識競賽(Large Scale Visual Recognition Challenge, ILSVRC),主辦單位提供 1000 類超過 120 萬張的影像,讓參賽團隊設計的程式去判斷類別。 2010 年首次舉辦時,表現最佳的系統錯誤率仍高達 28% 。但來到分水嶺的 2012 年,透過深度學習技術,錯誤率大幅降低到 16% 。 2015 年更是一舉突破人類極限,錯誤率達到 3.7%(人眼辨識的極限是 5%),正式宣告,電腦視覺比人類更精準的時代來臨。

廖弘源的研究團隊,也著力於此,開展了兩項創新的研究。第一個,是「籃球進攻戰術分析」。電視轉播的球賽,常聽球評或教練,戰術分析得頭頭是道,未來,透過深度學習,可以讓電腦直接從比賽的影片中,球員跑動的軌跡,就判讀出這一波進攻是打什麼戰術。

電腦先擷取球賽的片段,辨認出移動的球員(上圖),然後轉換成平面,測量移動的軌跡與速度 (中圖),最後,透過數學函數的分析,比對資料庫,找出相符的戰術(下圖)。圖/廖弘源提供;黃楷元設計

另一個研究則是「演唱會片段自動拼貼(mashup)」。一場演唱會,可能有數百個粉絲,從不同角度、不同距離,拍下了不同片段,上傳到 YouTube 上。那麼,有沒有可能,讓電腦自動挑出這些片段,然後重新剪輯成高品質的完整演唱會影像呢?這項大工程有許多問題,等著廖弘源研究團隊一一克服。

他們先用深度學習技術,讓電腦分辨影像中的不同物件(歌手、舞台、樂器、觀眾等),接著再用另一套模式(Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM)對影片的每一個鏡頭進行分類,辨認出是遠景、中景、近景、或是特寫。然後還要比對音訊,整理出影片的正確時間順序。最後,才依照順序、分鏡邏輯、和情緒鋪陳,組合出最佳的影片。

-----廣告,請繼續往下閱讀-----
不同角度、不同距離、不同段落的演唱會影片,混搭拼貼成完整的演出視訊。圖/廖弘源提供;黃楷元設計

為了「教」電腦分析這些資訊,廖弘源笑稱,自己看了無數的籃球影片,從不會打球變成了戰術大師;看了幾百場演唱會,也讓他從音痴化身成音樂總監。受訪時,廖弘源神采奕奕地談著這些研究,言談中除了自豪,更多的是一種身為「科學家」的使命感,強調無論做什麼研究,要當具有開創性的「科學家」,而不只是依循既定方法的「工程師」。

人類持續進步,電腦也是。我們過去總認為,電腦是工具,只能幫我們處理機械化的工作。但廖弘源博士兩個最新研究之中,都包含著非常複雜的深度學習運算技術,若研發成熟後,人工智慧在影片處理上的技巧,將會突飛猛進。或許,「電腦藝術家」誕生的一天,指日可待!

延伸閱讀:

  • 執行編輯|黃楷元;美術編輯|張語辰

本著作由研之有物製作,以創用CC 姓名標示–非商業性–禁止改作 4.0 國際 授權條款釋出。

-----廣告,請繼續往下閱讀-----

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

文章難易度
研之有物│中央研究院_96
296 篇文章 ・ 3470 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

2
0

文字

分享

0
2
0
人體吸收新突破:SEDDS 的魔力
鳥苷三磷酸 (PanSci Promo)_96
・2024/05/03 ・1194字 ・閱讀時間約 2 分鐘

-----廣告,請繼續往下閱讀-----

本文由 紐崔萊 委託,泛科學企劃執行。 

營養品的吸收率如何?

藥物和營養補充品,似乎每天都在我們的生活中扮演著越來越重要的角色。但你有沒有想過,這些關鍵分子,可能無法全部被人體吸收?那該怎麼辦呢?答案或許就在於吸收率!讓我們一起來揭開這個謎團吧!

你吃下去的營養品,可以有效地被吸收嗎?圖/envato

當我們吞下一顆膠囊時,這個小小的丸子就開始了一場奇妙的旅程。從口進入消化道,與胃液混合,然後被推送到小腸,最後透過腸道被吸收進入血液。這個過程看似簡單,但其實充滿了挑戰。

首先,我們要面對的挑戰是藥物的溶解度。有些成分很難在水中溶解,這意味著它們在進入人體後可能無法被有效吸收。特別是對於脂溶性成分,它們需要透過油脂的介入才能被吸收,而這個過程相對複雜,吸收率也較低。

-----廣告,請繼續往下閱讀-----

你有聽過「藥物遞送系統」嗎?

為了解決這個問題,科學家們開發了許多藥物遞送系統,其中最引人注目的就是自乳化藥物遞送系統(Self-Emulsifying Drug Delivery Systems,簡稱 SEDDS),也被稱作吸收提升科技。這項科技的核心概念是利用遞送系統中的油脂、界面活性劑和輔助界面活性劑,讓藥物與營養補充品一進到腸道,就形成微細的乳糜微粒,從而提高藥物的吸收率。

自乳化藥物遞送系統,也被稱作吸收提升科技。 圖/envato

還有一點,這些經過 SEDDS 科技處理過的脂溶性藥物,在腸道中形成乳糜微粒之後,會經由腸道的淋巴系統吸收,因此可以繞過肝臟的首渡效應,減少損耗,同時保留了更多的藥物活性。這使得原本難以吸收的藥物,如用於愛滋病或新冠病毒療程的抗反轉錄病毒藥利托那韋(Ritonavir),以及緩解心絞痛的硝苯地平(Nifedipine),能夠更有效地發揮作用。

除了在藥物治療中的應用,SEDDS 科技還廣泛運用於營養補充品領域。許多脂溶性營養素,如維生素 A、D、E、K 和魚油中的 EPA、DHA,都可以通過 SEDDS 科技提高其吸收效率,從而更好地滿足人體的營養需求。

隨著科技的進步,藥品能打破過往的限制,發揮更大的療效,也就相當於有更高的 CP 值。SEDDS 科技的出現,便是增加藥物和營養補充品吸收率的解決方案之一。未來,隨著科學科技的不斷進步,相信會有更多藥物遞送系統 DDS(Drug Delivery System)問世,為人類健康帶來更多的好處。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
199 篇文章 ・ 304 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

5
2

文字

分享

0
5
2
植物口渴就喊:「啵、啵、啵~」
胡中行_96
・2023/04/06 ・2954字 ・閱讀時間約 6 分鐘

久旱不雨,植物悲鳴,[1, 2]類似教育部《臺灣閩南語常用詞辭典》所謂「因飢餓而吵鬧」的「哭枵」(khàu-iau)。[3]別問為何沒聽過,也不怪天地寡情,人類無義,從來漠不關心。植物叫那種超音波,傳至咱們耳裡就只剩寧靜。幸好靠著以色列科學家幫忙,轉換到常人的聽覺範圍,並分享於 2023 年 3 月底的《細胞》(Cell)期刊,才廣為周知。[1]

轉換到人類聽力範圍的番茄「叫聲」。音/參考資料 1,Audio S1(CC BY 4.0)

傾聽植物的聲音

面臨乾旱或草食動物的威脅,植物會做出多種反應,例如:改變外貌,或是以揮發性有機化合物影響鄰居等。[1]過去的文獻指出,缺水引發空蝕現象(cavitation),使植物負責輸送水份的木質部,因氣泡形成、擴張和破裂而震動。[1, 4]現在科學家想知道,這是否也會產生在特定距離內,能被其他物種聽見的聲音。[1]

受試的對象是番茄菸草,分別拆成乾旱、修剪和對照 3 組。對照組又有常態生長的一般對照、有土卻無植物的盆器,以及每株植物實驗前的自體對照 3 種。實驗大致有幾個階段:首先,在隔音箱裡,距離每個受試對象 10 公分處,各立 2 支麥克風收音。將聲音的紀錄分類後,拿去進行機器學習。接著移駕溫室,讓訓練好的模型,分辨雜音和不同情況下植物的聲音。再來,觀察乾旱程度與植物發聲的關係。最後,也測試其他的植物和狀態。[1]

麥克風對著乾旱、修剪和對照組的植物收音。圖/參考資料 1,Graphical Abstract局部(CC BY 4.0)

植物錄音與機器學習

隔音箱裡常態生長的植物,每小時平均發聲少於一次;而沒植物的盆器當然完全無聲。相對地,遭受乾旱或修剪壓力的實驗組植物,反應則十分劇烈:[1]

-----廣告,請繼續往下閱讀-----
 平均值(單位)番茄菸草
乾旱發聲頻率(次/小時)35.4 ± 6.111.0 ± 1.4
 音量(聲壓分貝;dBSPL)61.6 ± 0.165.6 ± 0.4
 聲波頻率(千赫茲;kHz)49.6 ± 0.454.8 ± 1.1
修剪發聲頻率(次/小時)25.2 ± 3.215.2 ± 2.6
 音量(聲壓分貝;dBSPL)65.6 ± 0.263.3 ± 0.2
 聲波頻率(千赫茲;kHz)57.3 ± 0.757.8 ± 0.7

隔音箱中實驗組的錄音,被依照植物品種以及所受的待遇,歸納為 4 個組別,各組別再彼此配對比較,例如:乾旱的番茄對修剪的番茄等。以此資料訓練出來的機器學習模型,判別配對中各組別的準確率為 70%。第二階段在溫室中進行,自然較隔音箱嘈雜。科學家拿空蕩溫室的環境錄音,來教模型分辨並過濾雜訊。訓練後,令其區別乾旱與對照組番茄的聲音,結果 84% 正確。[1]既然能聽得出基本的差別,下一步就是了解水量對番茄發聲的影響。

體積含水量

為了操縱體積含水量(volumetric water content,縮寫VWC),即水份與泥土體積的比值或百分比,[1, 5]科學家狠下心,連續幾天都不給溫室裡的番茄植栽喝水。一邊觀察 VWC 的變化;一邊錄下它們的聲音。起先水份充足,番茄不太吵鬧;4、5 天下來,發聲的次數逐漸增加至高峰;然後應該是快渴死了,有氣無力,所以次數又開始減少。此外,番茄通常都在早上 8 點(圖表較像 7 點)到中午 12 點,以及下午 4 點至晚上 7 點,這兩個時段出聲。[1]科學家覺得這般作息,可能與規律的氣孔導度(stomatal conductance),也就是跟光合作用的換氣以及蒸散作用的水份蒸發,兩個透過氣孔進行的動作有關。[1, 6]

大部份的聲音都是在 VWC < 0.05 時出現;當 VWC > 0.1,水份還足夠,就幾乎無聲。科學家將比較的條件進一步分成 VWC < 0.01 與 VWC > 0.05、VWC < 0.05 跟 VWC > 0.05,以及 VWC < 0.01、VWC > 0.05 和淨空溫室的聲音。機器學習模型分辨起來,都有七、八成的準確率。[1]

縱軸為每日發聲次數;橫軸為缺乏灌溉的天數。圖/參考資料 1,Figure 3A(CC BY 4.0)
乾旱狀態下,番茄發聲的時段。縱軸為每小時發聲次數;橫軸為 24 小時制的時間。圖/參考資料 1,Figure 3B(CC BY 4.0)

植物發聲的原理

實驗觀察所得,都將植物發聲的機制,指向木質部導管中氣體的運動,也就是科學家先前預期的空蝕現象[1]下面為支持這項推論的理由:

-----廣告,請繼續往下閱讀-----
  1. 木質部導管的口徑,與植物被錄到的聲波頻率相關:寬的低;而窄的高。[1]
  2. 乾旱與修剪所造成的聲音不同:在木質部導管中,前者氣泡形成緩慢,發聲時數較長;而後者則相當迅速,時數較短。[1]
  3. 聲音是由植物的莖,向四面八方傳播。[1]
  4. 空蝕現象造成的震動,跟記錄到的超音波,部份頻率重疊;而沒有重疊的,其實已經超出其他物種的聽力以及麥克風收音的範圍。[1]
葡萄、菸草和番茄木質部導管的水平橫截面。圖/參考資料 1,Figure S4B(CC BY 4.0)
葡萄(綠色)、菸草(灰色)和番茄(橙色)的差異:縱軸為聲波頻率;橫軸是木質部導管的平均口徑。圖/參考資料 1,Figure S4A(CC BY 4.0)

問誰未發聲

觀察完番茄和菸草之後,科學家不禁好奇,別的植物是否也會為自己的處境發聲?還是它們都默默受苦,無聲地承擔?研究團隊拿小麥玉米卡本內蘇維濃葡萄(Cabernet Sauvignon grapevine)、奇隆丸仙人掌(Mammillaria spinosissima)與寶蓋草(henbit)來測試,發現它們果然有聲音。不過,像杏仁樹之類的木本植物,還有木質化的葡萄藤就沒有了。另外,科學家又監聽感染菸草嵌紋病毒(tobacco mosaic virus)的番茄,並錄到它們的病中呻吟。[1]

你敢有聽著咱的歌

之前有研究指出,海邊月見草(Oenothera drummondii)暴露於蜜蜂的聲音時,會產出較甜的花蜜。[2]若將角色對調過來:植物在乾旱、修剪或感染等壓力下釋出的超音波,頻率約在 20 至 100 kHz 之間,理論上 3 到 5 公尺內的某些哺乳動物或昆蟲,例如:蝙蝠、老鼠和飛蛾,應該聽得到。[1, 2]以色列科學家認為幼蟲會寄住在番茄或菸草上的飛蛾,或許能辨識植物的聲波,並做出某些反應。同理,人類可以用機器學習模型,分辨農作物的聲音,再給予相應的照顧。如此不僅節省水源,精準培育,還能預防氣候變遷所導致的糧食危機。[1]

  

備註

本文最後兩個子標題,借用音樂劇《Les Misérables》歌曲〈Do You Hear the People Sing?〉的粵語和臺語版曲名。[7]

-----廣告,請繼續往下閱讀-----

參考資料

  1. Khait I, Lewin-Epstein O, Sharon R. (2023) ‘Sounds emitted by plants under stress are airborne and informative’. Cell, 106(7): 1328-1336.
  2. Marris E. (30 MAR 2023) ‘Stressed plants ‘cry’ — and some animals can probably hear them’. Nature.
  3. 教育部「哭枵」臺灣閩南語常用詞辭典(Accessed on 01 APR 2023)
  4. McElrone A J, Choat B, Gambetta GA, et al. (2013) ‘Water Uptake and Transport in Vascular Plants’. Nature Education Knowledge, 4(5):6.
  5. Datta S, Taghvaeian S, Stivers J. (AUG 2018) ‘Understanding Soil Water Content and Thresholds for Irrigation Management’. OSU Extension of Oklahoma State University.
  6. Murray M, Soh WK, Yiotis C, et al. (2020) ‘Consistent Relationship between Field-Measured Stomatal Conductance and Theoretical Maximum Stomatal Conductance in C3 Woody Angiosperms in Four Major Biomes’. International Journal of Plant Sciences, 181, 1.
  7. FireRock Music.(16 JUN 2019)「【問誰未發聲】歌詞 Mix全民超長版 粵+國+台+英 口琴+小童+學生+市民 Do you hear the people sing?」YouTube.
胡中行_96
169 篇文章 ・ 65 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
雅文兒童聽語文教基金會_96
55 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。