0

1
0

文字

分享

0
1
0

深度學習──人工智能的現在與未來

活躍星系核_96
・2014/03/20 ・2397字 ・閱讀時間約 4 分鐘 ・SR值 561 ・九年級

-----廣告,請繼續往下閱讀-----

文 / 曾郁蓁

在2012年,加州的 Google X Lab 用一千台電腦架成的 Google Brain,展現了前所未有的機器學習能力。研究者們準備了一千萬張從 Youtube 隨機截圖的靜止畫面給 Google Brain「觀看」。研究者沒有在系統中預設任何圖像知識、也沒有在圖片上附加任何說明標籤,就讓機器自己發掘圖庫所隱含的規則。在三天的「觀看」學習之後,Google Brain 成功地將這些 Youtube 截圖分成了三類:人臉、身體、還有──貓。

能夠區分出貓的圖片,是Google Brain的一大突破,也是這個研究結果的一大亮點(及笑點),但它的重要性絕不僅於此。它代表機器從此能夠如同人類一樣,在龐雜無盡的資料中自己找出潛在的抽象規則,而不需要他人的說明或指導。它也標示著人工智能(Artificial intelligence, AI)的新篇章:深度學習(deep learning)技術

深度學習

深度學習並不是研究者們憑空創造出來的運算技術,它是模仿神經網路的運算模式,以多節點、分層的運算來分析圖片上的特徵,最低層的節點們只計算每一個像素上的黑白對比,第二層的節點則根據第一層的資料、以連續的對比來分辨出線條與邊界,隨著層級越來越高、累積的計算資訊越來越複雜,就可以對圖片進行辨認與分類。以上述的Google Brain為例,它的結構一共分為九層,模仿人類視神經的分層與功能,最終可以分辨出人臉、身體、與貓圖片的決定性差異、並加以分類之。

-----廣告,請繼續往下閱讀-----
圖片來源:ANDREW NG
圖片來源:ANDREW NG

神經網路模式運算也不是剛被提出的新玩意。早在1980年代,研究者們已經開始著手進行相關研究,至今相關研究仍在學界佔有一席之地。而隨著軟硬體的光速進步,這樣的技術已經開始被應用在真實世界。2009年,Geoffrey Hinton以及他在多倫多大學的研究團隊就以深度學習技術,開發出高準確度的語音辨認技術,能夠正確地將口語轉換成文字。而這樣的技術已經被廠商採用,搭載在許多智慧型手機之中。最為大眾廣為所知的手機虛擬助理,iPhone的Siri,便是仰賴深度學習技術,來辨認用戶的語音指令。

舊技術,新突破

而史丹佛大學的研究者 Andrew Ng,便是在同時間說服 Google 公司,讓他使用其公司的豐富資源來建立了 Google Brain。借助強勁的硬體與資料庫,一舉將深度運算技術推向新的紀元:發現潛在規則、自發性分類。這樣的技術比語音轉譯還難上許多,主要是因為其成果已經脫離的單純的資料對應轉換,而進化成在大型資料庫中找尋抽象分類與規則。也因此更接近人類的智能。

除了 Google Brain 這樣,因尖端科技公司出資贊助而在資源上佔有絕對優勢的深度學習系統,Andrew Ng 也研發出不需要一千台電腦就可以消化大量資訊的系統。他表示,使用圖形處理器 (graphics processing units, GPUs),就可以架設出功能類似、但成本更為低廉的運算系統來進行深度學習。

在2012年,Geoffrey Hinton 的團隊,就使用圖形處理器架設了一個深度學習系統。知名網路圖庫 ImageNet 每年皆會舉行一場圖片辨認比賽,這個網站會提供約一百萬張的標準化圖片,並標上其分類,參賽者必須寫出可以學到分類規則的語法,並用全新的照片測試之。Geoffrey Hinton 的深度學習系統使用同樣的圖庫,可以展現比過去參賽系統高出約10%的正確率。這樣的結果,讓他被Google 聘請去提升圖片搜尋的正確性。

-----廣告,請繼續往下閱讀-----

廣泛的應用領域

除了圖片分類或語音轉譯,深度學習還有更多的用途。例如,Geoffrey Hinton 的學生 George Dahl 就應用深度學習技術,打敗了默克(Merck)藥廠現行的系統,成功提高了對特定化學分子間反應的預測力,以便更有效率地找出有用的藥物。他的團隊藉由這個深度學習系統,提升了約15%的預測力,更獲得了默克藥廠懸賞的2萬美金獎金。 Paskolos internetu su vekseliu iš žmonių automobiliui be užstato, paskolų refinansavimas, SMS greitieji kreditai

此外,麻省理工學院的 Sebastian Seung 也利用深度學習來分析腦部切片、以建立三維空間的腦圖,以及神經束的走向。這樣的系統除了更快以外,也節省了大量的人力。華盛頓大學的 William Stafford Noble 也應用深度學習系統來預測胺基酸鏈會組成如何的蛋白質、並可進一步預測此蛋白質的性狀。而這兩種應用的共同點都是其背後龐大的資料數量,以及深度學習所能提供的預測性。

人工智能的未來

雖然深度學習已經被應用到尖端科學研究及日常生活當中,而 Google 已經實際搭載在核心的搜尋功能之中。但其他知名的人工智能實驗室,對於深度學習技術的反應並不一致。

例如艾倫人工智慧中心的執行長 Oren Etzioni,就沒有考慮將深度學習納入當前開發中的人工智慧系統中。該機構目前的研究是以小學程度的科學知識為目標,希望能開發出光是看學校的教科書,就能夠輕鬆應付各類考試的智能程式。Oren Etzioni 以飛機為例,他表示,最成功的飛機設計都不是來自於模仿鳥的結構,所以腦神經的類比並無法保證人工智能的實現,因此他們暫不考慮借用深度學習技術來開發這個系統。

-----廣告,請繼續往下閱讀-----

現行的人工智能程式,基本上都是將大大小小的各種知識寫成一句一句的陳述句,再灌進系統之中。當輸入問題進去智能程式時,它就會搜尋本身的資料庫,再選擇出最佳或最近解。2011年時,IBM 有名的 Watson 智能電腦,便是使用這樣的技術,在美國的電視益智節目中打敗的人類的最強衛冕者。雖然過去都是使用傳統式的手工輸入知識,然而 Watson 團隊現在也考慮將深度學習技術應用在部分的運算之中。IBM 的首席科技主管 Rob High 表示,他們現在已經在進行實驗,檢視深度學習能如何提高 Watson 辨認圖片的能力。

雖然各家人工智能實驗室對於深度學習技術的反應不一,但科技公司與電腦科學家們已經看中它的潛在獲利能力。George Dahl 已經著手在尋找創立公司的可能性,而 Facebook 的人工智能部門也開始招募相關領域的研究者。Andrew Ng 表示,深度學習的系統會隨著資料庫越龐大,而變得更有效率。當硬體與網路的不斷進化、各種影音資料急速累積,深度學習技術將會吸引更多研究者發展它的各種可能性。George Dahl也表示,深度學習還尚在襁褓之中、才開剛始發展,他預期,這個技術將是未來的一大趨勢。

原文:Computer science: The learning machines

參考資料:

-----廣告,請繼續往下閱讀-----
  1. Google Brain報導:How Many Computers to Identify a Cat? 16,000
  2. Deep Learning(深度學習)網站
  3. ImageNet網站主辦之大規模圖片辨認競賽:Large Scale Visual Recognition Challenge 2013

特色圖片來源:Saad Faruque via photopin cc

文章難易度
活躍星系核_96
752 篇文章 ・ 122 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

5
2

文字

分享

0
5
2
植物口渴就喊:「啵、啵、啵~」
胡中行_96
・2023/04/06 ・2954字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

久旱不雨,植物悲鳴,[1, 2]類似教育部《臺灣閩南語常用詞辭典》所謂「因飢餓而吵鬧」的「哭枵」(khàu-iau)。[3]別問為何沒聽過,也不怪天地寡情,人類無義,從來漠不關心。植物叫那種超音波,傳至咱們耳裡就只剩寧靜。幸好靠著以色列科學家幫忙,轉換到常人的聽覺範圍,並分享於 2023 年 3 月底的《細胞》(Cell)期刊,才廣為周知。[1]

轉換到人類聽力範圍的番茄「叫聲」。音/參考資料 1,Audio S1(CC BY 4.0)

傾聽植物的聲音

面臨乾旱或草食動物的威脅,植物會做出多種反應,例如:改變外貌,或是以揮發性有機化合物影響鄰居等。[1]過去的文獻指出,缺水引發空蝕現象(cavitation),使植物負責輸送水份的木質部,因氣泡形成、擴張和破裂而震動。[1, 4]現在科學家想知道,這是否也會產生在特定距離內,能被其他物種聽見的聲音。[1]

受試的對象是番茄菸草,分別拆成乾旱、修剪和對照 3 組。對照組又有常態生長的一般對照、有土卻無植物的盆器,以及每株植物實驗前的自體對照 3 種。實驗大致有幾個階段:首先,在隔音箱裡,距離每個受試對象 10 公分處,各立 2 支麥克風收音。將聲音的紀錄分類後,拿去進行機器學習。接著移駕溫室,讓訓練好的模型,分辨雜音和不同情況下植物的聲音。再來,觀察乾旱程度與植物發聲的關係。最後,也測試其他的植物和狀態。[1]

麥克風對著乾旱、修剪和對照組的植物收音。圖/參考資料 1,Graphical Abstract局部(CC BY 4.0)

植物錄音與機器學習

隔音箱裡常態生長的植物,每小時平均發聲少於一次;而沒植物的盆器當然完全無聲。相對地,遭受乾旱或修剪壓力的實驗組植物,反應則十分劇烈:[1]

-----廣告,請繼續往下閱讀-----
 平均值(單位)番茄菸草
乾旱發聲頻率(次/小時)35.4 ± 6.111.0 ± 1.4
 音量(聲壓分貝;dBSPL)61.6 ± 0.165.6 ± 0.4
 聲波頻率(千赫茲;kHz)49.6 ± 0.454.8 ± 1.1
修剪發聲頻率(次/小時)25.2 ± 3.215.2 ± 2.6
 音量(聲壓分貝;dBSPL)65.6 ± 0.263.3 ± 0.2
 聲波頻率(千赫茲;kHz)57.3 ± 0.757.8 ± 0.7

隔音箱中實驗組的錄音,被依照植物品種以及所受的待遇,歸納為 4 個組別,各組別再彼此配對比較,例如:乾旱的番茄對修剪的番茄等。以此資料訓練出來的機器學習模型,判別配對中各組別的準確率為 70%。第二階段在溫室中進行,自然較隔音箱嘈雜。科學家拿空蕩溫室的環境錄音,來教模型分辨並過濾雜訊。訓練後,令其區別乾旱與對照組番茄的聲音,結果 84% 正確。[1]既然能聽得出基本的差別,下一步就是了解水量對番茄發聲的影響。

體積含水量

為了操縱體積含水量(volumetric water content,縮寫VWC),即水份與泥土體積的比值或百分比,[1, 5]科學家狠下心,連續幾天都不給溫室裡的番茄植栽喝水。一邊觀察 VWC 的變化;一邊錄下它們的聲音。起先水份充足,番茄不太吵鬧;4、5 天下來,發聲的次數逐漸增加至高峰;然後應該是快渴死了,有氣無力,所以次數又開始減少。此外,番茄通常都在早上 8 點(圖表較像 7 點)到中午 12 點,以及下午 4 點至晚上 7 點,這兩個時段出聲。[1]科學家覺得這般作息,可能與規律的氣孔導度(stomatal conductance),也就是跟光合作用的換氣以及蒸散作用的水份蒸發,兩個透過氣孔進行的動作有關。[1, 6]

大部份的聲音都是在 VWC < 0.05 時出現;當 VWC > 0.1,水份還足夠,就幾乎無聲。科學家將比較的條件進一步分成 VWC < 0.01 與 VWC > 0.05、VWC < 0.05 跟 VWC > 0.05,以及 VWC < 0.01、VWC > 0.05 和淨空溫室的聲音。機器學習模型分辨起來,都有七、八成的準確率。[1]

縱軸為每日發聲次數;橫軸為缺乏灌溉的天數。圖/參考資料 1,Figure 3A(CC BY 4.0)
乾旱狀態下,番茄發聲的時段。縱軸為每小時發聲次數;橫軸為 24 小時制的時間。圖/參考資料 1,Figure 3B(CC BY 4.0)

植物發聲的原理

實驗觀察所得,都將植物發聲的機制,指向木質部導管中氣體的運動,也就是科學家先前預期的空蝕現象[1]下面為支持這項推論的理由:

-----廣告,請繼續往下閱讀-----
  1. 木質部導管的口徑,與植物被錄到的聲波頻率相關:寬的低;而窄的高。[1]
  2. 乾旱與修剪所造成的聲音不同:在木質部導管中,前者氣泡形成緩慢,發聲時數較長;而後者則相當迅速,時數較短。[1]
  3. 聲音是由植物的莖,向四面八方傳播。[1]
  4. 空蝕現象造成的震動,跟記錄到的超音波,部份頻率重疊;而沒有重疊的,其實已經超出其他物種的聽力以及麥克風收音的範圍。[1]
葡萄、菸草和番茄木質部導管的水平橫截面。圖/參考資料 1,Figure S4B(CC BY 4.0)
葡萄(綠色)、菸草(灰色)和番茄(橙色)的差異:縱軸為聲波頻率;橫軸是木質部導管的平均口徑。圖/參考資料 1,Figure S4A(CC BY 4.0)

問誰未發聲

觀察完番茄和菸草之後,科學家不禁好奇,別的植物是否也會為自己的處境發聲?還是它們都默默受苦,無聲地承擔?研究團隊拿小麥玉米卡本內蘇維濃葡萄(Cabernet Sauvignon grapevine)、奇隆丸仙人掌(Mammillaria spinosissima)與寶蓋草(henbit)來測試,發現它們果然有聲音。不過,像杏仁樹之類的木本植物,還有木質化的葡萄藤就沒有了。另外,科學家又監聽感染菸草嵌紋病毒(tobacco mosaic virus)的番茄,並錄到它們的病中呻吟。[1]

你敢有聽著咱的歌

之前有研究指出,海邊月見草(Oenothera drummondii)暴露於蜜蜂的聲音時,會產出較甜的花蜜。[2]若將角色對調過來:植物在乾旱、修剪或感染等壓力下釋出的超音波,頻率約在 20 至 100 kHz 之間,理論上 3 到 5 公尺內的某些哺乳動物或昆蟲,例如:蝙蝠、老鼠和飛蛾,應該聽得到。[1, 2]以色列科學家認為幼蟲會寄住在番茄或菸草上的飛蛾,或許能辨識植物的聲波,並做出某些反應。同理,人類可以用機器學習模型,分辨農作物的聲音,再給予相應的照顧。如此不僅節省水源,精準培育,還能預防氣候變遷所導致的糧食危機。[1]

  

備註

本文最後兩個子標題,借用音樂劇《Les Misérables》歌曲〈Do You Hear the People Sing?〉的粵語和臺語版曲名。[7]

-----廣告,請繼續往下閱讀-----

參考資料

  1. Khait I, Lewin-Epstein O, Sharon R. (2023) ‘Sounds emitted by plants under stress are airborne and informative’. Cell, 106(7): 1328-1336.
  2. Marris E. (30 MAR 2023) ‘Stressed plants ‘cry’ — and some animals can probably hear them’. Nature.
  3. 教育部「哭枵」臺灣閩南語常用詞辭典(Accessed on 01 APR 2023)
  4. McElrone A J, Choat B, Gambetta GA, et al. (2013) ‘Water Uptake and Transport in Vascular Plants’. Nature Education Knowledge, 4(5):6.
  5. Datta S, Taghvaeian S, Stivers J. (AUG 2018) ‘Understanding Soil Water Content and Thresholds for Irrigation Management’. OSU Extension of Oklahoma State University.
  6. Murray M, Soh WK, Yiotis C, et al. (2020) ‘Consistent Relationship between Field-Measured Stomatal Conductance and Theoretical Maximum Stomatal Conductance in C3 Woody Angiosperms in Four Major Biomes’. International Journal of Plant Sciences, 181, 1.
  7. FireRock Music.(16 JUN 2019)「【問誰未發聲】歌詞 Mix全民超長版 粵+國+台+英 口琴+小童+學生+市民 Do you hear the people sing?」YouTube.
胡中行_96
169 篇文章 ・ 65 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
雅文兒童聽語文教基金會_96
54 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。

2

7
1

文字

分享

2
7
1
日常生活範式的轉變:從紙筆到 AI
賴昭正_96
・2023/03/08 ・5723字 ・閱讀時間約 11 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

技術的進步是基於讓它適應你,因此你可能根本不會真正注意到它,所以它是日常生活的一部分。
——比爾.蓋茨(微軟公司創辦人之一)

幾天前與內人米天寶到一家常去的餐館,沒想到已經換了主人;找到一張桌子坐下後,好久都不見服務員上來打招呼;正覺得奇怪時,唯一的服務員終於出現了。內人迫不及待的馬上要菜單,「對不起,我們這裡沒有菜單,請掃描點菜。」內人哦了一聲,不知所措……還好有不落伍的老公在旁,因此總算沒有餓著肚子回家吃泡麵。

又半年前,與三位高中同學聚餐,餐後有位同學問怎麼從這裡到他弟弟的地方……,我回答說路就在你的口袋裡:「嘿,谷歌(Google),導航到……」。再又大約 1 年前,與一對老夫妻同事不知道怎麼談到了 228 事變,先生突然問那是哪一年發生的,沒有人能回答;我突然想到答案就在我口袋裡,拿出手機:「嘿,谷歌,228 事變是哪一年發生的?」

1970 年,林孝信等人在芝加哥大學創辦《科學月刊》時,日常所用的的工具是:紙張、鉛筆、橡皮、透過郵寄傳送的書信、及非必要不用的長途電話或傳真。在下圖中可以看到當時筆者用手寫的第 1 期文章「什麼是半導體」、審稿意見表、審稿人的修改、科學月刊專用稿紙、以及筆者在加州做論文時給總部林孝信的信封。這些工具現在都可以算是古董,早不是《科學月刊》運作模式,也已全部在筆者日常生活中退役了!

圖/筆者提供

是什麼重大科技的發展造成了這些改變呢?年輕的讀者或許不知道,但是筆者回想起來都覺得有點可怕,真不敢相信將不少筆者這一代人甩停在「石器時代」的巨大變化就在筆者後半生中發生!

-----廣告,請繼續往下閱讀-----

讓我們在這裡一起來回顧這 40 年來的科技大里程碑吧。

個人電腦

筆者 1975 年回到清華,隔年的暑假為高中化學教師進修班開了一門相當受歡迎的(台灣非法組裝的)蘋果個人電腦程序課。那時個人電腦才剛問世不久,但已經慢慢地引起廣大群眾的注意與興趣。

因此到了 1981 年,曾經是全世界最賺錢、最受歡迎品牌的大型電腦計算機公司 IBM(International Business Machines)終於被迫進入個人電腦市場。IBM 的聲名很快地使個人電腦在消費群眾裡達到臨界量,但那時使用者必須記得電腦語言及程式名字才能執行。

圖/筆者提供

1984 年,蘋果電腦公司(Apple Computers)推出了 Macintosh 後,個人電腦市場才真正開始起飛。Macintosh 導入電腦鼠標,其「所見即所得」(WYSIWYG, what you see is what you get)界面更讓使用電腦變得非常簡單[1]:只要會按鼠標就好,不必再記那些電腦語言及程式名字。隔年,微軟(Microsoft Corporation[2])也推出了具鼠標及「所見即所得」界面的 Windows 操作系統後,儘管個人電腦成為主流還需要幾年時間,但毫無疑問地個人電腦時代已經來臨了!

-----廣告,請繼續往下閱讀-----

在個人電腦出現之前,每到月底筆者就為了與銀行對帳搞得頭暈腦脹(時常對不起來);1993 年後,筆者便開始使用「個人賬戶管理軟體」Quicken,現在不但帳目了然,核對更大部分只是一分鐘的事情而已:它早已經是筆者日常生活中不可或缺的一部分!另一個則是微軟的「文件處理軟體」Word。但後者因間接地涉及到人工智能的應用,所以留在後面再做詳細討論。

互聯網與萬維網

互聯網(internet)始於 1960 年代,為美國政府研究人員共享信息的一種方式。它的發展有兩個原因:

  1. 60 年代的計算機體積龐大且固定不動,為了利用存儲在其它地方的計算機信息,人們必須通過傳統郵政系統發送計算機磁帶;
  2. 另一個催化劑是蘇聯於 1957 年 10 月 4 日發射人造衛星 Sputnik,促使國防部考慮即使在核攻擊後仍能傳播信息的方式,因此發展了阿帕網(ARPANET,Advanced Research Projects Agency Network,高級研究計劃署網絡)。

阿帕網雖然非常成功,但其成員僅限於某些與國防部有合同的學術和研究組織,因此創建其它網絡來提供信息共享是無可避免的……。

開始時各計算機網絡並沒有一種標準的方式來相互通信。科技學家終於在 1983 年 1 月 1 日建立了「傳輸控制協議/互聯網協議」(TCP/IP)的一新通信協議,使不同網絡上的不同類型計算機終於可以相互「交談」,現在的互聯網於焉誕生,因此當天被認為是互聯網的官方生日。阿帕網和國防數據網(Defense Data Network)後來也正式改用 TCP/IP標準,因此所有網絡現在都可以通過一種通用語言連接起來。

-----廣告,請繼續往下閱讀-----

1989 年 11 月,第一個提供商業互聯網服務(ISP, internet service provider)公司 The World 在美國出現。儘管當時電話撥號連接只能以每秒 5 萬 6 千位元的慢得令人痛苦的速度下載[3],與現在的所謂寬帶(broadband)之至少 2500 萬位元的速度相比,真是小巫見大巫,但在兩年就產生了廣泛的消費者基礎。1991 年,美國國家科學基金會(NSF)看到該公司打開了這似乎再也關閉不了的閘門,終於解除了對商業 ISP 的禁令。

圖/筆者提供

1989 年,為了滿足世界各地大學和研究所的科學家對自動化信息共享的需求,英國計算機學家伯納斯-李(Tim Berners-Lee)爵士在瑞士歐洲核子研究中心(CERN)提出了萬維網(WWW, World Wide Web)的構想:在互聯網上建立一種可以透過「超文本鏈接」(hyperlink)將文檔連接到其它文檔的信息系統,使用戶能夠從一個文檔移到另一個文檔來搜索信息。

伯納斯-李 1990 年底成功地展示了包括 WWW 瀏覽器和 HTTP 服務器的系統,於 1991 年 1 月開始提供給其它研究機構。1991 年 8 月 23 日向公眾發布後,兩年內出現了 50 個網站。現在全世界的網站已經高達 20 億個!

1994 年 10 月 13 日第一款「商業化」網絡瀏覽器 Netscape 問世,四個月內即佔據了四分之三的瀏覽器市場上;配合了個人電腦「所見即所得」的快速發展,上網已漸成為全民運動。2000 年代初期所發展出在一條電話線中可以同時負載電話和互聯網之技術[4],更為互聯網注入了新的活力,使用戶可以同時上網和打電話,提供了可以「永遠在線」的互聯網服務。

-----廣告,請繼續往下閱讀-----

離開學校或研究機構後,互聯網、萬維網、網絡瀏覽器、谷歌搜索引擎便成了是筆者寫作時尋求資料的必要工具。例如筆者在 2005 年寫《量子的故事》第二版時,如果不是它們的幫助,根本是不可能的工作!而現在寫這篇文章也是因為它們在陪伴著筆者才能快速完成的。

還有,筆者的所有經濟活動都已經是「無紙」(paperless)化了:水、電公司以及銀行等用電子郵件(見後)寄賬單後,自動提款;退休金、社會福利金每月自動入賬;銀行間可以隨時互相轉賬;……;因此可以整年不上銀行,也可以在遙遠的區域銀行開利息比較高的戶頭。股票的交易更是不可同日而語:以前根本看不到股票的瞬間動盪,買賣股票必須打電話給券商下單;現在都是瞬間個人操作!

生活中的所有經濟活動都已經是「無紙」了。圖/Envato Elements

電子郵件

早期的電腦使用者只能在同一台電腦裡留言。1971 年,麻省理工學院畢業生湯姆林森(Ray Tomlinson)在阿帕網工作時想出了創建一個使用 @ 符號的程序,使用戶能夠在阿帕網系統中的電腦間互發送消息。

沒過多久就有人找到了使用電子郵件賺錢的方法。1978 年,圖雷克(Gary Thurek)為當時 IBM 大型電腦勁敵 DEC(Digital Equipment Corporation)向數百名阿帕網用戶發送電子郵件推銷一款新產品,聲稱為該公司帶來了 1300 萬美元的銷售額,並為自己贏得了「垃圾郵件之父」的美名。 

-----廣告,請繼續往下閱讀-----

1982 年,「簡單郵件傳輸協議」(SMTP)標準化了郵件服務器發送和接收消息的方式。其它協議如互聯網「消息訪問協議」(IMAP)和「郵局協議」(POP),相繼在 80 年代中期出現。1993 年,美國兩家大商業互聯網服務商(AOL 和 Delphi)將他們的電子郵件系統連接到互聯網,使用戶能夠利用這種簡單快捷的通信方式。1996 年,微軟 Hotmail 成為第一個完全基於互聯網的免費電子郵件服務;一年後,微軟發布了預裝在 Windows 中的電子郵件程序。

現在的電子郵件當然已經不再只是當初之文字的傳送而已:圖片、網站連接、語音等等都可以透過電子郵件瞬間傳送到地球的另一方;真不敢想像當初一篇文章寄到台灣後、至少兩個禮拜才能收到回音的日子是怎麼過的?!

2012 年,湯姆林森在專門討論技術如何改變廣大群眾未來生活的「The Verge」網站裡謂:「我看到電子郵件的使用方式大體上與我預想的完全一致」。

智能手機

手機(cell phone)和車載電話(car phone)早就存在,但當時只能用來打電話(因為少見及昂貴,擁有它們事實上是一種身份的代表)。80 年代初手機網絡開始出現後,手機便慢慢取代家用電話成為無線便攜式電話。1999 年,加拿大「動態研究」(Research In Motion)公司推出可以傳接電子郵件的黑莓(BlackBerry)手機;2002 年進一步推出了一款「允許用戶管理他們所有的業務通信和信息、永遠在線、永遠連接的時尚……無線手持設備」的智能手機後,黑莓手機迅速成為商務人士必備的生活工具。

-----廣告,請繼續往下閱讀-----
黑莓手機為商務人士必備的生活工具。圖/維基百科

2005 年 7 月,谷歌收購移動操作系統「安卓」(Android)。蘋果電腦公司於 2007 年元月推出具有應用程序功能和突破性互聯網通信工具的結合體手機 iPhone;緊接著, 台灣宏達國際電子股份有限公司於 2008 年 9 月推出第一款商用安卓操作系統的智能手機。

2010,谷歌當時的企業發展副總裁勞維(David Lawee)回憶說這是谷歌「有史以來最好的交易」。誠然也!現今,安卓及蘋果手機操作系統(iOS)幾乎已經控制了整個智能手機市場。

現在的手機已經不再只是打電話的工具,而是將巨大的計算能力置於我們的掌中,帶領廣大的群眾進入了掌上個人電腦領域,徹底地完全改變了我們的日常生活方式!

人工智能

前面提到「文件處理軟體」是筆者日常生活中不可或缺的一部分!但真正讓筆者丟掉紙張、鉛筆、和橡皮擦的並不是它,而是谷歌的「語音轉文字軟體」。說來慚愧,筆者以前國文沒學好,不會注音符號;因此雖然有「文件處理軟體」,筆者還是沒有辦法輸入中文。

-----廣告,請繼續往下閱讀-----

因此曾有一段時間「威脅」《科學月刊》,謂如果不找人幫打字,那就不寫了。筆者當然心知肚明,隨著科普文章的作者越來越多,這「威脅」遲早會不管用的,因此很早就想用「語音轉文字軟體」。但早期的「語音轉文字軟體」似乎聽不太懂筆者的台灣國語,錯誤百出,因此只能心有餘而力不足的感嘆而已。

「語音轉文字軟體」所使用的思考方式不是寫傳統軟體的邏輯,而是「人工智能」(artificial intelligence)的運用。但中文「童因志泰掇」,因此人工智能必須比較「聰明」,相對地發展也比較慢。但今日的中文「語音轉文字軟體」已非昔比;如果沒有它,筆者在中文文章寫作以及通訊上,不是丟不了紙筆,便還是一位只能用英文的「假外國人」!

今天的「人工智能」不但是能支持語音轉文字的智能設備、還會與你下棋、幫你開車!事實上當然不止如此:如前面所說的,還可以隨時回答你的歷史與地理之無知!你想知道現在的高中生如何做數學作業嗎?只要將問題用智能手機照相下來,就可以立即得到答案!不懂中文的外孫女有一天突然用中文發簡訊給筆者問:「為什麼需要學第 2 種外國語呢?」

「人工智能」幫助我們達成日常生活中的各種事。圖/Envato Elements

去年 11 月 30 日美國舊金山 OpenAI 公司提供了一款免費的人工智能軟體 ChatGPT,它不但可以回答你任何問題、跟你聊天,還可以快速(以秒計)幫你寫散文、詩歌、文章。這不但立即引起整個教育界的震撼,也成為報章雜誌熱門討論的話題!過年後,不少公立高中學校便迫不及待地宣布禁止裝置及使用。

斯坦福大學教育學助理教授萊文(Sarah Levin)說:「如果你要它(對一些流行小說)進行文學分析,它會做得很好,幫你寫一篇會讓許多老師很高興、希望自己的學生都能夠寫出來的 B+ 文章!」寫一篇散文是美國大學「入學考試」中非常重要的一個評估標準,不知道他們以後將如何如何處理這一問題?

斯坦福大學「科技工數」(STEM)教學與學習實驗室的負責人李(Victor Lee)也說:「從技術層面來看,就像谷歌超越所有的網路搜索引擎,或 Netflix 改變了人們對流媒體內容的期望一樣,它(ChatGPT)將沖擊(整個)教育系統。……我們正處於一個新時代。」

這到底是好是壞? ChatGPT 回答說:「在校使用我或其他語言模型可以成為加強教育的寶貴工具;但重要的是要謹慎對待這項技術,並確保以有利於學生學習的方式使用我」。

結論

因為筆者覺得很有道理,在這裡我們就用被誤傳是愛因斯坦所說的話來結束吧:「我害怕技術與我們的人性重疊的那一天,世界上只會有一代白痴[5]。看來那一天已經離我們不遠了!?

在此先警告讀者:或許筆者下篇文章已經不是自己寫的了[6]

註釋

  1. 這兩項技術(鼠標和「所見即所得」)都不是蘋果電腦公司的創見,市場上均早已有之。SRI International 的 Douglas Engelbart 於 1960 年代初開始開發鼠標;鼠標控制計算機系統的第一次公開演示是 1968 年。因其對後來使用個人電腦的重要性發展,該次演示被稱為「所有演示之母」(the mother of all demos)。到 1972 年,從 Engelbert 得來的靈感,隔鄰 Xerox 公司的研究單位 PARC 之圖形用戶界面技術已經發展到可以支持第一個 WYSIWYG 編輯器的程度;1974 年,Butler Lampson、Charles Simonyi、及其團隊推出了世界上第一個所見即所得的文檔處理程序 Bravo。
  2. IBM 一直不看好個人電腦,也害怕個人電腦侵蝕了大型電腦的利潤,因此對個人電腦的發展一直採取消極的態度,所以將操作系統的發展工作交給了微軟。
  3. 可以看到一個接一個的英文字母在螢幕上出現。
  4. 在這之前,人們無法同時打電話和瀏覽互聯網,為了避免家庭爭執,許多家庭(包括筆者)均被強迫裝上兩條電話線。
  5. 愛因斯坦:「我們的技術已經超越了我們的人性,這一點已經變得非常明顯。」
  6. 事實上現在人工智慧的最大問題是:還沒辦法個性化!所以是寫不出這句話來了。

延伸閱讀:
「網路安全技術與比特幣」(科學月刊 2018 年 6 月號),轉載於「財團法人善科教育基金會」的網站

所有討論 2
賴昭正_96
42 篇文章 ・ 50 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。