Loading [MathJax]/extensions/tex2jax.js

0

1
0

文字

分享

0
1
0

深度學習──人工智能的現在與未來

活躍星系核_96
・2014/03/20 ・2397字 ・閱讀時間約 4 分鐘 ・SR值 561 ・九年級

-----廣告,請繼續往下閱讀-----

文 / 曾郁蓁

在2012年,加州的 Google X Lab 用一千台電腦架成的 Google Brain,展現了前所未有的機器學習能力。研究者們準備了一千萬張從 Youtube 隨機截圖的靜止畫面給 Google Brain「觀看」。研究者沒有在系統中預設任何圖像知識、也沒有在圖片上附加任何說明標籤,就讓機器自己發掘圖庫所隱含的規則。在三天的「觀看」學習之後,Google Brain 成功地將這些 Youtube 截圖分成了三類:人臉、身體、還有──貓。

能夠區分出貓的圖片,是Google Brain的一大突破,也是這個研究結果的一大亮點(及笑點),但它的重要性絕不僅於此。它代表機器從此能夠如同人類一樣,在龐雜無盡的資料中自己找出潛在的抽象規則,而不需要他人的說明或指導。它也標示著人工智能(Artificial intelligence, AI)的新篇章:深度學習(deep learning)技術

深度學習

深度學習並不是研究者們憑空創造出來的運算技術,它是模仿神經網路的運算模式,以多節點、分層的運算來分析圖片上的特徵,最低層的節點們只計算每一個像素上的黑白對比,第二層的節點則根據第一層的資料、以連續的對比來分辨出線條與邊界,隨著層級越來越高、累積的計算資訊越來越複雜,就可以對圖片進行辨認與分類。以上述的Google Brain為例,它的結構一共分為九層,模仿人類視神經的分層與功能,最終可以分辨出人臉、身體、與貓圖片的決定性差異、並加以分類之。

-----廣告,請繼續往下閱讀-----
圖片來源:ANDREW NG
圖片來源:ANDREW NG

神經網路模式運算也不是剛被提出的新玩意。早在1980年代,研究者們已經開始著手進行相關研究,至今相關研究仍在學界佔有一席之地。而隨著軟硬體的光速進步,這樣的技術已經開始被應用在真實世界。2009年,Geoffrey Hinton以及他在多倫多大學的研究團隊就以深度學習技術,開發出高準確度的語音辨認技術,能夠正確地將口語轉換成文字。而這樣的技術已經被廠商採用,搭載在許多智慧型手機之中。最為大眾廣為所知的手機虛擬助理,iPhone的Siri,便是仰賴深度學習技術,來辨認用戶的語音指令。

舊技術,新突破

而史丹佛大學的研究者 Andrew Ng,便是在同時間說服 Google 公司,讓他使用其公司的豐富資源來建立了 Google Brain。借助強勁的硬體與資料庫,一舉將深度運算技術推向新的紀元:發現潛在規則、自發性分類。這樣的技術比語音轉譯還難上許多,主要是因為其成果已經脫離的單純的資料對應轉換,而進化成在大型資料庫中找尋抽象分類與規則。也因此更接近人類的智能。

除了 Google Brain 這樣,因尖端科技公司出資贊助而在資源上佔有絕對優勢的深度學習系統,Andrew Ng 也研發出不需要一千台電腦就可以消化大量資訊的系統。他表示,使用圖形處理器 (graphics processing units, GPUs),就可以架設出功能類似、但成本更為低廉的運算系統來進行深度學習。

在2012年,Geoffrey Hinton 的團隊,就使用圖形處理器架設了一個深度學習系統。知名網路圖庫 ImageNet 每年皆會舉行一場圖片辨認比賽,這個網站會提供約一百萬張的標準化圖片,並標上其分類,參賽者必須寫出可以學到分類規則的語法,並用全新的照片測試之。Geoffrey Hinton 的深度學習系統使用同樣的圖庫,可以展現比過去參賽系統高出約10%的正確率。這樣的結果,讓他被Google 聘請去提升圖片搜尋的正確性。

-----廣告,請繼續往下閱讀-----

廣泛的應用領域

除了圖片分類或語音轉譯,深度學習還有更多的用途。例如,Geoffrey Hinton 的學生 George Dahl 就應用深度學習技術,打敗了默克(Merck)藥廠現行的系統,成功提高了對特定化學分子間反應的預測力,以便更有效率地找出有用的藥物。他的團隊藉由這個深度學習系統,提升了約15%的預測力,更獲得了默克藥廠懸賞的2萬美金獎金。 Paskolos internetu su vekseliu iš žmonių automobiliui be užstato, paskolų refinansavimas, SMS greitieji kreditai

此外,麻省理工學院的 Sebastian Seung 也利用深度學習來分析腦部切片、以建立三維空間的腦圖,以及神經束的走向。這樣的系統除了更快以外,也節省了大量的人力。華盛頓大學的 William Stafford Noble 也應用深度學習系統來預測胺基酸鏈會組成如何的蛋白質、並可進一步預測此蛋白質的性狀。而這兩種應用的共同點都是其背後龐大的資料數量,以及深度學習所能提供的預測性。

人工智能的未來

雖然深度學習已經被應用到尖端科學研究及日常生活當中,而 Google 已經實際搭載在核心的搜尋功能之中。但其他知名的人工智能實驗室,對於深度學習技術的反應並不一致。

例如艾倫人工智慧中心的執行長 Oren Etzioni,就沒有考慮將深度學習納入當前開發中的人工智慧系統中。該機構目前的研究是以小學程度的科學知識為目標,希望能開發出光是看學校的教科書,就能夠輕鬆應付各類考試的智能程式。Oren Etzioni 以飛機為例,他表示,最成功的飛機設計都不是來自於模仿鳥的結構,所以腦神經的類比並無法保證人工智能的實現,因此他們暫不考慮借用深度學習技術來開發這個系統。

-----廣告,請繼續往下閱讀-----

現行的人工智能程式,基本上都是將大大小小的各種知識寫成一句一句的陳述句,再灌進系統之中。當輸入問題進去智能程式時,它就會搜尋本身的資料庫,再選擇出最佳或最近解。2011年時,IBM 有名的 Watson 智能電腦,便是使用這樣的技術,在美國的電視益智節目中打敗的人類的最強衛冕者。雖然過去都是使用傳統式的手工輸入知識,然而 Watson 團隊現在也考慮將深度學習技術應用在部分的運算之中。IBM 的首席科技主管 Rob High 表示,他們現在已經在進行實驗,檢視深度學習能如何提高 Watson 辨認圖片的能力。

雖然各家人工智能實驗室對於深度學習技術的反應不一,但科技公司與電腦科學家們已經看中它的潛在獲利能力。George Dahl 已經著手在尋找創立公司的可能性,而 Facebook 的人工智能部門也開始招募相關領域的研究者。Andrew Ng 表示,深度學習的系統會隨著資料庫越龐大,而變得更有效率。當硬體與網路的不斷進化、各種影音資料急速累積,深度學習技術將會吸引更多研究者發展它的各種可能性。George Dahl也表示,深度學習還尚在襁褓之中、才開剛始發展,他預期,這個技術將是未來的一大趨勢。

原文:Computer science: The learning machines

參考資料:

-----廣告,請繼續往下閱讀-----
  1. Google Brain報導:How Many Computers to Identify a Cat? 16,000
  2. Deep Learning(深度學習)網站
  3. ImageNet網站主辦之大規模圖片辨認競賽:Large Scale Visual Recognition Challenge 2013

特色圖片來源:Saad Faruque via photopin cc

-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
778 篇文章 ・ 128 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

1
0

文字

分享

0
1
0
純淨之水的追尋—濾水技術如何改變我們的生活?
鳥苷三磷酸 (PanSci Promo)_96
・2025/04/17 ・3142字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

本文與 BRITA 合作,泛科學企劃執行。

你確定你喝的水真的乾淨嗎?

如果你回到兩百年前,試圖喝一口當時世界上最大城市的飲用水,可能會立刻放下杯子——那水的顏色帶點黃褐,氣味刺鼻,甚至還飄著肉眼可見的雜質。十九世紀倫敦泰晤士河的水,被戲稱為「流動的污水」,當時的人們雖然知道水不乾淨,但卻無力改變,導致霍亂和傷寒等疾病肆虐。

十九世紀倫敦泰晤士河的水,被戲稱為「流動的污水」(圖片來源 / freepik)

幸運的是,現代自來水處理系統已經讓我們喝不到這種「肉眼可見」的污染物,但問題可還沒徹底解決。面對 21 世紀的飲水挑戰,哪些技術真正有效?

-----廣告,請繼續往下閱讀-----

19 世紀的歐洲因為城市人口膨脹與工業發展,面臨了前所未有的水污染挑戰。當時多數城市的供水系統仍然依賴河流、湖泊,甚至未經處理的地下水,導致傳染病肆虐。

1854 年,英國醫生約翰·斯諾(John Snow)透過流行病學調查,發現倫敦某口公共水井與霍亂爆發直接相關,這是歷史上首次確立「飲水與疾病傳播的關聯」。這項發現徹底改變了各國政府對供水系統的態度,促使公衛政策改革,加速了濾水與消毒技術的發展。到了 20 世紀初,英國、美國等國開始在自來水中加入氯消毒,成功降低霍亂、傷寒等水媒傳染病的發生率,這一技術迅速普及,成為現代供水安全的基石。    

 19 世紀末的台灣同樣深受傳染病困擾,尤其是鼠疫肆虐。1895 年割讓給日本後,惡劣的衛生條件成為殖民政府最棘手的問題之一。1896 年,後藤新平出任民政長官,他本人曾參與東京自來水與下水道系統的規劃建設,對公共衛生系統有深厚理解。為改善台灣水源與防疫問題,他邀請了曾參與東京水道工程的英籍技師 W.K. 巴爾頓(William Kinnimond Burton) 來台,規劃現代化的供水設施。在雙方合作下,台灣陸續建立起結合過濾、消毒、儲水與送水功能的設施。到 1917 年,全台已有 16 座現代水廠,有效改善公共衛生,為台灣城市化奠定關鍵基礎。

-----廣告,請繼續往下閱讀-----
圖片來源/BRITA

進入 20 世紀,人們已經可以喝到看起來乾淨的水,但問題真的解決了嗎? 科學家如今發現,水裡仍然可能殘留奈米塑膠、重金屬、農藥、藥物代謝物,甚至微量的內分泌干擾物,這些看不見、嚐不出的隱形污染,正在成為21世紀的飲水挑戰。也因此,濾水技術迎來了一波科技革新,活性碳吸附、離子交換樹脂、微濾、逆滲透(RO)等技術相繼問世,各有其專長:

活性碳吸附:去除氯氣、異味與部分有機污染物

離子交換樹脂:軟化水質,去除鈣鎂離子,減少水垢

微濾技術逆滲透(RO)技術:攔截細菌與部分微生物,過濾重金屬與污染物等

-----廣告,請繼續往下閱讀-----

這些技術相互搭配,能夠大幅提升飲水安全,然而,無論技術如何進步,濾芯始終是濾水設備的核心。一個設計優良的濾芯,決定了水質能否真正被淨化,而現代濾水器的競爭,正是圍繞著「如何打造更高效、更耐用、更智能的濾芯」展開的。於是,最關鍵的問題就在於到底該如何確保濾芯的效能?

濾芯的壽命與更換頻率:濾水效能的關鍵時刻濾芯,雖然是濾水器中看不見的內部構件,卻是決定水質純淨度的核心。以德國濾水品牌 BRITA 為例,其濾芯技術結合椰殼活性碳和離子交換樹脂,能有效去除水中的氯、除草劑、殺蟲劑及藥物殘留等化學物質,並過濾鉛、銅等重金屬,同時軟化水質,提升口感。

然而,隨著市場需求的增長,非原廠濾芯也悄然湧現,這不僅影響濾水效果,更可能帶來健康風險。據消費者反映,同一網路賣場內便可輕易購得真假 BRITA 濾芯,顯示問題日益嚴重。為確保飲水安全,建議消費者僅在實體官方授權通路或網路官方直營旗艦店購買濾芯,避免誤用來路不明的濾芯產品讓自己的身體當過濾器。

辨識濾芯其實並不難——正品 BRITA 濾芯的紙盒下方應有「台灣碧然德」的進口商貼紙,正面則可看到 BRITA 商標,以及「4週換放芯喝」的標誌。塑膠袋外包裝上同樣印有 BRITA 商標。濾芯本體的上方會有兩個浮雕的 BRITA 字樣,並且沒有拉環設計,底部則標示著創新科技過濾結構。購買時仔細留意這些細節,才能確保濾芯發揮最佳過濾效果,讓每一口水都能保證潔淨安全。

-----廣告,請繼續往下閱讀-----
濾芯本體的上方會有兩個浮雕的 BRITA 字樣,並且沒有拉環設計 (圖片來源 / BRITA)

不過,即便是正品濾芯,其效能也非永久不變。隨著使用時間增加,濾芯的孔隙會逐漸被污染物堵塞,導致過濾效果減弱,濾水速度也可能變慢。而且,濾芯在拆封後便接觸到空氣,潮濕的環境可能會成為細菌滋生的溫床。如果長期不更換濾芯,不僅會影響過濾效能,還可能讓積累的微小污染物反過來影響水質,形成「過濾器悖論」(Filter Paradox):本應淨化水質的裝置,反而成為污染源。為此,BRITA 建議每四週更換一次濾芯,以維持穩定的濾水效果。

為了解決使用者容易忽略更換時機的問題,BRITA 推出了三大智慧提醒機制,確保濾芯不會因過期使用而影響水質:

1. Memo 或 LED 智慧濾芯指示燈:即時監測濾芯狀況,顯示剩餘效能,讓使用者掌握最佳更換時間。

2. QR Code 掃碼電子日曆提醒:掃描包裝外盒上的 QR Code 記錄濾芯的使用時間,自動提醒何時該更換,減少遺漏。

-----廣告,請繼續往下閱讀-----

3. LINE 官方帳號自動通知:透過 LINE 推送更換提醒,確保用戶不會因忙碌而錯過更換時機。

在濾水技術日新月異的今天,濾芯已不僅僅是過濾裝置,更是智慧監控的一部分。如何挑選最適合自己需求的濾水設備,成為了健康生活的關鍵。

人類對潔淨飲用水的追求,從未停止。19世紀,隨著城市化與工業化發展,水污染問題加劇並引發霍亂等疾病,促使濾水技術迅速發展。20世紀,氯消毒技術普及,進一步保障了水質安全。隨著科技進步,現代濾水技術透過活性碳、離子交換等技術,去除水中的污染物,讓每一口水更加潔淨與安全。

-----廣告,請繼續往下閱讀-----
(圖片來源 / BRITA)

今天,消費者不再單純依賴公共供水系統,而是能根據自身需求選擇適合的濾水設備。例如,BRITA 提供的「純淨全效型濾芯」與「去水垢專家濾芯」可針對不同需求,從去除餘氯、過濾重金屬到改善水質硬度等問題,去水垢專家濾芯的去水垢能力較純淨全效型濾芯提升50%,並通過 SGS 檢測,通過國家標準水質檢測「可生飲」,讓消費者能安心直飲。

然而,隨著環境污染問題的加劇,真正的挑戰在於如何減少水污染,並確保每個人都能擁有乾淨水源。科技不僅是解決問題的工具,更應該成為守護未來的承諾。濾水器不僅是家用設備,它象徵著人類與自然的對話,提醒我們水的純淨不僅是技術的勝利,更是社會的責任和對未來世代的承諾。

*符合濾(淨)水器飲用水水質檢測技術規範所列9項「金屬元素」及15項「揮發性有機物」測試
*僅限使用合格自來水源,且住宅之儲水設備至少每6-12個月標準清洗且無受汙染之虞

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
225 篇文章 ・ 313 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

6
3

文字

分享

0
6
3
植物口渴就喊:「啵、啵、啵~」
胡中行_96
・2023/04/06 ・2954字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

久旱不雨,植物悲鳴,[1, 2]類似教育部《臺灣閩南語常用詞辭典》所謂「因飢餓而吵鬧」的「哭枵」(khàu-iau)。[3]別問為何沒聽過,也不怪天地寡情,人類無義,從來漠不關心。植物叫那種超音波,傳至咱們耳裡就只剩寧靜。幸好靠著以色列科學家幫忙,轉換到常人的聽覺範圍,並分享於 2023 年 3 月底的《細胞》(Cell)期刊,才廣為周知。[1]

轉換到人類聽力範圍的番茄「叫聲」。音/參考資料 1,Audio S1(CC BY 4.0)

傾聽植物的聲音

面臨乾旱或草食動物的威脅,植物會做出多種反應,例如:改變外貌,或是以揮發性有機化合物影響鄰居等。[1]過去的文獻指出,缺水引發空蝕現象(cavitation),使植物負責輸送水份的木質部,因氣泡形成、擴張和破裂而震動。[1, 4]現在科學家想知道,這是否也會產生在特定距離內,能被其他物種聽見的聲音。[1]

受試的對象是番茄菸草,分別拆成乾旱、修剪和對照 3 組。對照組又有常態生長的一般對照、有土卻無植物的盆器,以及每株植物實驗前的自體對照 3 種。實驗大致有幾個階段:首先,在隔音箱裡,距離每個受試對象 10 公分處,各立 2 支麥克風收音。將聲音的紀錄分類後,拿去進行機器學習。接著移駕溫室,讓訓練好的模型,分辨雜音和不同情況下植物的聲音。再來,觀察乾旱程度與植物發聲的關係。最後,也測試其他的植物和狀態。[1]

麥克風對著乾旱、修剪和對照組的植物收音。圖/參考資料 1,Graphical Abstract局部(CC BY 4.0)

植物錄音與機器學習

隔音箱裡常態生長的植物,每小時平均發聲少於一次;而沒植物的盆器當然完全無聲。相對地,遭受乾旱或修剪壓力的實驗組植物,反應則十分劇烈:[1]

-----廣告,請繼續往下閱讀-----
 平均值(單位)番茄菸草
乾旱發聲頻率(次/小時)35.4 ± 6.111.0 ± 1.4
 音量(聲壓分貝;dBSPL)61.6 ± 0.165.6 ± 0.4
 聲波頻率(千赫茲;kHz)49.6 ± 0.454.8 ± 1.1
修剪發聲頻率(次/小時)25.2 ± 3.215.2 ± 2.6
 音量(聲壓分貝;dBSPL)65.6 ± 0.263.3 ± 0.2
 聲波頻率(千赫茲;kHz)57.3 ± 0.757.8 ± 0.7

隔音箱中實驗組的錄音,被依照植物品種以及所受的待遇,歸納為 4 個組別,各組別再彼此配對比較,例如:乾旱的番茄對修剪的番茄等。以此資料訓練出來的機器學習模型,判別配對中各組別的準確率為 70%。第二階段在溫室中進行,自然較隔音箱嘈雜。科學家拿空蕩溫室的環境錄音,來教模型分辨並過濾雜訊。訓練後,令其區別乾旱與對照組番茄的聲音,結果 84% 正確。[1]既然能聽得出基本的差別,下一步就是了解水量對番茄發聲的影響。

體積含水量

為了操縱體積含水量(volumetric water content,縮寫VWC),即水份與泥土體積的比值或百分比,[1, 5]科學家狠下心,連續幾天都不給溫室裡的番茄植栽喝水。一邊觀察 VWC 的變化;一邊錄下它們的聲音。起先水份充足,番茄不太吵鬧;4、5 天下來,發聲的次數逐漸增加至高峰;然後應該是快渴死了,有氣無力,所以次數又開始減少。此外,番茄通常都在早上 8 點(圖表較像 7 點)到中午 12 點,以及下午 4 點至晚上 7 點,這兩個時段出聲。[1]科學家覺得這般作息,可能與規律的氣孔導度(stomatal conductance),也就是跟光合作用的換氣以及蒸散作用的水份蒸發,兩個透過氣孔進行的動作有關。[1, 6]

大部份的聲音都是在 VWC < 0.05 時出現;當 VWC > 0.1,水份還足夠,就幾乎無聲。科學家將比較的條件進一步分成 VWC < 0.01 與 VWC > 0.05、VWC < 0.05 跟 VWC > 0.05,以及 VWC < 0.01、VWC > 0.05 和淨空溫室的聲音。機器學習模型分辨起來,都有七、八成的準確率。[1]

縱軸為每日發聲次數;橫軸為缺乏灌溉的天數。圖/參考資料 1,Figure 3A(CC BY 4.0)
乾旱狀態下,番茄發聲的時段。縱軸為每小時發聲次數;橫軸為 24 小時制的時間。圖/參考資料 1,Figure 3B(CC BY 4.0)

植物發聲的原理

實驗觀察所得,都將植物發聲的機制,指向木質部導管中氣體的運動,也就是科學家先前預期的空蝕現象[1]下面為支持這項推論的理由:

-----廣告,請繼續往下閱讀-----
  1. 木質部導管的口徑,與植物被錄到的聲波頻率相關:寬的低;而窄的高。[1]
  2. 乾旱與修剪所造成的聲音不同:在木質部導管中,前者氣泡形成緩慢,發聲時數較長;而後者則相當迅速,時數較短。[1]
  3. 聲音是由植物的莖,向四面八方傳播。[1]
  4. 空蝕現象造成的震動,跟記錄到的超音波,部份頻率重疊;而沒有重疊的,其實已經超出其他物種的聽力以及麥克風收音的範圍。[1]
葡萄、菸草和番茄木質部導管的水平橫截面。圖/參考資料 1,Figure S4B(CC BY 4.0)
葡萄(綠色)、菸草(灰色)和番茄(橙色)的差異:縱軸為聲波頻率;橫軸是木質部導管的平均口徑。圖/參考資料 1,Figure S4A(CC BY 4.0)

問誰未發聲

觀察完番茄和菸草之後,科學家不禁好奇,別的植物是否也會為自己的處境發聲?還是它們都默默受苦,無聲地承擔?研究團隊拿小麥玉米卡本內蘇維濃葡萄(Cabernet Sauvignon grapevine)、奇隆丸仙人掌(Mammillaria spinosissima)與寶蓋草(henbit)來測試,發現它們果然有聲音。不過,像杏仁樹之類的木本植物,還有木質化的葡萄藤就沒有了。另外,科學家又監聽感染菸草嵌紋病毒(tobacco mosaic virus)的番茄,並錄到它們的病中呻吟。[1]

你敢有聽著咱的歌

之前有研究指出,海邊月見草(Oenothera drummondii)暴露於蜜蜂的聲音時,會產出較甜的花蜜。[2]若將角色對調過來:植物在乾旱、修剪或感染等壓力下釋出的超音波,頻率約在 20 至 100 kHz 之間,理論上 3 到 5 公尺內的某些哺乳動物或昆蟲,例如:蝙蝠、老鼠和飛蛾,應該聽得到。[1, 2]以色列科學家認為幼蟲會寄住在番茄或菸草上的飛蛾,或許能辨識植物的聲波,並做出某些反應。同理,人類可以用機器學習模型,分辨農作物的聲音,再給予相應的照顧。如此不僅節省水源,精準培育,還能預防氣候變遷所導致的糧食危機。[1]

  

備註

本文最後兩個子標題,借用音樂劇《Les Misérables》歌曲〈Do You Hear the People Sing?〉的粵語和臺語版曲名。[7]

-----廣告,請繼續往下閱讀-----
  1. Khait I, Lewin-Epstein O, Sharon R. (2023) ‘Sounds emitted by plants under stress are airborne and informative’. Cell, 106(7): 1328-1336.
  2. Marris E. (30 MAR 2023) ‘Stressed plants ‘cry’ — and some animals can probably hear them’. Nature.
  3. 教育部「哭枵」臺灣閩南語常用詞辭典(Accessed on 01 APR 2023)
  4. McElrone A J, Choat B, Gambetta GA, et al. (2013) ‘Water Uptake and Transport in Vascular Plants’. Nature Education Knowledge, 4(5):6.
  5. Datta S, Taghvaeian S, Stivers J. (AUG 2018) ‘Understanding Soil Water Content and Thresholds for Irrigation Management’. OSU Extension of Oklahoma State University.
  6. Murray M, Soh WK, Yiotis C, et al. (2020) ‘Consistent Relationship between Field-Measured Stomatal Conductance and Theoretical Maximum Stomatal Conductance in C3 Woody Angiosperms in Four Major Biomes’. International Journal of Plant Sciences, 181, 1.
  7. FireRock Music.(16 JUN 2019)「【問誰未發聲】歌詞 Mix全民超長版 粵+國+台+英 口琴+小童+學生+市民 Do you hear the people sing?」YouTube.
-----廣告,請繼續往下閱讀-----
胡中行_96
169 篇文章 ・ 67 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
-----廣告,請繼續往下閱讀-----
雅文兒童聽語文教基金會_96
61 篇文章 ・ 223 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。