Loading [MathJax]/extensions/tex2jax.js

0

0
0

文字

分享

0
0
0

氣候變遷下的災難須知(三):災難風險評估不能只靠科學

陳 慈忻
・2013/03/01 ・1954字 ・閱讀時間約 4 分鐘 ・SR值 554 ・八年級

今年6月全球氣候變遷風險感知度調查,越來越多民眾同意政府徵稅或提高油水電價格以發展再生能源,更多的民眾認為環境保護優於經濟發展,油電補貼不應該補貼產業,更有高達80%的人願意為了後代子孫延緩經濟發展。

在台灣經濟景氣低落之際,台灣人並未將環境問題拋開,盲目追求GDP經濟。然而究竟整體政策思維要如何實踐?臺灣大學國家發展研究所的周桂田教授長期研究災難風險治理,在採訪中,他指出災難風險評估最大的問題是「人」。

什麼是災害風險?

周:風險這個名詞容易讓人聯想到機率,如果又提到災害,人們想到的問題可能是「今天出門被雷劈的機率有多少」,或是從威脅生命的天災如地震、土石流、洪水、海嘯……等,來想像災害風險的意思。

但是更廣義來說,災害風險要考慮到全球暖化、劇烈氣候的不確定性,從這個觀點來看災害的風險定義更廣了。除了暴雨、土石流等戲劇性的強烈災害,還包括乾旱、公共衛生、糧食安全、能源配置、產業規劃等問題。舉例來說,台灣都市熱島效應嚴重,如果還發展高耗能產業,熱島效應會更劇烈,產生的溫室效應更嚴重,導致農業、健康、甚至疾病問題,這都是「災害風險」。

-----廣告,請繼續往下閱讀-----

氣候變遷之下,自然科學領域的努力與瓶頸

周:過去災害風險的研究主流是自然科學,科學家運用大氣模型去預測氣候變化,抑或像內政部進行全國土石流潛勢地圖整合,利用地理資訊系統的技術,能夠在雨量達到警戒值時封閉道路。

但是當氣候的不確定性更加嚴重,要如何準確預測是大問題,我們不能期待自然科學解決一切。氣候變遷需要政府、全體公民、社會科學研究者,甚至宗教團體共同面對。

除了從自然科學面的「量化」評估,社會科學領域重視社會經濟族群脆弱度的「質性」風險評估,重視共同社會制度下各個地方不同的社會條件、文化。比方說,哪一個地區老人住得比較多,因此在進行撤離時需要有不同的規劃;哪些地方是原住民長久居住地,遷村的時候如何尊重族群倫理。這些在以自然科學為評估準則的舊模式中是被忽略的。

什麼是社會科學角度下的災害風險治理?

周:聯合國開發總署2005年點名台灣是潛勢災害最嚴重的地區,台灣地區的氣溫因為熱島效應比全球平均暖化上升溫度更嚴重。跨領域整合已是迫在眉睫。

-----廣告,請繼續往下閱讀-----

社會科學領域學者不從「管理科技」來描述災害風險,而談「風險治理」。管理是從專家角度去進行專業分析,然而治理比管理多了責任性,也更強調高度透明。從長遠來看,社會科學者需要考慮氣候變遷之下的國土規劃、農糧安全、產業規劃、能源配置、人文倫理、族群問題以及社會永續。

風險治理要如何進行呢?首先,「風險評估」的部份是透過長期且完整資料庫,包括自然科學數據、人類學、社會學質性資料,來整合性的評估某區域或族群在自然科學、人文社會兩個層次的脆弱度。再者,「風險溝通」是由公家機關或研究者與當地住民共同參與,不以說服居民服從專家為目標,而是強調公民參與、公民自治的過程。「風險管理」是政府依據風險評估資料、風險溝通所蒐集的意見,做出富有政治責任、呼應社會公平的決策。


公民參與可以導向雙贏,為什麼仍有爭議?

周:台灣過去是一個高度專家政治的社會,在政策規劃的階段是由專家治理,沒有公民直接參與的程序;第2個階段政策可行性評估中,委外單位往往迎合政府規畫而沒有達到監督目的;最後政策執行往往與民眾強行接觸之下發生衝突。事實上世界各地許多國家在1970年代也採專家政治。但是當專家已經無法準確的預測結果,趨勢轉向公民參與政治、發展公共治理創新。

荷蘭治水的經驗告訴我們,為了形成共識,國民可以花上4000小時去討論如何解決問題;日本在南亞海嘯後宣布,面對複合性災害要以長期的公眾參與,處理問題時才不會發生二度衝突,納進地方真正的聲音,製造當地雙贏,公民參與、讓更多利益相關者共同做決策,已經形成高度共識。當前這麼多的問題,台灣政府應該更積極採取公共參與的模式,讓公民、國家、企業一起面對、處理。

-----廣告,請繼續往下閱讀-----

(本文原發表於行政院國家科學委員會-科技大觀園「科技新知」。歡迎大家到科技大觀園的網站看更多精彩又紮實的科學資訊,也有臉書喔!)

延伸學習:周桂田(民96),Global Climate Change as Globalizational Risk Society – Glocalizational Risk Governance,Global Change and Sustainable Development,1(1),p.81-89。
-----廣告,請繼續往下閱讀-----
文章難易度
陳 慈忻
55 篇文章 ・ 1 位粉絲
在丹麥的博士生,專長是用機器學習探索人類生活空間,正在研究都市環境變遷與人類健康的關係。曾擔任防災科普小組編輯、社會創新電子報主編。

0

1
0

文字

分享

0
1
0
拆解邊緣AI熱潮:伺服器如何提供穩固的運算基石?
鳥苷三磷酸 (PanSci Promo)_96
・2025/05/21 ・5071字 ・閱讀時間約 10 分鐘

本文與 研華科技 合作,泛科學企劃執行。

每次 NVIDIA 執行長黃仁勳公開發言,總能牽動整個 AI 產業的神經。然而,我們不妨設想一個更深層的問題——如今的 AI 幾乎都倚賴網路連線,那如果哪天「網路斷了」,會發生什麼事?

想像你正在自駕車打個盹,系統突然警示:「網路連線中斷」,車輛開始偏離路線,而前方竟是萬丈深谷。又或者家庭機器人被駭,開始暴走跳舞,甚至舉起刀具向你走來。

這會是黃仁勳期待的未來嗎?當然不是!也因為如此,「邊緣 AI」成為業界關注重點。不靠雲端,AI 就能在現場即時反應,不只更安全、低延遲,還能讓數據當場變現,不再淪為沉沒成本。

什麼是邊緣 AI ?

邊緣 AI,乍聽之下,好像是「孤單站在角落的人工智慧」,但事實上,它正是我們身邊最可靠、最即時的親密數位夥伴呀。

當前,像是企業、醫院、學校內部的伺服器,個人電腦,甚至手機等裝置,都可以成為「邊緣節點」。當數據在這些邊緣節點進行運算,稱為邊緣運算;而在邊緣節點上運行 AI ,就被稱為邊緣 AI。簡單來說,就是將原本集中在遠端資料中心的運算能力,「搬家」到更靠近數據源頭的地方。

-----廣告,請繼續往下閱讀-----

那麼,為什麼需要這樣做?資料放在雲端,集中管理不是更方便嗎?對,就是不好。

當數據在這些邊緣節點進行運算,稱為邊緣運算;而在邊緣節點上運行 AI ,就被稱為邊緣 AI。/ 圖片來源:MotionArray

第一個不好是物理限制:「延遲」。
即使光速已經非常快,數據從你家旁邊的路口傳到幾千公里外的雲端機房,再把分析結果傳回來,中間還要經過各種網路節點轉來轉去…這樣一來一回,就算只是幾十毫秒的延遲,對於需要「即刻反應」的 AI 應用,比如說工廠裡要精密控制的機械手臂、或者自駕車要判斷路況時,每一毫秒都攸關安全與精度,這點延遲都是無法接受的!這是物理距離與網路架構先天上的限制,無法繞過去。

第二個挑戰,是資訊科學跟工程上的考量:「頻寬」與「成本」。
你可以想像網路頻寬就像水管的粗細。隨著高解析影像與感測器數據不斷來回傳送,湧入的資料數據量就像超級大的水流,一下子就把水管塞爆!要避免流量爆炸,你就要一直擴充水管,也就是擴增頻寬,然而這樣的基礎建設成本是很驚人的。如果能在邊緣就先處理,把重要資訊「濃縮」過後再傳回雲端,是不是就能減輕頻寬負擔,也能節省大量費用呢?

第三個挑戰:系統「可靠性」與「韌性」。
如果所有運算都仰賴遠端的雲端時,一旦網路不穩、甚至斷線,那怎麼辦?很多關鍵應用,像是公共安全監控或是重要設備的預警系統,可不能這樣「看天吃飯」啊!邊緣處理讓系統更獨立,就算暫時斷線,本地的 AI 還是能繼續運作與即時反應,這在工程上是非常重要的考量。

所以你看,邊緣運算不是科學家們沒事找事做,它是順應數據特性和實際應用需求,一個非常合理的科學與工程上的最佳化選擇,是我們想要抓住即時數據價值,非走不可的一條路!

邊緣 AI 的實戰魅力:從工廠到倉儲,再到你的工作桌

知道要把 AI 算力搬到邊緣了,接下來的問題就是─邊緣 AI 究竟強在哪裡呢?它強就強在能夠做到「深度感知(Deep Perception)」!

-----廣告,請繼續往下閱讀-----

所謂深度感知,並非僅僅是對數據進行簡單的加加減減,而是透過如深度神經網路這類複雜的 AI 模型,從原始數據裡面,去「理解」出更高層次、更具意義的資訊。

研華科技為例,旗下已有多項邊緣 AI 的實戰應用。以工業瑕疵檢測為例,利用物件偵測模型,快速將工業產品中的瑕疵挑出來,而且由於 AI 模型可以使用同一套參數去檢測,因此品管上能達到一致性,減少人為疏漏。尤其在高產能工廠中,檢測速度必須快、狠、準。研華這套 AI 系統每分鐘最高可處理 8,000 件產品,替工廠節省大量人力,同時確保品質穩定。這樣的效能來自於一台僅有膠囊咖啡機大小的邊緣設備—IPC-240。

這樣的效能來自於一台僅有膠囊咖啡機大小的邊緣設備—IPC-240。/ 圖片提供:研華科技

此外,在智慧倉儲場域,研華與威剛合作,研華與威剛聯手合作,在 MIC-732AO 伺服器上搭載輝達的 Nova Orin 開發平台,打造倉儲系統的 AMR(Autonomous Mobile Robot) 自走車。這跟過去在倉儲系統中使用的自動導引車 AGV 技術不一樣,AMR 不需要事先規劃好路線,靠著感測器偵測,就能輕鬆避開障礙物,識別路線,並且將貨物載到指定地點存放。

當然,還有語言模型的應用。例如結合檢索增強生成 ( RAG ) 跟上下文學習 ( in-context learning ),除了可以做備忘錄跟排程規劃以外,還能將實務上碰到的問題記錄下來,等到之後碰到類似的問題時,就能詢問 AI 並得到解答。

你或許會問,那為什麼不直接使用 ChatGPT 就好了?其實,對許多企業來說,內部資料往往具有高度機密性與商業價值,有些場域甚至連手機都禁止員工帶入,自然無法將資料上傳雲端。對於重視資安,又希望運用 AI 提升效率的企業與工廠而言,自行部署大型語言模型(self-hosted LLM)才是理想選擇。而這樣的應用,並不需要龐大的設備。研華的 SKY-602E3 塔式 GPU 伺服器,體積僅如後背包大小,卻能輕鬆支援語言模型的運作,實現高效又安全的 AI 解決方案。

但問題也接著浮現:要在這麼小的設備上跑大型 AI 模型,會不會太吃資源?這正是目前 AI 領域最前沿、最火熱的研究方向之一:如何幫 AI 模型進行「科學瘦身」,又不減智慧。接下來,我們就來看看科學家是怎麼幫 AI 減重的。

-----廣告,請繼續往下閱讀-----

語言模型瘦身術之一:量化(Quantization)—用更精簡的數位方式來表示知識

當硬體資源有限,大模型卻越來越龐大,「幫模型減肥」就成了邊緣 AI 的重要課題。這其實跟圖片壓縮有點像:有些畫面細節我們肉眼根本看不出來,刪掉也不影響整體感覺,卻能大幅減少檔案大小。

模型量化的原理也是如此,只不過對象是模型裡面的參數。這些參數原先通常都是以「浮點數」表示,什麼是浮點數?其實就是你我都熟知的小數。舉例來說,圓周率是個無窮不循環小數,唸下去就會是3.141592653…但實際運算時,我們常常用 3.14 或甚至直接用 3,也能得到夠用的結果。降低模型參數中浮點數的精度就是這個意思! 

然而,量化並不是那麼容易的事情。而且實際上,降低精度多少還是會影響到模型表現的。因此在設計時,工程師會精密調整,確保效能在可接受範圍內,達成「瘦身不減智」的目標。

當硬體資源有限,大模型卻越來越龐大,「幫模型減肥」就成了邊緣 AI 的重要課題。/ 圖片來源:MotionArray

模型剪枝(Model Pruning)—基於重要性的結構精簡

建立一個 AI 模型,其實就是在搭建一整套類神經網路系統,並訓練類神經元中彼此關聯的參數。然而,在這麼多參數中,總會有一些參數明明佔了一個位置,卻對整體模型沒有貢獻。既然如此,不如果斷將這些「冗餘」移除。

這就像種植作物的時候,總會雜草叢生,但這些雜草並不是我們想要的作物,這時候我們就會動手清理雜草。在語言模型中也會有這樣的雜草存在,而動手去清理這些不需要的連結參數或神經元的技術,就稱為 AI 模型的模型剪枝(Model Pruning)。

-----廣告,請繼續往下閱讀-----

模型剪枝的效果,大概能把100變成70這樣的程度,說多也不是太多。雖然這樣的縮減對於提升效率已具幫助,但若我們要的是一個更小幾個數量級的模型,僅靠剪枝仍不足以應對。最後還是需要從源頭著手,採取更治本的方法:一開始就打造一個很小的模型,並讓它去學習大模型的知識。這項技術被稱為「知識蒸餾」,是目前 AI 模型壓縮領域中最具潛力的方法之一。

知識蒸餾(Knowledge Distillation)—讓小模型學習大師的「精髓」

想像一下,一位經驗豐富、見多識廣的老師傅,就是那個龐大而強悍的 AI 模型。現在,他要培養一位年輕學徒—小型 AI 模型。與其只是告訴小型模型正確答案,老師傅 (大模型) 會更直接傳授他做判斷時的「思考過程」跟「眉角」,例如「為什麼我會這樣想?」、「其他選項的可能性有多少?」。這樣一來,小小的學徒模型,用它有限的「腦容量」,也能學到老師傅的「智慧精髓」,表現就能大幅提升!這是一種很高級的訓練技巧,跟遷移學習有關。

舉個例子,當大型語言模型在收到「晚餐:鳳梨」這組輸入時,它下一個會接的詞語跟機率分別為「炒飯:50%,蝦球:30%,披薩:15%,汁:5%」。在知識蒸餾的過程中,它可以把這套機率表一起教給小語言模型,讓小語言模型不必透過自己訓練,也能輕鬆得到這個推理過程。如今,許多高效的小型語言模型正是透過這項技術訓練而成,讓我們得以在資源有限的邊緣設備上,也能部署愈來愈強大的小模型 AI。

但是!即使模型經過了這些科學方法的優化,變得比較「苗條」了,要真正在邊緣環境中處理如潮水般湧現的資料,並且高速、即時、穩定地運作,仍然需要一個夠強的「引擎」來驅動它們。也就是說,要把這些經過科學千錘百鍊、但依然需要大量計算的 AI 模型,真正放到邊緣的現場去發揮作用,就需要一個強大的「硬體平台」來承載。

-----廣告,請繼續往下閱讀-----

邊緣 AI 的強心臟:SKY-602E3 的三大關鍵

像研華的 SKY-602E3 塔式 GPU 伺服器,就是扮演「邊緣 AI 引擎」的關鍵角色!那麼,它到底厲害在哪?

一、核心算力
它最多可安裝 4 張雙寬度 GPU 顯示卡。為什麼 GPU 這麼重要?因為 GPU 的設計,天生就擅長做「平行計算」,這正好就是 AI 模型裡面那種海量數學運算最需要的!

你想想看,那麼多數據要同時處理,就像要請一大堆人同時算數學一樣,GPU 就是那個最有效率的工具人!而且,有多張 GPU,代表可以同時跑更多不同的 AI 任務,或者處理更大流量的數據。這是確保那些科學研究成果,在邊緣能真正「跑起來」、「跑得快」、而且「能同時做更多事」的物理基礎!

二、工程適應性——塔式設計。
邊緣環境通常不是那種恆溫恆濕的標準機房,有時是在工廠角落、辦公室一隅、或某個研究實驗室。這種塔式的機箱設計,體積相對緊湊,散熱空間也比較好(這對高功耗的 GPU 很重要!),部署起來比傳統機架式伺服器更有彈性。這就是把高性能計算,進行「工程化」,讓它能適應台灣多樣化的邊緣應用場景。

三、可靠性
SKY-602E3 用的是伺服器等級的主機板、ECC 糾錯記憶體、還有備援電源供應器等等。這些聽起來很硬的規格,背後代表的是嚴謹的工程可靠性設計。畢竟在邊緣現場,系統穩定壓倒一切!你總不希望 AI 分析跑到一半就掛掉吧?這些設計確保了部署在現場的 AI 系統,能夠長時間、穩定地運作,把實驗室裡的科學成果,可靠地轉化成實際的應用價值。

-----廣告,請繼續往下閱讀-----
研華的 SKY-602E3 塔式 GPU 伺服器,體積僅如後背包大小,卻能輕鬆支援語言模型的運作,實現高效又安全的 AI 解決方案。/ 圖片提供:研華科技

台灣製造 × 在地智慧:打造專屬的邊緣 AI 解決方案

研華科技攜手八維智能,能幫助企業或機構提供客製化的AI解決方案。他們的技術能力涵蓋了自然語言處理、電腦視覺、預測性大數據分析、全端軟體開發與部署,及AI軟硬體整合。

無論是大小型語言模型的微調、工業瑕疵檢測的模型訓練、大數據分析,還是其他 AI 相關的服務,都能交給研華與八維智能來協助完成。他們甚至提供 GPU 與伺服器的租借服務,讓企業在啟動 AI 專案前,大幅降低前期投入門檻,靈活又實用。

台灣有著獨特的產業結構,從精密製造、城市交通管理,到因應高齡化社會的智慧醫療與公共安全,都是邊緣 AI 的理想應用場域。更重要的是,這些情境中許多關鍵資訊都具有高度的「時效性」。像是產線上的一處異常、道路上的突發狀況、醫療設備的即刻警示,這些都需要分秒必爭的即時回應。

如果我們還需要將數據送上雲端分析、再等待回傳結果,往往已經錯失最佳反應時機。這也是為什麼邊緣 AI,不只是一項技術創新,更是一條把尖端 AI 科學落地、真正發揮產業生產力與社會價值的關鍵路徑。讓數據在生成的那一刻、在事件發生的現場,就能被有效的「理解」與「利用」,是將數據垃圾變成數據黃金的賢者之石!

👉 更多研華Edge AI解決方案
👉 立即申請Server租借

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
-----廣告,請繼續往下閱讀-----
雅文兒童聽語文教基金會_96
61 篇文章 ・ 223 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。

1

5
1

文字

分享

1
5
1
我們的遺傳差異有多大?基因竟會影響我們的教育程度!——《我們源自何方?》
馬可孛羅_96
・2023/03/19 ・2958字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

族群間差很大?

要了解遺傳學家為何不再和人類學家手牽手,不再認為人類族群之間的差異小到微不足道,只要看看「基因組部落格主」(genome blogger)就可以知道。

在基因組革命開始之後,人們便在網際網路上熱烈討論關於人類變異的論文,有些基因組部落格主後來精通於分析網路上公開的基因組資料。

相較於絕大多數的學術界人員,基因組部落格主的政治態度往往偏向右派,拉茲布.可汗(Razib Khan)與迪奈可斯.彭迪可斯(Dienekes Pontikos)發表了各族群特徵的平均差異,其中包括了身體外貌和運動能力。

許多基因部落格組認為學術界人士刻意忽視了族群間的差異。圖/envatoelements

部落格「歐洲基因」(The Eurogenes)中,「哪個古代民族散播了印歐語系語言」這樣激起反應的標題,往往會有上千個留言灌爆。這個非常敏感的議題在第二部分中討論了,那些印歐語系者的擴張過程,被當成建立國家神話的基礎,有的時候受到濫用,如同納粹德國時期的狀況。

-----廣告,請繼續往下閱讀-----

基因組部落格主的信念,有部分來自於在討論各族群之間生物性差異時,學術界人士並沒有保持科學家追求真實的精神。基因組部落格主很樂於指出一項矛盾:學術人士基於政治正確所傳遞的訊息,說族群之間的特徵無法區別,但是在他們發表的論文中得出的科學結果卻不是這樣的。

族群內的差異比族群間大

我們知道的實際差異有哪些?我們無法否認,各族群之間有顯著的平均遺傳差異,不只有膚色,還包括了體型、消化澱粉與乳糖的效率、在高海拔地區呼吸的難易程度,以及某些疾病的罹患率。這些還只是我們剛發現的差異而已。

我預料,不知道更多的人類族群之間的差異,是因為能夠找出這些差異的適當統計資源還沒有投入。人類大部分的特徵,一如呂文廷所說,在族群內的差異要大過族群之外。

這代表在任何的族群中,如身高等絕大部分的特徵,都有位於高低兩個極端的個體存在,例如很高與很矮的人。但是這並沒有排除各族群之間在特徵上有細微的平均差異存在。

-----廣告,請繼續往下閱讀-----
高矮差異不分族群。圖/envatoelements

幾乎每次回爭論,傳統教條都沒能站穩腳跟。二○一六年,我參加了一場約瑟夫.葛拉夫(Joseph L. Graves)在哈佛大學皮博迪考古與民族學博物館(Peabody Museum of Archaeology and Ethnography)的演講,主題是種族與遺傳學。在演講中,葛拉夫舉出五個能夠大幅影響皮膚色素沉積作用的突變,在不同族群中這五個突變出現的頻率差異很大。

他把這個五個突變和腦中上萬個會在腦中活動的基因比較。他指出,會在腦中活躍的基因和那五個和色素沉積的基因不同,會在許多部位活動。有些突變會推動認知和行為出現某個面向的特徵,但是另一些突變會推動的是別的面向,各種作用相加就平均掉了。

但他的論點其實並不可行,因為在實際的狀況下,如果天擇對兩個分開的族群施以不同的壓力,有許多突變所影響的特徵,會如同那些受到少數突變影響的特徵,讓兩個族群之間產生平均差異。事實上,已知有由許多突變所影響的特徵(可能如同行為和認知),如同膚色這種由幾個突變所影響的特徵,也受到天擇篩選。目前最佳的例子是身高。

身高是由基因組中數千個有變異的位置所決定的,二○一二年,喬爾.赫斯霍恩(Joel Hirschhorn)領導的分析研究指出,天擇對於那些位置的篩選結果,使得歐洲南部人的身高平均來說比歐洲北部人矮。

-----廣告,請繼續往下閱讀-----

身高並不是唯一的例子,強納森.普瑞查德(Jonathan Pritchard)所帶領的研究指出,至少從兩千年前,天擇就作用在英國人許多特徵的遺傳變異之上,結果包括嬰兒頭部平均來說比較大,女性臀部也是(可能是為了要在生產時配合嬰兒頭部的增大)。

遺傳變異間接影響教育程度

遺傳差異間接影響到教育程度與認知行為。圖/envatoelements

人們很容易會想,遺傳影響體型是一回事,但是影響認知和行為特徵又是另一回事。不過這種界線已經打破了。如果你加入了某個疾病的遺傳研究,得填寫表格,註明自己的身高、體重和受教育時間長度。

丹尼爾.班傑明(Daniel Benjamin)和同事彙整了四十萬名有歐洲血統者的受教育資料,那些人提供自己的基因組資料,以供研究各種遺傳疾病。

班傑明等人找到了七十四個在受教育時間長的人中更為常見的遺傳變異,那些變異在受教育時間短的人中比較少見。這樣研究已經去除了受到研究族群中各種會造成影響的差異,結果很紮實。這些科學家還指出,雖然平均來說,社會影響力在這方面要大過遺傳,但是從遺傳去推測受教育時間長短的準確度不容忽視。

-----廣告,請繼續往下閱讀-----

他們指出針對受到研究的歐洲血統族群,設計一個遺傳預測方式,計算出其中完成十二年教育的概率為百分之九十六,而最低的則為百分之三十七。

那些遺傳變異怎麼影響到教育程度?馬上浮現的猜想是它們會直接影響學業能力,但這可能是錯的。

一項包含了十萬多名冰島人的研究指出,那些遺傳變異也會讓女性生第一個小孩的年紀增加,而且造成影響的程度要遠大於對於受教育時間的影響。那些變異可能是以間接的方式發揮作用,讓人們比較晚有小孩,使得小孩必較容易接受完整的教育。

這個結果指出了,在我們發現控制行為的生物性差異時,這些差異發揮功用的方式往往和我們無知的猜想不同。

-----廣告,請繼續往下閱讀-----

各族群間影響教育程度的突變在出現頻率上的平均差異,還沒有找出來。但是在冰島,從遺傳上預期年長者整體上受教育的時間要長過年輕人,這點讓我們警覺。

領導這項冰島研究的奧古斯丁.江(Augustine Kong)指出,這項結果代表了在上個世紀,天擇作用不利於預期受到有更多教育的人身上,就像是篩選出比較年輕就有孩子的狀況。

遺傳變異透過生孩子的時間間接影響孩子的教育程度。圖/envatoelements

由於在單一族群中,影響受教育時間的遺傳成因顯然於一個世紀內因為受到了天擇壓力而產生明顯的改變,那麼這個特徵在各族群之間出現差異也是極有可能之事。

影響歐洲血統教育程度的遺傳變異,是否會對於非歐洲血統者的行為發生影響,或是對結構不同的社會系統發生影響?這些沒有人知道。不過,如果那些突變對於某一個族群的行為會發生影響,很可能對於其他族群也發生影響,縱使這些族群的社會狀況有所差異。

-----廣告,請繼續往下閱讀-----

在遺傳所影響的行為特徵中,教育程度可能只是冰山一角。其他人也和班傑明一樣,發現了能夠預測行為特徵的遺傳因素,其中一項研究調查了七萬多人,發現到在二十多個基因中的突變適合用來預測在智力測驗中的表現。

——本文摘自《我們源自何方?:古代DNA革命解構人類的起源與未來》,2023 年 3 月,馬可孛羅出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
所有討論 1
馬可孛羅_96
25 篇文章 ・ 19 位粉絲
馬可孛羅文化為台灣「城邦文化出版集團」的一個品牌,成立於1998年,經營的書系多元,包含旅行文學、探險經典、文史、社科、文學小說,以及本土華文作品,期望為全球中文讀者提供一個更開闊、可以縱橫古今、和全世界對話的新閱讀空間。