0

文字

繁 | 简

0

Promo 科學傳播科技能源透視科學

教電腦「看」世界：電腦也能當球賽戰術分析員！

研之有物│中央研究院・2017/04/11 ・3258字・閱讀時間約 6 分鐘・SR值 552

・八年級

相關標籤：

熱門標籤：

為什麼要研究「電腦視覺」？

「電腦視覺（computer vision）」是研究怎麼讓機器「看」這個世界。在相機、手機、監視器、行車紀錄器等設備無所不在的今天，人類社會中的視訊資料量，前所未有地巨大。中研院資訊所特聘研究員廖弘源與團隊，教電腦懂得偵測、識別、分析這些影像訊息，進而做出判斷或行動，如此可衍生各種重要的應用，如人臉辨識、物件偵測、車輛追蹤、街景分析等。

輕按快門，相機可以快速找到人臉對焦；機場快速通關窗口，機器能在幾秒鐘之內認出你是誰；裝一台攝影機，就可以計算某段時間內有多少人車經過……「電腦視覺」加上「機器學習」技術的進步，讓我們的生活更加安全及便利。

不過，電腦可不是一開始就這麼聰明的。

研究電腦視覺及機器學習，設法讓電腦變聰明的廖弘源博士。圖／張語辰提供；黃楷元設計

教電腦看世界特徵辨認第一課

電腦「看」世界的方式，和你我很不一樣。在我們眼中，一張圖畫裡可能有人物有風景。但在電腦「眼」中，卻只是幾萬幾億個不同顏色的小點（其實就是像素，pixel），以某個順序排列起來而已。

但「電腦看世界」時，一棟建築或一個碼頭，在電腦眼中只是一堆像素、或一串位元。圖／廖弘源提供

中央研究院資訊所特聘研究員廖弘源，窮畢生之力，都在教電腦怎麼「看」世界：從 0 與 1 組合成的數位世界中，找出各種「特徵」、並據此識別出特定的物件，進而判斷視訊資料的意義。

-----廣告，請繼續往下閱讀-----

比方說，媽媽今天燙了個捲捲頭回家，爸爸可能會一時之間認不出來，但電腦依然能辨認這位捲髮女士是媽媽，因為五官並沒有改變。廖弘源和研究團隊在 2001 年發表的論文，探討此一問題，證明「五官特徵」才是電腦辨識人臉的依據，而非五官之外的髮型、衣著、首飾等，此知識讓業界的臉部辨識系統發展地更精準，也成為這領域近廿年來必讀的文獻之一。

以「識別」與「比對」為核心，電腦視覺延伸出很多用途。廖弘源和研究團隊廿多年來開發出了多項創新技術，像是人臉和車牌的辨識系統，現在已是治安保全的重要利器；而數位檔案加上「雞尾酒浮水印」，則可以防範辛苦的智慧結晶被盜用。

妙手回春老相片老電影重獲新生

2006 年起，廖弘源接手另一項艱難任務：「數位典藏與數位學習國家型科技計畫」。面對龐大的數位典藏檔案，首要工作就是快速有效地判讀、註解、並擷取多媒體內容。多媒體資料不只圖片，還包括影片。影片等於是一秒鐘 30 張圖片串接在一起，再加上聲音，資訊量非常龐大，因此分析難度，跟簡單的圖片不可同日而語。

另外一個大難題是，許多珍貴的老膠捲，有的被蟲蛀、有的甚至發霉了，眼看就要損毀。還好，廖弘源研究團隊成功打出一記「還我漂亮拳」！一連串視訊篡改（video inpainting）的研究，應用在數位修補技術上，成功幫受損的照片或影片「回春」。

-----廣告，請繼續往下閱讀-----

先要能「篡改」，才有能力「修復」。

什麼是視訊篡改？目的不是要捏造不存在的歷史、或是製造虛構的畫面，但透過「無中生有」的原理，卻可以還原已經被破壞的元素。像下圖照片所示，原本斑駁陳舊，但電腦程式可以自動擷取摺痕周邊的影像資訊，用類似「模擬」的方式，產生出原本不存在於照片上的元素，把缺損給填補起來。

充滿歲月痕跡的老照片（左），按一個鍵，色調不再泛黃、摺痕也消失無蹤（右）。圖／廖弘源提供；黃楷元設計

要修補動態的影片更加困難，廖弘源團隊做出了領先世界的創新研究，採用一種 ISOMAP 技術，以非線性的方式降低維度，不但減少了影片資料運算所需的記憶容量，還能用空間的轉換，填補上被破壞的片段，讓動作看起來自然而連續。許多發霉的老膠捲、經典電影或相片，在這項技術之下，重獲新生。

人連續的動作，經過 ISOMAP 技術進行轉換後，連結連續姿態變化的軌跡。圖／廖弘源提供；黃楷元、張語辰設計

人工智慧當道電腦視覺技術突飛猛進

以上所有研究與技術，在 2012 年遇到了一個重大分水嶺，那就是「深度學習（deep learning）」技術的應用。這是一種類神經網絡研究，也就是用數學模型去模擬生物中樞神經的結構和功能。

早期，這樣的研究受限於電腦運算速度，隨著電腦效能大幅提升，深度學習的成熟也一日千里。日前喧騰一時的 Google Alpha Go ，就是藉由輸入了無數的棋譜讓電腦進行深度學習，選出最可能獲勝的落子位置，逐一擊敗各國頂尖職業圍棋選手。

-----廣告，請繼續往下閱讀-----

而在電腦視覺領域的國際盛會──大規模視覺辨識競賽（Large Scale Visual Recognition Challenge, ILSVRC），主辦單位提供 1000 類超過 120 萬張的影像，讓參賽團隊設計的程式去判斷類別。 2010 年首次舉辦時，表現最佳的系統錯誤率仍高達 28% 。但來到分水嶺的 2012 年，透過深度學習技術，錯誤率大幅降低到 16% 。 2015 年更是一舉突破人類極限，錯誤率達到 3.7%（人眼辨識的極限是 5%），正式宣告，電腦視覺比人類更精準的時代來臨。

廖弘源的研究團隊，也著力於此，開展了兩項創新的研究。第一個，是「籃球進攻戰術分析」。電視轉播的球賽，常聽球評或教練，戰術分析得頭頭是道，未來，透過深度學習，可以讓電腦直接從比賽的影片中，球員跑動的軌跡，就判讀出這一波進攻是打什麼戰術。

電腦先擷取球賽的片段，辨認出移動的球員（上圖），然後轉換成平面，測量移動的軌跡與速度（中圖），最後，透過數學函數的分析，比對資料庫，找出相符的戰術（下圖）。圖／廖弘源提供；黃楷元設計

另一個研究則是「演唱會片段自動拼貼（mashup）」。一場演唱會，可能有數百個粉絲，從不同角度、不同距離，拍下了不同片段，上傳到 YouTube 上。那麼，有沒有可能，讓電腦自動挑出這些片段，然後重新剪輯成高品質的完整演唱會影像呢？這項大工程有許多問題，等著廖弘源研究團隊一一克服。

他們先用深度學習技術，讓電腦分辨影像中的不同物件（歌手、舞台、樂器、觀眾等），接著再用另一套模式（Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM）對影片的每一個鏡頭進行分類，辨認出是遠景、中景、近景、或是特寫。然後還要比對音訊，整理出影片的正確時間順序。最後，才依照順序、分鏡邏輯、和情緒鋪陳，組合出最佳的影片。

-----廣告，請繼續往下閱讀-----

不同角度、不同距離、不同段落的演唱會影片，混搭拼貼成完整的演出視訊。圖／廖弘源提供；黃楷元設計

為了「教」電腦分析這些資訊，廖弘源笑稱，自己看了無數的籃球影片，從不會打球變成了戰術大師；看了幾百場演唱會，也讓他從音痴化身成音樂總監。受訪時，廖弘源神采奕奕地談著這些研究，言談中除了自豪，更多的是一種身為「科學家」的使命感，強調無論做什麼研究，要當具有開創性的「科學家」，而不只是依循既定方法的「工程師」。

人類持續進步，電腦也是。我們過去總認為，電腦是工具，只能幫我們處理機械化的工作。但廖弘源博士兩個最新研究之中，都包含著非常複雜的深度學習運算技術，若研發成熟後，人工智慧在影片處理上的技巧，將會突飛猛進。或許，「電腦藝術家」誕生的一天，指日可待！

延伸閱讀：

廖弘源的個人網頁
〈虛實世界的串聯者與守護者〉第二十三屆東元獎科技類，廖弘源受訪報導
〈我在中研院的第二個十年：多媒體研究與數位典藏〉演講
L. F. Chen, H. Y. Mark Liao, (2001) Pattern Recognition, 34, 1393-1403.
C. W. Su, H. Y. Mark Liao, H. R. Tyan, K. C. Fan, and L.-H Chen, (2005), IEEE Trans. Multimedia, 7, 1106-1113.
C. S. Lu, S. K. Huang, C. J. Sze, and H. Y. Mark Liao, (2000), IEEE Trans. Multimedia, 2, 209-224.
H. Y. Sean Lin, H. Y. Mark Liao, and J. C. Lin, (2007), IEEE Trans. Multimedia, 9, 46-57.
C.J. Sze, H.Y. Mark Liao, and K.C. Fan, (2001), IEEE Trans. on Image Processing, 10, 296-306.

執行編輯｜黃楷元；美術編輯｜張語辰

本著作由研之有物製作，以創用CC 姓名標示–非商業性–禁止改作 4.0 國際授權條款釋出。

-----廣告，請繼續往下閱讀-----

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

研之有物│中央研究院

296 篇文章・ 3664 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

0

1

0

文字

ECU: 汽車大腦的演化與挑戰

鳥苷三磷酸 (PanSci Promo) ・2025/07/02 ・3793字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

本文與威力暘電子合作，泛科學企劃執行。

想像一下，當你每天啟動汽車時，啟動的不再只是一台車，而是一百台電腦同步運作。但如果這些「電腦」突然集體當機，後果會有多嚴重？方向盤可能瞬間失靈，安全氣囊無法啟動，整台車就像失控的高科技廢鐵。這樣的「系統崩潰」風險並非誇張劇情，而是真實存在於你我日常的駕駛過程中。

今天，我們將深入探討汽車電子系統「逆天改運」的科學奧秘。究竟，汽車的「大腦」—電子控制單元（ECU），是如何從單一功能，暴增至上百個獨立系統？而全球頂尖的工程師們，又為何正傾盡全力，試圖將這些複雜的系統「砍掉重練」、整合優化？

第一顆「汽車大腦」的誕生

時間回到 1980 年代，當時的汽車工程師們面臨一項重要任務：如何把汽油引擎的每一滴燃油都壓榨出最大動力？「省油即省錢」是放諸四海皆準的道理。他們發現，關鍵其實潛藏在一個微小到幾乎難以察覺的瞬間：火星塞的點火時機，也就是「點火正時」。

如果能把點火的精準度控制在「兩毫秒」以內，這大約是你眨眼時間的百分之一到千分之一！引擎效率就能提升整整一成！這不僅意味著車子開起來更順暢，還能直接省下一成的油耗。那麼，要如何跨過這道門檻？答案就是：「電腦」的加入！

-----廣告，請繼續往下閱讀-----

工程師們引入了「微控制器」（Microcontroller），你可以把它想像成一顆專注於特定任務的迷你電腦晶片。它能即時讀取引擎轉速、進氣壓力、油門深度、甚至異常爆震等各種感測器的訊號。透過內建的演算法，在千分之一秒、甚至微秒等級的時間內，精準計算出最佳的點火角度，並立刻執行。

從此，引擎的性能表現大躍進，油耗也更漂亮。這正是汽車電子控制單元（ECU）的始祖—專門負責點火的「引擎控制單元」（Engine Control Unit）。

**汽車電子控制單元的始祖**—專門負責點火的「引擎控制單元」（Engine Control Unit）/ 圖片來源:shutterstock

ECU 的失控暴增與甜蜜的負荷

第一顆 ECU 的成功，在 1980 年代後期點燃了工程師們的想像：「這 ECU 這麼好用，其他地方是不是也能用？」於是，ECU 的應用範圍不再僅限於點火，燃油噴射量、怠速穩定性、變速箱換檔平順度、ABS 防鎖死煞車，甚至安全氣囊的引爆時機……各種功能都交給專屬的 ECU 負責。

然而，問題來了：這麼多「小電腦」，它們之間該如何有效溝通？

-----廣告，請繼續往下閱讀-----

為了解決這個問題，1986 年，德國的博世（Bosch）公司推出了一項劃時代的發明：控制器區域網路（CAN Bus）。你可以將它想像成一條專為 ECU 打造的「神經網路」。各個 ECU 只需連接到這條共用的線路上，就能將訊息「廣播」給其他單元。

更重要的是，CAN Bus 還具備「優先通行」機制。例如，煞車指令或安全氣囊引爆訊號這類攸關人命的重要訊息，絕對能搶先通過，避免因資訊堵塞而延誤。儘管 CAN Bus 解決了 ECU 之間的溝通問題，但每顆 ECU 依然需要獨立的電源線、接地線，並連接各種感測器和致動器。結果就是，一輛汽車的電線總長度可能達到 2 到 4 公里，總重量更高達 50 到 60 公斤，等同於憑空多載了一位乘客的重量。

另一方面，大量的 ECU 與錯綜複雜的線路，也讓「電子故障」開始頻繁登上汽車召回原因的榜首。更別提這些密密麻麻的線束，簡直是設計師和維修技師的惡夢。要檢修這些電子故障，無疑讓人一個頭兩個大。

大量的 ECU 與錯綜複雜的線路，也讓「電子故障」開始頻繁登上汽車召回原因的榜首。/圖片來源:shutterstock

汽車電子革命：從「百腦亂舞」到集中治理

到了2010年代，汽車電子架構迎來一場大改革，「分區架構（Zonal Architecture）」搭配「中央高效能運算（HPC）」逐漸成為主流。簡單來說，這就像在車內建立「地方政府＋中央政府」的管理系統。

-----廣告，請繼續往下閱讀-----

可以想像，整輛車被劃分為幾個大型區域，像是車頭、車尾、車身兩側與駕駛艙，就像數個「大都會」。每個區域控制單元（ZCU）就像「市政府」，負責收集該區所有的感測器訊號、初步處理與整合，並直接驅動該區的馬達、燈光等致動器。區域先自理，就不必大小事都等中央拍板。

而「中央政府」則由車用高效能運算平台（HPC）擔任，統籌負責更複雜的運算任務，例如先進駕駛輔助系統（ADAS）所需的環境感知、物體辨識，或是車載娛樂系統、導航功能，甚至是未來自動駕駛的決策，通通交由車輛正中央的這顆「超級大腦」執行。

乘著這波汽車電子架構的轉型浪潮中， 2008 年成立的台灣本土企業威力暘電子，便精準地切入了這個趨勢，致力於開發整合 ECU 與區域控制器（Domain Controller）功能的模組化平台。他們專精於開發電子排檔、多功能方向盤等各式汽車電子控制模組。為了確保各部件之間的溝通順暢，威力暘提供的解決方案，就像是將好幾個「分區管理員」的職責，甚至一部分「超級大腦」的功能，都整合到一個更強大的硬體平台上。

這些模組不僅擁有強大的晶片運算能力，可同時支援 ADAS 與車載娛樂，還能兼容多種通訊協定，大幅簡化車內網路架構。如此一來，車廠在追求輕量化和高效率的同時，也能顧及穩定性與安全性。

-----廣告，請繼續往下閱讀-----

2008 年威力暘電子致力於開發整合 ECU 與區域控制器（Domain Controller）功能的模組化平台 /圖片來源:shutterstock

萬無一失的「汽車大腦」：威力暘的四大策略

然而，「做出來」與「做好」之間，還是有差別。要如何確保這顆集結所有功能的「汽車大腦」不出錯？具體來說，威力暘電子憑藉以下四大策略，築起其產品的可靠性與安全性：

AUTOSAR ： 導入開放且標準化的汽車軟體架構 AUTOSAR。分為應用層、運行環境層（RTE）和基礎軟體層（BSW）。就像在玩「樂高積木」，ECU 開發者能靈活組合模組，專注在核心功能開發，從根本上提升軟體的穩定性和可靠性。
V-Model 開發流程：這是一種強調嚴謹、能在早期發現錯誤的軟體開發流程。就像打勾 V 字形般，左側從上而下逐步執行，右側則由下而上層層檢驗，確保每個階段的安全要求都確實落實。
基於模型的設計 MBD（Model-Based Design）：威力暘的工程師們會利用 MatLab®/Simulink® 等工具，把整個 ECU 要控制的系統(如煞車)，用數學模型搭建起來，然後在虛擬環境中進行大量的模擬和測試。這等於在實體 ECU 誕生前，就能在「數位雙生」世界中反覆演練、預先排除設計缺陷，，並驗證安全機制是否有效。
Automotive SPICE (ASPICE) ： ASPICE 是國際公認的汽車軟體「品質管理系統」，它不直接評估最終 ECU 產品本身的安全性，而是深入檢視團隊在軟體開發的「整個過程」，也就是「方法論」和「管理紀律」是否夠成熟、夠系統化，並只根據數據來評估品質。

既然 ECU 掌管了整輛車的運作，其能否正常運作，自然被視為最優先項目。為此，威力暘嚴格遵循汽車業中一本堪稱「安全聖經」的國際標準：ISO 26262。這套國際標準可視為一本針對汽車電子電氣系統（特別是 ECU）的「超嚴格品管手冊」和「開發流程指南」，從概念、設計、測試到生產和報廢，都詳細規範了每個安全要求和驗證方法，唯一目標就是把任何潛在風險降到最低

有了上述這四項策略，威力暘確保其產品從設計、生產到交付都符合嚴苛的安全標準，才能通過 ISO 26262 的嚴格檢驗。

然而，ECU 的演進並未就此停下腳步。當ECU 的數量開始精簡，「大腦」變得更集中、更強大後，汽車產業又迎來了新一波革命：「軟體定義汽車」（Software-Defined Vehicle, SDV）。

-----廣告，請繼續往下閱讀-----

軟體定義汽車 SDV：你的愛車也能「升級」！

未來的汽車，會越來越像你手中的智慧型手機。過去，車輛功能在出廠時幾乎就「定終身」，想升級？多半只能換車。但在軟體定義汽車（SDV）時代，汽車將搖身一變成為具備強大運算能力與高速網路連線的「行動伺服器」，能夠「二次覺醒」、不斷升級。透過 OTA（Over-the-Air）技術，車廠能像推送 App 更新一樣，遠端傳送新功能、性能優化或安全修補包到你的車上。

不過，這種美好願景也將帶來全新的挑戰：資安風險。當汽車連上網路，就等於向駭客敞開潛在的攻擊入口。如果車上的 ECU 或雲端伺服器被駭，輕則個資外洩，重則車輛被遠端鎖定或惡意操控。為了打造安全的 SDV，業界必須遵循像 ISO 21434 這樣的車用資安標準。

威力暘電子運用前面提到的四大核心策略，確保自家產品能符合從 ISO 26262 到 ISO 21434 的國際認證。從品質管理、軟體開發流程，到安全認證，這些努力，讓威力暘的模組擁有最高的網路與功能安全。他們的產品不僅展現「台灣智造」的彈性與創新，也擁有與國際大廠比肩的「車規級可靠度」。憑藉這些實力，威力暘已成功打進日本 YAMAHA、Toyota，以及歐美 ZF、Autoliv 等全球一線供應鏈，更成為 DENSO 在台灣少數核准的控制模組夥伴，以商用車熱系統專案成功打入日系核心供應鏈，並自 2025 年起與 DENSO 共同展開平台化量產，驗證其流程與品質。

毫無疑問，未來車輛將有更多運作交由電腦與 AI 判斷，交由電腦判斷，比交由人類駕駛還要安全的那一天，離我們不遠了。而人類的角色，將從操作者轉為監督者，負責在故障或斷網時擔任最後的保險。透過科技讓車子更聰明、更安全，人類甘願當一個「最弱兵器」，其實也不錯！

-----廣告，請繼續往下閱讀-----

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

227 篇文章・ 315 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

6

3

文字

植物口渴就喊：「啵、啵、啵～」

胡中行・2023/04/06 ・2954字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

久旱不雨，植物悲鳴，^{[1, 2]}類似教育部《臺灣閩南語常用詞辭典》所謂「因飢餓而吵鬧」的「哭枵」（khàu-iau）。^[3]別問為何沒聽過，也不怪天地寡情，人類無義，從來漠不關心。植物叫那種超音波，傳至咱們耳裡就只剩寧靜。幸好靠著以色列科學家幫忙，轉換到常人的聽覺範圍，並分享於 2023 年 3 月底的《細胞》（Cell）期刊，才廣為周知。^[1]

轉換到人類聽力範圍的番茄「叫聲」。音／參考資料 1，Audio S1（CC BY 4.0）

傾聽植物的聲音

面臨乾旱或草食動物的威脅，植物會做出多種反應，例如：改變外貌，或是以揮發性有機化合物影響鄰居等。^[1]過去的文獻指出，缺水引發空蝕現象（cavitation），使植物負責輸送水份的木質部，因氣泡形成、擴張和破裂而震動。^{[1, 4]}現在科學家想知道，這是否也會產生在特定距離內，能被其他物種聽見的聲音。^[1]

受試的對象是番茄與菸草，分別拆成乾旱、修剪和對照 3 組。對照組又有常態生長的一般對照、有土卻無植物的盆器，以及每株植物實驗前的自體對照 3 種。實驗大致有幾個階段：首先，在隔音箱裡，距離每個受試對象 10 公分處，各立 2 支麥克風收音。將聲音的紀錄分類後，拿去進行機器學習。接著移駕溫室，讓訓練好的模型，分辨雜音和不同情況下植物的聲音。再來，觀察乾旱程度與植物發聲的關係。最後，也測試其他的植物和狀態。^[1]

麥克風對著乾旱、修剪和對照組的植物收音。圖／參考資料 1，Graphical Abstract局部（CC BY 4.0）

植物錄音與機器學習

隔音箱裡常態生長的植物，每小時平均發聲少於一次；而沒植物的盆器當然完全無聲。相對地，遭受乾旱或修剪壓力的實驗組植物，反應則十分劇烈：^[1]

-----廣告，請繼續往下閱讀-----

	平均值（單位）	番茄	菸草
乾旱	發聲頻率（次／小時）	35.4 ± 6.1	11.0 ± 1.4
	音量（聲壓分貝；dBSPL）	61.6 ± 0.1	65.6 ± 0.4
	聲波頻率（千赫茲；kHz）	49.6 ± 0.4	54.8 ± 1.1
修剪	發聲頻率（次／小時）	25.2 ± 3.2	15.2 ± 2.6
	音量（聲壓分貝；dBSPL）	65.6 ± 0.2	63.3 ± 0.2
	聲波頻率（千赫茲；kHz）	57.3 ± 0.7	57.8 ± 0.7

隔音箱中實驗組的錄音，被依照植物品種以及所受的待遇，歸納為 4 個組別，各組別再彼此配對比較，例如：乾旱的番茄對修剪的番茄等。以此資料訓練出來的機器學習模型，判別配對中各組別的準確率為 70%。第二階段在溫室中進行，自然較隔音箱嘈雜。科學家拿空蕩溫室的環境錄音，來教模型分辨並過濾雜訊。訓練後，令其區別乾旱與對照組番茄的聲音，結果 84% 正確。^[1]既然能聽得出基本的差別，下一步就是了解水量對番茄發聲的影響。

體積含水量

為了操縱體積含水量（volumetric water content，縮寫VWC），即水份與泥土體積的比值或百分比，^{[1, 5]}科學家狠下心，連續幾天都不給溫室裡的番茄植栽喝水。一邊觀察 VWC 的變化；一邊錄下它們的聲音。起先水份充足，番茄不太吵鬧；4、5 天下來，發聲的次數逐漸增加至高峰；然後應該是快渴死了，有氣無力，所以次數又開始減少。此外，番茄通常都在早上 8 點（圖表較像 7 點）到中午 12 點，以及下午 4 點至晚上 7 點，這兩個時段出聲。^[1]科學家覺得這般作息，可能與規律的氣孔導度（stomatal conductance），也就是跟光合作用的換氣以及蒸散作用的水份蒸發，兩個透過氣孔進行的動作有關。^{[1, 6]}

大部份的聲音都是在 VWC < 0.05 時出現；當 VWC > 0.1，水份還足夠，就幾乎無聲。科學家將比較的條件進一步分成 VWC < 0.01 與 VWC > 0.05、VWC < 0.05 跟 VWC > 0.05，以及 VWC < 0.01、VWC > 0.05 和淨空溫室的聲音。機器學習模型分辨起來，都有七、八成的準確率。^[1]

縱軸為每日發聲次數；橫軸為缺乏灌溉的天數。圖／參考資料 1，Figure 3A（CC BY 4.0）

乾旱狀態下，番茄發聲的時段。縱軸為每小時發聲次數；橫軸為 24 小時制的時間。圖／參考資料 1，Figure 3B（CC BY 4.0）

植物發聲的原理

實驗觀察所得，都將植物發聲的機制，指向木質部導管中氣體的運動，也就是科學家先前預期的空蝕現象。^[1]下面為支持這項推論的理由：

-----廣告，請繼續往下閱讀-----

木質部導管的口徑，與植物被錄到的聲波頻率相關：寬的低；而窄的高。^[1]
乾旱與修剪所造成的聲音不同：在木質部導管中，前者氣泡形成緩慢，發聲時數較長；而後者則相當迅速，時數較短。^[1]
聲音是由植物的莖，向四面八方傳播。^[1]
空蝕現象造成的震動，跟記錄到的超音波，部份頻率重疊；而沒有重疊的，其實已經超出其他物種的聽力以及麥克風收音的範圍。^[1]

葡萄、菸草和番茄木質部導管的水平橫截面。圖／參考資料 1，Figure S4B（CC BY 4.0）

葡萄（綠色）、菸草（灰色）和番茄（橙色）的差異：縱軸為聲波頻率；橫軸是木質部導管的平均口徑。圖／參考資料 1，Figure S4A（CC BY 4.0）

問誰未發聲

觀察完番茄和菸草之後，科學家不禁好奇，別的植物是否也會為自己的處境發聲？還是它們都默默受苦，無聲地承擔？研究團隊拿小麥、玉米、卡本內蘇維濃葡萄（Cabernet Sauvignon grapevine）、奇隆丸仙人掌（Mammillaria spinosissima）與寶蓋草（henbit）來測試，發現它們果然有聲音。不過，像杏仁樹之類的木本植物，還有木質化的葡萄藤就沒有了。另外，科學家又監聽感染菸草嵌紋病毒（tobacco mosaic virus）的番茄，並錄到它們的病中呻吟。^[1]

你敢有聽著咱的歌

之前有研究指出，海邊月見草（Oenothera drummondii）暴露於蜜蜂的聲音時，會產出較甜的花蜜。^[2]若將角色對調過來：植物在乾旱、修剪或感染等壓力下釋出的超音波，頻率約在 20 至 100 kHz 之間，理論上 3 到 5 公尺內的某些哺乳動物或昆蟲，例如：蝙蝠、老鼠和飛蛾，應該聽得到。^{[1, 2]}以色列科學家認為幼蟲會寄住在番茄或菸草上的飛蛾，或許能辨識植物的聲波，並做出某些反應。同理，人類可以用機器學習模型，分辨農作物的聲音，再給予相應的照顧。如此不僅節省水源，精準培育，還能預防氣候變遷所導致的糧食危機。^[1]

備註

本文最後兩個子標題，借用音樂劇《Les Misérables》歌曲〈Do You Hear the People Sing?〉的粵語和臺語版曲名。^[7]

-----廣告，請繼續往下閱讀-----

參考資料

Khait I, Lewin-Epstein O, Sharon R. (2023) ‘Sounds emitted by plants under stress are airborne and informative’. Cell, 106(7): 1328-1336.
Marris E. (30 MAR 2023) ‘Stressed plants ‘cry’ — and some animals can probably hear them’. Nature.
教育部「哭枵」臺灣閩南語常用詞辭典（Accessed on 01 APR 2023）
McElrone A J, Choat B, Gambetta GA, et al. (2013) ‘Water Uptake and Transport in Vascular Plants’. Nature Education Knowledge, 4(5):6.
Datta S, Taghvaeian S, Stivers J. (AUG 2018) ‘Understanding Soil Water Content and Thresholds for Irrigation Management’. OSU Extension of Oklahoma State University.
Murray M, Soh WK, Yiotis C, et al. (2020) ‘Consistent Relationship between Field-Measured Stomatal Conductance and Theoretical Maximum Stomatal Conductance in C3 Woody Angiosperms in Four Major Biomes’. International Journal of Plant Sciences, 181, 1.
FireRock Music.（16 JUN 2019）「【問誰未發聲】歌詞 Mix全民超長版粵+國+台+英口琴+小童+學生+市民 Do you hear the people sing?」YouTube.

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

胡中行

169 篇文章・ 67 位粉絲

曾任澳洲臨床試驗研究護理師，以及臺、澳劇場工作者。西澳大學護理碩士、國立台北藝術大學戲劇學士（主修編劇）。邀稿請洽臉書「荒誕遊牧」，謝謝。

TRENDING 熱門討論

即時熱門

0

5

0

文字

來當一日語音設計師——如何設計好聽的合成語音？

雅文兒童聽語文教基金會・2023/03/31 ・3727字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

文／邱彥哲｜雅文基金會聽語科學研究中心助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎？你會要求他回答什麼呢？受限於目前的技術，你可能不會得到非常滿意的答案，但至少你會聽到一陣悅耳如同真人的語音吧！這項現今習以為常的技術，其實背後是由很多知識累積而成的。今天，讓我邀請你擔任一日「語音設計師」，從語音合成的技術開始，接著了解人類使用者的聽覺偏好，最後探索不同族群對聆聽合成語音的差異吧！

語音合成（speech synthesis），是指以人工方式，製造出說話的聲音，可以理解為使機器裝置說出人話的技術。廣義來說，很多人也會把文字轉語音（Text to Speech，簡稱 TTS），含括在語音合成的範疇。

語音合成像樂高，但樂高有兩種！

早在 1970 年代，人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事，最直接的方式就是請真人錄一段聲音，然後在指定的時機播放。不過，面對複雜的語言情境，我們不可能錄下所有可能的回應 ; 而且若要這樣做，也實在太沒效率。幸好，借助電腦運算技術，可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類，分別是單元選取合成（Unit Selection Synthesis）及參數合成（Parametric Synthesis）^[1]。

單元選取合成這種方法，是將某個語言的語音成分分別以人聲錄製起來，再根據需要的目標語音進行組合。簡單來說，如果需要機器說發出「八」的語音，就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便，但也有缺點。就是事先必須建立一個龐大的語音資料庫，這個資料庫必須包含一個語言所有語音成分，此外，還必須錄下這些語音成分在所有情境下的變化，光想起來就令人有點頭痛。

-----廣告，請繼續往下閱讀-----

所以後者，參數合成，就顯得方便許多。這種方法，是直接將語音參數輸入電腦，讓電腦直接根據參數發出聲音，再組成語音。使用參數合成，就可以免去請人錄音的步驟，但直接使用電腦生成的語音，聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高，都是將語音成分一塊一塊組合起來，只是前者的樂高是自然材質（比如說木頭製），後者是人造材質（比如說塑膠）。

借助深度學習，電腦說話很自動

不過，無論是上述哪種方法，都還是需要不少的人工調校，才能使聲音逐步接近人類的語音。但還好，隨著電腦演算的進步，將深度學習（deep learning）運用在語音合成的領域，不但減少了人工成本，也大大提升的語音的擬人性。所謂深度學習，簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法，設計者只需蒐集大量的語音資料，將資料「餵」給電腦，無須事先切分或分析，電腦便會自動學習其中的規律。如此一來，只要資料數量足夠龐大，電腦就可以自動產生符合自然規律且真實的語音。

但是，身為一位語音設計師，要進一步思考的是：「究竟要餵給電腦什麼呢？」這個問題又必須從使用者的角度來思考：「人類會偏好聆聽什麼樣的語音？」就像生產商品一樣，語音百百款，要能投其所好，才能讓使用者日日寸步不離，對吧！

-----廣告，請繼續往下閱讀-----

聆聽也要投其所好，性別頻率最重要

關於合成語音的聆聽偏好，最先被討論的，是性別。雖然我們都知道機器沒有性別，但若希望他和人一樣跟你互動，投射性別是很自然的。不過有人就提出質疑：「為什麼我們的語音助理，都是女性的聲音呢？」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查，測試了 8 種族裔的使用者，結果發現 64% 的人只偏好女性的聲音^[2]。

這樣看起來，預設為女性的聲音應該是沒問題的吧？不過，有人認為這是社會對「助理」的性別刻板印象所致；因為社會習慣女性作為「服務者」，所以在設計語音時，直覺地就挑選了女性聲音。雖然單就頻率方面，的確有研究指出，使用者確實是偏好頻率較高的合成語音^[3]，但若是一昧如此，也極有可能不斷複製性別偏見的印象^[4]。

有鑒於此，越來越多系統開始提供男性語音的選項。更甚者，哥本哈根研究團隊突發奇想，不以性別為選項，而是改以頻率作為調查標準。分析之後，他們得到一個最佳的頻率值──185 赫茲，設計出史上第一個無性別語音助理「Q」^[5]。如此一來，青菜蘿蔔各有所好，聆聽的偏好也朝著多元共好的目標邁進！

聽得舒服，語速考量不能少

解決的性別與頻率的問題，還得注意甚麼呢？專門研究輔助溝通系統（Augmentative and Alternative Communication，簡稱 AAC）的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」，是用以輔助溝通障礙者溝通的工具; 簡單如圖卡，複雜如電子溝通板，都算是其中一員。而像是電子溝通板這類，以螢幕顯示圖片，點擊後可以播放語音的輔具來說，合成語音是很關鍵的技術。

-----廣告，請繼續往下閱讀-----

這些溝通障礙專家想知道：「究竟什麼樣的語音速度，是最舒服的呢？」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者，對合成語音進行語速評分^[6]。語速的計算方式，採用每分鐘幾個字（Words per minute，簡稱 WPM）計算。他們將合成語音調整成不同的語速，範圍介於 120 到 250WPM 之間。結果發現，無論年輕人或年長者，偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍，其實與過去研究提出的人類平均語速，相去不遠^[7]。

如果想知道不同語速聽起來感受如何，可以到合成語音軟體 Speechify^[8]的網站試用，自行調整語速（以 WPM 計算），細細品味其中差異。或者，讓我為你朗讀，請聽示範（語速約 180WPM，內容為「我是彥哲，我是普通人。」）！

可見，語音合成的技術雖是極為理性的領域，但若要設計出美妙的語音，對人類感性的理解，也絕對不能偏廢。

-----廣告，請繼續往下閱讀-----

合成語音聆聽不易，考量族群差異最貼心

「所以，我只要想辦法把語音設計得很像人類就可以了吧？」你可能會這樣想，不過這裡頭還少了一個部分。現代社會提倡多元，客製化當道，每個人使用同個產品的狀況必然會有差異。

其實，即使是一般人，聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出：由於合成語音的清晰度普遍較差，因此聆聽者通常需要動用更多的認知資源（像是電腦需要動用較多記憶體），以及更多高層次的語言知識來彌補語音訊息的不完整^[9]。如果對普通人來說是如此，對於某些特殊族群來說，想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究^[10]。參與者的任務，是要在聽完自然語音及合成語音播放的八個詞彙之後，再將這八個詞彙回憶並說出來，回答無須按照順序。結果研究者發現，兩組兒童無論聆聽自然或合成語音，回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言，記憶合成語音的表現又更不理想。

由此可知，兒童本身的記憶能力就較成年人弱，在聆聽合成語音時，可以說是是難上加難。

-----廣告，請繼續往下閱讀-----

另一個被探討的，是聽障族群。聽障族群最主要的困難，就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難，那對聽障族群應該是更加艱困的挑戰吧！Kangas 和 Allen 的研究^[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音，並請他們在聆聽後寫出聽到的單字。結果可想而知，聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況，身為語音設計師的你，在設計語音的時候，是不是也應該從使用者的背景差異去調整你的語音呢？也許是調整語音的頻率，也許是調整語速，也可能，也可能有更多領域需要探索。唯有這樣，才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣？沒想到要設計語音，希望機器說出一句話，背後涉及理性的技術與感性的考量，非常不容易吧！看完之後，你還是可以輕鬆地要求你的行動裝置說個笑話，唱首歌給你聽，自娛娛人；但也千萬別忘記，多留點心思，給這人類文明的結晶致上敬意。一日語音設計師，功成身退！

參考資料

詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來：引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯，頁104-137)。商周出版。
Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
顏宏旭，楊麗平，宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4)，83-107。
West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
GenderLess Voice. (2023/3/3) Meet Q [Web message].
Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
Speechify. (2023/3/3) Speechify.
Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

雅文兒童聽語文教基金會

62 篇文章・ 223 位粉絲

雅文基金會提供聽損兒早期療育服務，近年來更致力分享親子教養資訊、推動聽損兒童融合教育，並普及聽力保健知識，期盼在家庭、學校和社會埋下良善的種子，替聽損者營造更加友善的環境。

TRENDING 熱門討論

即時熱門

教電腦「看」世界：電腦也能當球賽戰術分析員！

為什麼要研究「電腦視覺」？

教電腦看世界 特徵辨認第一課

妙手回春 老相片老電影重獲新生

人工智慧當道 電腦視覺技術突飛猛進

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

第一顆「汽車大腦」的誕生

ECU 的失控暴增與甜蜜的負荷

汽車電子革命：從「百腦亂舞」到集中治理

萬無一失的「汽車大腦」：威力暘的四大策略

軟體定義汽車 SDV：你的愛車也能「升級」！

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

傾聽植物的聲音

植物錄音與機器學習

體積含水量

植物發聲的原理

問誰未發聲

你敢有聽著咱的歌

備註

參考資料

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

語音合成像樂高，但樂高有兩種！

借助深度學習，電腦說話很自動

聆聽也要投其所好，性別頻率最重要

聽得舒服，語速考量不能少

合成語音聆聽不易，考量族群差異最貼心

參考資料

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

教電腦看世界特徵辨認第一課

妙手回春老相片老電影重獲新生

人工智慧當道電腦視覺技術突飛猛進

發表意見

發表意見

發表意見

發表意見