0

2

文字

繁 | 简

0

2

Promo 文明足跡活得科學科技能源透視科學

Hey Siri! 機器為什麼能聽得懂人話？語音技術的前世今生與未來

研之有物│中央研究院・2018/06/14 ・5138字・閱讀時間約 10 分鐘・SR值 545

・八年級

相關標籤：

熱門標籤：

整理報導｜莊崇暉美術編輯｜張語辰

「天下沒有兩句話的聲音數據是一樣的！」人類語言的聲音數據千變萬化，同一個人說同一句話兩次，其數據絕對差很多；這是發展語音技術的最主要困難點。

好在人類語言有結構，因此語音技術必須透視聲音的結構。本文整理中研院李琳山院士在講座中的演講精華，一同了解華語語音技術的前世、今生並展望來生。

李琳山是臺灣研究語音技術的先行者，也是全球研究華語語音技術的拓荒者，一路看著「華語語音技術」由誕生、成長到茁壯。　攝影／張語辰

中央研究院李琳山院士演講的這一天，已經是臺北連續第五天微雨。前往會場的路上，你可能會問 Siri 明天天氣如何，並於一秒後聽到她回覆：「陰天，22 度」，還附上參考網址。究竟機器是如何聽懂人話的？

「語音技術，即是藉由機器處理語音訊號的數據。」李琳山開場時表示，人的語言的聲音是聲波，用麥克風收下來變成訊號後成為時間函數，再把任一小段「聲波波形」轉變成「實數序列」，也就是數據，再進行分析處理。

語音技術的最主要困難點，在於「聲波波形」的千變萬化。

例如，李琳山展示某一個人說一句話「到不到臺灣大學」的聲波，發現句中兩個「到」字聲波長得完全不一樣、音高也很不同，「天下沒有兩句話是一樣的！」

-----廣告，請繼續往下閱讀-----

此外，我們熟知的是華語中有很多同音字，如說到「今」、「天」時，為什麼不會認為前者是黃金的「金」？李琳山解釋，聲音的訊號是有結構的，人腦中有類似辭典及文法、還有遠遠更為複雜的知識，我們會根據這些知識及前後文判斷出正確文字。因此，語音技術必須透視聲音的結構。

要讓電腦像人一樣，學會「聽」和「說」人類語言有多難？得從華語語音技術的前世說起。

語音技術前世：口齒不清牙牙學語的機器

1980 年，李琳山剛取得博士學位不久，回到臺灣。當時製作一份中文文件，得使用嵌有幾千個鉛字的大鍵盤中文打字機，臺北街頭還有不少打字行在徵求打字員。當時很多人思考：中文字輸入機器真的這麼困難嗎？並提出了許多解決方案，例如字根法、注音符號法等。李琳山則想著是否可以用「聲音」輸入中文。但是，以當時技術及臺灣的研究環境而言，他說：「太難了」。

1990 年代的中文鉛字打字機，現存於德國慕尼黑大學漢學院。　資料來源／Wikipedia [CC BY-SA 3.0]

為了實現用「聲音」輸入中文，構想之初，李琳山認為華語是一字一音，音的總數有限，頂多一千多個，讓機器學會聽這一千多個音，應該就可以用聲音來輸入文字。不過事情沒有想像中簡單，因為透過文獻發現，當時連英語語音輸入的技術都尚在極為原始的階段。因此，李琳山決定先教電腦「說華話」，但即使做出所有的一千多個音、拼成句子，機器發出來的音仍然不知所云。

-----廣告，請繼續往下閱讀-----

李琳山百思不得其解：人說話不就是把這些音拼起來嗎？為什麼機器拼的聽起來不知所云？直到 1983 年，聽到一位語言學家的專業建議，李琳山開始尋找華語語句中每個字發音的「調整抑揚頓挫的一般性規則」。

華語語句中每個字只要前後字不同，就會有不同的抑揚頓挫，也就是音高、音量、音長和停頓的變化。

看來，唯一辦法是從數據中找答案。李琳山決定土法煉鋼，造出一堆句子並錄音，透過人工手動分析，確實慢慢發現若干一般性規則。

舉例：「我有好幾把小雨傘」一句中每個字都是第三聲，就有複雜的第三聲相連規則。一般熟知的是兩個第三聲相連時，前面那個會變二聲，例如「總統」。　資料來源／李琳山　圖說重製／張語辰

李琳山分析上圖這句話的文法結構，發現各個字之間有各種不同的文法結構邊界，原來前述三聲變化規則可以橫跨某些邊界，但不能橫跨其他邊界。如此一來就有答案了。把全部規則兜起來以後，再讓電腦用單音拼成一句話，並照規則調整每個字的抑揚頓挫，此時電腦雖然有點口齒不清，但大致能聽得懂電腦在說什麼了。

1984 年，短短一年後，口齒不清的電腦成為全球首台能說出華語的機器。李琳山给它一個很直白的名稱：「電腦說國語」，此套系統只要輸入文字或注音，就可以輸出聲音。由於聲音還是不太入耳，李琳山的研究團隊三年後改良出更好的系統，甚至能表演相聲，展現豐富的抑揚頓挫，例如下面音檔示範：

-----廣告，請繼續往下閱讀-----

「電腦說語音」技術研發故事（演講現場播放）

音訊播放器

00:00

使用向上/向下鍵以提高或降低音量。

李琳山之後開始想訓練機器聽華語。他提出三個基本假設，試圖讓華語語音辨識（Speech recognition）的問題變得比較可以解決。

首先，一次只輸入一個音就好，也就是一字一字「斷開」輸入，藉此避免連續語句中不同的前後字影響，造成不同的聲音訊號變化的問題。第二，每一位使用者自己說話訓練機器聽他的聲音，也就是要避免不同說話者的「音質」、「口音」等等差異。第三，辨識過程中一定會出現錯誤，讓人工操作軟體來更正就是了。這三個假設讓問題比較有機會解決。

機器操作時，需要當年看來極為龐大的運算能力，也需要複雜的硬體電路支援，然而因為當時軟體的計算能力太弱了，而不同的硬體電路拼湊困難始終不成功，後來李琳山決定傾盡研究室的財力，自國外購買平行運算電腦（transputer），終於在 1992 年完成第一部語音辨識系統，命名為「金聲一號」（Golden Mandarin I）。這是全球首見的華語語音輸入系統，但一次只能輸入一個字，且那一個字需要好幾秒才看到辨識結果。之後不斷修改翻新，三年後的金聲三號（Golden Mandarin III）終於不需要斷開文字，可以直接用連續語音輸入中文字。

-----廣告，請繼續往下閱讀-----

李琳山說：「以前最大的問題是，華語中每個音的訊號的波形，長相都會因為前後字不同而改變。到金聲三號時我們已經讓機器自行由數據中，學出這些變化來解決這個問題。以現代名稱來說，就是古代的機器學習（machine learning）。」李琳山說，以今天科技進步的速度來看，1990 年代稱為「古代」應屬合理。

今生：語音辨識加上雲端巨量資料庫

隨著機器學習等技術的進步，今天各種語音個人助理如 Siri 等等，聲控與回應能力也越來越強。李琳山說明，其實 Siri 並沒有太多特別了不起的技術。

如上圖，開發者把龐大的機器及計算資源、數據模型等設置在雲端，使用者對智慧型手機說話後，聲音訊號被送至「雲端」。雲端的龐大機器分析巨量資料、透過深層學習（Deep Learning，或譯深度學習）得到的技術來進行聲音辨識、資料搜尋，造句並合成聲音等，再傳回使用者。

如果除去雲端架構、巨量資料、深層學習等今日尖端技術及龐大的運算資源，Siri 剩下的華語語音辨識核心技術和 1995 年李琳山團隊的金聲三號差別並不大。

-----廣告，請繼續往下閱讀-----

各種現行的語音助理：Siri, Google Now, Windows Cortana. By Pol.fores01 [CC BY-SA 4.0], from Wikimedia Commons

在今日巨量資料及深層學習的環境裡，機器可以在短期內聽完一個人由出生到 70 歲可聽到所有的聲音的總時數，甚至可聽完千百人一生聽過的聲音的總和。因此，機器有可能聽得比人還好嗎？現在或短期內還不會發生，但如是針對有特定規則的比賽，例如下棋或電腦遊戲，我們知道機器贏人已時有所聞。

提及「華語語音」辨識技術與「西方語音」辨識技術的差異，李琳山說明，華語是方塊字非拼音語言，由字構詞，由詞造句。詞的定義和在整句文句中詞的邊界也不明確。我們時常自動把很多小詞串起來變成長詞，又可以把長詞縮短變成短詞等等，也隨時自動產生很多新詞。

為了辨識語音、理解語意，機器自然需要詞典資料庫。然而開發者遇到的第一個問題可能是──該放多少詞？哪些詞？因為華語的詞幾乎是無限多的。

再者，華語一字一音，音的總數有限，但字總數很多，故同音字多，不同聲調和不同音的組合，產生出千變萬化的詞和句。例如，二人都說喜歡「城市」，乍聽並不易判斷他們到底是喜歡「城市」或「程式」。

-----廣告，請繼續往下閱讀-----

華語中只有少數有限的「音」，每個「音」可代表很多同音字，這些字可拼成千千萬萬的詞和句。

華語的「音」帶有極豐富的語言訊息，這種「音」的層次的語言單位是西方語言所沒有的。

李琳山認為，透過巨量資料及深層學習，有機會讓巨量資料涵蓋人類語言中的各種現象，也有可能讓機器找到人類尚未考慮到的答案。也就是說當機器非常強大、數據多到可以涵蓋所有語言現象時，機器「有可能」自動學習到所有這些現象。不過目前還沒有發生。

下階段目標：「語音版」google，用聲音搜尋資訊

談及下一階段語音技術發展的可能方向，李琳山認為自己一直是追尋「遙遠大夢」的人，投入的研究方向常常在短期內看不出有實質回收的機會，例如：他今日非常有興趣的領域之一是語音搜尋，這就是語音版的 Google 。

網路多媒體湧現，如 YouTube 或線上課程，多數影片內容常有非常豐富的「聲音」，但其中的文字必須由人輸入，而且文字量常常比聲音少。

但現有透過 Google 去搜尋 YouTube 或影音平台的功能，僅止於搜尋那些人為輸入、數量較少的「文字」，例如影片描述、字幕等等，卻不是影音本身的「聲音」。

-----廣告，請繼續往下閱讀-----

李琳山說：「 Google 看盡天下文章後能幫人找出任何一篇文章。機器聽聲音正如看文章，應該也可以聽盡天下聲音後，找到其中任何一句話。」例如，如果有人想找有關「深層學習」的演說，機器聽到指令搜尋後，應能跟他說某部影片的某句話提到「深層學習」。

目前用 Goole 搜尋 YouTube 影片時仍需要「文字輸入」關鍵詞，且只能找到整段影片，並無法知道影片中的每一句話各在說什麼，除非仔細聽一遍。這和李琳山所說的語音搜尋不同。　圖片來源／Google 搜尋

李琳山的團隊曾蒐集 110 小時、6000 則的公視新聞製作雛型系統，只要對機器說出「王建民讀的國小」，機器便會自動抓出含有「王建民」與「國小」兩個關鍵詞的新聞片段。

再以網路課程為例，李琳山的研究團隊曾開發「臺大虛擬教師」，把課程錄音以投影片為單位，將聲音切成小段，變成一張張有聲投影片。再從每張投影片中抽出「關鍵詞」建成關鍵詞圖，分析詞關鍵詞之間的關係。如此一來，機器不僅可以找出討論相關主題的課程段落，讓使用者知道所找到的投影片的大致內容，並可以建議學習的前後順序，也能自動摘要出其中的語音資訊。

李琳山現場展示「台大虛擬教師」的操作。例如，有一個學生聽演講時聽到類似 “Black word algorithm” （黑字演算法）的字眼，就上網查相關課程，發現果然有好幾張投影片都說到這個詞。不過一聽就發現，所找到的投影片真正說的是 “Backward algorithm” （反向演算法），那才是那個學生聽到的。李琳山說：「這可以證明我們搜尋的是聲音，而不是文字。」

來生：融會貫通多媒體數位內容，量身打造課程資訊

談起語音技術的未來，李琳山認為，未來機器有機會替人類把網路資訊去蕪存菁、融會貫通。例如 2015 年 YouTube 的尖峰時段每分鐘有 300 小時影片上傳，2016 年 Coursera 線上課程有將近 2000 門課。沒人有能力看完或聽完所有這些數位內容，人類的文明精華因而埋在大量不相干的資料堆中。但是機器可以看完、聽完它們。

具有代表性的線上課程網站 Coursera。 By Coursera – coursera.org, 公有領域, @wikipedia commons

李琳山舉例：機器有可能聽完全部內容並融會貫通，再為每個人抽出他所需要的部分，由機器量身訂製課程。例如一名工程師被派到奧地利出差，他跟機器說：「我想學莫札特作品的知識，但我是個工程師，沒有背景知識，願意花三小時來學。」李琳山認為技術上，機器有機會做得出這種「客製化課程」。

李琳山以「遙遠大夢」比喻語音技術的研究。

回顧華語語音技術三十幾年的發展，電腦機器已經從「牙牙學語」進展到「對答如流」，卻還有許多需著力之處。李琳山說「芝麻開門」是人類的千古大夢，希望開口說話就可以打開寶藏的大門。以今日眼光來看，網路是全人類的知識寶藏，未來隨口說句話便可以開啟寶藏大門是有機會的。他說：「大夢雖遙遠，有一天有人會實現它。」

延伸閱讀：

本著作由研之有物製作，原文為〈Google 可能會有語音版嗎？會長怎樣？「電腦聽說人類語言」技術的前世今生〉以創用CC 姓名標示–非商業性–禁止改作 4.0 國際授權條款釋出。

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

研之有物│中央研究院

296 篇文章・ 3664 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

0

2

1

文字

ECU: 汽車大腦的演化與挑戰

鳥苷三磷酸 (PanSci Promo) ・2025/07/02 ・3793字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

本文與威力暘電子合作，泛科學企劃執行。

想像一下，當你每天啟動汽車時，啟動的不再只是一台車，而是一百台電腦同步運作。但如果這些「電腦」突然集體當機，後果會有多嚴重？方向盤可能瞬間失靈，安全氣囊無法啟動，整台車就像失控的高科技廢鐵。這樣的「系統崩潰」風險並非誇張劇情，而是真實存在於你我日常的駕駛過程中。

今天，我們將深入探討汽車電子系統「逆天改運」的科學奧秘。究竟，汽車的「大腦」—電子控制單元（ECU），是如何從單一功能，暴增至上百個獨立系統？而全球頂尖的工程師們，又為何正傾盡全力，試圖將這些複雜的系統「砍掉重練」、整合優化？

第一顆「汽車大腦」的誕生

時間回到 1980 年代，當時的汽車工程師們面臨一項重要任務：如何把汽油引擎的每一滴燃油都壓榨出最大動力？「省油即省錢」是放諸四海皆準的道理。他們發現，關鍵其實潛藏在一個微小到幾乎難以察覺的瞬間：火星塞的點火時機，也就是「點火正時」。

如果能把點火的精準度控制在「兩毫秒」以內，這大約是你眨眼時間的百分之一到千分之一！引擎效率就能提升整整一成！這不僅意味著車子開起來更順暢，還能直接省下一成的油耗。那麼，要如何跨過這道門檻？答案就是：「電腦」的加入！

-----廣告，請繼續往下閱讀-----

工程師們引入了「微控制器」（Microcontroller），你可以把它想像成一顆專注於特定任務的迷你電腦晶片。它能即時讀取引擎轉速、進氣壓力、油門深度、甚至異常爆震等各種感測器的訊號。透過內建的演算法，在千分之一秒、甚至微秒等級的時間內，精準計算出最佳的點火角度，並立刻執行。

從此，引擎的性能表現大躍進，油耗也更漂亮。這正是汽車電子控制單元（ECU）的始祖—專門負責點火的「引擎控制單元」（Engine Control Unit）。

**汽車電子控制單元的始祖**—專門負責點火的「引擎控制單元」（Engine Control Unit）/ 圖片來源:shutterstock

ECU 的失控暴增與甜蜜的負荷

第一顆 ECU 的成功，在 1980 年代後期點燃了工程師們的想像：「這 ECU 這麼好用，其他地方是不是也能用？」於是，ECU 的應用範圍不再僅限於點火，燃油噴射量、怠速穩定性、變速箱換檔平順度、ABS 防鎖死煞車，甚至安全氣囊的引爆時機……各種功能都交給專屬的 ECU 負責。

然而，問題來了：這麼多「小電腦」，它們之間該如何有效溝通？

-----廣告，請繼續往下閱讀-----

為了解決這個問題，1986 年，德國的博世（Bosch）公司推出了一項劃時代的發明：控制器區域網路（CAN Bus）。你可以將它想像成一條專為 ECU 打造的「神經網路」。各個 ECU 只需連接到這條共用的線路上，就能將訊息「廣播」給其他單元。

更重要的是，CAN Bus 還具備「優先通行」機制。例如，煞車指令或安全氣囊引爆訊號這類攸關人命的重要訊息，絕對能搶先通過，避免因資訊堵塞而延誤。儘管 CAN Bus 解決了 ECU 之間的溝通問題，但每顆 ECU 依然需要獨立的電源線、接地線，並連接各種感測器和致動器。結果就是，一輛汽車的電線總長度可能達到 2 到 4 公里，總重量更高達 50 到 60 公斤，等同於憑空多載了一位乘客的重量。

另一方面，大量的 ECU 與錯綜複雜的線路，也讓「電子故障」開始頻繁登上汽車召回原因的榜首。更別提這些密密麻麻的線束，簡直是設計師和維修技師的惡夢。要檢修這些電子故障，無疑讓人一個頭兩個大。

大量的 ECU 與錯綜複雜的線路，也讓「電子故障」開始頻繁登上汽車召回原因的榜首。/圖片來源:shutterstock

汽車電子革命：從「百腦亂舞」到集中治理

到了2010年代，汽車電子架構迎來一場大改革，「分區架構（Zonal Architecture）」搭配「中央高效能運算（HPC）」逐漸成為主流。簡單來說，這就像在車內建立「地方政府＋中央政府」的管理系統。

-----廣告，請繼續往下閱讀-----

可以想像，整輛車被劃分為幾個大型區域，像是車頭、車尾、車身兩側與駕駛艙，就像數個「大都會」。每個區域控制單元（ZCU）就像「市政府」，負責收集該區所有的感測器訊號、初步處理與整合，並直接驅動該區的馬達、燈光等致動器。區域先自理，就不必大小事都等中央拍板。

而「中央政府」則由車用高效能運算平台（HPC）擔任，統籌負責更複雜的運算任務，例如先進駕駛輔助系統（ADAS）所需的環境感知、物體辨識，或是車載娛樂系統、導航功能，甚至是未來自動駕駛的決策，通通交由車輛正中央的這顆「超級大腦」執行。

乘著這波汽車電子架構的轉型浪潮中， 2008 年成立的台灣本土企業威力暘電子，便精準地切入了這個趨勢，致力於開發整合 ECU 與區域控制器（Domain Controller）功能的模組化平台。他們專精於開發電子排檔、多功能方向盤等各式汽車電子控制模組。為了確保各部件之間的溝通順暢，威力暘提供的解決方案，就像是將好幾個「分區管理員」的職責，甚至一部分「超級大腦」的功能，都整合到一個更強大的硬體平台上。

這些模組不僅擁有強大的晶片運算能力，可同時支援 ADAS 與車載娛樂，還能兼容多種通訊協定，大幅簡化車內網路架構。如此一來，車廠在追求輕量化和高效率的同時，也能顧及穩定性與安全性。

-----廣告，請繼續往下閱讀-----

2008 年威力暘電子致力於開發整合 ECU 與區域控制器（Domain Controller）功能的模組化平台 /圖片來源:shutterstock

萬無一失的「汽車大腦」：威力暘的四大策略

然而，「做出來」與「做好」之間，還是有差別。要如何確保這顆集結所有功能的「汽車大腦」不出錯？具體來說，威力暘電子憑藉以下四大策略，築起其產品的可靠性與安全性：

AUTOSAR ： 導入開放且標準化的汽車軟體架構 AUTOSAR。分為應用層、運行環境層（RTE）和基礎軟體層（BSW）。就像在玩「樂高積木」，ECU 開發者能靈活組合模組，專注在核心功能開發，從根本上提升軟體的穩定性和可靠性。
V-Model 開發流程：這是一種強調嚴謹、能在早期發現錯誤的軟體開發流程。就像打勾 V 字形般，左側從上而下逐步執行，右側則由下而上層層檢驗，確保每個階段的安全要求都確實落實。
基於模型的設計 MBD（Model-Based Design）：威力暘的工程師們會利用 MatLab®/Simulink® 等工具，把整個 ECU 要控制的系統(如煞車)，用數學模型搭建起來，然後在虛擬環境中進行大量的模擬和測試。這等於在實體 ECU 誕生前，就能在「數位雙生」世界中反覆演練、預先排除設計缺陷，，並驗證安全機制是否有效。
Automotive SPICE (ASPICE) ： ASPICE 是國際公認的汽車軟體「品質管理系統」，它不直接評估最終 ECU 產品本身的安全性，而是深入檢視團隊在軟體開發的「整個過程」，也就是「方法論」和「管理紀律」是否夠成熟、夠系統化，並只根據數據來評估品質。

既然 ECU 掌管了整輛車的運作，其能否正常運作，自然被視為最優先項目。為此，威力暘嚴格遵循汽車業中一本堪稱「安全聖經」的國際標準：ISO 26262。這套國際標準可視為一本針對汽車電子電氣系統（特別是 ECU）的「超嚴格品管手冊」和「開發流程指南」，從概念、設計、測試到生產和報廢，都詳細規範了每個安全要求和驗證方法，唯一目標就是把任何潛在風險降到最低

有了上述這四項策略，威力暘確保其產品從設計、生產到交付都符合嚴苛的安全標準，才能通過 ISO 26262 的嚴格檢驗。

然而，ECU 的演進並未就此停下腳步。當ECU 的數量開始精簡，「大腦」變得更集中、更強大後，汽車產業又迎來了新一波革命：「軟體定義汽車」（Software-Defined Vehicle, SDV）。

-----廣告，請繼續往下閱讀-----

軟體定義汽車 SDV：你的愛車也能「升級」！

未來的汽車，會越來越像你手中的智慧型手機。過去，車輛功能在出廠時幾乎就「定終身」，想升級？多半只能換車。但在軟體定義汽車（SDV）時代，汽車將搖身一變成為具備強大運算能力與高速網路連線的「行動伺服器」，能夠「二次覺醒」、不斷升級。透過 OTA（Over-the-Air）技術，車廠能像推送 App 更新一樣，遠端傳送新功能、性能優化或安全修補包到你的車上。

不過，這種美好願景也將帶來全新的挑戰：資安風險。當汽車連上網路，就等於向駭客敞開潛在的攻擊入口。如果車上的 ECU 或雲端伺服器被駭，輕則個資外洩，重則車輛被遠端鎖定或惡意操控。為了打造安全的 SDV，業界必須遵循像 ISO 21434 這樣的車用資安標準。

威力暘電子運用前面提到的四大核心策略，確保自家產品能符合從 ISO 26262 到 ISO 21434 的國際認證。從品質管理、軟體開發流程，到安全認證，這些努力，讓威力暘的模組擁有最高的網路與功能安全。他們的產品不僅展現「台灣智造」的彈性與創新，也擁有與國際大廠比肩的「車規級可靠度」。憑藉這些實力，威力暘已成功打進日本 YAMAHA、Toyota，以及歐美 ZF、Autoliv 等全球一線供應鏈，更成為 DENSO 在台灣少數核准的控制模組夥伴，以商用車熱系統專案成功打入日系核心供應鏈，並自 2025 年起與 DENSO 共同展開平台化量產，驗證其流程與品質。

毫無疑問，未來車輛將有更多運作交由電腦與 AI 判斷，交由電腦判斷，比交由人類駕駛還要安全的那一天，離我們不遠了。而人類的角色，將從操作者轉為監督者，負責在故障或斷網時擔任最後的保險。透過科技讓車子更聰明、更安全，人類甘願當一個「最弱兵器」，其實也不錯！

-----廣告，請繼續往下閱讀-----

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

227 篇文章・ 315 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

1

0

文字

數智驅動未來：從信任到執行，AI 為企業創新賦能

鳥苷三磷酸 (PanSci Promo) ・2025/01/13 ・4938字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

本文由鼎新數智與泛科學共同規劃與製作

你有沒有想過，當 AI 根據病歷與 X 光片就能幫你診斷病症，或者決定是否批准貸款，甚至從無人機發射飛彈時，它的每一步「決策」是怎麼來的？如果我們不能知道 AI 的每一個想法步驟，對於那些 AI 輔助的診斷和判斷，要我們如何放心呢？

馬斯克與 OpenAI 的奧特曼鬧翻後，創立了新 AI 公司 xAI，並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型，而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今，AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？

-----廣告，請繼續往下閱讀-----

AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？圖／pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題？試想，現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險，但這些模型往往如同黑箱操作。有人貸款被拒，卻完全不知原因，感覺就像被分手卻不告訴理由。更嚴重的是，AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價，這些與信用風險真的相關嗎？這種不透明性只會讓弱勢群體更難融入金融體系，加劇貧富差距。這種不透明性，會讓原本就已經很難融入金融體系的弱勢群體，更加難以取得貸款，讓貧富差距越來越大，雪上加霜。

AI 不僅影響貸款，還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑，試圖預測嫌犯再犯風險。然而，這些工具被發現對有色人種特別不友好，往往給出偏高的再犯風險評估，導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是，這些決策缺乏透明度，AI 做出的決策根本沒法解釋，這讓嫌犯和律師無法查明問題根源，結果司法公正性就這麼被悄悄削弱了。

此外，AI 在醫療、社交媒體、自駕車等領域的應用，也充滿類似挑戰。例如，AI 協助診斷疾病，但若原因報告無法被解釋，醫生和患者又怎能放心？同樣地，社群媒體或是 YouTube 已經大量使用 AI 自動審查，以及智慧家居或工廠中的黑盒子問題，都像是一場越來越複雜的魔術秀——我們只看到結果，卻無法理解過程。這樣的情況下，對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具，自己卻無法理解？

原因有二。首先，深度學習模型結構複雜，擁有數百萬參數，人類要追蹤每個輸入特徵如何影響最終決策結果，難度極高。例如，ChatGPT 中的 Transformer 模型，利用注意力機制（Attention Mechanism）根據不同詞之間的重要性進行特徵加權計算，因為機制本身涉及大量的矩陣運算和加權計算，這些數學操作使得整個模型更加抽象、不好理解。

-----廣告，請繼續往下閱讀-----

其次，深度學習模型會會從資料中學習某些「特徵」，你可以當作 AI 是用畫重點的方式在學習，人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習，但這些特徵往往對人類來說過於抽象。例如在影像辨識中，人類習慣用眼睛、嘴巴的相對位置，或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵，而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示（Distributed Representation）來編碼特徵，意思是將一個特徵表示為一個高維向量，每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。對 AI 而言，這是理解世界的方式，但對人類來說，卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。圖／unsplash

試想，AI 協助診斷疾病時，若理由是基於醫生都無法理解的邏輯，患者即使獲得正確診斷，也會感到不安。畢竟，人們更相信能被理解的東西。

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

首先，可以利用熱圖（heatmap）或注意力圖這類可視化技術，讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡，來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中，當 AI 判斷這張照片裡是「貓」還是「狗」時，我需要它向我們展示在哪些地方「盯得最緊」，像是耳朵的形狀還是毛色的分布。

-----廣告，請繼續往下閱讀-----

其次是局部解釋，LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈，它將每個特徵看作「玩家」，而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻，讓我們可以了解各個特徵如何影響最終結果。並且，SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的，還能透過「全局解釋」理解模型整體的運作中，哪些特徵最重要。

以實際的情景來說，SHAP 可以讓 AI 診斷出你有某種疾病風險時，指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同，會針對單一個案建立一個簡單的模型，來近似原始複雜模型的行為，目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時，LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用，一大優勢是靈活且計算速度快，適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景，LIME 可以幫助醫生理解 AI 為何推薦某種治療方案，並說明幾個主要原因，這樣醫生不僅能更快做出決策，也能增加患者的信任感。

-----廣告，請繼續往下閱讀-----

第三是反事實解釋：如果改變一點點，會怎麼樣？

如果 AI 告訴你：「這家銀行不會貸款給你」，這時你可能會想知道：是收入不夠，還是年齡因素？這時你就可以問 AI：「如果我年輕五歲，或者多一份工作，結果會怎樣？」反事實解釋會模擬這些變化對結果的影響，讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大，就像揭示一道菜中，哪些調味料是味道的關鍵。例如在金融風險預測中，模型可能指出「收入」影響了 40%，「消費習慣」占了 30%，「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時，還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術，才能達到更完整的解釋效果。

講到這裡，你可能會問：我們距離能完全信任 AI 還有多遠？又或者，我們真的應該完全相信它嗎？

-----廣告，請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。因此，AI 既要「可解釋」，也要「能代理」。

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。圖／unsplash

舉例來說，當一家公司要做一個看似「簡單」的決策時，背後的過程其實可能極為複雜。例如，快時尚品牌決定是否推出新一季服裝，不僅需要考慮過去的銷售數據，還得追蹤熱門設計趨勢、天氣預測，甚至觀察社群媒體上的流行話題。像是暖冬來臨，厚外套可能賣不動；或消費者是否因某位明星愛上一種顏色，這些細節都可能影響決策。

這些數據來自不同部門和來源，龐大的資料量與錯綜關聯使企業判斷變得困難。於是，企業常希望有個像經營大師的 AI 代理人，能吸收數據、快速分析，並在做決定時不僅給出答案，還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子，而可解釋 AI （XAI）則清楚解釋其判斷依據。例如，為什麼不建議推出厚外套？可能理由是：「根據天氣預測，今年暖冬概率 80%，過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告，請繼續往下閱讀-----

但會解釋還不夠，AI 還需能真正執行。這時，就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」，大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時，這位產品經理不會手忙腳亂，而是按以下步驟行動：

檢查倉庫物料：庫存夠不夠？有沒有替代料可用？
評估交期影響：如果需要新物料，供應商多快能送到？
計算成本變化：用新料會不會超出成本預算？
做出最優判斷，並自動生成變更單、工單和採購單，通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節，還會記錄每次決策結果，學習如何變得更高效。隨時間推移，這位「智慧產品經理」的判斷將更聰明、決策速度更快，幾乎不需人工干預。更重要的是，這些判斷是基於「以終為始」的原則，為企業成長目標（如 Q4 業績增長 10%）進行連續且動態地自我回饋，而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作，讓企業決策流程不僅透明，還能自動執行。這正是數智驅動的核心，不僅依靠數據驅動決策，還要能解釋每一個選擇，並自動行動。這個過程可簡化為 SUPA，即「感知（Sensing）→ 理解（Understanding）→ 規劃（Planning）→ 行動（Acting）」的閉環流程，隨著數據的變化不斷進化。

以偉勝乾燥工業為例，他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後，偉勝成功將數智驅動融入業務與產品開發，專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合，開發出新形態智慧化設備，成功打入半導體產業，帶動業績大幅成長，創造下一個企業的增長曲線。

-----廣告，請繼續往下閱讀-----

值得一提的是，數智驅動不僅帶動業務增長，還讓員工擺脫繁瑣工作，讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術，還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用，企業首先要確保它服務於具體的業務需求，而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐，才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力？免費上手企業 AI 助理！企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知：https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道，深入科技趨勢與議題內容。
立即免費加入

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

鳥苷三磷酸 (PanSci Promo)

227 篇文章・ 315 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

2

1

文字

AI 能像人類一樣思考？諾貝爾物理學獎研究助力人工智慧模擬人類大腦

PanSci ・2024/11/14 ・2117字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

即使再怎麼模仿，AI 終究無法以與生物相同的方式思考吧？畢竟電腦的電子元件和我們大腦中的神經細胞結構截然不同。再怎麼模仿，AI 終究無法以與生物相同的方式思考吧？

錯，可以。

2024 年諾貝爾物理學獎跌破所有專家的眼鏡，頒給了兩位研究機器學習的科學家——約翰·霍普菲爾德（John Hopfield）和傑佛瑞·辛頓（Geoffrey Hinton）。他們以「人工」的方法打造了類神經網路，最終模擬出生物的「智慧」，奠定了當代深度學習的基礎。

為什麼解決人工智慧發展瓶頸的，竟然會是物理學？物理要怎麼讓 AI 更像人類？

-----廣告，請繼續往下閱讀-----

從巴甫洛夫的狗到赫布理論：理解學習的基礎

為了解答這個疑問，我們需要一些背景知識。

20 世紀初，俄羅斯心理學家巴甫洛夫發現，狗在食物還沒入口前，就會開始分泌唾液。他進行了一系列實驗，改變食物出現前的環境，比如讓狗習慣在聽到鈴聲後馬上得到食物。久而久之，狗只要聽到鈴聲，就會開始分泌唾液。

大約 50 年後，神經科學家赫布（Donald Hebb）提出了一個假說：大腦中相近的神經元，因為經常同時放電，會產生更強的連結。這種解釋稱為「赫布理論」，不僅奠定了神經心理學的發展，更成為現代深度學習的基礎。

然而，赫布理論雖然描述了鄰近神經元的關係，卻無法解釋大腦如何建構出如此複雜的聯想網路。

-----廣告，請繼續往下閱讀-----

霍普菲爾德網路：物理學家對神經網路的貢獻

然而，赫布理論雖能描述神經元之間的關係，卻缺乏數學模型。物理學家約翰·霍普菲爾德從數學家約翰·康威（John Conway）的「生命遊戲」（Game of Life）中獲得靈感，試圖建立一個可以在電腦上運行的記憶系統。

「生命遊戲」由數學家康威（John Conway）發明，玩家開始時有一個棋盤，每個格子代表一個細胞，細胞可以是「活」或「死」的狀態。根據特定規則，細胞會根據鄰居的狀態決定下一次的生存狀態。康威的目的是展示複雜的系統不一定需要複雜的規則。

霍普菲爾德發現，這個遊戲與赫布理論有強大的關聯性。大腦中的大量神經元，在出生時處於初始狀態，經過刺激後，神經元間的連結會產生或斷裂，形成強大的記憶系統。他希望利用這些理論，創造一個能在電腦上運行的記憶系統。

然而，他面臨一個難題：赫布理論沒有明確的數學模型來決定神經元連結的規則。而在電腦上運行，必須要有明確的數學規則。

-----廣告，請繼續往下閱讀-----

物理學的啟發：易辛模型

霍普菲爾德從物理學的研究中找到了類似的模型：易辛模型（Ising Model）。這個模型用於解釋鐵磁性物質的磁性特性。

在鐵磁性物質中，電子具有「自旋」，自旋產生磁矩。電子的自旋方向只有「向上」或「向下」，這就像生命遊戲中細胞的「生」或「死」。鄰近的電子會影響彼此的自旋方向，類似於細胞之間的互動。

易辛模型能用數學描述電子間的相互影響，並通過計算系統能量，得出自旋狀態的分佈。霍普菲爾德借用了這個概念，將神經元的互動視為電子自旋的互動。

他結合了康威生命遊戲的時間演化概念、易辛模型的能量計算，以及赫布理論的動態連結，創造了「霍普菲爾德網路」。這讓電腦能夠模擬生物大腦的學習過程。

-----廣告，請繼續往下閱讀-----

突破瓶頸：辛頓與波茲曼機

約翰·霍普菲爾德於1982年發明聯想神經網路，即「霍普菲爾網路」。圖／wikimedia

然而，霍普菲爾德網路並非完美。它容易陷入「局部最小值」的問題，無法找到系統的全局最優解。為了解決這個問題，加拿大計算機科學家傑佛瑞·辛頓（Geoffrey Hinton）提出了「波茲曼機」（Boltzmann Machine）。

辛頓將「模擬退火」的概念引入神經網路，允許系統以一定的機率跳出局部最小值，尋找全局最優解。他還引入了「隱藏層」的概念，將神經元分為「可見層」和「隱藏層」，提高了網路的學習能力。

受限波茲曼機（Restricted Boltzmann Machine）進一步簡化了模型，成為深度學習的基礎結構之一。這些創新使得 AI 能夠更有效地模擬人類的思維和學習過程。

AI 的未來：跨學科的融合

霍普菲爾德和辛頓的工作，將物理學的概念成功應用於人工智慧。他們的研究不僅解決了 AI 發展的瓶頸，還奠定了深度學習的基礎，對現代 AI 技術產生了深遠的影響。因此，2024 年諾貝爾物理學獎頒給他們，並非意外，而是對他們在跨學科領域的重大貢獻的肯定。

-----廣告，請繼續往下閱讀-----

AI 的發展，離不開物理學、生物學、數學等多學科的融合。霍普菲爾德和辛頓的工作，正是這種融合的典範。未來，隨著科學技術的進步，我們有理由相信，AI 將越來越接近人類的思維方式，甚至可能超越我們的想像。

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

PanSci

1262 篇文章・ 2419 位粉絲

PanSci的編輯部帳號，會發自產內容跟各種消息喔。

TRENDING 熱門討論

即時熱門

Hey Siri! 機器為什麼能聽得懂人話？語音技術的前世今生與未來

語音技術前世：口齒不清牙牙學語的機器

今生：語音辨識加上雲端巨量資料庫

下階段目標：「語音版」google，用聲音搜尋資訊

來生：融會貫通多媒體數位內容，量身打造課程資訊

延伸閱讀：

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

第一顆「汽車大腦」的誕生

ECU 的失控暴增與甜蜜的負荷

汽車電子革命：從「百腦亂舞」到集中治理

萬無一失的「汽車大腦」：威力暘的四大策略

軟體定義汽車 SDV：你的愛車也能「升級」！

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

黑盒子模型背後的隱藏秘密

為什麼人類設計的 AI 工具，自己卻無法理解？

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

我們終究是想解決人與 AI 的信任問題

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

從巴甫洛夫的狗到赫布理論：理解學習的基礎

霍普菲爾德網路：物理學家對神經網路的貢獻

物理學的啟發：易辛模型

突破瓶頸：辛頓與波茲曼機

AI 的未來：跨學科的融合

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

發表意見