1

4

0

文字

繁 | 简

1

4

0

Promo 科學傳播科技能源萬物之理

打造「聊」癒系機器人！看圖說故事，AI 也略懂略懂

研之有物│中央研究院・2020/08/18 ・3503字・閱讀時間約 7 分鐘・SR值 479

・五年級

相關標籤：

熱門標籤：

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位。

採訪編輯｜郭雅欣；美術編輯｜林洵安

AI 如何看圖說故事？

看圖說故事對人類來說，是輕鬆好玩的事，但對 AI 來說，卻是巨大挑戰，因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句，還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下， AI 看圖說故事的能力有了很大的進展。她的模型有什麼獨特之處呢？跟著研之有物一起來瞧瞧！

俗話說得好：「發文不附圖，此風不可長。」不論你發的是爆卦文、閒聊文還是業配文，有圖更容易晉身流量熱文。不過近年來，社群網站發文的風向漸漸有了改變，從「發文附圖」轉變成「發圖附文」，我們總是先來一張照片，再配上相應的描述文字。接下來，我們的發文習慣還會怎麼改變？

或許，未來你拍下一張照片上傳社群網站，電腦就會自動「看圖說故事」，為你的照片腦補一段說明文字，節省你的思考時間。

讓電腦學會「看圖說故事」的伎倆，正是中研院資訊科學研究所的古倫維副研究員正在鑽研的主題之一。她的主要研究領域是人工智慧（ AI ）的自然語言處理，在因緣際會下，接觸到一個 AI 看圖說故事的競賽： Visual Storytelling （ VIST ），開啟了她對 AI 看圖說故事的興趣。

-----廣告，請繼續往下閱讀-----

中研院資訊科學研究所的古倫維副研究員，主要研究領域是人工智慧（ AI ）的自然語言處理，現正開發如何讓 AI 不只會說故事，還會看圖說故事。
攝影│林洵安

電腦如何學會「看圖說故事」？目前學界使用「機器學習」，簡單來說，就是讓電腦從大量的圖文搭配組合，從中學習看到怎樣的圖片，應該說出怎樣的故事。中研院資訊所古倫維副研究員說：「其實一開始我們做得並不特別好。我們跟其他參加競賽的人一樣，用機器學習的方法，把圖和對應的文字丟進電腦，讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了！誰的電腦計算能力更強，得到的模型更複雜，生成的文字就會更好。」

先選角、打草稿，再寫故事

在軍備競爭不足的情況下，古倫維決定採取不同的策略：「既然完全由 AI 看圖說故事的效果不夠好，能不能在故事生成的過程中，有一個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段，先從圖片抽取語意，接著再生成文字故事。

語意抽取，是指先從個別圖片中選出用來說故事的概念（如同電影選角），用知識庫找出概念之間的關係，建立圖片的關聯，再為這些圖片擬定最好的草稿（如同電影故事大綱)。

重點來了！在「選角」階段， AI 會先以機器學習的結果，找出最適合說故事的「角色組合」，尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員，前兩個主要演愛情片，第三個以武打戲為主，如果第一張照片選了張曼玉，第二張照片應該選梁朝偉，生成的故事會比較好看。

-----廣告，請繼續往下閱讀-----

但目前 AI 選角部分還不夠靈光，有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如：圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」，最後生成的故事可能是「一個小男孩在天空下」…… 滿無聊的。但人類可以把「天空」改成「腳踏車」，機器最後就可能生成「一個小男孩騎著腳踏車。」嗯，是不是比較有故事性了？

最後，人類再將修改後的選角和故事大綱，交給 AI 產生整個故事。這種「先選角、打草稿，再說故事」的方式，最後產生的故事比較不會無聊或是不合理，更接近人類說出的故事。

古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。
圖說重製│黃曉君、林洵安
資料來源│古倫維

知識庫，AI 想像力的補充包

為了增加 AI 的想像力，古倫維也在模型中納入「知識庫」，幫 AI 增加故事的知識。例如圖片中有人與馬，如果沒有知識庫，AI 可能只能生成「有一個人與一匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識，包括人可以騎馬、養馬等等，讓 AI 有機會說出「有一個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用，就是直接提供這個知識給 AI ，縮短學習歷程。」古倫維解釋。

更重要的是，知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組，在知識庫的協助下， AI 比較容易找出各別圖片的概念之間的關聯，說出的故事會比較連貫，具有因果關係。

-----廣告，請繼續往下閱讀-----

AI 是完全沒有想像力的，但若透過知識庫給它知識，這些知識在故事中呈現出來的，就像是 AI 的想像力。

電腦看圖說故事的範例。No KG 代表機器在不添加額外知識時所產生的故事，Visual Genome 與 Open IE 古倫維團隊用兩個不同的知識庫分別產生的故事，GLAC 是除了古倫維的模型外目前成果最好的模型。由上可知，知識庫的確能幫助故事的上下文連結。最後的 Human 是真人所寫的故事，包含了許多圖片中沒有的知識，甚至精神性的內容。
圖說美化│林洵安
資料來源│古倫維

巧妙切開「語意抽取」與「生成文本」

兩階段生成故事的方法還有一個優點，就是可善用大量的「圖片辨識」與「故事文本」資料庫，避開「圖文搭配」資料的缺乏。

現今的「圖片辨識」技術和資料庫非常成熟，可以精準的從圖片中抽取出各式各樣的概念。另一方面，說故事是人類從古至今不斷從事的活動，留下了大量的「故事文本」。相較之下，看圖說故事的「圖文搭配」資料量卻相當少，需要有人刻意去蒐集圖組、撰寫文字，古倫維說：「這種圖文搭配的資料必須人工建立，能有一萬組就很厲害了，但這個數量對於機器學習來說卻是遠遠不夠的。」

古倫維則把生成故事的過程拆成「語意抽取」與「生成文本」兩個階段，第一階段可利用精熟的圖片辨識技術和資料庫，抽取故事概念；第二階段再運用故事文本資料庫，讓機器學習如何將第一階段抽取（並由人類修改過）的概念，組合成漂亮的故事，巧妙避開了「圖文搭配」資料不足的難題。

把「語意抽取」與「生成文本」切開的話，兩個階段都可以利用幾千萬筆的既有資料，供機器學習。

腦補，讓機器更有溫度

說了半天，但 AI 會看圖說故事，到底能幹嘛？難道只是幫貼圖寫寫圖說？以研究的層面來說，如果 AI 能看圖說故事，代表 AI 在理解圖片、文字分析及因果邏輯等方面，都達到一定的水準，代表 AI 語言能力更加接近人類。在實際應用上，可以為圖文創作者提供故事草稿，或是對於常常需要撰寫廣告文案、出差報告的人，能夠很快從圖像生成文本，人類只要略做修改潤飾即可（小職員計畫通！）。

-----廣告，請繼續往下閱讀-----

但更重要的是，機器人也能因此更有溫度！古倫維與臺大人工智慧與機器人研究中心的傅立成教授合作，希望透過 AI 看圖說故事的技術，讓居家照護機器人更有「人味」，會主動關懷人類。因為居家照護機器人在家中「看見」的一切，其實就是一張張的圖， AI 可以透過這些「圖」形成可能的故事，再轉化為暖心的問句。

想像一下，未來居家照護機器人看見老人家在廚房，故事劇情可能是「他要煮飯」，於是問出：「今晚想吃什麼？需要幫忙嗎？」當老人拿出相簿緬懷過去，AI 也能從舊照片解讀可能故事，轉化成聊天的問句：「照片中的這個人是誰啊？你們去哪裡玩？」還能變身孩子最愛的說故事姊姊！AI 可能從儲存的繪本資料庫中，隨機抽出不同圖畫重新組合，說出全新的故事。

會看圖說故事的 AI ，可以從眼前的情景連結到事件或情感，就像人類的腦補一般，而這些腦補就是故事。

AI 看圖說故事的能力，可讓照顧居家照護機器人了解眼前的生活情境，具有找話題的能力，變得溫暖許多。
圖片來源│iStock

如此一來，居家照護機器人不再只是被動的處理人類需求，相反的，「說故事的能力賦予了 AI 機器人找話題的功能。」古倫維笑著解釋，機器人從此不再詞窮，可以主動關心人類，與人類互動聊天，讓機器人變得溫暖許多。看來 AI 看圖說故事，不只是寫寫圖說、幫忙解決麻煩的出差報告，在不遠的未來，更是拉近我們與機器人距離的關鍵所在呢。

延伸閱讀

本文轉載自中央研究院研之有物，原文為《打造「聊」癒系機器人！看圖說故事，AI 也略懂略懂》，泛科學為宣傳推廣執行單位。

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 1

登入與大家一起討論

#1

windmill 2021/04/03

驚奇地發現泛科學文章的顯示方式演變為兩篇文章一齊在同一頁面出現(⊙_◎)

研之有物│中央研究院

296 篇文章・ 3662 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

0

1

0

文字

ECU: 汽車大腦的演化與挑戰

鳥苷三磷酸 (PanSci Promo) ・2025/07/02 ・3793字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

本文與威力暘電子合作，泛科學企劃執行。

想像一下，當你每天啟動汽車時，啟動的不再只是一台車，而是一百台電腦同步運作。但如果這些「電腦」突然集體當機，後果會有多嚴重？方向盤可能瞬間失靈，安全氣囊無法啟動，整台車就像失控的高科技廢鐵。這樣的「系統崩潰」風險並非誇張劇情，而是真實存在於你我日常的駕駛過程中。

今天，我們將深入探討汽車電子系統「逆天改運」的科學奧秘。究竟，汽車的「大腦」—電子控制單元（ECU），是如何從單一功能，暴增至上百個獨立系統？而全球頂尖的工程師們，又為何正傾盡全力，試圖將這些複雜的系統「砍掉重練」、整合優化？

第一顆「汽車大腦」的誕生

時間回到 1980 年代，當時的汽車工程師們面臨一項重要任務：如何把汽油引擎的每一滴燃油都壓榨出最大動力？「省油即省錢」是放諸四海皆準的道理。他們發現，關鍵其實潛藏在一個微小到幾乎難以察覺的瞬間：火星塞的點火時機，也就是「點火正時」。

如果能把點火的精準度控制在「兩毫秒」以內，這大約是你眨眼時間的百分之一到千分之一！引擎效率就能提升整整一成！這不僅意味著車子開起來更順暢，還能直接省下一成的油耗。那麼，要如何跨過這道門檻？答案就是：「電腦」的加入！

-----廣告，請繼續往下閱讀-----

工程師們引入了「微控制器」（Microcontroller），你可以把它想像成一顆專注於特定任務的迷你電腦晶片。它能即時讀取引擎轉速、進氣壓力、油門深度、甚至異常爆震等各種感測器的訊號。透過內建的演算法，在千分之一秒、甚至微秒等級的時間內，精準計算出最佳的點火角度，並立刻執行。

從此，引擎的性能表現大躍進，油耗也更漂亮。這正是汽車電子控制單元（ECU）的始祖—專門負責點火的「引擎控制單元」（Engine Control Unit）。

**汽車電子控制單元的始祖**—專門負責點火的「引擎控制單元」（Engine Control Unit）/ 圖片來源:shutterstock

ECU 的失控暴增與甜蜜的負荷

第一顆 ECU 的成功，在 1980 年代後期點燃了工程師們的想像：「這 ECU 這麼好用，其他地方是不是也能用？」於是，ECU 的應用範圍不再僅限於點火，燃油噴射量、怠速穩定性、變速箱換檔平順度、ABS 防鎖死煞車，甚至安全氣囊的引爆時機……各種功能都交給專屬的 ECU 負責。

然而，問題來了：這麼多「小電腦」，它們之間該如何有效溝通？

-----廣告，請繼續往下閱讀-----

為了解決這個問題，1986 年，德國的博世（Bosch）公司推出了一項劃時代的發明：控制器區域網路（CAN Bus）。你可以將它想像成一條專為 ECU 打造的「神經網路」。各個 ECU 只需連接到這條共用的線路上，就能將訊息「廣播」給其他單元。

更重要的是，CAN Bus 還具備「優先通行」機制。例如，煞車指令或安全氣囊引爆訊號這類攸關人命的重要訊息，絕對能搶先通過，避免因資訊堵塞而延誤。儘管 CAN Bus 解決了 ECU 之間的溝通問題，但每顆 ECU 依然需要獨立的電源線、接地線，並連接各種感測器和致動器。結果就是，一輛汽車的電線總長度可能達到 2 到 4 公里，總重量更高達 50 到 60 公斤，等同於憑空多載了一位乘客的重量。

另一方面，大量的 ECU 與錯綜複雜的線路，也讓「電子故障」開始頻繁登上汽車召回原因的榜首。更別提這些密密麻麻的線束，簡直是設計師和維修技師的惡夢。要檢修這些電子故障，無疑讓人一個頭兩個大。

大量的 ECU 與錯綜複雜的線路，也讓「電子故障」開始頻繁登上汽車召回原因的榜首。/圖片來源:shutterstock

汽車電子革命：從「百腦亂舞」到集中治理

到了2010年代，汽車電子架構迎來一場大改革，「分區架構（Zonal Architecture）」搭配「中央高效能運算（HPC）」逐漸成為主流。簡單來說，這就像在車內建立「地方政府＋中央政府」的管理系統。

-----廣告，請繼續往下閱讀-----

可以想像，整輛車被劃分為幾個大型區域，像是車頭、車尾、車身兩側與駕駛艙，就像數個「大都會」。每個區域控制單元（ZCU）就像「市政府」，負責收集該區所有的感測器訊號、初步處理與整合，並直接驅動該區的馬達、燈光等致動器。區域先自理，就不必大小事都等中央拍板。

而「中央政府」則由車用高效能運算平台（HPC）擔任，統籌負責更複雜的運算任務，例如先進駕駛輔助系統（ADAS）所需的環境感知、物體辨識，或是車載娛樂系統、導航功能，甚至是未來自動駕駛的決策，通通交由車輛正中央的這顆「超級大腦」執行。

乘著這波汽車電子架構的轉型浪潮中， 2008 年成立的台灣本土企業威力暘電子，便精準地切入了這個趨勢，致力於開發整合 ECU 與區域控制器（Domain Controller）功能的模組化平台。他們專精於開發電子排檔、多功能方向盤等各式汽車電子控制模組。為了確保各部件之間的溝通順暢，威力暘提供的解決方案，就像是將好幾個「分區管理員」的職責，甚至一部分「超級大腦」的功能，都整合到一個更強大的硬體平台上。

這些模組不僅擁有強大的晶片運算能力，可同時支援 ADAS 與車載娛樂，還能兼容多種通訊協定，大幅簡化車內網路架構。如此一來，車廠在追求輕量化和高效率的同時，也能顧及穩定性與安全性。

-----廣告，請繼續往下閱讀-----

2008 年威力暘電子致力於開發整合 ECU 與區域控制器（Domain Controller）功能的模組化平台 /圖片來源:shutterstock

萬無一失的「汽車大腦」：威力暘的四大策略

然而，「做出來」與「做好」之間，還是有差別。要如何確保這顆集結所有功能的「汽車大腦」不出錯？具體來說，威力暘電子憑藉以下四大策略，築起其產品的可靠性與安全性：

AUTOSAR ： 導入開放且標準化的汽車軟體架構 AUTOSAR。分為應用層、運行環境層（RTE）和基礎軟體層（BSW）。就像在玩「樂高積木」，ECU 開發者能靈活組合模組，專注在核心功能開發，從根本上提升軟體的穩定性和可靠性。
V-Model 開發流程：這是一種強調嚴謹、能在早期發現錯誤的軟體開發流程。就像打勾 V 字形般，左側從上而下逐步執行，右側則由下而上層層檢驗，確保每個階段的安全要求都確實落實。
基於模型的設計 MBD（Model-Based Design）：威力暘的工程師們會利用 MatLab®/Simulink® 等工具，把整個 ECU 要控制的系統(如煞車)，用數學模型搭建起來，然後在虛擬環境中進行大量的模擬和測試。這等於在實體 ECU 誕生前，就能在「數位雙生」世界中反覆演練、預先排除設計缺陷，，並驗證安全機制是否有效。
Automotive SPICE (ASPICE) ： ASPICE 是國際公認的汽車軟體「品質管理系統」，它不直接評估最終 ECU 產品本身的安全性，而是深入檢視團隊在軟體開發的「整個過程」，也就是「方法論」和「管理紀律」是否夠成熟、夠系統化，並只根據數據來評估品質。

既然 ECU 掌管了整輛車的運作，其能否正常運作，自然被視為最優先項目。為此，威力暘嚴格遵循汽車業中一本堪稱「安全聖經」的國際標準：ISO 26262。這套國際標準可視為一本針對汽車電子電氣系統（特別是 ECU）的「超嚴格品管手冊」和「開發流程指南」，從概念、設計、測試到生產和報廢，都詳細規範了每個安全要求和驗證方法，唯一目標就是把任何潛在風險降到最低

有了上述這四項策略，威力暘確保其產品從設計、生產到交付都符合嚴苛的安全標準，才能通過 ISO 26262 的嚴格檢驗。

然而，ECU 的演進並未就此停下腳步。當ECU 的數量開始精簡，「大腦」變得更集中、更強大後，汽車產業又迎來了新一波革命：「軟體定義汽車」（Software-Defined Vehicle, SDV）。

-----廣告，請繼續往下閱讀-----

軟體定義汽車 SDV：你的愛車也能「升級」！

未來的汽車，會越來越像你手中的智慧型手機。過去，車輛功能在出廠時幾乎就「定終身」，想升級？多半只能換車。但在軟體定義汽車（SDV）時代，汽車將搖身一變成為具備強大運算能力與高速網路連線的「行動伺服器」，能夠「二次覺醒」、不斷升級。透過 OTA（Over-the-Air）技術，車廠能像推送 App 更新一樣，遠端傳送新功能、性能優化或安全修補包到你的車上。

不過，這種美好願景也將帶來全新的挑戰：資安風險。當汽車連上網路，就等於向駭客敞開潛在的攻擊入口。如果車上的 ECU 或雲端伺服器被駭，輕則個資外洩，重則車輛被遠端鎖定或惡意操控。為了打造安全的 SDV，業界必須遵循像 ISO 21434 這樣的車用資安標準。

威力暘電子運用前面提到的四大核心策略，確保自家產品能符合從 ISO 26262 到 ISO 21434 的國際認證。從品質管理、軟體開發流程，到安全認證，這些努力，讓威力暘的模組擁有最高的網路與功能安全。他們的產品不僅展現「台灣智造」的彈性與創新，也擁有與國際大廠比肩的「車規級可靠度」。憑藉這些實力，威力暘已成功打進日本 YAMAHA、Toyota，以及歐美 ZF、Autoliv 等全球一線供應鏈，更成為 DENSO 在台灣少數核准的控制模組夥伴，以商用車熱系統專案成功打入日系核心供應鏈，並自 2025 年起與 DENSO 共同展開平台化量產，驗證其流程與品質。

毫無疑問，未來車輛將有更多運作交由電腦與 AI 判斷，交由電腦判斷，比交由人類駕駛還要安全的那一天，離我們不遠了。而人類的角色，將從操作者轉為監督者，負責在故障或斷網時擔任最後的保險。透過科技讓車子更聰明、更安全，人類甘願當一個「最弱兵器」，其實也不錯！

-----廣告，請繼續往下閱讀-----

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

227 篇文章・ 315 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

1

0

文字

數智驅動未來：從信任到執行，AI 為企業創新賦能

鳥苷三磷酸 (PanSci Promo) ・2025/01/13 ・4938字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

本文由鼎新數智與泛科學共同規劃與製作

你有沒有想過，當 AI 根據病歷與 X 光片就能幫你診斷病症，或者決定是否批准貸款，甚至從無人機發射飛彈時，它的每一步「決策」是怎麼來的？如果我們不能知道 AI 的每一個想法步驟，對於那些 AI 輔助的診斷和判斷，要我們如何放心呢？

馬斯克與 OpenAI 的奧特曼鬧翻後，創立了新 AI 公司 xAI，並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型，而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今，AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？

-----廣告，請繼續往下閱讀-----

AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？圖／pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題？試想，現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險，但這些模型往往如同黑箱操作。有人貸款被拒，卻完全不知原因，感覺就像被分手卻不告訴理由。更嚴重的是，AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價，這些與信用風險真的相關嗎？這種不透明性只會讓弱勢群體更難融入金融體系，加劇貧富差距。這種不透明性，會讓原本就已經很難融入金融體系的弱勢群體，更加難以取得貸款，讓貧富差距越來越大，雪上加霜。

AI 不僅影響貸款，還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑，試圖預測嫌犯再犯風險。然而，這些工具被發現對有色人種特別不友好，往往給出偏高的再犯風險評估，導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是，這些決策缺乏透明度，AI 做出的決策根本沒法解釋，這讓嫌犯和律師無法查明問題根源，結果司法公正性就這麼被悄悄削弱了。

此外，AI 在醫療、社交媒體、自駕車等領域的應用，也充滿類似挑戰。例如，AI 協助診斷疾病，但若原因報告無法被解釋，醫生和患者又怎能放心？同樣地，社群媒體或是 YouTube 已經大量使用 AI 自動審查，以及智慧家居或工廠中的黑盒子問題，都像是一場越來越複雜的魔術秀——我們只看到結果，卻無法理解過程。這樣的情況下，對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具，自己卻無法理解？

原因有二。首先，深度學習模型結構複雜，擁有數百萬參數，人類要追蹤每個輸入特徵如何影響最終決策結果，難度極高。例如，ChatGPT 中的 Transformer 模型，利用注意力機制（Attention Mechanism）根據不同詞之間的重要性進行特徵加權計算，因為機制本身涉及大量的矩陣運算和加權計算，這些數學操作使得整個模型更加抽象、不好理解。

-----廣告，請繼續往下閱讀-----

其次，深度學習模型會會從資料中學習某些「特徵」，你可以當作 AI 是用畫重點的方式在學習，人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習，但這些特徵往往對人類來說過於抽象。例如在影像辨識中，人類習慣用眼睛、嘴巴的相對位置，或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵，而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示（Distributed Representation）來編碼特徵，意思是將一個特徵表示為一個高維向量，每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。對 AI 而言，這是理解世界的方式，但對人類來說，卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。圖／unsplash

試想，AI 協助診斷疾病時，若理由是基於醫生都無法理解的邏輯，患者即使獲得正確診斷，也會感到不安。畢竟，人們更相信能被理解的東西。

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

首先，可以利用熱圖（heatmap）或注意力圖這類可視化技術，讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡，來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中，當 AI 判斷這張照片裡是「貓」還是「狗」時，我需要它向我們展示在哪些地方「盯得最緊」，像是耳朵的形狀還是毛色的分布。

-----廣告，請繼續往下閱讀-----

其次是局部解釋，LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈，它將每個特徵看作「玩家」，而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻，讓我們可以了解各個特徵如何影響最終結果。並且，SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的，還能透過「全局解釋」理解模型整體的運作中，哪些特徵最重要。

以實際的情景來說，SHAP 可以讓 AI 診斷出你有某種疾病風險時，指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同，會針對單一個案建立一個簡單的模型，來近似原始複雜模型的行為，目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時，LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用，一大優勢是靈活且計算速度快，適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景，LIME 可以幫助醫生理解 AI 為何推薦某種治療方案，並說明幾個主要原因，這樣醫生不僅能更快做出決策，也能增加患者的信任感。

-----廣告，請繼續往下閱讀-----

第三是反事實解釋：如果改變一點點，會怎麼樣？

如果 AI 告訴你：「這家銀行不會貸款給你」，這時你可能會想知道：是收入不夠，還是年齡因素？這時你就可以問 AI：「如果我年輕五歲，或者多一份工作，結果會怎樣？」反事實解釋會模擬這些變化對結果的影響，讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大，就像揭示一道菜中，哪些調味料是味道的關鍵。例如在金融風險預測中，模型可能指出「收入」影響了 40%，「消費習慣」占了 30%，「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時，還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術，才能達到更完整的解釋效果。

講到這裡，你可能會問：我們距離能完全信任 AI 還有多遠？又或者，我們真的應該完全相信它嗎？

-----廣告，請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。因此，AI 既要「可解釋」，也要「能代理」。

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。圖／unsplash

舉例來說，當一家公司要做一個看似「簡單」的決策時，背後的過程其實可能極為複雜。例如，快時尚品牌決定是否推出新一季服裝，不僅需要考慮過去的銷售數據，還得追蹤熱門設計趨勢、天氣預測，甚至觀察社群媒體上的流行話題。像是暖冬來臨，厚外套可能賣不動；或消費者是否因某位明星愛上一種顏色，這些細節都可能影響決策。

這些數據來自不同部門和來源，龐大的資料量與錯綜關聯使企業判斷變得困難。於是，企業常希望有個像經營大師的 AI 代理人，能吸收數據、快速分析，並在做決定時不僅給出答案，還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子，而可解釋 AI （XAI）則清楚解釋其判斷依據。例如，為什麼不建議推出厚外套？可能理由是：「根據天氣預測，今年暖冬概率 80%，過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告，請繼續往下閱讀-----

但會解釋還不夠，AI 還需能真正執行。這時，就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」，大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時，這位產品經理不會手忙腳亂，而是按以下步驟行動：

檢查倉庫物料：庫存夠不夠？有沒有替代料可用？
評估交期影響：如果需要新物料，供應商多快能送到？
計算成本變化：用新料會不會超出成本預算？
做出最優判斷，並自動生成變更單、工單和採購單，通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節，還會記錄每次決策結果，學習如何變得更高效。隨時間推移，這位「智慧產品經理」的判斷將更聰明、決策速度更快，幾乎不需人工干預。更重要的是，這些判斷是基於「以終為始」的原則，為企業成長目標（如 Q4 業績增長 10%）進行連續且動態地自我回饋，而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作，讓企業決策流程不僅透明，還能自動執行。這正是數智驅動的核心，不僅依靠數據驅動決策，還要能解釋每一個選擇，並自動行動。這個過程可簡化為 SUPA，即「感知（Sensing）→ 理解（Understanding）→ 規劃（Planning）→ 行動（Acting）」的閉環流程，隨著數據的變化不斷進化。

以偉勝乾燥工業為例，他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後，偉勝成功將數智驅動融入業務與產品開發，專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合，開發出新形態智慧化設備，成功打入半導體產業，帶動業績大幅成長，創造下一個企業的增長曲線。

-----廣告，請繼續往下閱讀-----

值得一提的是，數智驅動不僅帶動業務增長，還讓員工擺脫繁瑣工作，讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術，還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用，企業首先要確保它服務於具體的業務需求，而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐，才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力？免費上手企業 AI 助理！企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知：https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道，深入科技趨勢與議題內容。
立即免費加入

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

鳥苷三磷酸 (PanSci Promo)

227 篇文章・ 315 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

1

0

文字

從遊戲到量子計算：NVIDIA 憑什麼在 AI 世代一騎絕塵？

PanSci ・2025/01/09 ・2941字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

AI 與 GPU 的連結：為什麼 NVIDIA 股價一路飆？

2023 年至今，人工智慧（AI）熱潮引爆全球科技圈的競爭與創新，但最受矚目的企業，莫過於 NVIDIA。它不僅長期深耕遊戲顯示卡市場，在近年來卻因為 AI 應用需求的飆升，一舉躍居市值龍頭。原因何在？大家可能會直覺認為：「顯示卡性能強，剛好給 AI 訓練用！」事實上，真正的關鍵並非只有強悍的硬體，而是 NVIDIA 打造的軟硬體整合技術──CUDA。

接下來將為你剖析 CUDA 與通用圖形處理（GPGPU）的誕生始末，以及未來 NVIDIA 持續看好的量子計算與生醫應用，一窺這家企業如何從「遊戲顯示卡大廠」蛻變為「AI 世代的領航者」。

CPU vs. GPU：為何顯示卡能成為 AI 領跑者？

在電腦運作中，CPU（中央處理器）向來是整個系統的「大腦」，負責執行指令、邏輯判斷與多樣化的運算。但是，AI 模型訓練需要面對的是龐大的數據量與繁複的矩陣或張量運算。這些運算雖然單一步驟並不複雜，但需要進行「海量且重複性極高」的計算，CPU 難以在短時間內完成。

反觀 GPU（圖形處理器），原先是用來處理遊戲畫面渲染，內部具有 大量且相對簡單的算術邏輯單元。GPU 可以同時在多個核心中進行平行化運算，就像一座「高度自動化、流水線式」的工廠，可一次處理大量像素、頂點或是 AI 訓練所需的運算。這讓 GPU 在大量數值計算上遠遠超越了 CPU 的處理速度，也讓「顯示卡算 AI」成了新時代的主流。

-----廣告，請繼續往下閱讀-----

顯示卡不只渲染：GPGPU 與 CUDA 的誕生

早期，GPU 只被視為遊戲繪圖的利器，但 NVIDIA 的創辦人黃仁勳很快察覺到：這種多核心平行化的結構，除了渲染，也能用來處理科學運算。於是，NVIDIA 在 2007 年正式推出了名為 CUDA（Compute Unified Device Architecture） 的平台。這是一套讓開發者能以熟悉的程式語言（如 C、C++、Python）來調用 GPU 資源的軟體開發工具套件，解決了「人類要如何對 GPU 下指令」的問題。

在 CUDA 出現之前，若要把 GPU 用於渲染以外的用途，往往必須透過「著色器語言」或 OpenGL、DirectX 等繪圖 API 進行繁瑣的間接操作。對想用 GPU 加速數學或科學研究的人來說，門檻極高。然而，有了 CUDA，開發者不需理解圖像著色流程，也能輕鬆呼叫 GPU 的平行運算能力。這代表 GPU 從遊戲卡一躍成為「通用圖形處理單元」（GPGPU），徹底拓展了它在科學研究、AI、影像處理等領域的應用版圖。

AI 崛起的臨門一腳：ImageNet 大賽的關鍵一擊

如果說 CUDA 是 NVIDIA 邁向 AI 領域的踏腳石，那麼真正讓 GPU 與 AI 完美結合的轉捩點，發生在 2012 年的 ImageNet 大規模視覺辨識挑戰賽（ILSVRC）。這場由李飛飛教授創辦的影像辨識競賽中，參賽團隊需要對龐大的影像數據進行訓練、分類及辨識。就在那一年，名為「AlexNet」的深度學習模型橫空出世，利用 GPU 進行平行運算，大幅減少了訓練時間，甚至比第二名的辨識率高出將近 10 個百分點，震撼了全球 AI 研究者。

AlexNet 的成功，讓整個學界與業界都注意到 GPU 在深度學習中的強大潛力。CUDA 在此時被奉為「不二之選」，再加上後來發展的 cuDNN 等深度學習函式庫，讓開發者不必再自行編寫底層 GPU 程式碼，建立 AI 模型的難度與成本大幅降低，NVIDIA 的股價也因此搭上了 AI 波浪，一飛沖天。

-----廣告，請繼續往下閱讀-----

為什麼只有 NVIDIA 股價衝？對手 AMD、Intel 在做什麼？

市面上有多家廠商生產 CPU 和 GPU，例如 AMD 與 Intel，但為什麼只有 NVIDIA 深受 AI 市場青睞？綜觀原因，硬體只是其一，真正不可或缺的，是 「軟硬體整合」與「龐大的開發者生態系」。

硬體部分 NVIDIA 長年深耕 GPU 技術，產品線完整，且數據中心級的顯示卡在能耗與性能上具領先優勢。軟體部分 CUDA 及其相關函式庫生態，涵蓋了影像處理、科學模擬、深度學習（cuDNN）等多方面，讓開發者易於上手且高度依賴。

相比之下，雖然 AMD 也推行了 ROCm 平台、Intel 有自家解決方案，但在市場普及度與生態支持度上，依舊與 NVIDIA 有相當差距。

聰明的管理者

GPU 的優勢在於同時有成百上千個平行運算核心。當一個深度學習模型需要把數據切分成無數個小任務時，CUDA 負責將這些任務合理地排班與分配，並且在記憶體讀寫方面做出最佳化。

-----廣告，請繼續往下閱讀-----

任務分類：同性質的任務集中處理，以減少切換或等待。
記憶體管理：避免資料在 CPU 與 GPU 之間頻繁搬移，能大幅提升效率。
函式庫支援：如 cuDNN，針對常見的神經網路操作（卷積、池化等）做進一步加速，使用者不必從零開始撰寫平行運算程式。

結果就是，研究者、工程師甚至學生，都能輕鬆把 GPU 能力用在各式各樣的 AI 模型上，訓練速度自然飛漲。

從 AI 到量子計算：NVIDIA 對未來的佈局

當 AI 波浪帶來了股價與市值的激增，NVIDIA 並沒有停下腳步。實際上，黃仁勳與團隊還在積極耕耘下一個可能顛覆性的領域──量子計算。

2023 年，NVIDIA 推出 CUDA Quantum 平台，嘗試將量子處理器（QPU）與傳統 GPU / CPU 整合，以混合式演算法解決量子電腦無法單獨加速的部分。就像為 AI 量身打造的 cuDNN 一樣，NVIDIA 也對量子計算推出了相對應的開發工具，讓研究者能在 GPU 上模擬量子電路，或與量子處理器協同運算。

NVIDIA 推出 CUDA Quantum 平台，整合 GPU 與 QPU，助力混合量子運算。圖／unsplash

這項新布局，或許還需要時間觀察是否能孕育出市場級應用，但顯示 NVIDIA 對「通用運算」的野心不只停留於 AI，也想成為「量子時代」的主要推手。

-----廣告，請繼續往下閱讀-----

AI 熱潮下，NVIDIA 凭什麼坐穩王座？

回到一開始的疑問：「為什麼 AI 熱，NVIDIA 股價就一定飛？」 答案可簡化為兩點：

硬體領先 + 軟體生態：顯示卡性能強固然重要，但 CUDA 建立的開發者生態系才是關鍵。
持續布局未來：當 GPU 為 AI 提供高效能運算平台，NVIDIA 亦不斷將資源投入到量子計算、生醫領域等新興應用，為下一波浪潮預先卡位。

或許，正因為不斷探索新技術與堅持軟硬整合策略，NVIDIA 能在遊戲市場外再創一個又一個高峰。雖然 AMD、Intel 等競爭者也全力追趕，但短期內想撼動 NVIDIA 的領先地位，仍相當不易。

未來，隨著 AI 技術持續突破，晶片性能與通用運算需求只會節節攀升。「AI + CUDA + GPU」 的組合，短時間內看不出能被取代的理由。至於 NVIDIA 是否能繼續攀向更驚人的市值高峰，甚至在量子計算跑道上再拿下一座「王者寶座」，讓我們拭目以待。

歡迎訂閱 Pansci Youtube 頻道 鎖定每一個科學大事件！

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

PanSci

1262 篇文章・ 2418 位粉絲

PanSci的編輯部帳號，會發自產內容跟各種消息喔。

TRENDING 熱門討論

即時熱門

打造「聊」癒系機器人！看圖說故事，AI 也略懂略懂

AI 如何看圖說故事？

先選角、打草稿，再寫故事

知識庫，AI 想像力的補充包

巧妙切開「語意抽取」與「生成文本」

腦補，讓機器更有溫度

延伸閱讀

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

第一顆「汽車大腦」的誕生

ECU 的失控暴增與甜蜜的負荷

汽車電子革命：從「百腦亂舞」到集中治理

萬無一失的「汽車大腦」：威力暘的四大策略

軟體定義汽車 SDV：你的愛車也能「升級」！

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

黑盒子模型背後的隱藏秘密

為什麼人類設計的 AI 工具，自己卻無法理解？

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

我們終究是想解決人與 AI 的信任問題

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

AI 與 GPU 的連結：為什麼 NVIDIA 股價一路飆？

CPU vs. GPU：為何顯示卡能成為 AI 領跑者？

顯示卡不只渲染：GPGPU 與 CUDA 的誕生

AI 崛起的臨門一腳：ImageNet 大賽的關鍵一擊

為什麼只有 NVIDIA 股價衝？對手 AMD、Intel 在做什麼？

聰明的管理者

從 AI 到量子計算：NVIDIA 對未來的佈局

AI 熱潮下，NVIDIA 凭什麼坐穩王座？

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

發表意見