Loading [MathJax]/extensions/tex2jax.js

0

32
4

文字

分享

0
32
4

人海中注意你的聲音、喧鬧中聽見我的名字:認識雞尾酒會效應

雅文兒童聽語文教基金會_96
・2021/05/24 ・3028字 ・閱讀時間約 6 分鐘

  • 文 / 李翊瑞|雅文基金會聽語科學研究中心研究助理

在一場雞尾酒會上,有著豐盛的佳餚,以及來自四面八方的賓客。你與三五好友們正享受著派對的氣氛,開心地閒聊彼此的生活。儘管環境中充滿各式各樣的聲音—空調運行的風聲、會場的背景音樂、以及隔壁桌的談笑聲,似乎一點也不打斷你們之間交談的樂趣。然而,當你正專注地和眼前的朋友聊天,並聊得渾然忘我時,另一位好友在遠方呼喚你的名字,你卻能馬上回過頭去尋找聲音的來源,究竟是怎麼辦到的呢?

身處在派對的吵雜的環境中,我們卻能盡情地與朋友們把酒言歡,彷彿一點也不受干擾。圖/Pexels

左耳進,左耳出?雞尾酒會效應的發現

前面所提到的現象稱為雞尾酒會效應(cocktail-party effect),指的是在環境中其他對話或噪音干擾的情況下,選擇性聆聽特定聲音的能力[1]。雞尾酒會效應最早是由英國認知科學家 Colin Cherry 於 1953 年提出[2],有趣的是,Cherry 在進行研究時,並沒有舉辦或者參加了很多場雞尾酒會,而是設計了一項名為跟讀(shadowing)的實驗。

在跟讀實驗中,受試者會載上耳機,左耳及右耳會聽到完全不同的句子,且聽到的當下必須馬上複誦其中一耳所聽到的內容。例如當被要求複誦「右耳」所聽到的內容,而左耳聽到「在她的野餐籃裡,有著花生醬、三明治……」,右耳聽到「有隻小貓正在追著老鼠…」時,受試者就必須即時回答「有隻小貓正在追著老鼠……」。實驗結果發現[2],多數的受試者都能正確跟讀某一耳所聽到的語句,並忽略另一耳的訊息,顯示注意力(attention)似乎能選擇性地投入某個事物上。

在跟讀實驗裡,雙耳會分別呈現不同的訊息,而受試者必須注意聆聽並覆誦其中一隻耳朵聽到的內容。圖/雅文基金會

是誰在呼喚我?刻在心底的名字

然而,當受試者正聚精會神地聆聽與複誦右耳的句子時,未受注意的左耳所聽到的內容,真的就如同耳邊風一樣,完全沒有進入大腦的處理歷程嗎?其實,有部分的訊息依然可以被我們的大腦所處理。

-----廣告,請繼續往下閱讀-----

在剛剛所提到的實驗中,Cherry 指出受試者雖然很難回答出未受注意一耳的語句內容,卻能察覺到訊息在語音性質上的變化—像是從句子變成單音,或是從男性的聲音變成女性的聲音[2]。更特別的是,後續研究發現當未受注意的一耳出現自己的名字時,受試者也能即時察覺,並將注意力轉移到原本未受注意的一耳[3]。而這種聽到自己名字的現象不僅出現在成人,甚至在五個多月大的嬰兒身上就能觀察到[4]

聽覺注意力的調節水閥,訊息被減弱但不消失

即使我們特別去注意某些訊息,並忽略環境中的其他刺激,仍然有部分訊息會被大腦所處理。不論是前面所提到的語音性質變化、或是自己的名字,雞尾酒會效應顯示了訊息的處理似乎不是依循全有或全無的原則(all-or-none law):接收應注意的訊息,並過濾或排除掉所有不需注意的訊息。

為了進一步解釋此現象,英國心理學家 Anne Treisman 提出了注意力的減弱模型(attenuation model[5,6]—這個模型主張注意力系統分為四個階段:感官收錄(sensory register)、減弱控制(attenuation control)、知覺歷程(perceptual process)和短期記憶(short-term memory),其中最特別的就是「減弱控制」這個部分。

減弱控制就像是調節訊息的水閥,那些未受注意的訊息,由於和當下正在進行的任務無關(如跟讀作業),而轉為減弱的狀態存在於系統中。最後,被減弱的訊息會進入短期記憶,再依據各個訊息的閾值(threshold)高低而被受試者察覺。閾值可以想像成是個門檻,不同的訊息有不同的門檻,而門檻越低越容易被覺察。像是自己的名字由於閾值較低,因此我們很容易就能注意到;相反的,一些不常聽到的字詞,因為閾值較高而較難被察覺[6]

-----廣告,請繼續往下閱讀-----
在 Treisman 的減弱模型中,未受注意的訊息以「減弱」的狀態存在,而非完全被注意力系統排除。圖/Sternberg et al., 2012

用對方法,背景噪音不干擾

「對不起,你剛說什麼?」、「麻煩你說大聲一點」在日常生活中,是不是常常聽到這些話呢?當環境中充斥著各種噪音時,我們能不能主動採取一些策略,讓對方的聲音變得更清楚呢?假如你正打算參加一場派對、或是到一間人聲嘈雜的餐廳,以下三個方法將更有助於你把注意力焦點放在眼前的對話,而不被環境的噪音輕易打斷[1,7]

  1. 留意目標聲音的特性

留意目標說話者一些明顯的聲音特性(像是阿霞有煙嗓,聲音低沉充滿磁性,講話慢慢的),能有效降低鄰近對話內容的干擾。

  1. 提升對話的音量

隨著對話音量的提升,環境中的其他聲音轉為背景音,使對話內容變得更為突出。

  1. 尋找聲音的來源處

不論是眼前的對話,或者是環境中的其他對話或雜音,若能清楚各個聲音的來源(如前後、左右或遠近位置),更有助於將注意力集中在目標來源上。就像坐在咖啡廳突然聽到情侶吵架聲,在定位他們的位置後,通常偷聽起來就會更輕鬆。

-----廣告,請繼續往下閱讀-----

Google AI 新應用,讓機器模仿人類的雞尾酒會效應

在吵雜環境中,將注意力集中在特定的目標上,藉以分辨不同的聲音內容,是人類與生俱來的能力;然而,這件事情對於機器來說卻顯得格外的困難,原因在於當多人同時說話時,混雜的音訊會影響單一人聲的辨識效果。不過,隨著科技的進步,人工智慧技術(artificial intelligenceAI)的發展,現在機器也能辦到同樣的事情!

由 Google 研發團隊結合 AI 所打造的視聽語音分離模型 (audio-visual speech separation model)能夠有效地增強特定說話者的聲音,同時降低環境中其他人聲或雜音干擾[8]。這套系統獨特的地方,在於它能夠同時分析視覺特徵和語音訊息,判讀說話者的嘴型與聲音的變化,建立人與聲音之間的對應關係[9]

這項技術的發展,未來也可望應用在許多領域上:像是在多人對話的影片中,提升自動化字幕生成的正確率。另一方面,也可以用來提升助聽輔具的表現,幫助聽損人士即使身處在吵雜環境中,依然能夠聽到清晰的人聲。

Google 所開發的視聽語音分離模型,能同時判讀視覺(嘴型)與聽覺(語音)特徵,進而獨立出特定說話者的聲音。圖/Ephrat et al., 2018

雞尾酒會效應揭開了注意力系統的奧妙,使我們能在吵雜環境中去關注重要的訊息。瞭解了越多相關的原理與應用後,不妨想想日常生活中還有哪些雞尾酒會效應吧!

-----廣告,請繼續往下閱讀-----

參考資料

  1. Sternberg, R. J., Sternberg, K., & Mio, J. S. (2012). Cognitive Psychology. Wadsworth/Cengage Learning.
  2. Cherry, E. C. (1953). Some experiments on the recognition of speech, with one and with two ears. The Journal of the Acoustical Society of America, 25(5), 975–979.
  3. Moray, N. (1959). Attention in Dichotic Listening: Affective Cues and the Influence of Instructions. Quarterly Journal of Experimental Psychology, 11(1), 56–60.
  4. Newman R. S. (2005). The cocktail party effect in infants revisited: listening to one’s name in noise. Developmental Psychology41(2), 352–362.
  5. Treisman A. M. (1964). Monitoring and storage of irrelevant messages in selective attention. Journal of Verbal Learning and Verbal Behavior, 3(6), 449–459.
  6. Treisman A. M. (1969). Strategies and models of selective attention. Psychological Review76(3), 282–299.
  7. Brungart, D. S., & Simpson, B. D. (2007). Cocktail party listening in a dynamic multitalker environment. Perception and Psychophysics, 69(1), 79–91.
  8.  Mosseri, I., & Lang, O. (2018, April 11). Looking to Listen: Audio-Visual Speech Separation. Google AI Blog.
  9. Ephrat, A., Mosseri, I., Lang, O., Dekel, T., Wilson, K., Hassidim, A., Freeman, W. T., & Rubinstein, M. (2018). Looking to listen at the cocktail party. ACM Transactions on Graphics, 37(4), 1–11.
-----廣告,請繼續往下閱讀-----
文章難易度
雅文兒童聽語文教基金會_96
62 篇文章 ・ 223 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。

0

2
1

文字

分享

0
2
1
ECU: 汽車大腦的演化與挑戰
鳥苷三磷酸 (PanSci Promo)_96
・2025/07/02 ・3793字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

本文與 威力暘電子 合作,泛科學企劃執行。

想像一下,當你每天啟動汽車時,啟動的不再只是一台車,而是一百台電腦同步運作。但如果這些「電腦」突然集體當機,後果會有多嚴重?方向盤可能瞬間失靈,安全氣囊無法啟動,整台車就像失控的高科技廢鐵。這樣的「系統崩潰」風險並非誇張劇情,而是真實存在於你我日常的駕駛過程中。

今天,我們將深入探討汽車電子系統「逆天改運」的科學奧秘。究竟,汽車的「大腦」—電子控制單元(ECU),是如何從單一功能,暴增至上百個獨立系統?而全球頂尖的工程師們,又為何正傾盡全力,試圖將這些複雜的系統「砍掉重練」、整合優化?

第一顆「汽車大腦」的誕生

時間回到 1980 年代,當時的汽車工程師們面臨一項重要任務:如何把汽油引擎的每一滴燃油都壓榨出最大動力?「省油即省錢」是放諸四海皆準的道理。他們發現,關鍵其實潛藏在一個微小到幾乎難以察覺的瞬間:火星塞的點火時機,也就是「點火正時」。

如果能把點火的精準度控制在「兩毫秒」以內,這大約是你眨眼時間的百分之一到千分之一!引擎效率就能提升整整一成!這不僅意味著車子開起來更順暢,還能直接省下一成的油耗。那麼,要如何跨過這道門檻?答案就是:「電腦」的加入!

-----廣告,請繼續往下閱讀-----

工程師們引入了「微控制器」(Microcontroller),你可以把它想像成一顆專注於特定任務的迷你電腦晶片。它能即時讀取引擎轉速、進氣壓力、油門深度、甚至異常爆震等各種感測器的訊號。透過內建的演算法,在千分之一秒、甚至微秒等級的時間內,精準計算出最佳的點火角度,並立刻執行。

從此,引擎的性能表現大躍進,油耗也更漂亮。這正是汽車電子控制單元(ECU)的始祖—專門負責點火的「引擎控制單元」(Engine Control Unit)。

汽車電子控制單元的始祖—專門負責點火的「引擎控制單元」(Engine Control Unit)/ 圖片來源:shutterstock

ECU 的失控暴增與甜蜜的負荷

第一顆 ECU 的成功,在 1980 年代後期點燃了工程師們的想像:「這 ECU 這麼好用,其他地方是不是也能用?」於是,ECU 的應用範圍不再僅限於點火,燃油噴射量、怠速穩定性、變速箱換檔平順度、ABS 防鎖死煞車,甚至安全氣囊的引爆時機……各種功能都交給專屬的 ECU 負責 。

然而,問題來了:這麼多「小電腦」,它們之間該如何有效溝通?

-----廣告,請繼續往下閱讀-----

為了解決這個問題,1986 年,德國的博世(Bosch)公司推出了一項劃時代的發明:控制器區域網路(CAN Bus)。你可以將它想像成一條專為 ECU 打造的「神經網路」。各個 ECU 只需連接到這條共用的線路上,就能將訊息「廣播」給其他單元。

更重要的是,CAN Bus 還具備「優先通行」機制。例如,煞車指令或安全氣囊引爆訊號這類攸關人命的重要訊息,絕對能搶先通過,避免因資訊堵塞而延誤。儘管 CAN Bus 解決了 ECU 之間的溝通問題,但每顆 ECU 依然需要獨立的電源線、接地線,並連接各種感測器和致動器。結果就是,一輛汽車的電線總長度可能達到 2 到 4 公里,總重量更高達 50 到 60 公斤,等同於憑空多載了一位乘客的重量。

另一方面,大量的 ECU 與錯綜複雜的線路,也讓「電子故障」開始頻繁登上汽車召回原因的榜首。更別提這些密密麻麻的線束,簡直是設計師和維修技師的惡夢。要檢修這些電子故障,無疑讓人一個頭兩個大。

大量的 ECU 與錯綜複雜的線路,也讓「電子故障」開始頻繁登上汽車召回原因的榜首。/圖片來源:shutterstock

汽車電子革命:從「百腦亂舞」到集中治理

到了2010年代,汽車電子架構迎來一場大改革,「分區架構(Zonal Architecture)」搭配「中央高效能運算(HPC)」逐漸成為主流。簡單來說,這就像在車內建立「地方政府+中央政府」的管理系統。

-----廣告,請繼續往下閱讀-----

可以想像,整輛車被劃分為幾個大型區域,像是車頭、車尾、車身兩側與駕駛艙,就像數個「大都會」。每個區域控制單元(ZCU)就像「市政府」,負責收集該區所有的感測器訊號、初步處理與整合,並直接驅動該區的馬達、燈光等致動器。區域先自理,就不必大小事都等中央拍板。

而「中央政府」則由車用高效能運算平台(HPC)擔任,統籌負責更複雜的運算任務,例如先進駕駛輔助系統(ADAS)所需的環境感知、物體辨識,或是車載娛樂系統、導航功能,甚至是未來自動駕駛的決策,通通交由車輛正中央的這顆「超級大腦」執行。

乘著這波汽車電子架構的轉型浪潮中, 2008 年成立的台灣本土企業威力暘電子,便精準地切入了這個趨勢,致力於開發整合 ECU 與區域控制器(Domain Controller)功能的模組化平台。他們專精於開發電子排檔、多功能方向盤等各式汽車電子控制模組。為了確保各部件之間的溝通順暢,威力暘提供的解決方案,就像是將好幾個「分區管理員」的職責,甚至一部分「超級大腦」的功能,都整合到一個更強大的硬體平台上。

這些模組不僅擁有強大的晶片運算能力,可同時支援 ADAS 與車載娛樂,還能兼容多種通訊協定,大幅簡化車內網路架構。如此一來,車廠在追求輕量化和高效率的同時,也能顧及穩定性與安全性。

-----廣告,請繼續往下閱讀-----
2008 年威力暘電子致力於開發整合 ECU 與區域控制器(Domain Controller)功能的模組化平台 /圖片來源:shutterstock

萬無一失的「汽車大腦」:威力暘的四大策略

然而,「做出來」與「做好」之間,還是有差別。要如何確保這顆集結所有功能的「汽車大腦」不出錯?具體來說,威力暘電子憑藉以下四大策略,築起其產品的可靠性與安全性:

  1. AUTOSAR : 導入開放且標準化的汽車軟體架構 AUTOSAR。分為應用層、運行環境層(RTE)和基礎軟體層(BSW)。就像在玩「樂高積木」,ECU 開發者能靈活組合模組,專注在核心功能開發,從根本上提升軟體的穩定性和可靠性。
  2. V-Model 開發流程:這是一種強調嚴謹、能在早期發現錯誤的軟體開發流程。就像打勾 V 字形般,左側從上而下逐步執行,右側則由下而上層層檢驗,確保每個階段的安全要求都確實落實。
  3. 基於模型的設計 MBD(Model-Based Design) 威力暘的工程師們會利用 MatLab®/Simulink® 等工具,把整個 ECU 要控制的系統(如煞車),用數學模型搭建起來,然後在虛擬環境中進行大量的模擬和測試。這等於在實體 ECU 誕生前,就能在「數位雙生」世界中反覆演練、預先排除設計缺陷,,並驗證安全機制是否有效。
  4. Automotive SPICE (ASPICE) : ASPICE 是國際公認的汽車軟體「品質管理系統」,它不直接評估最終 ECU 產品本身的安全性,而是深入檢視團隊在軟體開發的「整個過程」,也就是「方法論」和「管理紀律」是否夠成熟、夠系統化,並只根據數據來評估品質。

既然 ECU 掌管了整輛車的運作,其能否正常運作,自然被視為最優先項目。為此,威力暘嚴格遵循汽車業中一本堪稱「安全聖經」的國際標準:ISO 26262。這套國際標準可視為一本針對汽車電子電氣系統(特別是 ECU)的「超嚴格品管手冊」和「開發流程指南」,從概念、設計、測試到生產和報廢,都詳細規範了每個安全要求和驗證方法,唯一目標就是把任何潛在風險降到最低

有了上述這四項策略,威力暘確保其產品從設計、生產到交付都符合嚴苛的安全標準,才能通過 ISO 26262 的嚴格檢驗。

然而,ECU 的演進並未就此停下腳步。當ECU 的數量開始精簡,「大腦」變得更集中、更強大後,汽車產業又迎來了新一波革命:「軟體定義汽車」(Software-Defined Vehicle, SDV)。

-----廣告,請繼續往下閱讀-----

軟體定義汽車 SDV:你的愛車也能「升級」!

未來的汽車,會越來越像你手中的智慧型手機。過去,車輛功能在出廠時幾乎就「定終身」,想升級?多半只能換車。但在軟體定義汽車(SDV)時代,汽車將搖身一變成為具備強大運算能力與高速網路連線的「行動伺服器」,能夠「二次覺醒」、不斷升級。透過 OTA(Over-the-Air)技術,車廠能像推送 App 更新一樣,遠端傳送新功能、性能優化或安全修補包到你的車上。

不過,這種美好願景也將帶來全新的挑戰:資安風險。當汽車連上網路,就等於向駭客敞開潛在的攻擊入口。如果車上的 ECU 或雲端伺服器被駭,輕則個資外洩,重則車輛被遠端鎖定或惡意操控。為了打造安全的 SDV,業界必須遵循像 ISO 21434 這樣的車用資安標準。

威力暘電子運用前面提到的四大核心策略,確保自家產品能符合從 ISO 26262 到 ISO 21434 的國際認證。從品質管理、軟體開發流程,到安全認證,這些努力,讓威力暘的模組擁有最高的網路與功能安全。他們的產品不僅展現「台灣智造」的彈性與創新,也擁有與國際大廠比肩的「車規級可靠度」。憑藉這些實力,威力暘已成功打進日本 YAMAHA、Toyota,以及歐美 ZF、Autoliv 等全球一線供應鏈,更成為 DENSO 在台灣少數核准的控制模組夥伴,以商用車熱系統專案成功打入日系核心供應鏈,並自 2025 年起與 DENSO 共同展開平台化量產,驗證其流程與品質。

毫無疑問,未來車輛將有更多運作交由電腦與 AI 判斷,交由電腦判斷,比交由人類駕駛還要安全的那一天,離我們不遠了。而人類的角色,將從操作者轉為監督者,負責在故障或斷網時擔任最後的保險。透過科技讓車子更聰明、更安全,人類甘願當一個「最弱兵器」,其實也不錯!

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

0

1
0

文字

分享

0
1
0
數智驅動未來:從信任到執行,AI 為企業創新賦能
鳥苷三磷酸 (PanSci Promo)_96
・2025/01/13 ・4938字 ・閱讀時間約 10 分鐘

-----廣告,請繼續往下閱讀-----

本文由 鼎新數智 與 泛科學 共同規劃與製作

你有沒有想過,當 AI 根據病歷與 X 光片就能幫你診斷病症,或者決定是否批准貸款,甚至從無人機發射飛彈時,它的每一步「決策」是怎麼來的?如果我們不能知道 AI 的每一個想法步驟,對於那些 AI 輔助的診斷和判斷,要我們如何放心呢?

馬斯克與 OpenAI 的奧特曼鬧翻後,創立了新 AI 公司 xAI,並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型,而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今,AI 已滲透生活各處,而我們對待它的方式卻像求神問卜,缺乏科學精神。如何讓 AI 具備可解釋性,成為當前關鍵問題?

-----廣告,請繼續往下閱讀-----
AI 已滲透生活各處,而我們對待它的方式卻像求神問卜,缺乏科學精神。如何讓 AI 具備可解釋性,成為當前關鍵問題?圖/pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題?試想,現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險,但這些模型往往如同黑箱操作。有人貸款被拒,卻完全不知原因,感覺就像被分手卻不告訴理由。更嚴重的是,AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價,這些與信用風險真的相關嗎?這種不透明性只會讓弱勢群體更難融入金融體系,加劇貧富差距。這種不透明性,會讓原本就已經很難融入金融體系的弱勢群體,更加難以取得貸款,讓貧富差距越來越大,雪上加霜。

AI 不僅影響貸款,還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑,試圖預測嫌犯再犯風險。然而,這些工具被發現對有色人種特別不友好,往往給出偏高的再犯風險評估,導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是,這些決策缺乏透明度,AI 做出的決策根本沒法解釋,這讓嫌犯和律師無法查明問題根源,結果司法公正性就這麼被悄悄削弱了。

此外,AI 在醫療、社交媒體、自駕車等領域的應用,也充滿類似挑戰。例如,AI 協助診斷疾病,但若原因報告無法被解釋,醫生和患者又怎能放心?同樣地,社群媒體或是 YouTube 已經大量使用 AI 自動審查,以及智慧家居或工廠中的黑盒子問題,都像是一場越來越複雜的魔術秀——我們只看到結果,卻無法理解過程。這樣的情況下,對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具,自己卻無法理解?

原因有二。首先,深度學習模型結構複雜,擁有數百萬參數,人類要追蹤每個輸入特徵如何影響最終決策結果,難度極高。例如,ChatGPT 中的 Transformer 模型,利用注意力機制(Attention Mechanism)根據不同詞之間的重要性進行特徵加權計算,因為機制本身涉及大量的矩陣運算和加權計算,這些數學操作使得整個模型更加抽象、不好理解。

-----廣告,請繼續往下閱讀-----

其次,深度學習模型會會從資料中學習某些「特徵」,你可以當作 AI 是用畫重點的方式在學習,人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習,但這些特徵往往對人類來說過於抽象。例如在影像辨識中,人類習慣用眼睛、嘴巴的相對位置,或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵,而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示(Distributed Representation)來編碼特徵,意思是將一個特徵表示為一個高維向量,每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」,在傳統的方式下,你可能用一個簡單的詞來表示這個特徵,例如「紅色」或「藍色」。但是在深度學習中,這個「顏色」特徵可能被表示為一個包含許多數字的高維向量,向量中的每個數字表示顏色的不同屬性,比如亮度、色調等多個數值。對 AI 而言,這是理解世界的方式,但對人類來說,卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」,在傳統的方式下,你可能用一個簡單的詞來表示這個特徵,例如「紅色」或「藍色」。但是在深度學習中,這個「顏色」特徵可能被表示為一個包含許多數字的高維向量,向量中的每個數字表示顏色的不同屬性,比如亮度、色調等多個數值。圖/unsplash

試想,AI 協助診斷疾病時,若理由是基於醫生都無法理解的邏輯,患者即使獲得正確診斷,也會感到不安。畢竟,人們更相信能被理解的東西。

打開黑盒子:可解釋 AI 如何運作?我們要如何教育 AI?

首先,可以利用熱圖(heatmap)或注意力圖這類可視化技術,讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡,來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中 ,當 AI 判斷這張照片裡是「貓」還是「狗」時,我需要它向我們展示在哪些地方「盯得最緊」,像是耳朵的形狀還是毛色的分布。

-----廣告,請繼續往下閱讀-----

其次是局部解釋,LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈,它將每個特徵看作「玩家」,而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻,讓我們可以了解各個特徵如何影響最終結果。並且,SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的,還能透過「全局解釋」理解模型整體的運作中,哪些特徵最重要。

以實際的情景來說,SHAP 可以讓 AI 診斷出你有某種疾病風險時,指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同,會針對單一個案建立一個簡單的模型,來近似原始複雜模型的行為,目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時,LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用,一大優勢是靈活且計算速度快,適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景,LIME 可以幫助醫生理解 AI 為何推薦某種治療方案,並說明幾個主要原因,這樣醫生不僅能更快做出決策,也能增加患者的信任感。

-----廣告,請繼續往下閱讀-----

第三是反事實解釋:如果改變一點點,會怎麼樣?

如果 AI 告訴你:「這家銀行不會貸款給你」,這時你可能會想知道:是收入不夠,還是年齡因素?這時你就可以問 AI:「如果我年輕五歲,或者多一份工作,結果會怎樣?」反事實解釋會模擬這些變化對結果的影響,讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大,就像揭示一道菜中,哪些調味料是味道的關鍵。例如在金融風險預測中,模型可能指出「收入」影響了 40%,「消費習慣」占了 30%,「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時,還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術,才能達到更完整的解釋效果。

講到這裡,你可能會問:我們距離能完全信任 AI 還有多遠?又或者,我們真的應該完全相信它嗎?

-----廣告,請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事,你自然希望它的決策與行動能讓你認可,幫你省心省力。因此,AI 既要「可解釋」,也要「能代理」。

當未來你和 AI 同事深度共事,你自然希望它的決策與行動能讓你認可,幫你省心省力。圖/unsplash

舉例來說,當一家公司要做一個看似「簡單」的決策時,背後的過程其實可能極為複雜。例如,快時尚品牌決定是否推出新一季服裝,不僅需要考慮過去的銷售數據,還得追蹤熱門設計趨勢、天氣預測,甚至觀察社群媒體上的流行話題。像是暖冬來臨,厚外套可能賣不動;或消費者是否因某位明星愛上一種顏色,這些細節都可能影響決策。

這些數據來自不同部門和來源,龐大的資料量與錯綜關聯使企業判斷變得困難。於是,企業常希望有個像經營大師的 AI 代理人,能吸收數據、快速分析,並在做決定時不僅給出答案,還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子,而可解釋 AI (XAI)則清楚解釋其判斷依據。例如,為什麼不建議推出厚外套?可能理由是:「根據天氣預測,今年暖冬概率 80%,過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告,請繼續往下閱讀-----

但會解釋還不夠,AI 還需能真正執行。這時,就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」,大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時,這位產品經理不會手忙腳亂,而是按以下步驟行動:

  1. 檢查倉庫物料:庫存夠不夠?有沒有替代料可用?
  2. 評估交期影響:如果需要新物料,供應商多快能送到?
  3. 計算成本變化:用新料會不會超出成本預算?
  4. 做出最優判斷,並自動生成變更單、工單和採購單,通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節,還會記錄每次決策結果,學習如何變得更高效。隨時間推移,這位「智慧產品經理」的判斷將更聰明、決策速度更快,幾乎不需人工干預。更重要的是,這些判斷是基於「以終為始」的原則,為企業成長目標(如 Q4 業績增長 10%)進行連續且動態地自我回饋,而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作,讓企業決策流程不僅透明,還能自動執行。這正是數智驅動的核心,不僅依靠數據驅動決策,還要能解釋每一個選擇,並自動行動。這個過程可簡化為 SUPA,即「感知(Sensing)→ 理解(Understanding)→ 規劃(Planning)→ 行動(Acting)」的閉環流程,隨著數據的變化不斷進化。

偉勝乾燥工業為例,他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後,偉勝成功將數智驅動融入業務與產品開發,專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合,開發出新形態智慧化設備,成功打入半導體產業,帶動業績大幅成長,創造下一個企業的增長曲線。

-----廣告,請繼續往下閱讀-----

值得一提的是,數智驅動不僅帶動業務增長,還讓員工擺脫繁瑣工作,讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術,還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用,企業首先要確保它服務於具體的業務需求,而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐,才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力?免費上手企業 AI 助理!👉 企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知:https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道,深入科技趨勢與議題內容。

👉立即免費加入

-----廣告,請繼續往下閱讀-----

0

1
0

文字

分享

0
1
0
從遊戲到量子計算:NVIDIA 憑什麼在 AI 世代一騎絕塵?
PanSci_96
・2025/01/09 ・2941字 ・閱讀時間約 6 分鐘

AI 與 GPU 的連結:為什麼 NVIDIA 股價一路飆?

2023 年至今,人工智慧(AI)熱潮引爆全球科技圈的競爭與創新,但最受矚目的企業,莫過於 NVIDIA。它不僅長期深耕遊戲顯示卡市場,在近年來卻因為 AI 應用需求的飆升,一舉躍居市值龍頭。原因何在?大家可能會直覺認為:「顯示卡性能強,剛好給 AI 訓練用!」事實上,真正的關鍵並非只有強悍的硬體,而是 NVIDIA 打造的軟硬體整合技術──CUDA

接下來將為你剖析 CUDA 與通用圖形處理(GPGPU)的誕生始末,以及未來 NVIDIA 持續看好的量子計算與生醫應用,一窺這家企業如何從「遊戲顯示卡大廠」蛻變為「AI 世代的領航者」。

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

CPU vs. GPU:為何顯示卡能成為 AI 領跑者?

在電腦運作中,CPU(中央處理器)向來是整個系統的「大腦」,負責執行指令、邏輯判斷與多樣化的運算。但是,AI 模型訓練需要面對的是龐大的數據量與繁複的矩陣或張量運算。這些運算雖然單一步驟並不複雜,但需要進行「海量且重複性極高」的計算,CPU 難以在短時間內完成。

反觀 GPU(圖形處理器),原先是用來處理遊戲畫面渲染,內部具有 大量且相對簡單的算術邏輯單元。GPU 可以同時在多個核心中進行平行化運算,就像一座「高度自動化、流水線式」的工廠,可一次處理大量像素、頂點或是 AI 訓練所需的運算。這讓 GPU 在大量數值計算上遠遠超越了 CPU 的處理速度,也讓「顯示卡算 AI」成了新時代的主流。

-----廣告,請繼續往下閱讀-----

顯示卡不只渲染:GPGPU 與 CUDA 的誕生

早期,GPU 只被視為遊戲繪圖的利器,但 NVIDIA 的創辦人黃仁勳很快察覺到:這種多核心平行化的結構,除了渲染,也能用來處理科學運算。於是,NVIDIA 在 2007 年正式推出了名為 CUDA(Compute Unified Device Architecture) 的平台。這是一套讓開發者能以熟悉的程式語言(如 C、C++、Python)來調用 GPU 資源的軟體開發工具套件,解決了「人類要如何對 GPU 下指令」的問題。

在 CUDA 出現之前,若要把 GPU 用於渲染以外的用途,往往必須透過「著色器語言」或 OpenGL、DirectX 等繪圖 API 進行繁瑣的間接操作。對想用 GPU 加速數學或科學研究的人來說,門檻極高。然而,有了 CUDA,開發者不需理解圖像著色流程,也能輕鬆呼叫 GPU 的平行運算能力。這代表 GPU 從遊戲卡一躍成為「通用圖形處理單元」(GPGPU),徹底拓展了它在科學研究、AI、影像處理等領域的應用版圖。

AI 崛起的臨門一腳:ImageNet 大賽的關鍵一擊

如果說 CUDA 是 NVIDIA 邁向 AI 領域的踏腳石,那麼真正讓 GPU 與 AI 完美結合的轉捩點,發生在 2012 年的 ImageNet 大規模視覺辨識挑戰賽(ILSVRC)。這場由李飛飛教授創辦的影像辨識競賽中,參賽團隊需要對龐大的影像數據進行訓練、分類及辨識。就在那一年,名為「AlexNet」的深度學習模型橫空出世,利用 GPU 進行平行運算,大幅減少了訓練時間,甚至比第二名的辨識率高出將近 10 個百分點,震撼了全球 AI 研究者。

AlexNet 的成功,讓整個學界與業界都注意到 GPU 在深度學習中的強大潛力。CUDA 在此時被奉為「不二之選」,再加上後來發展的 cuDNN 等深度學習函式庫,讓開發者不必再自行編寫底層 GPU 程式碼,建立 AI 模型的難度與成本大幅降低,NVIDIA 的股價也因此搭上了 AI 波浪,一飛沖天。

-----廣告,請繼續往下閱讀-----
AlexNet 的成功凸顯 GPU 在深度學習中的潛力。圖/unsplash

為什麼只有 NVIDIA 股價衝?對手 AMD、Intel 在做什麼?

市面上有多家廠商生產 CPU 和 GPU,例如 AMD 與 Intel,但為什麼只有 NVIDIA 深受 AI 市場青睞?綜觀原因,硬體只是其一,真正不可或缺的,是 「軟硬體整合」與「龐大的開發者生態系」

硬體部分 NVIDIA 長年深耕 GPU 技術,產品線完整,且數據中心級的顯示卡在能耗與性能上具領先優勢。軟體部分 CUDA 及其相關函式庫生態,涵蓋了影像處理、科學模擬、深度學習(cuDNN)等多方面,讓開發者易於上手且高度依賴。

相比之下,雖然 AMD 也推行了 ROCm 平台、Intel 有自家解決方案,但在市場普及度與生態支持度上,依舊與 NVIDIA 有相當差距。

聰明的管理者

GPU 的優勢在於同時有成百上千個平行運算核心。當一個深度學習模型需要把數據切分成無數個小任務時,CUDA 負責將這些任務合理地排班與分配,並且在記憶體讀寫方面做出最佳化。

-----廣告,請繼續往下閱讀-----
  • 任務分類:同性質的任務集中處理,以減少切換或等待。
  • 記憶體管理:避免資料在 CPU 與 GPU 之間頻繁搬移,能大幅提升效率。
  • 函式庫支援:如 cuDNN,針對常見的神經網路操作(卷積、池化等)做進一步加速,使用者不必從零開始撰寫平行運算程式。

結果就是,研究者、工程師甚至學生,都能輕鬆把 GPU 能力用在各式各樣的 AI 模型上,訓練速度自然飛漲。

從 AI 到量子計算:NVIDIA 對未來的佈局

當 AI 波浪帶來了股價與市值的激增,NVIDIA 並沒有停下腳步。實際上,黃仁勳與團隊還在積極耕耘下一個可能顛覆性的領域──量子計算

2023 年,NVIDIA 推出 CUDA Quantum 平台,嘗試將量子處理器(QPU)與傳統 GPU / CPU 整合,以混合式演算法解決量子電腦無法單獨加速的部分。就像為 AI 量身打造的 cuDNN 一樣,NVIDIA 也對量子計算推出了相對應的開發工具,讓研究者能在 GPU 上模擬量子電路,或與量子處理器協同運算。

NVIDIA 推出 CUDA Quantum 平台,整合 GPU 與 QPU,助力混合量子運算。圖/unsplash

這項新布局,或許還需要時間觀察是否能孕育出市場級應用,但顯示 NVIDIA 對「通用運算」的野心不只停留於 AI,也想成為「量子時代」的主要推手。

-----廣告,請繼續往下閱讀-----

AI 熱潮下,NVIDIA 凭什麼坐穩王座?

回到一開始的疑問:「為什麼 AI 熱,NVIDIA 股價就一定飛?」 答案可簡化為兩點:

  1. 硬體領先 + 軟體生態:顯示卡性能強固然重要,但 CUDA 建立的開發者生態系才是關鍵。
  2. 持續布局未來:當 GPU 為 AI 提供高效能運算平台,NVIDIA 亦不斷將資源投入到量子計算、生醫領域等新興應用,為下一波浪潮預先卡位。

或許,正因為不斷探索新技術與堅持軟硬整合策略,NVIDIA 能在遊戲市場外再創一個又一個高峰。雖然 AMD、Intel 等競爭者也全力追趕,但短期內想撼動 NVIDIA 的領先地位,仍相當不易。

未來,隨著 AI 技術持續突破,晶片性能與通用運算需求只會節節攀升。「AI + CUDA + GPU」 的組合,短時間內看不出能被取代的理由。至於 NVIDIA 是否能繼續攀向更驚人的市值高峰,甚至在量子計算跑道上再拿下一座「王者寶座」,讓我們拭目以待。

歡迎訂閱 Pansci Youtube 頻道 鎖定每一個科學大事件!

-----廣告,請繼續往下閱讀-----

討論功能關閉中。