0

5

1

文字

繁 | 简

0

5

1

Promo 活得科學科學傳播透視科學電腦資訊

如何斷開中文峰峰相連的詞彙鎖鍊，讓電腦能讀懂字裡行間的語意？

研之有物│中央研究院・2018/07/13 ・7302字・閱讀時間約 15 分鐘・SR值 536

・七年級

相關標籤：

熱門標籤：

執行編輯｜林婷嫻美術編輯｜張語辰

「自然語言處理」是什麼？

讓電腦擁有理解人類語言的能力，就是自然語言處理（Natural Language Processing，縮寫 NLP）。然而，人和人之間就會誤會彼此的語言了，電腦要如何理解語義？中研院資訊科學研究所的馬偉雲助研究員說明：以中文來說，最基本的，要先教電腦學會「斷詞」和「理解詞的意思」。

電腦和人腦的語言不同，那要如何讓電腦擁有理解人類語言的能力呢？source：maxpixel

如何理解一種語言？

小時候學習中文，會背誦課文詞彙的注釋，在作業簿練習這個詞的寫法。到了國中時期學英文，面對像天書般的英文文章，會把不懂的單字圈起來，拿出字典查這個字的意思。為什麼這樣做？

因為，詞彙是語言的最小單位。

然而，中文有一個特殊現象，就是「詞」和「詞」之間沒有邊界，整句串起來像條鎖鏈，不像英文有空格將每個字斷開。所以，若要理解一篇中文文章，必須先學會斷詞，而要學會斷詞，必須先知道這是一個詞、以及這個詞的意思。否則可能會產生這種令人「難過」的情況：

中文的詞沒有邊界，若誤解「詞的意思」與「句法結構」，會寫出這般造句練習。　資料來源／網路趣聞

那麼，問題來了，如果聰明的人類都會誤解複雜的語言，那麼只懂 011000110 的電腦有可能學會斷詞、甚至理解同一個詞在不同上下文的意思嗎？其實，這就是自然語言處理（Natural Language Processing）的研究目標。本文專訪中研院中文詞知識庫小組計畫主持人馬偉雲，聊聊自然語言處理究竟是什麼。

-----廣告，請繼續往下閱讀-----

馬偉雲，是一名對於「讓機器擁有理解語言的能力」深感著迷的計算機科學家。　攝影／張語辰

「自然語言」有多自然？

我們先來了解「自然語言」的定義，與「程式語言」有什麼差別。

簡要來說，程式語言是人類為了與計算機溝通，而設計的人工語言；而自然語言的自然，是相對於「人工」語言的「自然」，換句話說，自然語言是人們溝通時自然地發展出來的語言。「自然語言處理」的目標，就在於讓電腦理解、或是運用人類語言。

如何教電腦學會一種語言？

若要讓電腦理解人類的語言，以中文來說，分成兩步驟：

第一步是斷詞、理解詞；第二步則是分析句子，包含語法及語義的自動解析。

自然語言處理透過這兩個步驟，將複雜的語言轉化為電腦容易處理、計算的形式。早期是人工訂定規則，現在則是讓機器自己學習。

-----廣告，請繼續往下閱讀-----

早期的方式是基於一套詞彙資料庫，用程式語言寫好人工訂定的規則，讓電腦依指令做出反應。但這種人工方式不可能包含所有語言的歧異性，例如，當同樣的詞在不同上下文產生不同意思，就會和原本的人工規則相互牴觸。

1980 年代末期，自然語言處理引進機器學習（Machine Learning）的演算法，不再用程式語言命令電腦所有規則，而是建立演算法模型，讓電腦學會從訓練的資料中，尋找資料所含的特定模式和趨勢。我們實驗室──中研院的「中文詞知識庫小組」團隊──就是利用機器學習的演算法，讓電腦學會從訓練的資料中，自動歸納出語言的特性。

訓練電腦處理自然語言，需要什麼樣的資料？

我們團隊成員涵蓋中研院語言所、資訊所的研究人員，所以我們也充分利用這兩個領域的專長。

首先，語言學家為九萬多個中文詞彙定義了完整的語法、以及語義表達方式，並且也標明詞彙之間的關係，例如：「蝴蝶」和「昆蟲」具備「前者是後者的一種」這樣的詞彙關係；「醫生」和「病人」具備「前者醫治後者」這樣的詞彙關係。這樣的表達構建了中文的知識圖譜，我們稱為「廣義知網」。

-----廣告，請繼續往下閱讀-----

詞彙的語法、語義定義完畢後，接下來我們就依這些規則，大量分析文章中的每個句子、每個詞彙的語法和語義，並將分析的結果記錄下來，這就是「語料標注」的工作。這些標注的語料，提供給電腦系統進行機器學習，讓電腦學會自動歸納、找出語言的語法以及語義。

我們的想法是，既然語言學家已分析了某些語言結構的邏輯，那麼基於這些存在的語言學知識來教電腦歸納出語言的特性，是一種相當自然合理的方式。

只是我們大多數情況下，不會直接教電腦學會語言學上的規則，給它一條魚，不如給它一支釣竿。我們是給電腦看語言學家分析完成的大量結果，由電腦利用機器學習而自動歸納得到「規則」，並以參數的方式（請別擔心，一定是人們看得懂的形態），儲存在資訊學家所設計的模型當中。這種電腦自動學出來的模型，能夠很好地解決語言歧異性，也不會有人工寫死規則的問題。

電腦可以認識所有「詞」嗎？

語言的詞彙組合無窮無盡，不可能將所有詞都收進資料庫中訓練電腦。當電腦面對與時俱進的新詞，例如「郭書瑤」、「班奈狄克 · 康柏拜區」、「漫撕男」、「非典」，電腦就無法辨識、理解這個詞。

通常未知詞可分為幾種類型：可能是人名、可能是複合詞、或可能是專有名詞。

我們團隊將「中文斷詞」這個工作，切分成下圖 7 個步驟，每個步驟都是一種演算法模組，處理一種特別的問題。

-----廣告，請繼續往下閱讀-----

教電腦擷取人名，是相對單純的工作，因為人名的結構有跡可循。

中文人名通常是三個字、或兩個字，甚至能參考百家姓、某一年考生的所有名字來建立資料庫，例如「慧」、「婷」常出現在女性人名中，而「雄」這個字常用在男性人名中。從統計機率來看，有些字則是不可能作為人名使用。人名的前後文也會有一些暗示訊息，例如「XXX 表示…」、「 XXX 做了…」、「執行長 XXX」。當電腦分析訓練用的文章資料，自己找出這些規律，電腦就能學會判斷某些未知詞是否為人名。

此外，「複合詞」也是舉不勝舉的未知詞來源。

中文的複合詞，由相當隨性的詞性結構組成，例如「趣味性」，隨意置換字尾，就變成「趣味感」或是「趣味化」。複合詞的字差一點點，就能延伸許多詞意，這讓電腦需辨識的詞彙量變得無比龐大。這部分透過前輩們的研究，漸漸找出複合詞的組成邏輯，整理在中央研究院漢語平衡語料庫（標記了一千多萬個詞彙），也整理出常用詞首、詞尾字資料庫。

-----廣告，請繼續往下閱讀-----

目前斷詞系統中的複合詞主要是針對「名詞複合詞」，但其實我們也在「動詞複合詞」上也累積了不少研究。舉一個實例來說明，例如「開聊」和「聊開」：

「開」的複合動詞結構舉例。
資料來源／〈現代漢語複合動詞之詞首詞尾研究〉，作者：邱智銘、駱季青、陳克健

從語言學的角度，動詞是句子的核心，也是最重要的中心語。「開」這個字有著動詞中心語的起始功能（inchoative），然而放在詞首、詞尾不同位置會產生些微差異。

除了人名、複合詞，新聞或網路文章還會看到許多新創的專有詞，例如：非典（SARS 重症非典型肺炎的簡稱）、河蟹（意指封鎖、掩蓋負面消息）。這類專有詞可以透過 bottom-up merging algorithm（合併字詞演算法）處理。

以「河蟹」為例，透過合併字詞演算法分析新聞、網路文章等資料，電腦會發現：通常「河」後面就是「蟹」，「蟹」前面就是「河」，「河蟹」兩個字一起出現的統計機率蠻高的，而且整組詞意無法單用「河」或「蟹」的各別字意取代。因此，電腦就會判斷「河蟹」最可能是個專有詞、並做出斷詞。

-----廣告，請繼續往下閱讀-----

此外，就算是字典當中已經有的詞彙，有時候仍然會有不同斷詞的情況，我們必須根據上下文決定哪一種斷法才是正確的。例如：「努力才能成功」的「才能」應該切分為兩個詞彙：「才」和「能」，語義接近英文的 “to make”；而「他的領導才能很突出」的「才能」是一個詞彙，不可切分，在此表達英文的 “ability” 的意思。

語言學家會把這樣子的斷詞標注清楚，供電腦進行機器學習。經過不同語句的大量標注，電腦最後會自己學會利用「才能」的上下文做判斷。　資料來源／馬偉雲說明

電腦理解「詞」了，那「句子」呢？

學會斷詞、並理解個別的詞義之後，下一步我們就要使電腦學會理解整個句子的意思。例如「張三打李四」和「李四被張三打」，兩個句子雖然句型不同，但是語義卻是一樣。

我們怎麼表達句子的語義呢？答案是透過「結構樹」。

我們將每個詞彙集結成片語，再把每個片語標記上它所扮演的語義角色（semantic role）。「張三」在兩個結構樹中都是「打」的發動者（agent）的角色，而「李四」都是「打」的對象（goal）的角色。如此一來，透過包含語義角色的結構樹，我們可以得知這兩個句子擁有相同的語義。

先透過人工訂好結構樹的表達，下一步就是要利用機器學習，使電腦能夠自動針對每一句產生出正確的結構樹。歷年來，中文詞知識庫小組從中央研究院漢語平衡語料庫抽取句子，經由電腦初步剖析成結構樹，再加以人工修正檢驗，共整理了六萬多個中文句結構樹圖，標注了各個中文句的語法以及語義角色，這些就形成機器學習的訓練材料，使得電腦剖析結構樹的工作越做越好。

-----廣告，請繼續往下閱讀-----

自然語言處理的進展到了這裡，斷詞有解，句子結構及語義有解，但還有另一個難題──曖昧不清的指代詞。

寫作時為了避免某些詞重複出現，會使用別的指代詞，像是「他」、「某某職稱」等等。用句子舉例，「張三打李四，他很痛」，覺得痛的人究竟是誰？除了考量語句結構，也需基於常識和上下文來理解。

若要教電腦理解指代詞、處理「指代消解」（Coreference Resolution）的問題，有兩種方式。一種較傳統，用程式語言寫好所有判定的人工規則，好處是較精準，壞處是有其侷限，因為列舉的規則不可能對應至世間所有指代情形。另一種是機器學習的方式，當電腦分析所有訓練文章的上下文發現：幾乎都是被打的李四感到痛，「他 = 李四」這個相關性的機率即為最高，進而做為電腦日後判斷的準則。

自然語言處理的方法，有因「深度學習」而改變嗎？

近年來蓬勃發展的深度學習（Deep Learning），提出了另一種方法來教電腦表達詞彙。這種方法是將詞彙轉換為「詞向量」，也就是 Word Vector 或稱 Word Embedding，作法是讓電腦閱讀大量文章，利用前後文的統計特性，慢慢學習出每一個詞彙的詞向量，不必利用任何語言學知識。

詞向量的概念。（其中的向量數字為舉例）　資料來源／馬偉雲　圖說重製／林婷嫻、張語辰

舉例來說，傳統的符號學中，「蝴蝶」、「瓢蟲」、「爬」是不同的三個詞彙。但改成用向量思考，「蝴蝶」和「瓢蟲」的向量距離就會比較近，「蝴蝶」和「爬」的向量距離就會比較遠，隨著訓練的文本越來越多，電腦可以自動調整各個詞彙的向量，解決訓練資料不足的問題，並提升電腦的抽象化思考。

運用「詞向量」的好處是，很多時候針對特定的自然語言處理任務，訓練資料是不足的。因為許多字詞的語義，在人類語感上明明意思很接近、可以相通，但對機器來說，詞彙符號（也就是字元）不同，就是截然不同的詞彙，造成各個詞彙在訓練資料的統計佔比相當低，無法得到足夠信心水準的分析結果。

然而，訓練過程中，若我們以「詞彙向量」作統計，在向量空間上，有些字詞間的向量很靠近，團結力量大，就會發現相近的詞彙向量在訓練資料的統計佔比大幅提升，解決了訓練資料不足的困境。同時，詞彙向量在深度學習的模型之中，被視為可修改的參數，所以也具備了語義（詞彙向量）自動調整的能力。

You shall know a word by the company it keeps.

John Rupert Firth 這句古老的語言學名言，恰巧能說明「詞向量」的思維。其實每個詞就像一個人，若想了解這個人，可以觀察他身旁的人是什麼模樣，也就是物以類聚的概念。

我們團隊目前嘗試結合「傳統詞彙符號」與「詞向量」，共同從事自然語言處理的任務、以及教電腦表達知識。傳統詞彙符號的好處，在於提供清晰的解釋與穩定的應用，而詞向量可以解決訓練資料不足的困境，並且提供語義(詞彙向量)自動調整的能力。這兩者的長處互補，結合起來具有很高的學理價值、更多應用突破。

自然語言處理，有什麼用？

其實，自然語言處理的用途，已經悄悄在我們身邊幫上許多忙。

例如，運用「摘要文本大綱」的能力，電腦可以擔任助手，幫助連睡覺時間都快沒有的醫生閱讀最新的醫學報告、篩選醫學文獻，找出眼前這位病患的病徵，可能跟哪些疾病相關、或是服用某種藥物可能有哪些副作用。像是 2017 年台北醫學大學，就導入 IBM 的 Watson for Oncology（人工智慧治療輔助系統），協助醫師診斷致病機制複雜的癌症。

現在許多人遇到地震、颱風等災害，第一步是上社群媒體發佈消息，例如哪裡的大樓倒了、哪些親友失聯了、各地需要捐助多少物資等等。若運用自然語言處理，讓電腦自動搜集、分析這些社群媒體的文本，就能幫助整合災情、協助救援。

另外，輿情分析、聊天機器人等熱門應用，其基礎也需要先讓電腦理解人類所使用的語言，掌握其中的句法結構、分析字裡行間的情緒，才能統計輿情、或讓機器人做出適當的聊天回應。

自然語言處理，是時間的累積。從民國 75 年到現在，中研院資訊所和語言所合作建立許多語料庫和線上系統，我們很歡迎公家機關和公益團體無償使用，也歡迎有需求的單位來討論合作方式。

為什麼會對「讓電腦擁有語言能力」感到著迷？

我很幸運十幾年前有機會進入這個領域，那時候很驚嘆：怎麼會有一種學問，可以把「語言學」和「計算機科學」結合在一起。

語言是很複雜的現象，語言也代表人類的智慧，像是我們的思緒、意識，很多都是透過語言來展現。

1999 年那時候，我在交大電腦科學與資訊工程系碩士班是做語音辨識，那時候我只懂「聲音訊號」的處理，很好奇「語言」這塊怎麼讓電腦了解。當時和中研院接觸，知道中研院做了很多自然語言處理的工作，例如蒐集大量語料，用計算機的方式把語言的統計特性找出來。

後來我來到中研院服國防役，從研究助理做起，跟著陳克健老師研究中文的斷詞切分，也逐漸發現原來理解語言有非常多面向，包含：語音、詞彙本身的學問、語法結構(這句話怎麼說才合理)、語義解讀（這句話是什麼意思），還有「語用」，也就是什麼時候講這句話、為什麼要這樣講。

2006 年之後，我到美國哥倫比亞大學的電腦科學系讀碩博士，除了博士論文是做機器翻譯，也在那裡的實驗室研究電腦的 Q&A 系統：問電腦問題，讓電腦讀過一堆文獻後回答，這些文獻資料包含中文、英文和阿拉伯文，三種語言混合運用。因為國防上的需求，美國國防部需要透過電腦幫助，了解這些文本在說什麼。

有些對人工智慧發展的疑慮是，在近年電腦深度學習的運算過程中，不知道為什麼會這樣得出結果、難以控制電腦。但現在有一種發展方向，叫做「可解釋人工智慧」（Explainable AI），明確了解電腦運算過程，藉以優化表現、降低人們擔憂。舉例來說，當 IBM 的 Watson for Oncology 建議醫生要開刀治療病患，醫生也得知道電腦分析文本的過程、為什麼會下這個決策，不是電腦控制人而已。

至於之前曾傳出 Facebook 的 AI 對話失控，其實是過度擔憂。

因為這只是 Facebook 工程師教電腦學會「談判」的過程中，電腦自動將對話內容表達地極簡再極簡、能通就好。

當初唸書時，「自然語言」很冷門，跟別人說也不知道這是什麼東西，因為那時人工智慧在商業上還沒有實際應用，和我們的生活還很遙遠。選擇這個領域並不是因為有遠見，只是基於好奇參與、覺得這很有趣，過程就看到自然語言處理（NLP）蓬勃發展至今。

參考資料

本著作由研之有物製作，原文為〈斷開中文的鎖鍊！自然語言處理（NLP）〉以創用CC 姓名標示–非商業性–禁止改作 4.0 國際授權條款釋出。
本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位

在網站上看不過癮？研之有物出書啦！

《研之有物：穿越古今！中研院的25堂人文公開課》等著你來認識更多中研院精彩的研究。

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

研之有物│中央研究院

296 篇文章・ 3742 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

0

3

1

文字

為機器人換上「物理大腦」：一場終結AI數位囚禁的革命

鳥苷三磷酸 (PanSci Promo) ・2025/09/03 ・5732字・閱讀時間約 11 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

本文與研華科技合作，泛科學企劃執行

我們都看過那種影片，對吧？網路上從不缺乏讓人驚嘆的機器人表演：數十台人形機器人像軍隊一樣整齊劃一地耍雜技，或是波士頓動力的機器狗，用一種幾乎違反物理定律的姿態後空翻、玩跑酷。每一次，社群媒體總會掀起一陣「未來已來」、「人類要被取代了」的驚呼。

但當你關掉螢幕，看看四周，一個巨大的落差感就來了：說好的機器人呢？為什麼大街上沒有他們的身影，為什麼我家連一件衣服都還沒人幫我摺？

這份存在於數位螢幕與物理現實之間的巨大鴻溝，源於一個根本性的矛盾：當代AI在數位世界裡聰明絕頂，卻在物理世界中笨拙不堪。它可以寫詩、可以畫畫，但它沒辦法為你端一杯水。

-----廣告，請繼續往下閱讀-----

這個矛盾，在我們常見的兩種機器人展示中體現得淋漓盡致。第一種，是動作精準、甚至會跳舞的類型，這本質上是一場由工程師預先寫好劇本的「戲」，機器人對它所處的世界一無所知。第二種，則是嘗試執行日常任務（如開冰箱、拿蘋果）的類型，但其動作緩慢不穩，彷彿正在復健的病人。

這兩種極端的對比，恰恰點出了機器人技術的真正瓶頸：它們的「大腦」還不夠強大，無法即時處理與學習真實世界的突發狀況。

這也引出了本文試圖探索的核心問題：新一代AI晶片NVIDIA® Jetson Thor™ ，這顆號稱能驅動「物理AI」的超級大腦，真的能終結機器人的「復健時代」，開啟一個它們能真正理解、並與我們共同生活的全新紀元嗎？

新一代AI晶片NVIDIA® Jetson Thor™ ，這顆號稱能驅動「物理AI」的超級大腦 / 圖片來源：研華科技

為何我們看到的機器人，總像在演戲或復健？

那我們怎麼理解這個看似矛盾的現象？為什麼有些機器人靈活得像舞者，有些卻笨拙得像病人？答案，就藏在它們的「大腦」運作方式裡。

-----廣告，請繼續往下閱讀-----

那些動作極其精準、甚至會後空翻的機器人，秀的其實是卓越的硬體性能——關節、馬達、減速器的完美配合。但它的本質，是一場由工程師預先寫好劇本的舞台劇。每一個角度、每一分力道，都是事先算好的，機器人本身並不知道自己為何要這麼做，它只是在「執行」指令，而不是在「理解」環境。

而另一種，那個開冰箱慢吞吞的機器人，雖然看起來笨，卻是在做一件革命性的事：它正在試圖由 AI 驅動，真正開始「理解」這個世界。它在學習什麼是冰箱、什麼是蘋果、以及如何控制自己的力量才能順利拿起它。這個過程之所以緩慢，正是因為過去驅動它的「大腦」，也就是 AI 晶片的算力還不夠強，無法即時處理與學習現實世界中無窮的變數。

這就像教一個小孩走路，你可以抱著他，幫他擺動雙腿，看起來走得又快又穩，但那不是他自己在走。真正的學習，是他自己搖搖晃晃、不斷跌倒、然後慢慢找到平衡的過程。過去的機器人，大多是前者；而我們真正期待的，是後者。

所以，問題的核心浮現了：我們需要為機器人裝上一個強大的大腦！但這個大腦，為什麼不能像ChatGPT一樣，放在遙遠的雲端伺服器上就好？

-----廣告，請繼續往下閱讀-----

我們需要為機器人裝上一個強大的大腦！但這個大腦，為什麼不能像ChatGPT一樣，放在遙遠的雲端伺服器上就好？ / 圖片來源：shutterstock

機器人的大腦，為什麼不能放在雲端？

聽起來好像很合理，對吧？把所有複雜的運算都交給雲端最強大的伺服器，機器人本身只要負責接收指令就好了。但……真的嗎？

想像一下，如果你的大腦在雲端，你看到一個球朝你飛過來，視覺訊號要先上傳到雲端，雲端分析完，再把「快閃開」的指令傳回你的身體。這中間只要有零點幾秒的網路延遲，你大概就已經鼻青臉腫了。

現實世界的互動，需要的是「即時反應」。任何網路延遲，在物理世界中都可能造成無法彌補的失誤。因此，運算必須在機器人本體上完成，這就是「邊緣 AI」（Edge AI）的核心概念。而 NVIDIA Jetson 平台，正是為了解決這種在裝置端進行高運算、又要兼顧低功耗的需求，而誕生的關鍵解決方案。

NVIDIA Jetson 就像一個緊湊、節能卻效能強大的微型電腦，專為在各種裝置上運行 AI 任務設計。回顧它的演進，早期的 Jetson 系統主要用於視覺辨識搭配AI推論，像是車牌辨識、工廠瑕疵檢測，或者在相機裡分辨貓狗，扮演著「眼睛」的角色，看得懂眼前的事物。但隨著算力提升，NVIDIA Jetson 的角色也逐漸從單純的「眼睛」，演化為能夠控制手腳的「大腦」，開始驅動更複雜的自主機器，無論是地上跑的、天上飛的，都將NVIDIA Jetson 視為核心運算中樞。

-----廣告，請繼續往下閱讀-----

但再強大的晶片，如果沒有能適應現場環境的「容器」，也無法真正落地。這正是研華（Advantech）的角色，我們將 NVIDIA Jetson 平台整合進各式工業級主機與邊緣運算設備，確保它能在高熱、灰塵、潮濕或震動的現場穩定運行，滿足從工廠到農場到礦場、從公車到貨車到貨輪等各種使用環境。換句話說，NVIDIA 提供「大腦」，而研華則是讓這顆大腦能在真實世界中呼吸的「生命支持系統」。

這個平台聽起來很工業、很遙遠，但它其實早就以一種你意想不到的方式，進入了我們的生活。

從Switch到雞蛋分揀員，NVIDIA Jetson如何悄悄改變世界？

如果我告訴你，第一代的任天堂Switch遊戲機與Jetson有相同血緣，你會不會很驚訝？它的核心處理器X1晶片，與Jetson TX1模組共享相同架構。這款遊戲機對高效能運算和低功耗的嚴苛要求，正好與 Jetson 的設計理念不謀而合。

而在更專業的領域，研華透過 NVIDIA Jetson 更是解決了許多真實世界的難題。例如

-----廣告，請繼續往下閱讀-----

在北美，有客戶利用 AI 進行雞蛋品質檢測，研華的工業電腦搭載NVIDIA Jetson 模組與相機介面，能精準辨識並挑出髒污、雙黃蛋到血蛋
在日本，為避免鏟雪車在移動時發生意外，導入了環繞視覺系統，當 AI 偵測到周圍有人時便會立刻停止；
在水資源珍貴的以色列，研華的邊緣運算平台搭載NVIDIA Jetson模組置入無人機內，24 小時在果園巡航，一旦發現成熟的果實就直接凌空採摘，實現了「無落果」的終極目標。

這些應用，代表著 NVIDIA Jetson Orin™ 世代的成功，它讓「自動化」設備變得更聰明。然而，隨著大型語言模型（LLM）的浪潮來襲，人們的期待也從「自動化」轉向了「自主化」。我們希望機器人不僅能執行命令，更能理解、推理。

Orin世代的算力在執行人形機器人AI推論時的效能約為每秒5到10次的推論頻率，若要機器人更快速完成動作，需要更強大的算力。業界迫切需要一個更強大的大腦。這也引出了一個革命性的問題：AI到底該如何學會「動手」，而不只是「動口」？

革命性的一步：AI如何學會「動手」而不只是「動口」？

面對 Orin 世代的瓶頸，NVIDIA 給出的答案，不是溫和升級，而是一次徹底的世代跨越— NVIDIA Jetson Thor 。這款基於最新 Blackwell 架構的新模組，峰值性能是前代的 7.5 倍，記憶體也翻倍。如此巨大的效能提升，目標只有一個：將過去只能在雲端資料中心運行的、以 Transformer 為基礎的大型 AI 模型，成功部署到終端的機器上。

NVIDIA Jetson Thor 的誕生，將驅動機器人控制典範的根本轉變。這要從 AI 模型的演進說起：

-----廣告，請繼續往下閱讀-----

第一階段是 LLM（Large Language Model，大型語言模型）：
我們最熟悉的 ChatGPT 就屬此類，它接收文字、輸出文字，實現了流暢的人機對話。
第二階段是 VLM（Vision-Language Model，視覺語言模型）：
AI 學會了看，可以上傳圖片，它能用文字描述所見之物，但輸出結果仍然是給人類看的自然語言。
第三階段則是 VLA（Vision-Language-Action Model，視覺語言行動模型）：
這是革命性的一步。VLA 模型的輸出不再是文字，而是「行動指令（Action Token）」。它能將視覺與語言的理解，直接轉化為控制機器人關節力矩、速度等物理行為的具體參數。

這就是關鍵！過去以NVIDIA Jetson Orin™作為大腦的機器人，僅能以有限的速度運行VLA模型。而由 VLA 模型驅動，讓 AI 能夠感知、理解並直接與物理世界互動的全新形態，正是「物理 AI」（Physical AI）的開端。NVIDIA Jetson Thor 的強大算力，就是為了滿足物理 AI 的嚴苛需求而生，要讓機器人擺脫「復健」，迎來真正自主、流暢的行動時代。

NVIDIA Jetson Thor 的強大算力，就是為了滿足物理 AI 的嚴苛需求而生，要讓機器人擺脫「復健」，迎來真正自主、流暢的行動時代 / 圖片來源：研華科技

其中，物理 AI 強調的 vision to action，就需要研華設計對應的硬體來實現；譬如視覺可能來自於一般相機、深度相機、紅外線相機甚至光達，你的系統就要有對應的介面來整合視覺；你也會需要控制介面去控制馬達伸長手臂或控制夾具拿取物品；你也要有 WIFI、4G 或 5G 來傳輸資料或和別的 AI 溝通，這些都需要具體化到一個系統上，這個系統的集大成就是機器人。

好，我們有了史上最強的大腦。但一個再聰明的大腦，也需要一副強韌的身體。而這副身體，為什麼非得是「人形」？這不是一種很沒效率的執念嗎？

為什麼機器人非得是「人形」？這不是一種低效的執念嗎？

這是我一直在思考的問題。為什麼業界的主流目標，是充滿挑戰的「人形」機器人？為何不設計成效率更高的輪式，或是功能更多元的章魚型態？

-----廣告，請繼續往下閱讀-----

答案，簡單到令人無法反駁：因為我們所處的世界，是徹底為人形生物所打造的。

從樓梯的階高、門把的設計，到桌椅的高度，無一不是為了適應人類的雙足、雙手與身高而存在。對 AI 而言，採用人形的軀體，意味著它能用與我們最相似的視角與方式去感知和學習這個世界，進而最快地理解並融入人類環境。這背後的邏輯是，與其讓 AI 去適應千奇百怪的非人形設計，不如讓它直接採用這個已經被數千年人類文明「驗證」過的最優解。

這也區分了「通用型 AI 人形機器人」與「專用型 AI 工業自動化設備」的本質不同。後者像高度特化的工具，產線上的機械手臂能高效重複鎖螺絲，但它無法處理安裝柔軟水管這種預設外的任務。而通用型人形機器人的目標，是成為一個「多面手」，它能在廣泛學習後，理解物理世界的運作規律。理論上，今天它在產線上組裝伺服器，明天就能在廚房裡學會煮菜。

人形機器人的手、腳、眼睛、甚至背部，都需要大量感測器去理解環境就像神經末梢一樣，隨時傳回方位、力量與外界狀態 / 圖片來源：shutterstock

但要讓一個「多面手」真正活起來，光有骨架還不夠。它必須同時擁有強大的大腦平台與遍布全身的感知神經，才能理解並回應外在環境。人形機器人的手、腳、眼睛、甚至背部，都需要大量感測器去理解環境就像神經末梢一樣，隨時傳回方位、力量與外界狀態。但這些訊號若沒有通過一個穩定的「大腦平台」，就無法匯聚成有意義的行動。

這正是研華的角色：我們不僅把 NVIDIA Jetson Thor 這顆核心晶片包載在工業級電腦中，讓它成為能真正思考與反應的「完整大腦」，同時也提供神經系統的骨幹，將感測器、I/O 介面與通訊模組可靠地連結起來，把訊號傳導進大腦。你或許看不見研華的存在，但它實際上遍布在機器人全身，像隱藏在皮膚之下的神經網絡，讓整個身體真正活過來。

但有了大腦、有了身體，接下來的挑戰是「教育」。你要怎麼教一個物理 AI？總不能讓它在現實世界裡一直摔跤，把一台幾百萬的機器人摔壞吧？

打造一個「精神時光屋」，AI的學習速度能有多快？

這個問題非常關鍵。大型語言模型可以閱讀網際網路上浩瀚的文本資料，但物理世界中用於訓練的互動資料卻極其稀缺，而且在現實中反覆試錯的成本與風險實在太高。

答案，就在虛擬世界之中。

NVIDIA Isaac Sim™等模擬平台，為這個問題提供了完美的解決方案。它能創造出一個物理規則高度擬真的數位孿生（Digital Twin）世界，讓 AI 在其中進行訓練。

這就像是為機器人打造了一個「精神時光屋」。它可以在一天之內，經歷相當於現實世界千百日的學習與演練，從而在絕對安全的環境中，窮盡各種可能性，深刻領悟物理世界的定律。透過這種「模擬-訓練-推論」的 3 Computers 閉環，Physical AI (物理AI) 的學習曲線得以指數級加速。

我原本以為模擬只是為了節省成本，但後來發現，它的意義遠不止於此。它是在為 AI 建立一種關於物理世界的「直覺」。這種直覺，是在現實世界中難以透過有限次的試錯來建立的。

所以你看，這趟從 Switch 到人形機器人的旅程，一幅清晰的未來藍圖已經浮現了。實現物理 AI 的三大支柱已然齊備：一個劃時代的「AI 大腦」（NVIDIA Jetson Thor）、讓核心延展為「完整大腦與神經系統」的工業級骨幹（由研華 Advantech 提供），以及一個不可或缺的「教育環境」（NVIDIA Isaac Sim 模擬平台）。

結語

我們拆解了那些酷炫機器人影片背後的真相，看見了從「自動化」走向「自主化」的巨大技術鴻溝，也見證了「物理 AI」時代的三大支柱——大腦、身軀、與教育——如何逐一到位。

專家預測，未來 3 到 5 年內，人形機器人領域將迎來一場顯著的革命。過去我們只能在科幻電影中想像的場景，如今正以前所未有的速度成為現實。

這不再只是一個關於效率和生產力的問題。當一台機器，能夠觀察我們的世界，理解我們的語言，並開始以物理實體的方式與我們互動，這將從根本上改變我們與科技的關係。

所以，最後我想留給你的思想實驗是：當一個「物理 AI」真的走進你的生活，它不只是個工具，而是一個能學習、能適應、能與你共同存在於同一個空間的「非人智慧體」，你最先感受到的，會是興奮、是便利，還是……一絲不安？

這個問題，不再是「我們能否做到」，而是「當它發生時，我們準備好了嗎？」

研華已經整裝待發，現在，我們與您一起推動下一代物理 AI 與智慧設備的誕生。
https://bit.ly/4n78dR4

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

231 篇文章・ 316 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

1

0

文字

數智驅動未來：從信任到執行，AI 為企業創新賦能

鳥苷三磷酸 (PanSci Promo) ・2025/01/13 ・4938字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

本文由鼎新數智與泛科學共同規劃與製作

你有沒有想過，當 AI 根據病歷與 X 光片就能幫你診斷病症，或者決定是否批准貸款，甚至從無人機發射飛彈時，它的每一步「決策」是怎麼來的？如果我們不能知道 AI 的每一個想法步驟，對於那些 AI 輔助的診斷和判斷，要我們如何放心呢？

馬斯克與 OpenAI 的奧特曼鬧翻後，創立了新 AI 公司 xAI，並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型，而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今，AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？

-----廣告，請繼續往下閱讀-----

AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？圖／pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題？試想，現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險，但這些模型往往如同黑箱操作。有人貸款被拒，卻完全不知原因，感覺就像被分手卻不告訴理由。更嚴重的是，AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價，這些與信用風險真的相關嗎？這種不透明性只會讓弱勢群體更難融入金融體系，加劇貧富差距。這種不透明性，會讓原本就已經很難融入金融體系的弱勢群體，更加難以取得貸款，讓貧富差距越來越大，雪上加霜。

AI 不僅影響貸款，還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑，試圖預測嫌犯再犯風險。然而，這些工具被發現對有色人種特別不友好，往往給出偏高的再犯風險評估，導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是，這些決策缺乏透明度，AI 做出的決策根本沒法解釋，這讓嫌犯和律師無法查明問題根源，結果司法公正性就這麼被悄悄削弱了。

此外，AI 在醫療、社交媒體、自駕車等領域的應用，也充滿類似挑戰。例如，AI 協助診斷疾病，但若原因報告無法被解釋，醫生和患者又怎能放心？同樣地，社群媒體或是 YouTube 已經大量使用 AI 自動審查，以及智慧家居或工廠中的黑盒子問題，都像是一場越來越複雜的魔術秀——我們只看到結果，卻無法理解過程。這樣的情況下，對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具，自己卻無法理解？

原因有二。首先，深度學習模型結構複雜，擁有數百萬參數，人類要追蹤每個輸入特徵如何影響最終決策結果，難度極高。例如，ChatGPT 中的 Transformer 模型，利用注意力機制（Attention Mechanism）根據不同詞之間的重要性進行特徵加權計算，因為機制本身涉及大量的矩陣運算和加權計算，這些數學操作使得整個模型更加抽象、不好理解。

-----廣告，請繼續往下閱讀-----

其次，深度學習模型會會從資料中學習某些「特徵」，你可以當作 AI 是用畫重點的方式在學習，人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習，但這些特徵往往對人類來說過於抽象。例如在影像辨識中，人類習慣用眼睛、嘴巴的相對位置，或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵，而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示（Distributed Representation）來編碼特徵，意思是將一個特徵表示為一個高維向量，每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。對 AI 而言，這是理解世界的方式，但對人類來說，卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。圖／unsplash

試想，AI 協助診斷疾病時，若理由是基於醫生都無法理解的邏輯，患者即使獲得正確診斷，也會感到不安。畢竟，人們更相信能被理解的東西。

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

首先，可以利用熱圖（heatmap）或注意力圖這類可視化技術，讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡，來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中，當 AI 判斷這張照片裡是「貓」還是「狗」時，我需要它向我們展示在哪些地方「盯得最緊」，像是耳朵的形狀還是毛色的分布。

-----廣告，請繼續往下閱讀-----

其次是局部解釋，LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈，它將每個特徵看作「玩家」，而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻，讓我們可以了解各個特徵如何影響最終結果。並且，SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的，還能透過「全局解釋」理解模型整體的運作中，哪些特徵最重要。

以實際的情景來說，SHAP 可以讓 AI 診斷出你有某種疾病風險時，指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同，會針對單一個案建立一個簡單的模型，來近似原始複雜模型的行為，目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時，LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用，一大優勢是靈活且計算速度快，適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景，LIME 可以幫助醫生理解 AI 為何推薦某種治療方案，並說明幾個主要原因，這樣醫生不僅能更快做出決策，也能增加患者的信任感。

-----廣告，請繼續往下閱讀-----

第三是反事實解釋：如果改變一點點，會怎麼樣？

如果 AI 告訴你：「這家銀行不會貸款給你」，這時你可能會想知道：是收入不夠，還是年齡因素？這時你就可以問 AI：「如果我年輕五歲，或者多一份工作，結果會怎樣？」反事實解釋會模擬這些變化對結果的影響，讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大，就像揭示一道菜中，哪些調味料是味道的關鍵。例如在金融風險預測中，模型可能指出「收入」影響了 40%，「消費習慣」占了 30%，「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時，還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術，才能達到更完整的解釋效果。

講到這裡，你可能會問：我們距離能完全信任 AI 還有多遠？又或者，我們真的應該完全相信它嗎？

-----廣告，請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。因此，AI 既要「可解釋」，也要「能代理」。

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。圖／unsplash

舉例來說，當一家公司要做一個看似「簡單」的決策時，背後的過程其實可能極為複雜。例如，快時尚品牌決定是否推出新一季服裝，不僅需要考慮過去的銷售數據，還得追蹤熱門設計趨勢、天氣預測，甚至觀察社群媒體上的流行話題。像是暖冬來臨，厚外套可能賣不動；或消費者是否因某位明星愛上一種顏色，這些細節都可能影響決策。

這些數據來自不同部門和來源，龐大的資料量與錯綜關聯使企業判斷變得困難。於是，企業常希望有個像經營大師的 AI 代理人，能吸收數據、快速分析，並在做決定時不僅給出答案，還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子，而可解釋 AI （XAI）則清楚解釋其判斷依據。例如，為什麼不建議推出厚外套？可能理由是：「根據天氣預測，今年暖冬概率 80%，過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告，請繼續往下閱讀-----

但會解釋還不夠，AI 還需能真正執行。這時，就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」，大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時，這位產品經理不會手忙腳亂，而是按以下步驟行動：

檢查倉庫物料：庫存夠不夠？有沒有替代料可用？
評估交期影響：如果需要新物料，供應商多快能送到？
計算成本變化：用新料會不會超出成本預算？
做出最優判斷，並自動生成變更單、工單和採購單，通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節，還會記錄每次決策結果，學習如何變得更高效。隨時間推移，這位「智慧產品經理」的判斷將更聰明、決策速度更快，幾乎不需人工干預。更重要的是，這些判斷是基於「以終為始」的原則，為企業成長目標（如 Q4 業績增長 10%）進行連續且動態地自我回饋，而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作，讓企業決策流程不僅透明，還能自動執行。這正是數智驅動的核心，不僅依靠數據驅動決策，還要能解釋每一個選擇，並自動行動。這個過程可簡化為 SUPA，即「感知（Sensing）→ 理解（Understanding）→ 規劃（Planning）→ 行動（Acting）」的閉環流程，隨著數據的變化不斷進化。

以偉勝乾燥工業為例，他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後，偉勝成功將數智驅動融入業務與產品開發，專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合，開發出新形態智慧化設備，成功打入半導體產業，帶動業績大幅成長，創造下一個企業的增長曲線。

-----廣告，請繼續往下閱讀-----

值得一提的是，數智驅動不僅帶動業務增長，還讓員工擺脫繁瑣工作，讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術，還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用，企業首先要確保它服務於具體的業務需求，而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐，才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力？免費上手企業 AI 助理！企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知：https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道，深入科技趨勢與議題內容。
立即免費加入

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

鳥苷三磷酸 (PanSci Promo)

231 篇文章・ 316 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

2

1

文字

AI 能像人類一樣思考？諾貝爾物理學獎研究助力人工智慧模擬人類大腦

PanSci ・2024/11/14 ・2117字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

即使再怎麼模仿，AI 終究無法以與生物相同的方式思考吧？畢竟電腦的電子元件和我們大腦中的神經細胞結構截然不同。再怎麼模仿，AI 終究無法以與生物相同的方式思考吧？

錯，可以。

2024 年諾貝爾物理學獎跌破所有專家的眼鏡，頒給了兩位研究機器學習的科學家——約翰·霍普菲爾德（John Hopfield）和傑佛瑞·辛頓（Geoffrey Hinton）。他們以「人工」的方法打造了類神經網路，最終模擬出生物的「智慧」，奠定了當代深度學習的基礎。

為什麼解決人工智慧發展瓶頸的，竟然會是物理學？物理要怎麼讓 AI 更像人類？

-----廣告，請繼續往下閱讀-----

從巴甫洛夫的狗到赫布理論：理解學習的基礎

為了解答這個疑問，我們需要一些背景知識。

20 世紀初，俄羅斯心理學家巴甫洛夫發現，狗在食物還沒入口前，就會開始分泌唾液。他進行了一系列實驗，改變食物出現前的環境，比如讓狗習慣在聽到鈴聲後馬上得到食物。久而久之，狗只要聽到鈴聲，就會開始分泌唾液。

大約 50 年後，神經科學家赫布（Donald Hebb）提出了一個假說：大腦中相近的神經元，因為經常同時放電，會產生更強的連結。這種解釋稱為「赫布理論」，不僅奠定了神經心理學的發展，更成為現代深度學習的基礎。

然而，赫布理論雖然描述了鄰近神經元的關係，卻無法解釋大腦如何建構出如此複雜的聯想網路。

-----廣告，請繼續往下閱讀-----

霍普菲爾德網路：物理學家對神經網路的貢獻

然而，赫布理論雖能描述神經元之間的關係，卻缺乏數學模型。物理學家約翰·霍普菲爾德從數學家約翰·康威（John Conway）的「生命遊戲」（Game of Life）中獲得靈感，試圖建立一個可以在電腦上運行的記憶系統。

「生命遊戲」由數學家康威（John Conway）發明，玩家開始時有一個棋盤，每個格子代表一個細胞，細胞可以是「活」或「死」的狀態。根據特定規則，細胞會根據鄰居的狀態決定下一次的生存狀態。康威的目的是展示複雜的系統不一定需要複雜的規則。

霍普菲爾德發現，這個遊戲與赫布理論有強大的關聯性。大腦中的大量神經元，在出生時處於初始狀態，經過刺激後，神經元間的連結會產生或斷裂，形成強大的記憶系統。他希望利用這些理論，創造一個能在電腦上運行的記憶系統。

然而，他面臨一個難題：赫布理論沒有明確的數學模型來決定神經元連結的規則。而在電腦上運行，必須要有明確的數學規則。

-----廣告，請繼續往下閱讀-----

物理學的啟發：易辛模型

霍普菲爾德從物理學的研究中找到了類似的模型：易辛模型（Ising Model）。這個模型用於解釋鐵磁性物質的磁性特性。

在鐵磁性物質中，電子具有「自旋」，自旋產生磁矩。電子的自旋方向只有「向上」或「向下」，這就像生命遊戲中細胞的「生」或「死」。鄰近的電子會影響彼此的自旋方向，類似於細胞之間的互動。

易辛模型能用數學描述電子間的相互影響，並通過計算系統能量，得出自旋狀態的分佈。霍普菲爾德借用了這個概念，將神經元的互動視為電子自旋的互動。

他結合了康威生命遊戲的時間演化概念、易辛模型的能量計算，以及赫布理論的動態連結，創造了「霍普菲爾德網路」。這讓電腦能夠模擬生物大腦的學習過程。

-----廣告，請繼續往下閱讀-----

突破瓶頸：辛頓與波茲曼機

約翰·霍普菲爾德於1982年發明聯想神經網路，即「霍普菲爾網路」。圖／wikimedia

然而，霍普菲爾德網路並非完美。它容易陷入「局部最小值」的問題，無法找到系統的全局最優解。為了解決這個問題，加拿大計算機科學家傑佛瑞·辛頓（Geoffrey Hinton）提出了「波茲曼機」（Boltzmann Machine）。

辛頓將「模擬退火」的概念引入神經網路，允許系統以一定的機率跳出局部最小值，尋找全局最優解。他還引入了「隱藏層」的概念，將神經元分為「可見層」和「隱藏層」，提高了網路的學習能力。

受限波茲曼機（Restricted Boltzmann Machine）進一步簡化了模型，成為深度學習的基礎結構之一。這些創新使得 AI 能夠更有效地模擬人類的思維和學習過程。

AI 的未來：跨學科的融合

霍普菲爾德和辛頓的工作，將物理學的概念成功應用於人工智慧。他們的研究不僅解決了 AI 發展的瓶頸，還奠定了深度學習的基礎，對現代 AI 技術產生了深遠的影響。因此，2024 年諾貝爾物理學獎頒給他們，並非意外，而是對他們在跨學科領域的重大貢獻的肯定。

-----廣告，請繼續往下閱讀-----

AI 的發展，離不開物理學、生物學、數學等多學科的融合。霍普菲爾德和辛頓的工作，正是這種融合的典範。未來，隨著科學技術的進步，我們有理由相信，AI 將越來越接近人類的思維方式，甚至可能超越我們的想像。

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

PanSci

1262 篇文章・ 2494 位粉絲

PanSci的編輯部帳號，會發自產內容跟各種消息喔。

TRENDING 熱門討論

即時熱門

如何斷開中文峰峰相連的詞彙鎖鍊，讓電腦能讀懂字裡行間的語意？

「自然語言處理」是什麼？

如何理解一種語言？

「自然語言」有多自然？

如何教電腦學會一種語言？

訓練電腦處理自然語言，需要什麼樣的資料？

電腦可以認識所有「詞」嗎？

電腦理解「詞」了，那「句子」呢？

自然語言處理的方法，有因「深度學習」而改變嗎？

自然語言處理，有什麼用？

參考資料

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

為何我們看到的機器人，總像在演戲或復健？

機器人的大腦，為什麼不能放在雲端？

從Switch到雞蛋分揀員，NVIDIA Jetson如何悄悄改變世界？

革命性的一步：AI如何學會「動手」而不只是「動口」？

為什麼機器人非得是「人形」？這不是一種低效的執念嗎？

打造一個「精神時光屋」，AI的學習速度能有多快？

結語

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

黑盒子模型背後的隱藏秘密

為什麼人類設計的 AI 工具，自己卻無法理解？

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

我們終究是想解決人與 AI 的信任問題

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

從巴甫洛夫的狗到赫布理論：理解學習的基礎

霍普菲爾德網路：物理學家對神經網路的貢獻

物理學的啟發：易辛模型

突破瓶頸：辛頓與波茲曼機

AI 的未來：跨學科的融合

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

發表意見