0

5

1

文字

繁 | 简

0

5

1

Promo 活得科學科學傳播透視科學電腦資訊

如何斷開中文峰峰相連的詞彙鎖鍊，讓電腦能讀懂字裡行間的語意？

研之有物│中央研究院・2018/07/13 ・7302字・閱讀時間約 15 分鐘・SR值 536

・七年級

相關標籤：

熱門標籤：

執行編輯｜林婷嫻美術編輯｜張語辰

「自然語言處理」是什麼？

讓電腦擁有理解人類語言的能力，就是自然語言處理（Natural Language Processing，縮寫 NLP）。然而，人和人之間就會誤會彼此的語言了，電腦要如何理解語義？中研院資訊科學研究所的馬偉雲助研究員說明：以中文來說，最基本的，要先教電腦學會「斷詞」和「理解詞的意思」。

電腦和人腦的語言不同，那要如何讓電腦擁有理解人類語言的能力呢？source：maxpixel

如何理解一種語言？

小時候學習中文，會背誦課文詞彙的注釋，在作業簿練習這個詞的寫法。到了國中時期學英文，面對像天書般的英文文章，會把不懂的單字圈起來，拿出字典查這個字的意思。為什麼這樣做？

因為，詞彙是語言的最小單位。

然而，中文有一個特殊現象，就是「詞」和「詞」之間沒有邊界，整句串起來像條鎖鏈，不像英文有空格將每個字斷開。所以，若要理解一篇中文文章，必須先學會斷詞，而要學會斷詞，必須先知道這是一個詞、以及這個詞的意思。否則可能會產生這種令人「難過」的情況：

中文的詞沒有邊界，若誤解「詞的意思」與「句法結構」，會寫出這般造句練習。　資料來源／網路趣聞

那麼，問題來了，如果聰明的人類都會誤解複雜的語言，那麼只懂 011000110 的電腦有可能學會斷詞、甚至理解同一個詞在不同上下文的意思嗎？其實，這就是自然語言處理（Natural Language Processing）的研究目標。本文專訪中研院中文詞知識庫小組計畫主持人馬偉雲，聊聊自然語言處理究竟是什麼。

-----廣告，請繼續往下閱讀-----

馬偉雲，是一名對於「讓機器擁有理解語言的能力」深感著迷的計算機科學家。　攝影／張語辰

「自然語言」有多自然？

我們先來了解「自然語言」的定義，與「程式語言」有什麼差別。

簡要來說，程式語言是人類為了與計算機溝通，而設計的人工語言；而自然語言的自然，是相對於「人工」語言的「自然」，換句話說，自然語言是人們溝通時自然地發展出來的語言。「自然語言處理」的目標，就在於讓電腦理解、或是運用人類語言。

如何教電腦學會一種語言？

若要讓電腦理解人類的語言，以中文來說，分成兩步驟：

第一步是斷詞、理解詞；第二步則是分析句子，包含語法及語義的自動解析。

自然語言處理透過這兩個步驟，將複雜的語言轉化為電腦容易處理、計算的形式。早期是人工訂定規則，現在則是讓機器自己學習。

-----廣告，請繼續往下閱讀-----

早期的方式是基於一套詞彙資料庫，用程式語言寫好人工訂定的規則，讓電腦依指令做出反應。但這種人工方式不可能包含所有語言的歧異性，例如，當同樣的詞在不同上下文產生不同意思，就會和原本的人工規則相互牴觸。

1980 年代末期，自然語言處理引進機器學習（Machine Learning）的演算法，不再用程式語言命令電腦所有規則，而是建立演算法模型，讓電腦學會從訓練的資料中，尋找資料所含的特定模式和趨勢。我們實驗室──中研院的「中文詞知識庫小組」團隊──就是利用機器學習的演算法，讓電腦學會從訓練的資料中，自動歸納出語言的特性。

訓練電腦處理自然語言，需要什麼樣的資料？

我們團隊成員涵蓋中研院語言所、資訊所的研究人員，所以我們也充分利用這兩個領域的專長。

首先，語言學家為九萬多個中文詞彙定義了完整的語法、以及語義表達方式，並且也標明詞彙之間的關係，例如：「蝴蝶」和「昆蟲」具備「前者是後者的一種」這樣的詞彙關係；「醫生」和「病人」具備「前者醫治後者」這樣的詞彙關係。這樣的表達構建了中文的知識圖譜，我們稱為「廣義知網」。

-----廣告，請繼續往下閱讀-----

詞彙的語法、語義定義完畢後，接下來我們就依這些規則，大量分析文章中的每個句子、每個詞彙的語法和語義，並將分析的結果記錄下來，這就是「語料標注」的工作。這些標注的語料，提供給電腦系統進行機器學習，讓電腦學會自動歸納、找出語言的語法以及語義。

我們的想法是，既然語言學家已分析了某些語言結構的邏輯，那麼基於這些存在的語言學知識來教電腦歸納出語言的特性，是一種相當自然合理的方式。

只是我們大多數情況下，不會直接教電腦學會語言學上的規則，給它一條魚，不如給它一支釣竿。我們是給電腦看語言學家分析完成的大量結果，由電腦利用機器學習而自動歸納得到「規則」，並以參數的方式（請別擔心，一定是人們看得懂的形態），儲存在資訊學家所設計的模型當中。這種電腦自動學出來的模型，能夠很好地解決語言歧異性，也不會有人工寫死規則的問題。

電腦可以認識所有「詞」嗎？

語言的詞彙組合無窮無盡，不可能將所有詞都收進資料庫中訓練電腦。當電腦面對與時俱進的新詞，例如「郭書瑤」、「班奈狄克 · 康柏拜區」、「漫撕男」、「非典」，電腦就無法辨識、理解這個詞。

通常未知詞可分為幾種類型：可能是人名、可能是複合詞、或可能是專有名詞。

我們團隊將「中文斷詞」這個工作，切分成下圖 7 個步驟，每個步驟都是一種演算法模組，處理一種特別的問題。

-----廣告，請繼續往下閱讀-----

教電腦擷取人名，是相對單純的工作，因為人名的結構有跡可循。

中文人名通常是三個字、或兩個字，甚至能參考百家姓、某一年考生的所有名字來建立資料庫，例如「慧」、「婷」常出現在女性人名中，而「雄」這個字常用在男性人名中。從統計機率來看，有些字則是不可能作為人名使用。人名的前後文也會有一些暗示訊息，例如「XXX 表示…」、「 XXX 做了…」、「執行長 XXX」。當電腦分析訓練用的文章資料，自己找出這些規律，電腦就能學會判斷某些未知詞是否為人名。

此外，「複合詞」也是舉不勝舉的未知詞來源。

中文的複合詞，由相當隨性的詞性結構組成，例如「趣味性」，隨意置換字尾，就變成「趣味感」或是「趣味化」。複合詞的字差一點點，就能延伸許多詞意，這讓電腦需辨識的詞彙量變得無比龐大。這部分透過前輩們的研究，漸漸找出複合詞的組成邏輯，整理在中央研究院漢語平衡語料庫（標記了一千多萬個詞彙），也整理出常用詞首、詞尾字資料庫。

-----廣告，請繼續往下閱讀-----

目前斷詞系統中的複合詞主要是針對「名詞複合詞」，但其實我們也在「動詞複合詞」上也累積了不少研究。舉一個實例來說明，例如「開聊」和「聊開」：

「開」的複合動詞結構舉例。
資料來源／〈現代漢語複合動詞之詞首詞尾研究〉，作者：邱智銘、駱季青、陳克健

從語言學的角度，動詞是句子的核心，也是最重要的中心語。「開」這個字有著動詞中心語的起始功能（inchoative），然而放在詞首、詞尾不同位置會產生些微差異。

除了人名、複合詞，新聞或網路文章還會看到許多新創的專有詞，例如：非典（SARS 重症非典型肺炎的簡稱）、河蟹（意指封鎖、掩蓋負面消息）。這類專有詞可以透過 bottom-up merging algorithm（合併字詞演算法）處理。

以「河蟹」為例，透過合併字詞演算法分析新聞、網路文章等資料，電腦會發現：通常「河」後面就是「蟹」，「蟹」前面就是「河」，「河蟹」兩個字一起出現的統計機率蠻高的，而且整組詞意無法單用「河」或「蟹」的各別字意取代。因此，電腦就會判斷「河蟹」最可能是個專有詞、並做出斷詞。

-----廣告，請繼續往下閱讀-----

此外，就算是字典當中已經有的詞彙，有時候仍然會有不同斷詞的情況，我們必須根據上下文決定哪一種斷法才是正確的。例如：「努力才能成功」的「才能」應該切分為兩個詞彙：「才」和「能」，語義接近英文的 “to make”；而「他的領導才能很突出」的「才能」是一個詞彙，不可切分，在此表達英文的 “ability” 的意思。

語言學家會把這樣子的斷詞標注清楚，供電腦進行機器學習。經過不同語句的大量標注，電腦最後會自己學會利用「才能」的上下文做判斷。　資料來源／馬偉雲說明

電腦理解「詞」了，那「句子」呢？

學會斷詞、並理解個別的詞義之後，下一步我們就要使電腦學會理解整個句子的意思。例如「張三打李四」和「李四被張三打」，兩個句子雖然句型不同，但是語義卻是一樣。

我們怎麼表達句子的語義呢？答案是透過「結構樹」。

我們將每個詞彙集結成片語，再把每個片語標記上它所扮演的語義角色（semantic role）。「張三」在兩個結構樹中都是「打」的發動者（agent）的角色，而「李四」都是「打」的對象（goal）的角色。如此一來，透過包含語義角色的結構樹，我們可以得知這兩個句子擁有相同的語義。

先透過人工訂好結構樹的表達，下一步就是要利用機器學習，使電腦能夠自動針對每一句產生出正確的結構樹。歷年來，中文詞知識庫小組從中央研究院漢語平衡語料庫抽取句子，經由電腦初步剖析成結構樹，再加以人工修正檢驗，共整理了六萬多個中文句結構樹圖，標注了各個中文句的語法以及語義角色，這些就形成機器學習的訓練材料，使得電腦剖析結構樹的工作越做越好。

-----廣告，請繼續往下閱讀-----

自然語言處理的進展到了這裡，斷詞有解，句子結構及語義有解，但還有另一個難題──曖昧不清的指代詞。

寫作時為了避免某些詞重複出現，會使用別的指代詞，像是「他」、「某某職稱」等等。用句子舉例，「張三打李四，他很痛」，覺得痛的人究竟是誰？除了考量語句結構，也需基於常識和上下文來理解。

若要教電腦理解指代詞、處理「指代消解」（Coreference Resolution）的問題，有兩種方式。一種較傳統，用程式語言寫好所有判定的人工規則，好處是較精準，壞處是有其侷限，因為列舉的規則不可能對應至世間所有指代情形。另一種是機器學習的方式，當電腦分析所有訓練文章的上下文發現：幾乎都是被打的李四感到痛，「他 = 李四」這個相關性的機率即為最高，進而做為電腦日後判斷的準則。

自然語言處理的方法，有因「深度學習」而改變嗎？

近年來蓬勃發展的深度學習（Deep Learning），提出了另一種方法來教電腦表達詞彙。這種方法是將詞彙轉換為「詞向量」，也就是 Word Vector 或稱 Word Embedding，作法是讓電腦閱讀大量文章，利用前後文的統計特性，慢慢學習出每一個詞彙的詞向量，不必利用任何語言學知識。

詞向量的概念。（其中的向量數字為舉例）　資料來源／馬偉雲　圖說重製／林婷嫻、張語辰

舉例來說，傳統的符號學中，「蝴蝶」、「瓢蟲」、「爬」是不同的三個詞彙。但改成用向量思考，「蝴蝶」和「瓢蟲」的向量距離就會比較近，「蝴蝶」和「爬」的向量距離就會比較遠，隨著訓練的文本越來越多，電腦可以自動調整各個詞彙的向量，解決訓練資料不足的問題，並提升電腦的抽象化思考。

運用「詞向量」的好處是，很多時候針對特定的自然語言處理任務，訓練資料是不足的。因為許多字詞的語義，在人類語感上明明意思很接近、可以相通，但對機器來說，詞彙符號（也就是字元）不同，就是截然不同的詞彙，造成各個詞彙在訓練資料的統計佔比相當低，無法得到足夠信心水準的分析結果。

然而，訓練過程中，若我們以「詞彙向量」作統計，在向量空間上，有些字詞間的向量很靠近，團結力量大，就會發現相近的詞彙向量在訓練資料的統計佔比大幅提升，解決了訓練資料不足的困境。同時，詞彙向量在深度學習的模型之中，被視為可修改的參數，所以也具備了語義（詞彙向量）自動調整的能力。

You shall know a word by the company it keeps.

John Rupert Firth 這句古老的語言學名言，恰巧能說明「詞向量」的思維。其實每個詞就像一個人，若想了解這個人，可以觀察他身旁的人是什麼模樣，也就是物以類聚的概念。

我們團隊目前嘗試結合「傳統詞彙符號」與「詞向量」，共同從事自然語言處理的任務、以及教電腦表達知識。傳統詞彙符號的好處，在於提供清晰的解釋與穩定的應用，而詞向量可以解決訓練資料不足的困境，並且提供語義(詞彙向量)自動調整的能力。這兩者的長處互補，結合起來具有很高的學理價值、更多應用突破。

自然語言處理，有什麼用？

其實，自然語言處理的用途，已經悄悄在我們身邊幫上許多忙。

例如，運用「摘要文本大綱」的能力，電腦可以擔任助手，幫助連睡覺時間都快沒有的醫生閱讀最新的醫學報告、篩選醫學文獻，找出眼前這位病患的病徵，可能跟哪些疾病相關、或是服用某種藥物可能有哪些副作用。像是 2017 年台北醫學大學，就導入 IBM 的 Watson for Oncology（人工智慧治療輔助系統），協助醫師診斷致病機制複雜的癌症。

現在許多人遇到地震、颱風等災害，第一步是上社群媒體發佈消息，例如哪裡的大樓倒了、哪些親友失聯了、各地需要捐助多少物資等等。若運用自然語言處理，讓電腦自動搜集、分析這些社群媒體的文本，就能幫助整合災情、協助救援。

另外，輿情分析、聊天機器人等熱門應用，其基礎也需要先讓電腦理解人類所使用的語言，掌握其中的句法結構、分析字裡行間的情緒，才能統計輿情、或讓機器人做出適當的聊天回應。

自然語言處理，是時間的累積。從民國 75 年到現在，中研院資訊所和語言所合作建立許多語料庫和線上系統，我們很歡迎公家機關和公益團體無償使用，也歡迎有需求的單位來討論合作方式。

為什麼會對「讓電腦擁有語言能力」感到著迷？

我很幸運十幾年前有機會進入這個領域，那時候很驚嘆：怎麼會有一種學問，可以把「語言學」和「計算機科學」結合在一起。

語言是很複雜的現象，語言也代表人類的智慧，像是我們的思緒、意識，很多都是透過語言來展現。

1999 年那時候，我在交大電腦科學與資訊工程系碩士班是做語音辨識，那時候我只懂「聲音訊號」的處理，很好奇「語言」這塊怎麼讓電腦了解。當時和中研院接觸，知道中研院做了很多自然語言處理的工作，例如蒐集大量語料，用計算機的方式把語言的統計特性找出來。

後來我來到中研院服國防役，從研究助理做起，跟著陳克健老師研究中文的斷詞切分，也逐漸發現原來理解語言有非常多面向，包含：語音、詞彙本身的學問、語法結構(這句話怎麼說才合理)、語義解讀（這句話是什麼意思），還有「語用」，也就是什麼時候講這句話、為什麼要這樣講。

2006 年之後，我到美國哥倫比亞大學的電腦科學系讀碩博士，除了博士論文是做機器翻譯，也在那裡的實驗室研究電腦的 Q&A 系統：問電腦問題，讓電腦讀過一堆文獻後回答，這些文獻資料包含中文、英文和阿拉伯文，三種語言混合運用。因為國防上的需求，美國國防部需要透過電腦幫助，了解這些文本在說什麼。

有些對人工智慧發展的疑慮是，在近年電腦深度學習的運算過程中，不知道為什麼會這樣得出結果、難以控制電腦。但現在有一種發展方向，叫做「可解釋人工智慧」（Explainable AI），明確了解電腦運算過程，藉以優化表現、降低人們擔憂。舉例來說，當 IBM 的 Watson for Oncology 建議醫生要開刀治療病患，醫生也得知道電腦分析文本的過程、為什麼會下這個決策，不是電腦控制人而已。

至於之前曾傳出 Facebook 的 AI 對話失控，其實是過度擔憂。

因為這只是 Facebook 工程師教電腦學會「談判」的過程中，電腦自動將對話內容表達地極簡再極簡、能通就好。

當初唸書時，「自然語言」很冷門，跟別人說也不知道這是什麼東西，因為那時人工智慧在商業上還沒有實際應用，和我們的生活還很遙遠。選擇這個領域並不是因為有遠見，只是基於好奇參與、覺得這很有趣，過程就看到自然語言處理（NLP）蓬勃發展至今。

參考資料

本著作由研之有物製作，原文為〈斷開中文的鎖鍊！自然語言處理（NLP）〉以創用CC 姓名標示–非商業性–禁止改作 4.0 國際授權條款釋出。
本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位

在網站上看不過癮？研之有物出書啦！

《研之有物：穿越古今！中研院的25堂人文公開課》等著你來認識更多中研院精彩的研究。

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

研之有物│中央研究院

296 篇文章・ 3657 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

0

文字

LDL-C 正常仍中風？揭開心血管疾病的隱形殺手 L5

鳥苷三磷酸 (PanSci Promo) ・2025/06/20 ・3659字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

本文與美商德州博藝社科技 HEART 合作，泛科學企劃執行。

提到台灣令人焦慮的交通，多數人會想到都市裡的壅塞車潮，但真正致命的「塞車」，其實正悄悄發生在我們體內的動脈之中。

這場無聲的危機，主角是被稱為「壞膽固醇」的低密度脂蛋白（ Low-Density Lipoprotein，簡稱 LDL ）。它原本是血液中運送膽固醇的貨車角色，但當 LDL 顆粒數量失控，卻會開始在血管壁上「違規堆積」，讓「生命幹道」的血管日益狹窄，進而引發心肌梗塞或腦中風等嚴重後果。

科學家們還發現一個令人困惑的現象：即使 LDL 數值「看起來很漂亮」，心血管疾病卻依然找上門來！這究竟是怎麼一回事？沿用數十年的健康標準是否早已不敷使用？

膽固醇的「好壞」之分：一場體內的攻防戰

膽固醇是否越少越好？答案是否定的。事實上，我們體內攜帶膽固醇的脂蛋白主要分為兩種：高密度脂蛋白（High-Density Lipoprotein，簡稱 HDL）和低密度脂蛋白（ LDL ）。

-----廣告，請繼續往下閱讀-----

想像一下您的血管是一條高速公路。HDL 就像是「清潔車隊」，負責將壞膽固醇（ LDL ）運來的多餘油脂垃圾清走。而 LDL 則像是在血管裡亂丟垃圾的「破壞者」。如果您的 HDL 清潔車隊數量太少，清不過來，垃圾便會堆積如山，最終導致血管堵塞，甚至引發心臟病或中風。

我們體內攜帶膽固醇的脂蛋白主要分為兩種：高密度脂蛋白（HDL）和低密度脂蛋白（LDL）/ 圖片來源:shutterstock

因此，過去數十年來，醫生建議男性 HDL 數值至少應達到 40 mg/dL，女性則需更高，達到 50 mg/dL（ mg/dL 是健檢報告上的標準單位，代表每 100 毫升血液中膽固醇的毫克數）。女性的標準較嚴格，是因為更年期後]pacg心血管保護力會大幅下降，需要更多的「清道夫」來維持血管健康。

相對地，LDL 則建議控制在 130 mg/dL 以下，以減緩垃圾堆積的速度。總膽固醇的理想數值則應控制在 200 mg/dL 以內。這些看似枯燥的數字，實則反映了體內一場血管清潔隊與垃圾山之間的攻防戰。

那麼，為何同為脂蛋白，HDL 被稱為「好」的，而 LDL 卻是「壞」的呢？這並非簡單的貼標籤。我們吃下肚或肝臟製造的脂肪，會透過血液運送到全身，這些在血液中流動的脂肪即為「血脂」，主要成分包含三酸甘油酯和膽固醇。三酸甘油酯是身體儲存能量的重要形式，而膽固醇更是細胞膜、荷爾蒙、維生素D和膽汁不可或缺的原料。

-----廣告，請繼續往下閱讀-----

這些血脂對身體運作至關重要，本身並非有害物質。然而，由於脂質是油溶性的，無法直接在血液裡自由流動。因此，在血管或淋巴管裡，脂質需要跟「載脂蛋白」這種特殊的蛋白質結合，變成可以親近水的「脂蛋白」，才能順利在全身循環運輸。

肝臟是生產這些「運輸用蛋白質」的主要工廠，製造出多種蛋白質來運載脂肪。其中，低密度脂蛋白載運大量膽固醇，將其精準送往各組織器官。這也是為什麼低密度脂蛋白膽固醇的縮寫是 LDL-C (全稱是 Low-Density Lipoprotein Cholesterol )。

當血液中 LDL-C 過高時，部分 LDL 可能會被「氧化」變質。這些變質或過量的 LDL 容易在血管壁上引發一連串發炎反應，最終形成粥狀硬化斑塊，導致血管阻塞。因此，LDL-C 被冠上「壞膽固醇」的稱號，因為它與心腦血管疾病的風險密切相關。

高密度脂蛋白（HDL）則恰好相反。其組成近半為蛋白質，膽固醇比例較少，因此有許多「空位」可供載運。HDL-C 就像血管裡的「清道夫」，負責清除血管壁上多餘的膽固醇，並將其運回肝臟代謝處理。正因為如此，HDL-C 被視為「好膽固醇」。

-----廣告，請繼續往下閱讀-----

為何同為脂蛋白，HDL 被稱為「好」的，而 LDL 卻是「壞」的呢？這並非簡單的貼標籤。/ 圖片來源:shutterstock

過去數十年來，醫學界主流觀點認為 LDL-C 越低越好。許多降血脂藥物，如史他汀類（Statins）以及近年發展的 PCSK9 抑制劑，其主要目標皆是降低血液中的 LDL-C 濃度。

然而，科學家們在臨床上發現，儘管許多人的 LDL-C 數值控制得很好，甚至很低，卻仍舊發生中風或心肌梗塞！難道我們對膽固醇的認知，一開始就抓錯了重點？

傳統判讀失準？LDL-C 達標仍難逃心血管危機

早在 2009 年，美國心臟協會與加州大學洛杉磯分校（UCLA）進行了一項大型的回溯性研究。研究團隊分析了 2000 年至 2006 年間，全美超過 13 萬名心臟病住院患者的數據，並記錄了他們入院時的血脂數值。

結果發現，在那些沒有心血管疾病或糖尿病史的患者中，竟有高達 72.1% 的人，其入院時的 LDL-C 數值低於當時建議的 130 mg/dL「安全標準」！即使對於已有心臟病史的患者，也有半數人的 LDL-C 數值低於 100 mg/dL。

-----廣告，請繼續往下閱讀-----

這項研究明確指出，依照當時的指引標準，絕大多數首次心臟病發作的患者，其 LDL-C 數值其實都在「可接受範圍」內。這意味著，單純依賴 LDL-C 數值，並無法有效預防心臟病發作。

科學家們為此感到相當棘手。傳統僅檢測 LDL-C 總量的方式，可能就像只計算路上有多少貨車，卻沒有注意到有些貨車的「駕駛行為」其實非常危險一樣，沒辦法完全揪出真正的問題根源！因此，科學家們決定進一步深入檢視這些「駕駛」，找出誰才是真正的麻煩製造者。

LDL 家族的「頭號戰犯」：L5 型低密度脂蛋白

為了精準揪出 LDL 裡，誰才是最危險的分子，科學家們投入大量心力。他們發現，LDL 這個「壞膽固醇」家族並非均質，其成員有大小、密度之分，甚至帶有不同的電荷，如同各式型號的貨車與脾性各異的「駕駛」。

為了精準揪出 LDL 裡，誰才是最危險的分子，科學家們投入大量心力。發現 LDL 這個「壞膽固醇」家族並非均質，其成員有大小、密度之分，甚至帶有不同的電荷。/ 圖片來源:shutterstock

早在 1979 年，已有科學家提出某些帶有較強「負電性」的 LDL 分子可能與動脈粥狀硬化有關。這些帶負電的 LDL 就像特別容易「黏」在血管壁上的頑固污漬。

-----廣告，請繼續往下閱讀-----

台灣留美科學家陳珠璜教授、楊朝諭教授及其團隊在這方面取得突破性的貢獻。他們利用一種叫做「陰離子交換層析法」的精密技術，像是用一個特殊的「電荷篩子」，依照 LDL 粒子所帶負電荷的多寡，成功將 LDL 分離成 L1 到 L5 五個主要的亞群。其中 L1 帶負電荷最少，相對溫和；而 L5 則帶有最多負電荷，電負性最強，最容易在血管中暴衝的「路怒症駕駛」。

2003 年，陳教授團隊首次從心肌梗塞患者血液中，分離並確認了 L5 的存在。他們後續多年的研究進一步證實，在急性心肌梗塞或糖尿病等高風險族群的血液中，L5 的濃度會顯著升高。

L5 的蛋白質結構很不一樣，不僅天生帶有超強負電性，還可能與其他不同的蛋白質結合，或經過「醣基化」修飾，就像在自己外面額外裝上了一些醣類分子。這些特殊的結構和性質，使 L5 成為血管中的「頭號戰犯」。

當 L5 出現時，它並非僅僅路過，而是會直接「搞破壞」：首先，L5 會直接損傷內皮細胞，讓細胞凋亡，甚至讓血管壁的通透性增加，如同在血管壁上鑿洞。接著，L5 會刺激血管壁產生發炎反應。血管壁受傷、發炎後，血液中的免疫細胞便會前來「救災」。

-----廣告，請繼續往下閱讀-----

然而，這些免疫細胞在吞噬過多包括 L5 在內的壞東西後，會堆積在血管壁上，逐漸形成硬化斑塊，使血管日益狹窄，這便是我們常聽到的「動脈粥狀硬化」。若這些不穩定的斑塊破裂，可能引發急性血栓，直接堵死血管！若發生在供應心臟血液的冠狀動脈，就會造成心肌梗塞；若發生在腦部血管，則會導致腦中風。

L5：心血管風險評估新指標

現在，我們已明確指出 L5 才是 LDL 家族中真正的「破壞之王」。因此，是時候調整我們對膽固醇數值的看法了。現在，除了關注 LDL-C 的「總量」，我們更應該留意血液中 L5 佔所有 LDL 的「百分比」，即 L5%。

陳珠璜教授也將這項 L5 檢測觀念，從世界知名的德州心臟中心帶回台灣，並創辦了美商德州博藝社科技（HEART）。HEART 在台灣研發出嶄新科技，並在美國、歐盟、英國、加拿大、台灣取得專利許可，日本也正在申請中，希望能讓更多台灣民眾受惠於這項更精準的檢測服務。

一般來說，如果您的 L5% 數值小於 2%，通常代表心血管風險較低。但若 L5% 大於 5%，您就屬於高風險族群，建議進一步進行影像學檢查。特別是當 L5% 大於 8% 時，務必提高警覺，這可能預示著心血管疾病即將發作，或已在悄悄進展中。

-----廣告，請繼續往下閱讀-----

對於已有心肌梗塞或中風病史的患者，定期監測 L5% 更是評估疾病復發風險的重要指標。此外，糖尿病、高血壓、高血脂、代謝症候群，以及長期吸菸者，L5% 檢測也能提供額外且有價值的風險評估參考。

隨著醫療科技逐步邁向「精準醫療」的時代，無論是癌症還是心血管疾病的防治，都不再只是單純依賴傳統的身高、體重等指標，而是進一步透過更精密的生物標記，例如特定的蛋白質或代謝物，來更準確地捕捉疾病發生前的徵兆。

您是否曾檢測過 L5% 數值，或是對這項新興的健康指標感到好奇呢？

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

226 篇文章・ 314 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

1

0

文字

數智驅動未來：從信任到執行，AI 為企業創新賦能

鳥苷三磷酸 (PanSci Promo) ・2025/01/13 ・4938字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

本文由鼎新數智與泛科學共同規劃與製作

你有沒有想過，當 AI 根據病歷與 X 光片就能幫你診斷病症，或者決定是否批准貸款，甚至從無人機發射飛彈時，它的每一步「決策」是怎麼來的？如果我們不能知道 AI 的每一個想法步驟，對於那些 AI 輔助的診斷和判斷，要我們如何放心呢？

馬斯克與 OpenAI 的奧特曼鬧翻後，創立了新 AI 公司 xAI，並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型，而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今，AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？

-----廣告，請繼續往下閱讀-----

AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？圖／pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題？試想，現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險，但這些模型往往如同黑箱操作。有人貸款被拒，卻完全不知原因，感覺就像被分手卻不告訴理由。更嚴重的是，AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價，這些與信用風險真的相關嗎？這種不透明性只會讓弱勢群體更難融入金融體系，加劇貧富差距。這種不透明性，會讓原本就已經很難融入金融體系的弱勢群體，更加難以取得貸款，讓貧富差距越來越大，雪上加霜。

AI 不僅影響貸款，還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑，試圖預測嫌犯再犯風險。然而，這些工具被發現對有色人種特別不友好，往往給出偏高的再犯風險評估，導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是，這些決策缺乏透明度，AI 做出的決策根本沒法解釋，這讓嫌犯和律師無法查明問題根源，結果司法公正性就這麼被悄悄削弱了。

此外，AI 在醫療、社交媒體、自駕車等領域的應用，也充滿類似挑戰。例如，AI 協助診斷疾病，但若原因報告無法被解釋，醫生和患者又怎能放心？同樣地，社群媒體或是 YouTube 已經大量使用 AI 自動審查，以及智慧家居或工廠中的黑盒子問題，都像是一場越來越複雜的魔術秀——我們只看到結果，卻無法理解過程。這樣的情況下，對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具，自己卻無法理解？

原因有二。首先，深度學習模型結構複雜，擁有數百萬參數，人類要追蹤每個輸入特徵如何影響最終決策結果，難度極高。例如，ChatGPT 中的 Transformer 模型，利用注意力機制（Attention Mechanism）根據不同詞之間的重要性進行特徵加權計算，因為機制本身涉及大量的矩陣運算和加權計算，這些數學操作使得整個模型更加抽象、不好理解。

-----廣告，請繼續往下閱讀-----

其次，深度學習模型會會從資料中學習某些「特徵」，你可以當作 AI 是用畫重點的方式在學習，人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習，但這些特徵往往對人類來說過於抽象。例如在影像辨識中，人類習慣用眼睛、嘴巴的相對位置，或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵，而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示（Distributed Representation）來編碼特徵，意思是將一個特徵表示為一個高維向量，每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。對 AI 而言，這是理解世界的方式，但對人類來說，卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。圖／unsplash

試想，AI 協助診斷疾病時，若理由是基於醫生都無法理解的邏輯，患者即使獲得正確診斷，也會感到不安。畢竟，人們更相信能被理解的東西。

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

首先，可以利用熱圖（heatmap）或注意力圖這類可視化技術，讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡，來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中，當 AI 判斷這張照片裡是「貓」還是「狗」時，我需要它向我們展示在哪些地方「盯得最緊」，像是耳朵的形狀還是毛色的分布。

-----廣告，請繼續往下閱讀-----

其次是局部解釋，LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈，它將每個特徵看作「玩家」，而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻，讓我們可以了解各個特徵如何影響最終結果。並且，SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的，還能透過「全局解釋」理解模型整體的運作中，哪些特徵最重要。

以實際的情景來說，SHAP 可以讓 AI 診斷出你有某種疾病風險時，指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同，會針對單一個案建立一個簡單的模型，來近似原始複雜模型的行為，目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時，LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用，一大優勢是靈活且計算速度快，適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景，LIME 可以幫助醫生理解 AI 為何推薦某種治療方案，並說明幾個主要原因，這樣醫生不僅能更快做出決策，也能增加患者的信任感。

-----廣告，請繼續往下閱讀-----

第三是反事實解釋：如果改變一點點，會怎麼樣？

如果 AI 告訴你：「這家銀行不會貸款給你」，這時你可能會想知道：是收入不夠，還是年齡因素？這時你就可以問 AI：「如果我年輕五歲，或者多一份工作，結果會怎樣？」反事實解釋會模擬這些變化對結果的影響，讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大，就像揭示一道菜中，哪些調味料是味道的關鍵。例如在金融風險預測中，模型可能指出「收入」影響了 40%，「消費習慣」占了 30%，「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時，還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術，才能達到更完整的解釋效果。

講到這裡，你可能會問：我們距離能完全信任 AI 還有多遠？又或者，我們真的應該完全相信它嗎？

-----廣告，請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。因此，AI 既要「可解釋」，也要「能代理」。

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。圖／unsplash

舉例來說，當一家公司要做一個看似「簡單」的決策時，背後的過程其實可能極為複雜。例如，快時尚品牌決定是否推出新一季服裝，不僅需要考慮過去的銷售數據，還得追蹤熱門設計趨勢、天氣預測，甚至觀察社群媒體上的流行話題。像是暖冬來臨，厚外套可能賣不動；或消費者是否因某位明星愛上一種顏色，這些細節都可能影響決策。

這些數據來自不同部門和來源，龐大的資料量與錯綜關聯使企業判斷變得困難。於是，企業常希望有個像經營大師的 AI 代理人，能吸收數據、快速分析，並在做決定時不僅給出答案，還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子，而可解釋 AI （XAI）則清楚解釋其判斷依據。例如，為什麼不建議推出厚外套？可能理由是：「根據天氣預測，今年暖冬概率 80%，過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告，請繼續往下閱讀-----

但會解釋還不夠，AI 還需能真正執行。這時，就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」，大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時，這位產品經理不會手忙腳亂，而是按以下步驟行動：

檢查倉庫物料：庫存夠不夠？有沒有替代料可用？
評估交期影響：如果需要新物料，供應商多快能送到？
計算成本變化：用新料會不會超出成本預算？
做出最優判斷，並自動生成變更單、工單和採購單，通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節，還會記錄每次決策結果，學習如何變得更高效。隨時間推移，這位「智慧產品經理」的判斷將更聰明、決策速度更快，幾乎不需人工干預。更重要的是，這些判斷是基於「以終為始」的原則，為企業成長目標（如 Q4 業績增長 10%）進行連續且動態地自我回饋，而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作，讓企業決策流程不僅透明，還能自動執行。這正是數智驅動的核心，不僅依靠數據驅動決策，還要能解釋每一個選擇，並自動行動。這個過程可簡化為 SUPA，即「感知（Sensing）→ 理解（Understanding）→ 規劃（Planning）→ 行動（Acting）」的閉環流程，隨著數據的變化不斷進化。

以偉勝乾燥工業為例，他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後，偉勝成功將數智驅動融入業務與產品開發，專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合，開發出新形態智慧化設備，成功打入半導體產業，帶動業績大幅成長，創造下一個企業的增長曲線。

-----廣告，請繼續往下閱讀-----

值得一提的是，數智驅動不僅帶動業務增長，還讓員工擺脫繁瑣工作，讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術，還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用，企業首先要確保它服務於具體的業務需求，而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐，才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力？免費上手企業 AI 助理！企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知：https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道，深入科技趨勢與議題內容。
立即免費加入

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

鳥苷三磷酸 (PanSci Promo)

226 篇文章・ 314 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

2

1

文字

AI 能像人類一樣思考？諾貝爾物理學獎研究助力人工智慧模擬人類大腦

PanSci ・2024/11/14 ・2117字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

即使再怎麼模仿，AI 終究無法以與生物相同的方式思考吧？畢竟電腦的電子元件和我們大腦中的神經細胞結構截然不同。再怎麼模仿，AI 終究無法以與生物相同的方式思考吧？

錯，可以。

2024 年諾貝爾物理學獎跌破所有專家的眼鏡，頒給了兩位研究機器學習的科學家——約翰·霍普菲爾德（John Hopfield）和傑佛瑞·辛頓（Geoffrey Hinton）。他們以「人工」的方法打造了類神經網路，最終模擬出生物的「智慧」，奠定了當代深度學習的基礎。

為什麼解決人工智慧發展瓶頸的，竟然會是物理學？物理要怎麼讓 AI 更像人類？

-----廣告，請繼續往下閱讀-----

從巴甫洛夫的狗到赫布理論：理解學習的基礎

為了解答這個疑問，我們需要一些背景知識。

20 世紀初，俄羅斯心理學家巴甫洛夫發現，狗在食物還沒入口前，就會開始分泌唾液。他進行了一系列實驗，改變食物出現前的環境，比如讓狗習慣在聽到鈴聲後馬上得到食物。久而久之，狗只要聽到鈴聲，就會開始分泌唾液。

大約 50 年後，神經科學家赫布（Donald Hebb）提出了一個假說：大腦中相近的神經元，因為經常同時放電，會產生更強的連結。這種解釋稱為「赫布理論」，不僅奠定了神經心理學的發展，更成為現代深度學習的基礎。

然而，赫布理論雖然描述了鄰近神經元的關係，卻無法解釋大腦如何建構出如此複雜的聯想網路。

-----廣告，請繼續往下閱讀-----

霍普菲爾德網路：物理學家對神經網路的貢獻

然而，赫布理論雖能描述神經元之間的關係，卻缺乏數學模型。物理學家約翰·霍普菲爾德從數學家約翰·康威（John Conway）的「生命遊戲」（Game of Life）中獲得靈感，試圖建立一個可以在電腦上運行的記憶系統。

「生命遊戲」由數學家康威（John Conway）發明，玩家開始時有一個棋盤，每個格子代表一個細胞，細胞可以是「活」或「死」的狀態。根據特定規則，細胞會根據鄰居的狀態決定下一次的生存狀態。康威的目的是展示複雜的系統不一定需要複雜的規則。

霍普菲爾德發現，這個遊戲與赫布理論有強大的關聯性。大腦中的大量神經元，在出生時處於初始狀態，經過刺激後，神經元間的連結會產生或斷裂，形成強大的記憶系統。他希望利用這些理論，創造一個能在電腦上運行的記憶系統。

然而，他面臨一個難題：赫布理論沒有明確的數學模型來決定神經元連結的規則。而在電腦上運行，必須要有明確的數學規則。

-----廣告，請繼續往下閱讀-----

物理學的啟發：易辛模型

霍普菲爾德從物理學的研究中找到了類似的模型：易辛模型（Ising Model）。這個模型用於解釋鐵磁性物質的磁性特性。

在鐵磁性物質中，電子具有「自旋」，自旋產生磁矩。電子的自旋方向只有「向上」或「向下」，這就像生命遊戲中細胞的「生」或「死」。鄰近的電子會影響彼此的自旋方向，類似於細胞之間的互動。

易辛模型能用數學描述電子間的相互影響，並通過計算系統能量，得出自旋狀態的分佈。霍普菲爾德借用了這個概念，將神經元的互動視為電子自旋的互動。

他結合了康威生命遊戲的時間演化概念、易辛模型的能量計算，以及赫布理論的動態連結，創造了「霍普菲爾德網路」。這讓電腦能夠模擬生物大腦的學習過程。

-----廣告，請繼續往下閱讀-----

突破瓶頸：辛頓與波茲曼機

約翰·霍普菲爾德於1982年發明聯想神經網路，即「霍普菲爾網路」。圖／wikimedia

然而，霍普菲爾德網路並非完美。它容易陷入「局部最小值」的問題，無法找到系統的全局最優解。為了解決這個問題，加拿大計算機科學家傑佛瑞·辛頓（Geoffrey Hinton）提出了「波茲曼機」（Boltzmann Machine）。

辛頓將「模擬退火」的概念引入神經網路，允許系統以一定的機率跳出局部最小值，尋找全局最優解。他還引入了「隱藏層」的概念，將神經元分為「可見層」和「隱藏層」，提高了網路的學習能力。

受限波茲曼機（Restricted Boltzmann Machine）進一步簡化了模型，成為深度學習的基礎結構之一。這些創新使得 AI 能夠更有效地模擬人類的思維和學習過程。

AI 的未來：跨學科的融合

霍普菲爾德和辛頓的工作，將物理學的概念成功應用於人工智慧。他們的研究不僅解決了 AI 發展的瓶頸，還奠定了深度學習的基礎，對現代 AI 技術產生了深遠的影響。因此，2024 年諾貝爾物理學獎頒給他們，並非意外，而是對他們在跨學科領域的重大貢獻的肯定。

-----廣告，請繼續往下閱讀-----

AI 的發展，離不開物理學、生物學、數學等多學科的融合。霍普菲爾德和辛頓的工作，正是這種融合的典範。未來，隨著科學技術的進步，我們有理由相信，AI 將越來越接近人類的思維方式，甚至可能超越我們的想像。

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

PanSci

1262 篇文章・ 2413 位粉絲

PanSci的編輯部帳號，會發自產內容跟各種消息喔。

TRENDING 熱門討論

即時熱門

如何斷開中文峰峰相連的詞彙鎖鍊，讓電腦能讀懂字裡行間的語意？

「自然語言處理」是什麼？

如何理解一種語言？

「自然語言」有多自然？

如何教電腦學會一種語言？

訓練電腦處理自然語言，需要什麼樣的資料？

電腦可以認識所有「詞」嗎？

電腦理解「詞」了，那「句子」呢？

自然語言處理的方法，有因「深度學習」而改變嗎？

自然語言處理，有什麼用？

參考資料

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

膽固醇的「好壞」之分：一場體內的攻防戰

傳統判讀失準？LDL-C 達標仍難逃心血管危機

LDL 家族的「頭號戰犯」：L5 型低密度脂蛋白

L5：心血管風險評估新指標

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

黑盒子模型背後的隱藏秘密

為什麼人類設計的 AI 工具，自己卻無法理解？

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

我們終究是想解決人與 AI 的信任問題

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

從巴甫洛夫的狗到赫布理論：理解學習的基礎

霍普菲爾德網路：物理學家對神經網路的貢獻

物理學的啟發：易辛模型

突破瓶頸：辛頓與波茲曼機

AI 的未來：跨學科的融合

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

發表意見