3

6

0

文字

繁 | 简

3

6

0

專欄活得科學社會群體科學傳播編輯精選透視科學電腦資訊

Deepfake 辨偽技術如何在魔高一尺時，能道高一丈呢？——成大統計所許志仲專訪

Ａ編編・2022/01/26 ・3499字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

2021年末，小玉的「Deepfake 換臉事件」讓大眾正視 Deepfake 技術的濫用問題。 Deepfake 發展至今不只有造假技術在進步，辨偽也是：目前任職於成大統計所的許志仲老師，從 2018 年開始便在這個主題中專研，並於 2020 年發表相關研究結果，該篇文章起今已有超過 50 次的引用次數。「以這篇論文發表的期刊影響指數（Impact Factor，簡稱IF值）來說，這個引用數相對來說是高的，這代表 Deepfake 辨偽的議題開始變得重要，但研究的人可能沒那麼多。」

許志仲坦言，自己 2018 年研究 Deepfake 辨偽時，Deepfake 影片品質並沒有特別好。沒想到短短兩三年的時間，Deepfake 的效果就已經好到可能會造成問題了。

雙面刃的 Deepfake

Deepfake 技術起初是希望能藉由電腦產生各種不同的逼真圖片或影片，來因應特效製作或老照片修復之類的工作，而要產生逼真圖片或影片，有許多不同的方法都能達成這個目的，目前 Deepfake 最常使用的方法為 2014 年提出的「生成對抗網路（Generative Adversarial Network, 簡稱 GAN）」，透過生成網路與判別網路的對抗，產生逼真的圖片或影片，因此說到 DeepFake，通常都會說起 GAN。

「我們會說 Deepfake 就是 GAN，是因為就目前生成技術還是以 GAN 最好，當然也有新的方法正在發展，所以未來未必還是以 GAN 作為主體，可能用別的方法偽造，也能做得很漂亮。」

-----廣告，請繼續往下閱讀-----

許志仲也表示，Deepfake 的發展目標是正面的，技術本身是中立的，但使用者怎麼使用這項技術，就成了重要問題。而在不能確保使用者心態的情況下，辨偽技術成了這項技術的最後一道防線。而 Deepfake 辨識的主要問題，可以分為偏向研究的「偽造特徵不固定」，以及偏向實務面的「辨偽系統的使用情境差異」兩個面向。

Deepfake 辨識的研究困難：偽造特徵不固定

現在已經有可以辨識貓狗、車牌等物體的影像辨識系統，這些辨識系統也相當成熟可靠，直覺來說，要做出一套辨識 Deepfake 的辨識系統，應該也不會太困難吧？

但實際上卻並非如此，過往辨識系統的做法是抓取容易辨別的特徵，例如貓與狗兩者在形態上就有明顯的差異，只要給電腦夠多的訓練資料，就能有一組精確區分貓與狗的判別式，且能用到各種需要分辨貓與狗的情況下。

貓跟狗的形態差異很大，所以電腦能輕易辨別這兩種物種。圖／envato elements

先不談分辨人臉真假，就人臉辨識本身來說，就是個值得研究的問題，每個人的臉都長得差不多，差異在於五官的相對位置、形狀或大小有微小的差異，這使人臉辨識本身就難有通則可以去分辨。而不同方法生成相似的 Deepfake 圖片，並不一定具有相同的偽造特徵，從人臉特徵到偽造特徵都不固定，使得 Deepfake 辨識具有一定的困難度。

-----廣告，請繼續往下閱讀-----

此外，即便用同一種方法製作同樣的 Deepfake 圖片，也會因為當初給的資料不同，使得偽造特徵出現差異，這讓「一組判別式就能判斷是否為 Deepfake」成為近乎不可能實現的夢。

也許，偽造特徵根本不在人臉上!?

面對 Deepfake 辨識的棘手問題，許志仲說：「要辨識的特徵太多元。我們覺得倒不如去尋找有什麼線索是 GAN 一致會產生的，這線索也許是我們眼睛看不到的，但是電腦可以透過學習的方式去挖掘，所以我就用了這種學習機制去抓出，會不會大部分的這種生成系統，都可能有共同的瑕疵。」

一張 Deepfake 照片並不只有人臉與五官，也包含了背景。而許志仲的論文指出，Deepfake 的偽造特徵，經常出現在背景，或是背景與人臉的交界處：

「臉通常都合成的很漂亮，但是背景跟臉的交界處會不自然。通常在髮絲的地方，髮絲的地方會糊掉這是一種，或是眉毛或者是額頭中的髮線也會有明顯差異。另外就是背景，會明顯看不出背景是什麼東西。大家都忽略看這裡（背景）很正常，而實驗結果也確實看到這些部分具有相對好的辨識度。」

-----廣告，請繼續往下閱讀-----

使用 GAN 生成的 Deepfake 人臉。圖／This Person Does Not Exist

然而，即便該篇論文是近期發布的，許志仲也不敢肯定這套辨識方式是否能套用在目前的狀況下，他表示目前每半年，GAN 生成的 Deepfake 影像的逼真度，就會有顯著的突破，且沒有消退的趨勢。

Deepfake 辨識的實務困難：辨偽系統的使用情境差異

在實務上，許志仲認為目前還有更為棘手的問題需要解決，那就是辨偽系統的使用情境差異。以一段 Deepfake 影片上傳 Youtube 平台為例，上傳的時候 YouTube 就會先對影片進行壓縮，這時原有的 Deepfake 偽造特徵很可能會因為壓縮而被破壞，許志仲解釋：「有些人會故意加上一些雜訊、加一些後處理，比方說整個畫面做類似美肌之類的處理，這些都會破壞掉偽造的線索，我們發現這些狀況十分常見，而且很難克服。這也是為什麼現在幾乎沒有軟體或網站，提供 Deepfake 辨識服務。」

在實驗室裡，我們可以拿到 GAN 生成的原始影像去做分析，但在網路世界裡，每一個影像都可能像上述的情況一樣，做了各種後處理才放到網路上，就算現在有研究指出某種辨認方式是有效的，也未必真的能應對網路上的複雜情況。

許志仲表示，目前看到有希望突破壓縮這個問題的辨認方式，是去抓人臉在一段影片中的五官變化是否足夠自然，這個線索可以克服壓縮的一點點問題，因爲是藉由五官相對位置的變化來偵測，這就跟壓縮沒太大關係。但正如前面提到的，人臉辨識是困難的，人臉的五官定位本身就無法做到精準，真要使用這套方法辨識 Deepfake，還需要更多研究來確認可行性。

-----廣告，請繼續往下閱讀-----

也有研究者認為 GAN 理論雖然看似完美無瑕，但在產出 Deepfake 過程中仍可能會出現某些關鍵操作，只要藉由偵測畫面中是否有經歷這些操作，就能間接推測這個畫面是否為 Deepfake，不過這個做法的缺點也很明顯，那就是這些關鍵操作，也很可能只是正常的影片後製造成的，並造成不是 Deepfake 的影像也被歸類到 Deepfake 中。

情境逐個突破，讓研究能落地使用

說到這裡，許志仲語重心長地說：「我們研究做了這麼多偵測 Deepfake 的方法，但都不一定能在真實世界使用，這讓我非常意外，而上述的這些情境，也只是冰山一角。」

其實大家都在研究差不多的特徵，像是五官的落差，說話的時候嘴巴的動態變化會比較小或模糊之類的，但這些特徵面在真實的使用情境中，還能有多少辨識度，就真的是未知數。考量到真實情境的複雜度，目前許志仲認為逐個突破不同的情境下它們適合的辨偽方式，才是比較實實際的。

「我們必須先確認好問題是正確的，才能找到正確的答案。」許志仲說，要在實驗室裡做出一套數據漂亮的辨識系統並不困難，但要做出實際能用的辨識系統卻非常不簡單。

-----廣告，請繼續往下閱讀-----

許志仲也嘗試將自己的研究成果運用在實際情境中，但面對製作公司精心製作的 Deepfake 影片，許志仲換了好幾套模型，也只有一套能判別出來，也呼應了「使用情境差異」才是辨識 Deepfake 無法落地的最大問題。

辨識系統在實驗室中可以使用、但在現實生活中卻不一定。圖／envato elements

各界都在防範 Deepfake 影響生活

GAN 要能生成以假亂真的 Deepfake 圖像，必須建構在有訓練完善的生成模型上，而一個訓練完善的生成模型，並不是隨便餵幾筆資料給 GAN 就會跑出來的，必須要有足夠算力的電腦，配合大量的資料才能完成。除了像 Google 或 Facebook 這種規模的公司有能力製作外，也只有部分研究單位，能做出這種以假亂真的生成模型。

許志仲說：「由於 Deepfake 對社會的影響很大，現在他們都只公開自己的程式碼，但不會公開自己的模型，主要就是怕模型被拿去幹壞事。」許志仲也坦承，對於辨偽技術的研究來說，目前的狀況是非常不利的，這代表研究者必須自己用程式碼生出不那麼精良的模型，來製作 Deepfake 圖片測試。

面對未來 Deepfake 是否會無法辨別，許志仲表示就影像上來說，這件事情是做得到的，總會有方法做出不被任何辨識系統偵測，堪稱完美的 Deepfake 影像。但身為防禦方的我們，並不是只能靠圖片辨識真偽，上傳的使用者、社群平台的 meta-data，這些能標示來源的訊息，都可能是我們辨識這部影片是否為 Deepfake 的線索。

-----廣告，請繼續往下閱讀-----

影片的上傳者、發布的社群平台等等，都可能是我們辨識這部影片是否為 DeepFake 的線索。圖／envato elements

面對持續進化，仍看不見消退的 Deepfake 技術，許志仲也希望未來能有更多人一同加入 Deepfake 辨偽的研究行列，針對 Deepfake 辨偽系統的使用情境，我們還有非常多的問題等著被解答。

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 3

登入與大家一起討論

#1

狐禪 2022/01/26

如果之後所有影像在呈現之前，都要先經過辨偽軟體檢查，那就又降低網路的流暢度了。所以查證是所有應用效率的瓶頸。這是共業啊。

#2

狐禪 2022/01/27

管理員該過濾2，3樓的雜訊吧。或交給那個什麼先修班當教材？

#3

Ａ編編 2022/01/27

#2
已BAN

Ａ編編

11 篇文章・ 31 位粉絲

PanSci 編輯｜讀物理毀三觀的科學宅，喜歡相聲跟脫口秀，因為它們跟我一樣是個笑話。

TRENDING 熱門討論

即時熱門

0

1

0

文字

數智驅動未來：從信任到執行，AI 為企業創新賦能

鳥苷三磷酸 (PanSci Promo) ・2025/01/13 ・4938字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

本文由鼎新數智與泛科學共同規劃與製作

你有沒有想過，當 AI 根據病歷與 X 光片就能幫你診斷病症，或者決定是否批准貸款，甚至從無人機發射飛彈時，它的每一步「決策」是怎麼來的？如果我們不能知道 AI 的每一個想法步驟，對於那些 AI 輔助的診斷和判斷，要我們如何放心呢？

馬斯克與 OpenAI 的奧特曼鬧翻後，創立了新 AI 公司 xAI，並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型，而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今，AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？

-----廣告，請繼續往下閱讀-----

AI 已滲透生活各處，而我們對待它的方式卻像求神問卜，缺乏科學精神。如何讓 AI 具備可解釋性，成為當前關鍵問題？圖／pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題？試想，現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險，但這些模型往往如同黑箱操作。有人貸款被拒，卻完全不知原因，感覺就像被分手卻不告訴理由。更嚴重的是，AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價，這些與信用風險真的相關嗎？這種不透明性只會讓弱勢群體更難融入金融體系，加劇貧富差距。這種不透明性，會讓原本就已經很難融入金融體系的弱勢群體，更加難以取得貸款，讓貧富差距越來越大，雪上加霜。

AI 不僅影響貸款，還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑，試圖預測嫌犯再犯風險。然而，這些工具被發現對有色人種特別不友好，往往給出偏高的再犯風險評估，導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是，這些決策缺乏透明度，AI 做出的決策根本沒法解釋，這讓嫌犯和律師無法查明問題根源，結果司法公正性就這麼被悄悄削弱了。

此外，AI 在醫療、社交媒體、自駕車等領域的應用，也充滿類似挑戰。例如，AI 協助診斷疾病，但若原因報告無法被解釋，醫生和患者又怎能放心？同樣地，社群媒體或是 YouTube 已經大量使用 AI 自動審查，以及智慧家居或工廠中的黑盒子問題，都像是一場越來越複雜的魔術秀——我們只看到結果，卻無法理解過程。這樣的情況下，對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具，自己卻無法理解？

原因有二。首先，深度學習模型結構複雜，擁有數百萬參數，人類要追蹤每個輸入特徵如何影響最終決策結果，難度極高。例如，ChatGPT 中的 Transformer 模型，利用注意力機制（Attention Mechanism）根據不同詞之間的重要性進行特徵加權計算，因為機制本身涉及大量的矩陣運算和加權計算，這些數學操作使得整個模型更加抽象、不好理解。

-----廣告，請繼續往下閱讀-----

其次，深度學習模型會會從資料中學習某些「特徵」，你可以當作 AI 是用畫重點的方式在學習，人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習，但這些特徵往往對人類來說過於抽象。例如在影像辨識中，人類習慣用眼睛、嘴巴的相對位置，或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵，而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示（Distributed Representation）來編碼特徵，意思是將一個特徵表示為一個高維向量，每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。對 AI 而言，這是理解世界的方式，但對人類來說，卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」，在傳統的方式下，你可能用一個簡單的詞來表示這個特徵，例如「紅色」或「藍色」。但是在深度學習中，這個「顏色」特徵可能被表示為一個包含許多數字的高維向量，向量中的每個數字表示顏色的不同屬性，比如亮度、色調等多個數值。圖／unsplash

試想，AI 協助診斷疾病時，若理由是基於醫生都無法理解的邏輯，患者即使獲得正確診斷，也會感到不安。畢竟，人們更相信能被理解的東西。

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

首先，可以利用熱圖（heatmap）或注意力圖這類可視化技術，讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡，來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中，當 AI 判斷這張照片裡是「貓」還是「狗」時，我需要它向我們展示在哪些地方「盯得最緊」，像是耳朵的形狀還是毛色的分布。

-----廣告，請繼續往下閱讀-----

其次是局部解釋，LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈，它將每個特徵看作「玩家」，而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻，讓我們可以了解各個特徵如何影響最終結果。並且，SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的，還能透過「全局解釋」理解模型整體的運作中，哪些特徵最重要。

以實際的情景來說，SHAP 可以讓 AI 診斷出你有某種疾病風險時，指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同，會針對單一個案建立一個簡單的模型，來近似原始複雜模型的行為，目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時，LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用，一大優勢是靈活且計算速度快，適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景，LIME 可以幫助醫生理解 AI 為何推薦某種治療方案，並說明幾個主要原因，這樣醫生不僅能更快做出決策，也能增加患者的信任感。

-----廣告，請繼續往下閱讀-----

第三是反事實解釋：如果改變一點點，會怎麼樣？

如果 AI 告訴你：「這家銀行不會貸款給你」，這時你可能會想知道：是收入不夠，還是年齡因素？這時你就可以問 AI：「如果我年輕五歲，或者多一份工作，結果會怎樣？」反事實解釋會模擬這些變化對結果的影響，讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大，就像揭示一道菜中，哪些調味料是味道的關鍵。例如在金融風險預測中，模型可能指出「收入」影響了 40%，「消費習慣」占了 30%，「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時，還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術，才能達到更完整的解釋效果。

講到這裡，你可能會問：我們距離能完全信任 AI 還有多遠？又或者，我們真的應該完全相信它嗎？

-----廣告，請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。因此，AI 既要「可解釋」，也要「能代理」。

當未來你和 AI 同事深度共事，你自然希望它的決策與行動能讓你認可，幫你省心省力。圖／unsplash

舉例來說，當一家公司要做一個看似「簡單」的決策時，背後的過程其實可能極為複雜。例如，快時尚品牌決定是否推出新一季服裝，不僅需要考慮過去的銷售數據，還得追蹤熱門設計趨勢、天氣預測，甚至觀察社群媒體上的流行話題。像是暖冬來臨，厚外套可能賣不動；或消費者是否因某位明星愛上一種顏色，這些細節都可能影響決策。

這些數據來自不同部門和來源，龐大的資料量與錯綜關聯使企業判斷變得困難。於是，企業常希望有個像經營大師的 AI 代理人，能吸收數據、快速分析，並在做決定時不僅給出答案，還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子，而可解釋 AI （XAI）則清楚解釋其判斷依據。例如，為什麼不建議推出厚外套？可能理由是：「根據天氣預測，今年暖冬概率 80%，過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告，請繼續往下閱讀-----

但會解釋還不夠，AI 還需能真正執行。這時，就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」，大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時，這位產品經理不會手忙腳亂，而是按以下步驟行動：

檢查倉庫物料：庫存夠不夠？有沒有替代料可用？
評估交期影響：如果需要新物料，供應商多快能送到？
計算成本變化：用新料會不會超出成本預算？
做出最優判斷，並自動生成變更單、工單和採購單，通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節，還會記錄每次決策結果，學習如何變得更高效。隨時間推移，這位「智慧產品經理」的判斷將更聰明、決策速度更快，幾乎不需人工干預。更重要的是，這些判斷是基於「以終為始」的原則，為企業成長目標（如 Q4 業績增長 10%）進行連續且動態地自我回饋，而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作，讓企業決策流程不僅透明，還能自動執行。這正是數智驅動的核心，不僅依靠數據驅動決策，還要能解釋每一個選擇，並自動行動。這個過程可簡化為 SUPA，即「感知（Sensing）→ 理解（Understanding）→ 規劃（Planning）→ 行動（Acting）」的閉環流程，隨著數據的變化不斷進化。

以偉勝乾燥工業為例，他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後，偉勝成功將數智驅動融入業務與產品開發，專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合，開發出新形態智慧化設備，成功打入半導體產業，帶動業績大幅成長，創造下一個企業的增長曲線。

-----廣告，請繼續往下閱讀-----

值得一提的是，數智驅動不僅帶動業務增長，還讓員工擺脫繁瑣工作，讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術，還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用，企業首先要確保它服務於具體的業務需求，而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐，才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力？免費上手企業 AI 助理！企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知：https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道，深入科技趨勢與議題內容。
立即免費加入

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

鳥苷三磷酸 (PanSci Promo)

227 篇文章・ 315 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

0

1

0

文字

從遊戲到量子計算：NVIDIA 憑什麼在 AI 世代一騎絕塵？

PanSci ・2025/01/09 ・2941字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

AI 與 GPU 的連結：為什麼 NVIDIA 股價一路飆？

2023 年至今，人工智慧（AI）熱潮引爆全球科技圈的競爭與創新，但最受矚目的企業，莫過於 NVIDIA。它不僅長期深耕遊戲顯示卡市場，在近年來卻因為 AI 應用需求的飆升，一舉躍居市值龍頭。原因何在？大家可能會直覺認為：「顯示卡性能強，剛好給 AI 訓練用！」事實上，真正的關鍵並非只有強悍的硬體，而是 NVIDIA 打造的軟硬體整合技術──CUDA。

接下來將為你剖析 CUDA 與通用圖形處理（GPGPU）的誕生始末，以及未來 NVIDIA 持續看好的量子計算與生醫應用，一窺這家企業如何從「遊戲顯示卡大廠」蛻變為「AI 世代的領航者」。

CPU vs. GPU：為何顯示卡能成為 AI 領跑者？

在電腦運作中，CPU（中央處理器）向來是整個系統的「大腦」，負責執行指令、邏輯判斷與多樣化的運算。但是，AI 模型訓練需要面對的是龐大的數據量與繁複的矩陣或張量運算。這些運算雖然單一步驟並不複雜，但需要進行「海量且重複性極高」的計算，CPU 難以在短時間內完成。

反觀 GPU（圖形處理器），原先是用來處理遊戲畫面渲染，內部具有 大量且相對簡單的算術邏輯單元。GPU 可以同時在多個核心中進行平行化運算，就像一座「高度自動化、流水線式」的工廠，可一次處理大量像素、頂點或是 AI 訓練所需的運算。這讓 GPU 在大量數值計算上遠遠超越了 CPU 的處理速度，也讓「顯示卡算 AI」成了新時代的主流。

-----廣告，請繼續往下閱讀-----

顯示卡不只渲染：GPGPU 與 CUDA 的誕生

早期，GPU 只被視為遊戲繪圖的利器，但 NVIDIA 的創辦人黃仁勳很快察覺到：這種多核心平行化的結構，除了渲染，也能用來處理科學運算。於是，NVIDIA 在 2007 年正式推出了名為 CUDA（Compute Unified Device Architecture） 的平台。這是一套讓開發者能以熟悉的程式語言（如 C、C++、Python）來調用 GPU 資源的軟體開發工具套件，解決了「人類要如何對 GPU 下指令」的問題。

在 CUDA 出現之前，若要把 GPU 用於渲染以外的用途，往往必須透過「著色器語言」或 OpenGL、DirectX 等繪圖 API 進行繁瑣的間接操作。對想用 GPU 加速數學或科學研究的人來說，門檻極高。然而，有了 CUDA，開發者不需理解圖像著色流程，也能輕鬆呼叫 GPU 的平行運算能力。這代表 GPU 從遊戲卡一躍成為「通用圖形處理單元」（GPGPU），徹底拓展了它在科學研究、AI、影像處理等領域的應用版圖。

AI 崛起的臨門一腳：ImageNet 大賽的關鍵一擊

如果說 CUDA 是 NVIDIA 邁向 AI 領域的踏腳石，那麼真正讓 GPU 與 AI 完美結合的轉捩點，發生在 2012 年的 ImageNet 大規模視覺辨識挑戰賽（ILSVRC）。這場由李飛飛教授創辦的影像辨識競賽中，參賽團隊需要對龐大的影像數據進行訓練、分類及辨識。就在那一年，名為「AlexNet」的深度學習模型橫空出世，利用 GPU 進行平行運算，大幅減少了訓練時間，甚至比第二名的辨識率高出將近 10 個百分點，震撼了全球 AI 研究者。

AlexNet 的成功，讓整個學界與業界都注意到 GPU 在深度學習中的強大潛力。CUDA 在此時被奉為「不二之選」，再加上後來發展的 cuDNN 等深度學習函式庫，讓開發者不必再自行編寫底層 GPU 程式碼，建立 AI 模型的難度與成本大幅降低，NVIDIA 的股價也因此搭上了 AI 波浪，一飛沖天。

-----廣告，請繼續往下閱讀-----

為什麼只有 NVIDIA 股價衝？對手 AMD、Intel 在做什麼？

市面上有多家廠商生產 CPU 和 GPU，例如 AMD 與 Intel，但為什麼只有 NVIDIA 深受 AI 市場青睞？綜觀原因，硬體只是其一，真正不可或缺的，是 「軟硬體整合」與「龐大的開發者生態系」。

硬體部分 NVIDIA 長年深耕 GPU 技術，產品線完整，且數據中心級的顯示卡在能耗與性能上具領先優勢。軟體部分 CUDA 及其相關函式庫生態，涵蓋了影像處理、科學模擬、深度學習（cuDNN）等多方面，讓開發者易於上手且高度依賴。

相比之下，雖然 AMD 也推行了 ROCm 平台、Intel 有自家解決方案，但在市場普及度與生態支持度上，依舊與 NVIDIA 有相當差距。

聰明的管理者

GPU 的優勢在於同時有成百上千個平行運算核心。當一個深度學習模型需要把數據切分成無數個小任務時，CUDA 負責將這些任務合理地排班與分配，並且在記憶體讀寫方面做出最佳化。

-----廣告，請繼續往下閱讀-----

任務分類：同性質的任務集中處理，以減少切換或等待。
記憶體管理：避免資料在 CPU 與 GPU 之間頻繁搬移，能大幅提升效率。
函式庫支援：如 cuDNN，針對常見的神經網路操作（卷積、池化等）做進一步加速，使用者不必從零開始撰寫平行運算程式。

結果就是，研究者、工程師甚至學生，都能輕鬆把 GPU 能力用在各式各樣的 AI 模型上，訓練速度自然飛漲。

從 AI 到量子計算：NVIDIA 對未來的佈局

當 AI 波浪帶來了股價與市值的激增，NVIDIA 並沒有停下腳步。實際上，黃仁勳與團隊還在積極耕耘下一個可能顛覆性的領域──量子計算。

2023 年，NVIDIA 推出 CUDA Quantum 平台，嘗試將量子處理器（QPU）與傳統 GPU / CPU 整合，以混合式演算法解決量子電腦無法單獨加速的部分。就像為 AI 量身打造的 cuDNN 一樣，NVIDIA 也對量子計算推出了相對應的開發工具，讓研究者能在 GPU 上模擬量子電路，或與量子處理器協同運算。

NVIDIA 推出 CUDA Quantum 平台，整合 GPU 與 QPU，助力混合量子運算。圖／unsplash

這項新布局，或許還需要時間觀察是否能孕育出市場級應用，但顯示 NVIDIA 對「通用運算」的野心不只停留於 AI，也想成為「量子時代」的主要推手。

-----廣告，請繼續往下閱讀-----

AI 熱潮下，NVIDIA 凭什麼坐穩王座？

回到一開始的疑問：「為什麼 AI 熱，NVIDIA 股價就一定飛？」 答案可簡化為兩點：

硬體領先 + 軟體生態：顯示卡性能強固然重要，但 CUDA 建立的開發者生態系才是關鍵。
持續布局未來：當 GPU 為 AI 提供高效能運算平台，NVIDIA 亦不斷將資源投入到量子計算、生醫領域等新興應用，為下一波浪潮預先卡位。

或許，正因為不斷探索新技術與堅持軟硬整合策略，NVIDIA 能在遊戲市場外再創一個又一個高峰。雖然 AMD、Intel 等競爭者也全力追趕，但短期內想撼動 NVIDIA 的領先地位，仍相當不易。

未來，隨著 AI 技術持續突破，晶片性能與通用運算需求只會節節攀升。「AI + CUDA + GPU」 的組合，短時間內看不出能被取代的理由。至於 NVIDIA 是否能繼續攀向更驚人的市值高峰，甚至在量子計算跑道上再拿下一座「王者寶座」，讓我們拭目以待。

歡迎訂閱 Pansci Youtube 頻道 鎖定每一個科學大事件！

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

PanSci

1262 篇文章・ 2424 位粉絲

PanSci的編輯部帳號，會發自產內容跟各種消息喔。

TRENDING 熱門討論

即時熱門

0

3

0

文字

AI 破解生命密碼！AlphaFold 3 揭開蛋白質折疊的終極謎團

PanSci ・2024/10/07 ・1624字・閱讀時間約 3 分鐘

相關標籤：

熱門標籤：

AlphaFold的誕生：人工智慧的奇蹟

2018 年，Google 旗下的 DeepMind 團隊推出了第一代 AlphaFold，這是一款基於深度學習的 AI 模型，專門用於預測蛋白質的三維結構。AlphaFold 的命名取自「fold」一詞，意為折疊，指的是蛋白質在胺基酸鏈構成後迅速摺疊成其功能所需的三維結構。

AlphaFold 的突破在於其能夠預測出蛋白質折疊的可能性，這是一個傳統計算方法無法達到的領域。第一代 AlphaFold 在國際 CASP 比賽中取得了一定的成功，雖然其預測準確度尚未達到實驗室標準，但其潛力讓科學家們充滿期待。

為什麼蛋白質結構預測如此重要？

蛋白質是生命的基石，它們的功能取決於其複雜的三維結構。然而，僅靠實驗技術來解析蛋白質的結構既昂貴又耗時。過去科學家依賴於如 X 光晶體繞射等技術來解析蛋白質的結構，然而這種方法雖然精確，但往往需要數年時間來得出一個結論。

到目前為止，人類已知的蛋白質數據庫中，全球僅解析了大約 22 萬種蛋白質的結構，這遠遠不足以滿足生物學和醫學研究的需求。尤其是人類的許多蛋白質結構仍然未知，這成為阻礙醫學進步的一個主要瓶頸，特別是在藥物開發和疾病治療上，因此如何加速對蛋白質的結構的解析至關重要。

-----廣告，請繼續往下閱讀-----

AlphaFold 2：技術飛躍

2020 年，AlphaFold 2 橫空出世，改進了多項技術，預測準確度大幅，幾乎達到了與實驗結果相媲美的程度。這一成就震驚了全球生物學界，許多科學家開始將 AlphaFold 2 應用於實際研究中。

AlphaFold 2 的成功源自於其三大技術革新：

注意力機制：模仿人類的思維模式，從大局出發，關注蛋白質結構中的每一個細節，進而提高預測的準確性。
多序列比對功能：通過搜尋類似的胺基酸序列，推斷新的蛋白質結構。
端到端預測模式：利用深度學習神經網路，不斷反饋預測結果，持續優化模型。

AlphaFold 3：下一代 AI 的力量

隨著 AlphaFold 2 的成功，DeepMind 並未停止其腳步。2024 年 5 月，AlphaFold 3 正式推出，這標誌著 AI 技術在生物學領域的又一個里程碑。AlphaFold 3 的改進再次吸引了科學界的目光，它強化了注意力機制，並引入了擴散模型，這使其能夠更快且更準確地預測複合蛋白質的結構。

擴散模型是一項關鍵技術，它能夠生成大量的可能蛋白質結構，並快速篩選出最可能的解答。與此同時，AlphaFold 3 還內建了「減幻覺」功能，這讓其在產生結果時能夠避免過多不切實際的預測，提升了結果的可信度。

-----廣告，請繼續往下閱讀-----

AlphaFold 的實際應用：醫學與藥物開發

AlphaFold 3 的誕生，不僅是一個技術突破，還為醫學和藥物開發帶來了巨大的希望。過去，癌症治療中的標靶藥物需要經過漫長的實驗才能確定其作用原理，然而現在，通過 AlphaFold 的預測，科學家可以更加精確地針對癌細胞中的錯誤蛋白質，設計出更有效的藥物。

除此之外，AlphaFold 3 還在抗病毒藥物、抗生素以及阿茲海默症等領域展現了潛力。其能夠預測蛋白質與其他分子（如DNA、RNA）的交互作用，這使得研發新藥的過程大大加速。

AlphaFold 3 的挑戰與未來

儘管 AlphaFold 3 取得了驚人的進展，但其仍然面臨一些挑戰。首先，目前 AlphaFold 3 的模型尚未完全開源，這限制了研究人員對其內部運作的了解。為此，一些科學家已聯名要求 DeepMind 開放其程式碼，以便進行更深入的研究和應用。

不過，隨著 AlphaFold 3的逐步推廣，生物學家相信它將繼續改變生物學研究的方式。未來，這項技術有望在解決更多未解難題中發揮關鍵作用，並為醫學領域帶來更大的突破。

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

PanSci

1262 篇文章・ 2424 位粉絲

PanSci的編輯部帳號，會發自產內容跟各種消息喔。

TRENDING 熱門討論

即時熱門

Deepfake 辨偽技術如何在魔高一尺時，能道高一丈呢？——成大統計所許志仲專訪

雙面刃的 Deepfake

Deepfake 辨識的研究困難：偽造特徵不固定

也許，偽造特徵根本不在人臉上!?

Deepfake 辨識的實務困難：辨偽系統的使用情境差異

情境逐個突破，讓研究能落地使用

各界都在防範 Deepfake 影響生活

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

黑盒子模型背後的隱藏秘密

為什麼人類設計的 AI 工具，自己卻無法理解？

打開黑盒子：可解釋 AI 如何運作？我們要如何教育 AI？

我們終究是想解決人與 AI 的信任問題

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

AI 與 GPU 的連結：為什麼 NVIDIA 股價一路飆？

CPU vs. GPU：為何顯示卡能成為 AI 領跑者？

顯示卡不只渲染：GPGPU 與 CUDA 的誕生

AI 崛起的臨門一腳：ImageNet 大賽的關鍵一擊

為什麼只有 NVIDIA 股價衝？對手 AMD、Intel 在做什麼？

聰明的管理者

從 AI 到量子計算：NVIDIA 對未來的佈局

AI 熱潮下，NVIDIA 凭什麼坐穩王座？

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

AlphaFold的誕生：人工智慧的奇蹟

為什麼蛋白質結構預測如此重要？

AlphaFold 2：技術飛躍

AlphaFold 3：下一代 AI 的力量

AlphaFold 的實際應用：醫學與藥物開發

AlphaFold 3 的挑戰與未來

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

發表意見