3

6
0

文字

分享

3
6
0

Deepfake 辨偽技術如何在魔高一尺時,能道高一丈呢?——成大統計所許志仲專訪

A編編
・2022/01/26 ・3499字 ・閱讀時間約 7 分鐘

2021年末,小玉的「Deepfake 換臉事件」讓大眾正視 Deepfake 技術的濫用問題。  Deepfake 發展至今不只有造假技術在進步,辨偽也是:目前任職於成大統計所的許志仲老師,從 2018 年開始便在這個主題中專研,並於 2020 年發表相關研究結果,該篇文章起今已有超過 50 次的引用次數。「以這篇論文發表的期刊影響指數(Impact Factor,簡稱IF值)來說,這個引用數相對來說是高的,這代表 Deepfake 辨偽的議題開始變得重要,但研究的人可能沒那麼多。」

許志仲坦言,自己 2018 年研究 Deepfake 辨偽時,Deepfake 影片品質並沒有特別好。沒想到短短兩三年的時間,Deepfake 的效果就已經好到可能會造成問題了。

雙面刃的 Deepfake

Deepfake 技術起初是希望能藉由電腦產生各種不同的逼真圖片或影片,來因應特效製作或老照片修復之類的工作,而要產生逼真圖片或影片,有許多不同的方法都能達成這個目的,目前 Deepfake 最常使用的方法為 2014 年提出的「生成對抗網路(Generative Adversarial Network, 簡稱 GAN)」,透過生成網路與判別網路的對抗,產生逼真的圖片或影片,因此說到 DeepFake,通常都會說起 GAN。

「我們會說 Deepfake 就是 GAN,是因為就目前生成技術還是以 GAN 最好,當然也有新的方法正在發展,所以未來未必還是以 GAN 作為主體,可能用別的方法偽造,也能做得很漂亮。」

許志仲也表示,Deepfake 的發展目標是正面的,技術本身是中立的,但使用者怎麼使用這項技術,就成了重要問題。而在不能確保使用者心態的情況下,辨偽技術成了這項技術的最後一道防線。而 Deepfake 辨識的主要問題,可以分為偏向研究的「偽造特徵不固定」,以及偏向實務面的「辨偽系統的使用情境差異」兩個面向。

Deepfake 辨識的研究困難:偽造特徵不固定

現在已經有可以辨識貓狗、車牌等物體的影像辨識系統,這些辨識系統也相當成熟可靠,直覺來說,要做出一套辨識 Deepfake 的辨識系統,應該也不會太困難吧?

但實際上卻並非如此,過往辨識系統的做法是抓取容易辨別的特徵,例如貓與狗兩者在形態上就有明顯的差異,只要給電腦夠多的訓練資料,就能有一組精確區分貓與狗的判別式,且能用到各種需要分辨貓與狗的情況下。

貓跟狗的形態差異很大,所以電腦能輕易辨別這兩種物種。圖/envato elements

先不談分辨人臉真假,就人臉辨識本身來說,就是個值得研究的問題,每個人的臉都長得差不多,差異在於五官的相對位置、形狀或大小有微小的差異,這使人臉辨識本身就難有通則可以去分辨。而不同方法生成相似的 Deepfake 圖片,並不一定具有相同的偽造特徵,從人臉特徵到偽造特徵都不固定,使得 Deepfake 辨識具有一定的困難度。

此外,即便用同一種方法製作同樣的 Deepfake 圖片,也會因為當初給的資料不同,使得偽造特徵出現差異,這讓「一組判別式就能判斷是否為 Deepfake」成為近乎不可能實現的夢。

也許,偽造特徵根本不在人臉上!?

面對 Deepfake 辨識的棘手問題,許志仲說:「要辨識的特徵太多元。我們覺得倒不如去尋找有什麼線索是 GAN 一致會產生的,這線索也許是我們眼睛看不到的,但是電腦可以透過學習的方式去挖掘,所以我就用了這種學習機制去抓出,會不會大部分的這種生成系統,都可能有共同的瑕疵。」

一張 Deepfake 照片並不只有人臉與五官,也包含了背景。而許志仲的論文指出,Deepfake 的偽造特徵,經常出現在背景,或是背景與人臉的交界處:

「臉通常都合成的很漂亮,但是背景跟臉的交界處會不自然。通常在髮絲的地方,髮絲的地方會糊掉這是一種,或是眉毛或者是額頭中的髮線也會有明顯差異。另外就是背景,會明顯看不出背景是什麼東西。大家都忽略看這裡(背景)很正常,而實驗結果也確實看到這些部分具有相對好的辨識度。」

使用 GAN 生成的 Deepfake 人臉。圖/This Person Does Not Exist

然而,即便該篇論文是近期發布的,許志仲也不敢肯定這套辨識方式是否能套用在目前的狀況下,他表示目前每半年,GAN 生成的 Deepfake 影像的逼真度,就會有顯著的突破,且沒有消退的趨勢。

Deepfake 辨識的實務困難:辨偽系統的使用情境差異

在實務上,許志仲認為目前還有更為棘手的問題需要解決,那就是辨偽系統的使用情境差異。以一段 Deepfake 影片上傳 Youtube 平台為例,上傳的時候 YouTube 就會先對影片進行壓縮,這時原有的 Deepfake 偽造特徵很可能會因為壓縮而被破壞,許志仲解釋:「有些人會故意加上一些雜訊、加一些後處理,比方說整個畫面做類似美肌之類的處理,這些都會破壞掉偽造的線索,我們發現這些狀況十分常見,而且很難克服。這也是為什麼現在幾乎沒有軟體或網站,提供 Deepfake 辨識服務。」

DeepFake 的歐巴馬與演員的解析度就不同。

在實驗室裡,我們可以拿到 GAN 生成的原始影像去做分析,但在網路世界裡,每一個影像都可能像上述的情況一樣,做了各種後處理才放到網路上,就算現在有研究指出某種辨認方式是有效的,也未必真的能應對網路上的複雜情況。

許志仲表示,目前看到有希望突破壓縮這個問題的辨認方式,是去抓人臉在一段影片中的五官變化是否足夠自然,這個線索可以克服壓縮的一點點問題,因爲是藉由五官相對位置的變化來偵測,這就跟壓縮沒太大關係。但正如前面提到的,人臉辨識是困難的,人臉的五官定位本身就無法做到精準,真要使用這套方法辨識 Deepfake,還需要更多研究來確認可行性。

也有研究者認為 GAN 理論雖然看似完美無瑕,但在產出 Deepfake 過程中仍可能會出現某些關鍵操作,只要藉由偵測畫面中是否有經歷這些操作,就能間接推測這個畫面是否為 Deepfake,不過這個做法的缺點也很明顯,那就是這些關鍵操作,也很可能只是正常的影片後製造成的,並造成不是 Deepfake 的影像也被歸類到 Deepfake 中。

情境逐個突破,讓研究能落地使用

說到這裡,許志仲語重心長地說:「我們研究做了這麼多偵測 Deepfake 的方法,但都不一定能在真實世界使用,這讓我非常意外,而上述的這些情境,也只是冰山一角。」

其實大家都在研究差不多的特徵,像是五官的落差,說話的時候嘴巴的動態變化會比較小或模糊之類的,但這些特徵面在真實的使用情境中,還能有多少辨識度,就真的是未知數。考量到真實情境的複雜度,目前許志仲認為逐個突破不同的情境下它們適合的辨偽方式,才是比較實實際的。

「我們必須先確認好問題是正確的,才能找到正確的答案。」許志仲說,要在實驗室裡做出一套數據漂亮的辨識系統並不困難,但要做出實際能用的辨識系統卻非常不簡單。

許志仲也嘗試將自己的研究成果運用在實際情境中,但面對製作公司精心製作的 Deepfake 影片,許志仲換了好幾套模型,也只有一套能判別出來,也呼應了「使用情境差異」才是辨識 Deepfake 無法落地的最大問題。

辨識系統在實驗室中可以使用、但在現實生活中卻不一定。圖/envato elements

各界都在防範 Deepfake 影響生活

GAN 要能生成以假亂真的 Deepfake 圖像,必須建構在有訓練完善的生成模型上,而一個訓練完善的生成模型,並不是隨便餵幾筆資料給 GAN 就會跑出來的,必須要有足夠算力的電腦,配合大量的資料才能完成。除了像 Google 或 Facebook 這種規模的公司有能力製作外,也只有部分研究單位,能做出這種以假亂真的生成模型。

許志仲說:「由於 Deepfake 對社會的影響很大,現在他們都只公開自己的程式碼,但不會公開自己的模型,主要就是怕模型被拿去幹壞事。」許志仲也坦承,對於辨偽技術的研究來說,目前的狀況是非常不利的,這代表研究者必須自己用程式碼生出不那麼精良的模型,來製作 Deepfake 圖片測試。

面對未來 Deepfake 是否會無法辨別,許志仲表示就影像上來說,這件事情是做得到的,總會有方法做出不被任何辨識系統偵測,堪稱完美的 Deepfake 影像。但身為防禦方的我們,並不是只能靠圖片辨識真偽,上傳的使用者、社群平台的 meta-data,這些能標示來源的訊息,都可能是我們辨識這部影片是否為 Deepfake 的線索。

影片的上傳者、發布的社群平台等等,都可能是我們辨識這部影片是否為 DeepFake 的線索。圖/envato elements

面對持續進化,仍看不見消退的 Deepfake 技術,許志仲也希望未來能有更多人一同加入 Deepfake 辨偽的研究行列,針對 Deepfake 辨偽系統的使用情境,我們還有非常多的問題等著被解答。

文章難易度
所有討論 3
A編編
11 篇文章 ・ 29 位粉絲
PanSci 編輯|讀物理毀三觀的科學宅,喜歡相聲跟脫口秀,因為它們跟我一樣是個笑話。

0

3
0

文字

分享

0
3
0
人造腦挑戰 AI!培養皿中的腦組織+腦機介面能打敗電腦嗎?
PanSci_96
・2023/05/27 ・3178字 ・閱讀時間約 6 分鐘

2023 年 2 月底, 約翰霍普金斯大學教授 Thomas Hartung 帶領研究團隊,發表了「類器官智慧」(Organoid intelligence , OI)的研究成果,希望利用腦類器官加上腦機介面,打造全新的生物計算技術。

我們終於要製造人工大腦了嗎?OI 和 AI,誰會成為未來主宰?

類器官智慧 OI 是什麼?目標為何?

2023 年的現在,AI 就已展現了不少驚人的實際成果;相較之下, OI 仍只是一個剛起步的計畫,甚至連名稱都與 2018 年美國《自然—物理學》期刊專欄作家、物理學家布坎南以 Organoids of intelligence 作為標題的文章幾乎一樣。

類器官智慧、Organoid intelligence、OI 是個很新的跨領域名詞,同時結合了「腦類器官」和「腦機介面」兩個領域的技術。

簡單來說,腦類器官就是指透過培養或誘導多能幹細胞(iPSCs),在模擬體內環境的旋轉生物反應器中,產生的腦組織。這項聽起來好像只會出現在科幻電影裡的技術,確實已經存在。

最早的腦類器官是在 2007 年,日本 RIKEN 腦研究所的笹井芳樹和渡辺毅一的研究團隊,成功從人類胚胎幹細胞培養出前腦組織。第一個具有不同腦區的 3D 腦類器官則是發表在 2013 年的《Nature》期刊,由奧地利分子技術研究所的尤爾根.科布利希和瑪德琳.蘭開斯特研究團隊成功建立。

腦類器官的出現,在生物與醫學研究中有重大意義,這代表未來科學家們若需要進行大腦相關的研究,再也不用犧牲實驗動物或解剖大體老師來取得人類大腦,只需要在培養皿就製造出我們要的大腦即可。

儘管培養皿上的組織確實是大腦組織,但不論是在大小、功能,以及解剖構造上,至今的結果仍遠遠不及我們自然發育形成的大腦。因此要達到 OI 所需要的「智慧水準」,我們必須擴大現有的腦類器官,讓他成為一個更複雜、更耐久的 3D 結構。

要達到 OI 所需的「智慧水準」,必須擴大現有的腦類器官,成為一個更複雜的 3D 結構。圖/GIPHY

而這個大腦也必須含有與學習有關的細胞和基因,並讓這些細胞和 AI 以及機器學習系統相連接。透過新的模型、演算法以及腦機介面技術,最終我們將能了解腦類器官是如何學習、計算、處理,以及儲存。

OI 是 AI 的一種嗎?

OI 能不能算是 AI 的一種呢?可說是,也不是。

AI 的 A 指的是 Artificial,原則上只要是人為製造的智慧,都可以稱為 AI。OI 是透過人為培養的生物神經細胞所產生的智慧,所以可以說 OI 算是 AI 的一種。

但有一派的人不這麼認為。由於目前 AI 的開發都是透過數位電腦,因此普遍將 AI 看做數位電腦產生的智慧—— AI 和 OI 就好比數位對上生物,電腦對上人腦。

OI 有機會取代 AI ?它的優勢是什麼?

至於為何電腦運算的準確度和運算速度遠遠高於人腦,最主要原因是電腦的設計具有目的性,就是要做快速且準確的線性運算。反之,大腦神經迴路是網狀、活的連結。

人類本身的基因組成以及每天接收的環境刺激,不斷地改變著大腦,每一分每一秒,我們的神經迴路都和之前的狀態不一樣,所以即使就單一的運算速度比不上電腦,但人腦卻有著更高學習的效率、可延展性和能源使用效率。在學習一個相同的新任務時,電腦甚至需要消耗比人類多 100 億倍的能量才能完成。

神經網路接受著不同刺激。圖/GIPHY

這樣看來,至少 OI 在硬體的效率與耗能上有著更高優勢,若能結合 AI 與 OI 優點,把 AI 的軟體搭載到 OI 的硬體上,打造完美的運算系統似乎不是夢想。

但是 OI 的發展已經到達哪裡,我們還離這目標多遠呢?

OI 可能面臨的阻礙及目前的發展

去年底,澳洲腦科學公司 Cortical Labs 的布雷特.卡根(Brett Kagan)帶領研究團隊,做出了會玩古早電子遊戲《乓》(Pong)的培養皿大腦—— DishBrain。這個由 80 萬個細胞組成,與熊蜂腦神經元數量相近的 DishBrain,對比於傳統的 AI 需要花超過 90 分鐘才能學會,它在短短 5 分鐘內就能掌握玩法,能量的消耗也較少。

現階段約翰霍普金斯動物替代中心等機構,其實只能生產出直徑大小約 500 微米,也就是大約一粒鹽巴大小的尺寸的腦類器官。當然,這樣的大小就含有約 10 萬個細胞數目,已經非常驚人。雖然有其他研究團隊已能透過超過 1 年的培養時間做出直徑 3~5 毫米的腦類器官,但離目標細胞數目 1000 萬的腦類器官還有一段距離。

為了實現 OI 的目標,培養更大的 3D 腦類器官是首要任務。

OI 的改良及多方整合

腦類器官畢竟還是個生物組織,卻不像生物大腦有著血管系統,能進行氧氣、養分、生長因子的灌流並移除代謝的廢物,因此還需要有更完善的微流體灌流系統來支持腦類器官樣本的擴展性和長期穩定狀態。

在培養完成腦類器官以及確定能使其長期存活後,最重要的就是進行腦器官訊息輸入以及反應輸出的數據分析,如此我們才能得知腦類器官如何進行生物計算。

受到腦波圖(EEG)紀錄的啟發,研究團隊將研發專屬腦類器官的 3D 微電極陣列(MEA),如此能以類似頭戴腦波電極帽的方式,把整個腦類器官用具彈性且柔軟的外殼包覆,並用高解析度和高信噪比的方式進行大規模表面刺激與紀錄。

研究團隊受腦波圖(EEG)紀錄的啟發。圖/Envato Elements

若想要進一步更透徹地分析腦類器官的訊號,表面紀錄是遠遠不夠的。因此,傷害最小化的的侵入式紀錄來獲取更高解析度的電生理訊號是非常重要的。研究團隊將使用專門為活體實驗動物使用的矽探針Neuropixels,進一步改良成類腦器官專用且能靈活使用的裝置。

正所謂取長補短,欲成就 OI,AI 的使用和貢獻一點也不可少。

下一步,團隊會將進行腦機介面,在這邊植入的腦則不再是人類大腦,而是腦類器官。透過 AI 以及機器學習來找到腦類器官是如何形成學習記憶,產生智慧。過程中由於數據資料將會非常的龐大,大數據的分析也是無可避免。

隨著 AI 快速發展的趨勢,OI 的網路聲量提升不少,或許將有機會獲得更多的關注與研究補助經費,加速研究進度。更有趣的是,不僅有一批人希望讓 AI 更像人腦,也有另一批人想要讓 OI 更像電腦。

生物、機械與 AI 的界線似乎會變得越來越模糊。

OI=創造「生命」?

生物、機械與 AI 的界線越來越模糊。圖/Envato Elements

講到這裡,不免讓人擔心,若有一天 OI 真的產生智慧,我們是否就等於憑空創造出了某種「生命」?這勢必將引發複雜的道德倫理問題。

雖然研究團隊也強調, OI 的目標並不是重新創造人類的意識,而是研究與學習、認知和計算相關的功能,但「意識究竟是什麼」,這個哲學思辨至今都還未有結論。

到底懂得「學習」、「計算」的有機體能算是有意識嗎?如果將視覺腦機介面裝在 OI 上,它是否會發現自己是受困於培養皿上,被科學家們宰割的生物計算機?

不過這些問題不僅僅是 OI 該擔心的問題,隨著人工智慧的發展,GPT、Bing 和其他由矽構成的金屬智慧,隨著通過一個又一個智力、能力測試,也終將面臨相應的哲學與倫理問題。

最後,Neuralink 的執行長馬斯克說過(對,又是他 XD),人類要不被 AI 拋下,或許就得靠生物晶片、生物技術來強化自己。面對現在人工智慧、機械改造、生物晶片各種選擇擺在眼前,未來你想以什麼樣的型態生活呢?

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

PanSci_96
1166 篇文章 ・ 1513 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

3
2

文字

分享

0
3
2
透過 AI 繪圖原理,你就知道怎麼訓練做圖生成!
PanSci_96
・2023/04/29 ・2014字 ・閱讀時間約 4 分鐘

國小高年級科普文,素養閱讀就從今天就開始!!

AI 生圖是透過訓練模型學習自行生成圖像,而電腦繪圖則是由使用者透過軟體或工具手動繪製圖像。

儘管可能較缺乏人工繪圖的細節與創意,但是都是由 AI 自己生成,每張絕無僅有,這樣應該也算是有些創意吧?

究竟這個「安能辨我是 AI」的新時代,到底是怎麼突然降臨的呢?

現代魔法師的誕生

現在夯、猶如魔法的 Midjourney,使用者針對想要創作的內容和風格,給出關鍵字如 Hyper realistic、Xerox Art、masterpiece、underwater,以及畫面比例等參數,甚至是特定藝術家的名字,大約 30 秒到 1 分鐘,就能完成作品,對一般民眾來極容易上手。

如果生成出不對勁的怪圖,只要請它參照範例、補充關鍵字,或是你本身就有一點修圖能力,就可以產出高品質的美圖。因此,我們也可以說這是一種能和 AI 繪師對話的語言介面,新的職業「AI 溝通師」也隨之出現。

AI 生圖其實也不是什麼新技術,早就有人採用一種名為 GAN 的對抗式生成網路的演算法來生成圖片。在 2018 年也有人用來生成某種藝術作品,並拍賣出高價,當然在當時與其說是美麗的藝術,其實更多是個噱頭。

從模仿到創造

為了達成「創新」,AI 研究者放棄了 GAN 中讓 AI 互相競爭找出「最佳解」的對抗式思維,提出一種名為「Diffusion model」擴散模型的新概念。

如果觀察 Stable diffusion 或 Midjourney 生圖過程,可以發現到,圖片會從一團什麼都沒有的雜訊開始,逐漸出現五官、輪廓等特徵,最後才變成有著豐富細節的精緻畫作。

擴散模型的去噪過程。圖/維基百科

Diffusion model 在訓練時則是會先看到一張完整照片,接著依照馬可夫鏈的過程,以高斯分布的方式往圖片上加入隨機噪點。待整張圖變成一團雜訊,等它學會從一張圖到混亂雜訊的過程後,再習得如何從混亂雜訊中生成圖的能力;於每一步加噪的過程中學會降噪,使用時間鉗形攻勢,完成雙向學習。

Diffusion model 在接下來的訓練中,會不斷調整自己的參數,學習自己生成圖片。這個訓練好的 Diffusion model 其實就像個大型藍色窗簾機器人,從雜訊中抓出特定特徵,例如看到兩點一線,就說是人類的眼睛與嘴巴,接著漸漸畫出人類的面貌。

過程中還會加上一個名為「變方自編碼器」(Variational Auto-encoder ,VAE)的加持,使它輸出的不只是原本的訓練或輸入的圖片,而是真正能夠「無中生有」的連續性畫素,而這就是擴散模型被稱為生成模型的原因。另外,隨著步驟越多,解析度或細節可以更高,每一次相同的關鍵字或輸入圖檔,經過模型輸出的結果都有著不確定性。

從二維到三維

當你以為畫奇幻插畫和二次元美少女就是極限了,最新進展絕對更令人大開眼界!

前陣子開發出來的模型,能讓使用者自己上傳作品或相同風格的畫風,來產出更多樣化的素材。例如不久前在日本被下架的 mimic;而 DALL-E 則推出 Outpainting 功能,例如輸入知名畫作,它會替其擴張圖片,算出可能的背景樣式。

DALL-E 算出知名畫作《戴珍珠耳環的少女》的可能背景樣式。圖/OpenAI

若再將繪圖 AI 訓練到不只能輸出圖片,甚至能輸出擬真的照片呢?已經有人這麼做了。

最近最紅的生成模型,可以把疫情期間我們一張張戴口罩的照片全自動 PS 出嘴巴鼻子、輕易更換穿搭風格等。新出的 AI 繪圖軟體 ControlNET,甚至只要提供骨架甚至幾個線條,就能繪出相同姿勢的人物圖像。

如果我們能夠生成無法辨別的真人外觀,再搭配已經有的 3D 骨架建模生成模型,豈不是可以達成科幻電影「虛擬偶像(Simone,2002)」的劇情,生成一個假演員來演戲拍廣告!

這些 AI 生成模型其實都只是為我們所用的工具,這波 AI 繪圖師的加入,肯定會大量取代中階以下的商用和插畫家的需求,並解決業主和設計師之間的溝通成本,各家美術或遊戲公司紛紛開出 AI 溝通師的職缺。追隨主流審美的人類繪師受創最深,而對已有強烈藝術風格的大師或非主流藝術家來說,目前相對不受影響。

使用 AI 完成的藝術作品。圖/GIPHY

AI 繪圖工具的出現,掀起了一股巨浪。如今不僅有人能利用 AI 生成作品得獎,也開始能看到有人使用 AI 創作進行營利、販售。

然而創作領域中模仿、挪用、抄襲、致敬等等的問題在 AI 出現以前就是個難解之題,來到大生成時代,這類問題只會越來越多,我們又該如何面對它呢?

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

PanSci_96
1166 篇文章 ・ 1513 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

2
0

文字

分享

0
2
0
Google Tensor 處理器是什麼?厲害在哪?
PanSci_96
・2023/04/08 ・2920字 ・閱讀時間約 6 分鐘

 Google 新出的 Pixel 7 Pro,其核心繼續沿用上一代開始自行研發的晶片,並且升級為 Google Tensor G2。

由 Google 開發、號稱專為 AI 設計打造的 Tensor 晶片,尤其著重在 TPU。打開處理器 Google Tensor 一探究竟,裡面放著 CPU、GPU,以及擁有 AI 運算能力的 TPU(Tensor Processing Unit)張量處理單元。

什麼是 TPU?與 CPU、GPU 有什麼不同?要了解 TPU,先來看看他的前輩 CPU 和 GPU 是如何運作的吧!

TPU 處理器晶片是什麼?先從了解 CPU 開始!

不論手機、電腦還是超級電腦,當代計算機的通用架構,都是使用以圖靈機為概念設計出來的馮紐曼架構,這個程式指令記憶體和資料記憶體合併在一起的概念架構,從 1945 年提出後就一直被使用到現在。

除了輸入輸出設備外,架構中還包含了三大結構:記憶體 Memory、控制單元 CU 與算術邏輯單元 ALU。在電腦主機中,控制單元 CU 和算術邏輯單元 ALU 都被包在中央處理器 CPU(Central Processing Unit)中;記憶體則以不同形式散佈,依存取速度分為:暫存器(Register)、快取(Cache)、主記憶體(Main memory)與大量儲存裝置(Mass storage)。

馮紐曼架構(Von Neumann architecture)。圖/Wikimedia Commons

算術邏輯單元 ALU 負責運算,透過邏輯閘進行加減乘除、邏輯判斷、平移等基礎運算,透過一次次的運算,完成複雜的程式。有了精密的算術邏輯單元,還有一個很重要的,也是控制單元 CU 最主要的工作——流程管理。

為了加速計算,CU 會分析任務,把需要運行的資料與程式放進離 ALU 最近、存取速度最快的暫存器中。在等 ALU 完成任務的同時,CU 會判斷接下來的工作流程,事先將後面會用到的資料拉進快取與主記憶體,並在算術邏輯單元完成任務後,安排下一個任務給它,然後把半完成品放到下一個暫存器中等待下一步的運算。

CPU 就像是一間工廠,ALU 則是負責加工的機器,CU 則作為流水線上的履帶與機械手臂,不斷將原料與半成品運向下一站,同時控制工廠與倉庫間的物流運輸,讓效率最大化。

然而隨著科技發展,人們需要電腦處理的任務量越來越大。就以照片為例,隨手拍的一張 1080p 相片就含有1920*1080 共 2073600 個像素,不僅如此,在彩色相片中,每一個像素還包含 R、G、B 三種數值,如果是有透明度的 PNG 圖片,那還多一個 Alpha 值(A值),代表一張相片就有 800 萬個元素要做處理,更不用說現在的手機很多都已經能拍到 4K 以上的畫質,這對於 CPU 來說實在過於辛苦。

很多照片都有 4K 以上的畫質,這對於 CPU 來說實在過於辛苦。圖/Envato Elements

由於 CPU 只有一條生產線,能做的就是增加生產線的數量;工程師也發現,其實在影像處理的過程中,瓶頸不是在於運算的題目過於困難,而是工作量非常龐大。CPU 是很強沒錯,但處理量能不夠怎麼辦?

那就換狂開產線的 GPU!

比起增加算術邏輯單元的運算速度,不如重新改建一下原有的工廠!在廠房中盡可能放入更多構造相同的流水線,而倉庫這種大型倉儲空間則可以讓所有流水線共同使用,這樣不僅能增加單位體積中的運算效能,在相同時間內,也可以產出更多的東西,減少一張相片運算的時間。

顯卡大廠 NVIDIA 在 1999 年首次提出了將圖形處理器獨立出來的構想,並發表了第一個為加速圖形運算而誕生、歷史上第一張顯卡—— GPU(Graphics Processing Unit)NVIDIA GeForce 256。

在一顆 GPU 中會有數百到數千個 ALU,就像是把許多小 CPU 塞在同一張顯卡上;在影像處理的過程中,CU 會把每一格像素分配給不同的 ALU,當處理相同的工作時,GPU 就可以大幅提升處理效率。

這也是為什麼加密貨幣市場中的「礦工」們,大部分都以 GPU 作為挖礦工具;由於礦工們實際在做的計算並不困難,重點是需要不斷反覆計算,處理有龐大工作量的「工作量證明機制」問題,利用 GPU 加速就是最佳解。

不過,影像處理技術的需求隨著時代變得更加複雜,這就是人工智慧的範疇了。以一張相片來說,要能認出是誰,就需要有一道處理工序來比較、綜合諮詢以進行人臉辨識;如果要提升準度,就要不斷加入參數,像是眼鏡的有無、臉上的皺紋、髮型,除此之外還要考慮到人物在相片中的旋轉、光線造成的明暗對比等。

人臉辨識是人工智慧範疇。圖/Envato Elements

每一次的參數判斷,在機器學習中都是一層不同的過濾器(filter)。在每一次計算中,AI 會拿著這個過濾器,在相片上從左至右,從上至下,去找相片中是否有符合這個特徵;每一次的比對,就會給一個分數,總分越高,代表這附近有越高的機率符合過濾器想找的對象,就像玩踩地雷一樣,當這邊出現高分數的時候,就是找到目標了。

而這種方式被稱為卷積神經網路(Convolutional Neural Networks, CNN),為神經網路的一種,被大量使用在影像辨識中。除了能增進影像辨識的準確度外,透過改變過濾器的次數、移動時的快慢、共用的參數等,還可以減少矩陣的運算次數、加快神經網路的計算。

然而即便如此,工作量還是比傳統影像處理複雜多了。為應對龐大的矩陣運算,我們的主角 TPU(Tensor Processing Unit)張量處理單元就誕生了!

TPU 如何優化 AI 運算

既然 CNN 的關鍵就是矩陣運算,那就來做一個矩陣運算特別快的晶片吧!

TPU 在處理矩陣運算上採用脈動陣列(Systolic Array)的方式;比起 GPU 中每個 ALU 都各做各的,在 TPU 裡面的資料會在各個 ALU 之間穿梭,每個 ALU 專門負責一部分,共同完成任務。這麼做有兩個好處,一是每個人負擔的工作量更少,代表每個 ALU 的體積可以再縮小;二是半成品傳遞的過程可以直接在 ALU 之間進行,不再需要把半成品借放在暫存區再拿出來,大幅減少了儲存與讀取的時間。

在這樣的架構下,比起只能塞進約 4000 個核心的 GPU,TPU 可以塞進 128*128 共 1.6 萬個核心,加上每個核心負擔的工作量更小,運算速度也就更快、耗電量更低。我們經常使用的 google 服務,許多也是用了 TPU 做優化,像是本身就是全球最大搜尋引擎的 google、google 翻譯、google map 上都大量使用了 TPU 和神經網路來加速。

Google 服務大量使用了 TPU 和神經網路來加速。圖/GIPHY

2021 年,Google 更把 TPU 導入到自家手機產品中,也就是前面我們提到的 Google Tensor;今年更是在 Pixel 7 中放入升級後的 Google Tensor G2。

Google 表示新款人工智慧晶片可以加快 60% 的機器學習速度,也加快語音助理的處理速度與增加功能、在通話時去除雜音增進通話品質等,不過最有感的還是圖像處理,像是透過 AI 多了修復模糊處理,不僅可以修正手震,還能把舊相片也變得清晰。

現在新款的手機為凸顯不同,越來越強調自家晶片設計與效能的差異;除了 Google 的 TPU 外,其他公司也朝著 AI 晶片的方向前進,包括蘋果、高通、聯發科、中國的寒武紀等,也都發表了自行研發的神經網路處理器 NPU。

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

PanSci_96
1166 篇文章 ・ 1513 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。