0

3
2

文字

分享

0
3
2

透過 AI 繪圖原理,你就知道怎麼訓練做圖生成!

PanSci_96
・2023/04/29 ・2014字 ・閱讀時間約 4 分鐘

AI 生圖是透過訓練模型學習自行生成圖像,而電腦繪圖則是由使用者透過軟體或工具手動繪製圖像。

儘管可能較缺乏人工繪圖的細節與創意,但是都是由 AI 自己生成,每張絕無僅有,這樣應該也算是有些創意吧?

究竟這個「安能辨我是 AI」的新時代,到底是怎麼突然降臨的呢?

現代魔法師的誕生

現在夯、猶如魔法的 Midjourney,使用者針對想要創作的內容和風格,給出關鍵字如 Hyper realistic、Xerox Art、masterpiece、underwater,以及畫面比例等參數,甚至是特定藝術家的名字,大約 30 秒到 1 分鐘,就能完成作品,對一般民眾來極容易上手。

如果生成出不對勁的怪圖,只要請它參照範例、補充關鍵字,或是你本身就有一點修圖能力,就可以產出高品質的美圖。因此,我們也可以說這是一種能和 AI 繪師對話的語言介面,新的職業「AI 溝通師」也隨之出現。

AI 生圖其實也不是什麼新技術,早就有人採用一種名為 GAN 的對抗式生成網路的演算法來生成圖片。在 2018 年也有人用來生成某種藝術作品,並拍賣出高價,當然在當時與其說是美麗的藝術,其實更多是個噱頭。

從模仿到創造

為了達成「創新」,AI 研究者放棄了 GAN 中讓 AI 互相競爭找出「最佳解」的對抗式思維,提出一種名為「Diffusion model」擴散模型的新概念。

如果觀察 Stable diffusion 或 Midjourney 生圖過程,可以發現到,圖片會從一團什麼都沒有的雜訊開始,逐漸出現五官、輪廓等特徵,最後才變成有著豐富細節的精緻畫作。

擴散模型的去噪過程。圖/維基百科

Diffusion model 在訓練時則是會先看到一張完整照片,接著依照馬可夫鏈的過程,以高斯分布的方式往圖片上加入隨機噪點。待整張圖變成一團雜訊,等它學會從一張圖到混亂雜訊的過程後,再習得如何從混亂雜訊中生成圖的能力;於每一步加噪的過程中學會降噪,使用時間鉗形攻勢,完成雙向學習。

Diffusion model 在接下來的訓練中,會不斷調整自己的參數,學習自己生成圖片。這個訓練好的 Diffusion model 其實就像個大型藍色窗簾機器人,從雜訊中抓出特定特徵,例如看到兩點一線,就說是人類的眼睛與嘴巴,接著漸漸畫出人類的面貌。

過程中還會加上一個名為「變方自編碼器」(Variational Auto-encoder ,VAE)的加持,使它輸出的不只是原本的訓練或輸入的圖片,而是真正能夠「無中生有」的連續性畫素,而這就是擴散模型被稱為生成模型的原因。另外,隨著步驟越多,解析度或細節可以更高,每一次相同的關鍵字或輸入圖檔,經過模型輸出的結果都有著不確定性。

從二維到三維

當你以為畫奇幻插畫和二次元美少女就是極限了,最新進展絕對更令人大開眼界!

前陣子開發出來的模型,能讓使用者自己上傳作品或相同風格的畫風,來產出更多樣化的素材。例如不久前在日本被下架的 mimic;而 DALL-E 則推出 Outpainting 功能,例如輸入知名畫作,它會替其擴張圖片,算出可能的背景樣式。

DALL-E 算出知名畫作《戴珍珠耳環的少女》的可能背景樣式。圖/OpenAI

若再將繪圖 AI 訓練到不只能輸出圖片,甚至能輸出擬真的照片呢?已經有人這麼做了。

最近最紅的生成模型,可以把疫情期間我們一張張戴口罩的照片全自動 PS 出嘴巴鼻子、輕易更換穿搭風格等。新出的 AI 繪圖軟體 ControlNET,甚至只要提供骨架甚至幾個線條,就能繪出相同姿勢的人物圖像。

如果我們能夠生成無法辨別的真人外觀,再搭配已經有的 3D 骨架建模生成模型,豈不是可以達成科幻電影「虛擬偶像(Simone,2002)」的劇情,生成一個假演員來演戲拍廣告!

這些 AI 生成模型其實都只是為我們所用的工具,這波 AI 繪圖師的加入,肯定會大量取代中階以下的商用和插畫家的需求,並解決業主和設計師之間的溝通成本,各家美術或遊戲公司紛紛開出 AI 溝通師的職缺。追隨主流審美的人類繪師受創最深,而對已有強烈藝術風格的大師或非主流藝術家來說,目前相對不受影響。

使用 AI 完成的藝術作品。圖/GIPHY

AI 繪圖工具的出現,掀起了一股巨浪。如今不僅有人能利用 AI 生成作品得獎,也開始能看到有人使用 AI 創作進行營利、販售。

然而創作領域中模仿、挪用、抄襲、致敬等等的問題在 AI 出現以前就是個難解之題,來到大生成時代,這類問題只會越來越多,我們又該如何面對它呢?

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

文章難易度
PanSci_96
1190 篇文章 ・ 1752 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

1

0
0

文字

分享

1
0
0
福島核污水是什麼?我們還能安心吃海鮮嗎?核污水全解析!
PanSci_96
・2023/10/01 ・4897字 ・閱讀時間約 10 分鐘

福島核污水正式排放入海了!食鹽要屯多少?海鮮還能吃嗎?哥吉拉要誕生了嗎?

核廢水是怎麼來的?

2011 年 3 月 11 日,一場海嘯衝擊了在福島海邊的第一核電廠,破壞了核電廠中做為緊急電源設備的發電機,在備用電池電力耗盡後,冷卻系統完全失效。然而反應爐內的連鎖反應還在持續,最後溫度不斷竄高,高溫水蒸氣與燃料護套中的鋯合金,發生鋯水反應並產生大量易燃的氫氣,最終與空氣中的氧氣作用導致爆炸。

在事故發生前後,日本政府灌入大量海水來為反應爐進行冷卻,而這些直接接觸熔融燃料棒的污水,就被稱為核污水,日文則稱為「汚染水」。至於當時的決策細節與失誤,大家可以看今年上映的日劇《核災日月》複習一下。而既然事件已經發生了,我們就重點討論核污水。

《核災日月》圖/IMDb

現在儲存在福島的核污水不只有冷卻水,其實還有受污染的降雨與地下水。事故發生後,東京電力公司在第一核電廠加裝擋水牆,阻擋因為降雨流經 1、2、3 號機組的污染水流入海洋。並且設置凍土牆隔絕地下水,同時挖水井抽出污染的地下水,讓廠區內的地下水水位下降,因此地下水只會從外部滲入,內部的污染水則不會滲到外面。不論是降雨還是抽出的地下水,都屬於污染水,平均每天都會增加 92 立方公尺的污染水。直至本集影片上架,當地已經存有 134 萬噸的汚染水,而且還會持續增加,你可以自己打開 Google Map,鳥瞰這密密麻麻的眾多大型儲槽,別忘了,核反應爐本體才是日本更迫切的問題,要是污水不先處理,要是下一個天災來襲,麻煩又會疊加。因此日本政府在 2016 年就展開討論,準備要處理掉這些污水。

福島第一核電廠。圖/Google Map

為何決定排放入海?

為何核污水的最終處置決定是排放入海呢?其實 2016 年提出的方案有五種:稀釋入海、蒸發至大氣、電解水釋放氫氣、深層地質注水、以及水泥固化並地下處置。很快,電解水因為還需要相關技術研發而被否決,這個我們在氫能那集講過。深層地質注水和水泥固化並地下處置,則有選址與法規問題,無法立即實現。這部分則等同於核電使用國都面臨的核廢料處置問題,我們之前花過好幾集介紹過,歡迎前往複習。

最後僅剩稀釋入海和蒸發至大氣兩種方法,最後日本認為海洋的擴散行為更容易追蹤,最重要的是成本僅有蒸發的十分之一,因此選用了這個方法。至於有些人說,既然東電跟日本政府都保證安全,何不做成瓶裝水拿去賣?之類的建議在這我們不多討論,就請大家用理智來看待。

核廢水如何被處理?

根據日本政府的規劃,在這些污染水排放入海前,會先進行淨化處理成為處理水。首先,污染水會經過「銫吸附裝置」,除去銫(Cs)和鍶(Sr)。接著再經過淡水化裝置除去水中的鹽分後,成為「鍶處理水」。這種鍶處理水,可以作為 1, 2, 3, 4 號機組的冷卻水再次循環利用。

最後,大部分的鍶處理水,會被送到「ALPS多核種除去設備」,將 63 種放射性核種中的 62 種放射性核種去除。「ALPS多核種除去設備」唯一不能去除的放射性核種,就是氚(H-3)。但其實啊還有一個碳-14 無法被過濾,但濃度低到可以忽視。經過「ALPS多核種除去設備」處理過後的「鍶處理水」,就稱為「含氚處理水」。

根據日本政府的規劃,在這些污染水排放入海前,會先進行淨化處理成為處理水。圖/PanSci YouTube

含氚處理水中的氚,指的是氫的同位素的一種,在自然界中就存在。半衰期為 12.43 年,衰變時會進行 β 衰變,放出一顆電子並成為氦-3。β 衰變對人體的穿透距離僅限於皮膚,不會對內臟器官產生傷害。
如要能危害人體,需要長期大量攝取由氚構成的重水。關於攝取過多重水對動植物的影響,我們網站上有文章詳細說明過。

簡單來說,綜合自然界中跟福島即將排放的氚,以及我們的生活型態來看,遠遠達不到可能產生危害的程度。知道劑量決定毒性,就像我們每天都吃下不少「有害」物質,例如殘留農藥、油炸致癌物、過多的精製糖等等,但攝取的多寡,對你的健康影響差異很大。那麼重點來了,福島排放的處理水,真的有合乎標準嗎?

處理水符合標準嗎?

這個問題,我們在今年六月的核廢料主題中有提到,國際原子能總署 (IAEA) 在五月底公布了第一階段的調查結果,針對「日本的核種監控能力」進行第三方驗證。結果認為,日本的檢測標準跟分析方法沒問題,調查結果是可信任的。報告中除了氚以外,其他放射性核種的活度也都遠低於排放限值。例如鍶-90 為每公升 0.4 貝克、銫-137 為每公升 0.5 貝克,以臺灣的「食品」標準,銫-137 為每公升 100 貝克以下,雖然鍶-90 還沒有定下標準,但是依國際食品法典委員會的標準,也是在每公升 100 貝克以下。目前的排放值都遠小於標準。

國際原子能總署(IAEA)公布第一階段的調查結果。圖/PanSci YouTube

除了各單一核種的活度以外,所有水中核種加起來的「告示濃度限度比」也低於日本國家標準的每年 1 毫西弗(mSv/year), 1 毫西弗大約是多少呢?大約是一般民眾一年會接收到的輻射劑量。

至於無法被 ALPS 處理的氚,因為海洋中的水中就廣泛存在,日本將透過海水稀釋後排放入海。目前世界衛生組織對於飲用水的氚含量標準訂為每公升 1 萬貝克,台灣的標準嚴格了許多,是每公升 740 貝克。東電公司的處理水是每公升 14 萬貝克,在排放前會稀釋 740 倍,以每公升 190 貝克的氚濃度排放,低於台灣的飲用水標準。

那麼食鹽呢?我們需要搶購嗎?這就更不用擔心,因為食鹽中不含水,自然也不含氚。或是更進一步可以參考東海大學應用物理系的粉專,他們計算,根據國家標準,食鹽含水量若為 3% 以下,需要每天吃超過 400 公斤的食鹽才會攝取氚超標。真的,別吃那麼鹹啊。

每天吃超過 400 公斤的食鹽才會攝取氚超標。圖/pixabay

那麼,我們就真的兩手一攤,為這件事劃下結論,核輻射只是庸人自擾嗎?

我們該如何看待排放的處理水?

當然不是,就像許多人擔心的,就算科學上告訴你沒問題,但前提是,這些數據得是沒問題的。而且不用說周邊國家,連日本自家民眾也多次抗議處理水的排放。

目前在 IAEA 架設的網站上,可以看到整個排水計畫的各種即時監測資料。其中就包括出水口的輻射數值監測。

為了驗證處理水不會對海洋生物產生影響,東京電力甚至從去年 9 月開始,就開始進行海洋生物飼養實驗,並且全程公開直播放在他們的YouTube頻道上。不過這頻道訂閱人數跟觀看次數都有點低迷,有興趣的話不妨訂閱,開啟小鈴鐺。

那麼我們能下定論了嗎?在科學上,我們確實能說,在符合規範下,這些排放入海的處理水是沒問題的,食鹽、海鮮也都能照吃,把注重食安與健康的努力分配到其他危害更大、風險更高的事情上,對處理水保持健康而非病態的質疑,對個人來說應該效益更高。

臺灣從去年到今年 6 月,曾 3 次組團赴日考察,並於 8/24 公佈報告書,包含跟日方的問答內容,還有福島核廢水排放設施的照片。海委會表示,專家觀察團評估日方排放相關作業的安全性,跟國際原子能總署評估的結果一致。然而是否選擇相信日本以及 IAEA 給出的數據,如今看來成了國際政治問題。

另外,在 IAEA 的小組成員中,包含周邊國家:中國、美國、韓國、越南、澳洲、加拿大、法國、俄羅斯、英國、阿根廷、馬紹爾群島,並不包含台灣。如果台灣也能以任何形式加入團隊,或得以取得樣水複測,讓我們知道,日本以及 IAEA 給出的數值是可信的,想必都能更進一步降低民眾的擔憂。

最後,也問問大家,對於這次的處理水排放事件,你會擔心我們的海鮮或食鹽受到影響嗎?

  1. 不擔心,跟人類對海洋的其他污染相比,根本小巫見大巫。
  2. 擔心,等我親眼見到泛科學到現場實測我才相信。機票我出!

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

參考資料

所有討論 1
PanSci_96
1190 篇文章 ・ 1752 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

1
1

文字

分享

0
1
1
舌頭、石頭,迸出新滋味?科學家為什麼要舔石頭?——2023 搞笑諾貝爾獎
PanSci_96
・2023/09/30 ・3671字 ・閱讀時間約 7 分鐘

J……J 個是!這顆石頭一接觸到我的舌頭,它就像火一樣燃燒,同時留下苦澀和尿味的味道,在這之後還留下了一點甜味。

圖/Youtube

這,這一顆石頭不一樣,它有酸辣味和硫酸鹽味,卻同時給我一種難以形容的愉悅感!就像在品嘗紅酒的酸味一樣!

圖/Youtube

等等,我並沒有壞掉,我現在做的事是某些地質學家和古生物學家真的會做的事,而且這件事還得了諾貝爾獎!只是是搞笑諾貝爾獎。

搞笑歸搞笑,舔石頭卻真的是再實用不過的方法。因為,舌頭真的是太好用了!

地質地科系祖傳秘招——舔石大法!

2023 年的搞笑諾貝爾獎的化學與地質獎頒給了地質學家揚.扎拉謝維奇,得獎的原因不是因為特定研究,而是它整理了地質學家和古生物學家「品嘗」岩石和化石的「研究史」。

有在跟我們直播的泛糰肯定知道,在今年搞笑諾貝爾獎頒發的隔週,上個月的 9 月 18 日,我們在 YouTube 官方舉辦的 2023 YouTube Festival 活動中,辦了一個實體見面會。在見面會中我們介紹了今年其中三個搞笑諾貝爾獎,其中就包含這則「地質學家為什麼要舔石頭」。另外兩個獎項分別是操縱死靈蜘蛛,和研究為什麼上課為什麼會令人感到無聊。這場見面會也有同時開直播,連結放在右上角的資訊卡,裡面提到不少有趣的觀點,歡迎去直播存檔複習。

當天,除了就像開場演繹的,不同岩石真的嚐起來味道不一樣以外,有一個地科系的觀眾,現場分享了另一個有趣的觀點。但先說聲抱歉,那時候觀眾手持的麥克風訊號沒有進到我們的混音器,所以在線上收聽的朋友沒有聽到前半段。

我們這邊重新轉述一下,這位觀眾說早在這個獎項頒發前,就知道用舔石頭來辨識種類的這種方法了,因為他的老師就是這麼教他的!沒想到,這竟然是地科與地質系祖傳的秘技嗎!

舌頭比手指還好用?

但除了味道外,觀眾還分享了一個這次搞諾沒有提到的原因,就是舌頭的觸覺可能比手還靈敏。某些岩石例如砂岩跟頁岩,可能用手摸不出差別;用舌頭舔,竟然就能分別出差別。

什麼,舌頭真的這麼厲害嗎?想想好像也是,我們吃東西的時候會用舌頭去感受食物的形狀,這些觸感甚至也是我們品嘗食物時,了解食物的重要一環。除此之外,我們還可以找出食物中的魚刺,或是卡在牙縫中的菜渣,有些人還能幫櫻桃梗打結呢。

圖/Giphy

但好像從來沒有人拿舌頭和手去做比較,因為只要講到觸覺,我們第一時間就會認為手指更加靈敏。

其實,還真的找到有人研究過,一群俄亥俄州立大學食品科技系的實驗團隊,就研究了這個問題。他們準備了幾個形狀極為相似的樣品,樣品的長度、厚度、缺口的大小都一樣,只有缺口處的傾角不同。

傾角從 45 度到 90 度都有,每塊的角度以 5 度為間隔。受試者必須拿起兩塊樣品,並在蒙眼的情況下,分別用摸或舔的方式來分辨出兩者分別為哪一塊。其中一塊始終是 90 度,另一塊則是從 65 度開始角度遞增。

這次的實驗有 30 位受試者,結果表明,使用手指來分辨兩塊樣品,平均要兩塊的角度差超過 19.81 度時,才能分辨出差異。如果用舌頭舔呢?只要兩者的角度差超過 12.75 度,就能分辨出差異!比用手摸的角度差小了許多,也就是舌頭真的比較靈敏。

實驗結果數據,JND(Just Noticeable Difference)表受試者在樣品相差幾度時能感受到差異。圖/Comparison of The Tactile Sensitivity of Tongue and Fingertip Using a Pure-Tactile Task

當然,這個實驗還有兩個方向值得討論,一是這只針對物體邊緣形狀的靈敏作分析,但觸覺有許多不同感受,例如紋理、粗糙程度等,所以可能每種觸覺做出來的實驗結果會不同。這個實驗看起來不難做,各位可以準備一些能放入嘴的材料,例如請朋友直接將比較硬的芭樂切成不同形狀來舔舔看差別,就能簡單復刻這個實驗甚至更改參數,有實際測試的觀眾也不要忘記留言告訴我們。我們這邊也同步徵求花京院來協助我們實驗。

而另一點是,關於舌頭為什麼有跟手指同等,甚至更強觸覺的生理機制,本篇研究僅止於現象探討,還未有深入研究。

圖/Giphy

濕濕的石頭更好觀察?

除了味覺和觸覺外,舔石頭還有另一個重要的原因,就是濕潤的石頭紋理更清楚,更方便研究。

這應該大家都有經驗,在學校的大理石地板拖地,或是海邊的鵝卵石,沾到水之後,石頭的紋理都更加清楚,看起來也更漂亮。但這又是為什麼呢?

影響的原因有很多,但影響最大的,就是濕潤的表面讓石頭更「平」,產生類似拋光的效果。但為什麼磨平拋光,顏色就更好看呢?

我們知道光線照到鏡子會產生反射,但鏡子很平整,如果現在照射到的是一個凹凸不平的表面,光線就會往四處反射,這種現象稱為漫反射。當我們只想看石頭上的其中一點時,旁邊的光卻會雜亂的跑進我們的眼睛,影響到對比度。並且各種顏色的色光聚在一起會形成白光,因此這些漫反射而來的光線,就會以白光的形式被我們看到。白話文就是,物體的對比下降了,但是整體的亮度提高,變成我們常看到灰白色的石頭表面。

直到石頭被拋光,或是因為濕潤產生拋光的效果,這些漫反射就會減少,石頭整體變得比較暗沉,但是斑紋之間的對比度提高了。這就是為什麼粗糙的石頭顯得灰白,浸濕之後卻呈現深沉而圖樣明顯的原因。

還沒完,薄薄一層水還會造成更多影響。例如,這層折射率介於空氣與石頭之間的介質,可以幫助光線稍微穿透岩石的表層後再反射出來,提供視覺上更多的紋理細節。如果將水換成木工中常使用的亮光漆,除了反射與折射外,亮光漆中的分子,還足以讓光線產生散射,讓你在上不同厚度的亮光漆時,能產生不同的顏色變化。

簡單來說,不論是水還是漆,這薄薄的一層介質,能像相機的鏡片一樣,透過光學調校,將更清楚、細節更多的影像送進相機的感光元件,也就是我們的眼睛上。而替換不同的鏡片,就能改變我們看到的樣子。

有介質存在於空氣與觀測物間時,光會產生折射,造成不同視覺效果。圖/askamathematician.com

這個看似玩笑的舔石頭研究,確實好像又有幾分認真的道理,我們自己在研究的時候,最開始也覺得超ㄎㄧㄤ,後來又發現能學到不少冷知識。

最後也想調查一下,除了舔石頭以外,大家還對哪一則搞笑諾貝爾獎有興趣,希望我們也來講講呢?

  1. 帶電的筷子,能讓食物更好吃?
  2. 哪些人有倒著說話的特殊能力?
  3. 要多少人抬頭看天空,才會吸引路人跟著抬頭?

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

參考資料

PanSci_96
1190 篇文章 ・ 1752 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

0
0

文字

分享

0
0
0
是什麼蒙蔽了我的雙眼?如何防範生成式 AI 的假資訊陷阱?——專訪中研院資訊科技創新研究中心副研究員陳駿丞
研之有物│中央研究院_96
・2023/09/24 ・5782字 ・閱讀時間約 12 分鐘

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|沙珮琦
  • 責任編輯|簡克志
  • 美術設計|蔡宛潔

不再是有圖有真相!深偽影像猖獗,我們該如何判別?

你看過美國前總統川普被警方逮捕的影片嗎?又或是英國女王在皇宮中大跳熱舞的片段?多年來,人們普遍相信著「有圖有真相」的道理,然而,隨著圖像與影音相關的生成式 AI 越發成熟,我們似乎再也不能輕易相信自己的雙眼。而在真假影音的差異可說是微乎其微的狀況下,我們究竟該如何判斷資訊真實性?中央研究院資訊科技創新研究中心的副研究員陳駿丞與團隊每天在尋找的,便是有效又好用的解決方案。本次,中研院「研之有物」將透過專訪,從生成式 AI 的原理開始了解,一步步為各位解開深偽影像的神秘面紗。

你已經是個成熟的 AI 了!幫我工作!

一講到生成式 AI,許多人都能立刻喊出「ChatGPT」的大名,足見這個領域之熱門程度。其實,生成式 AI 發展並不是近年才開始的事,可是為什麼直到最近,才受到社會大眾的熱烈歡迎呢?

中研院資創中心的陳駿丞副研究員認為,其中最關鍵的原因,莫過於 AI 程式的優秀表現開始讓一般人很「有感」。由於生成式 AI 的相關研究快速發展,基礎建設在近年來逐漸成熟,使用介面也設計得十分親民,讓大眾能透過極為直覺、簡單的方式去使用,實際體會到應用的效果,例如改善工作效率、處理圖像任務等,再加上大眾媒體的渲染,便帶起了 2023 前半年的 AI 風潮。

陳駿丞笑著說,雖然自己不是文字生成式 AI 的專家,但使用「ChatGPT」時,也發現到它真的能做到很多事,比早期的 Siri 效果更好、更準確。的確,對於我們來說,這款基於 OpenAI 開發的大型語言模型(Large Language Model)的聊天機器人(Chatbot),就彷彿是一個全能小秘書一般,可以整理文案、改錯字,甚至連寫程式碼都不在話下。

場景轉換到影像領域,如今市面上也有同樣由 OpenAI 打造出的圖像生成平台「DALL·E 2」,或是大名鼎鼎的「Midjourney 」,都可以很有效率的將使用者文字描述轉換成圖片。雖然這些平台生成的內容偶爾還是會出現「破圖」的情況,例如頭髮少一塊,或是出現奇怪色塊等,但它們的生成速度極快,也能產生不少令人印象深刻的高品質內容;對於一般大眾而言,自然充滿吸引力。

陳駿丞解釋,過去也有許多以文字產生圖片的嘗試,但品質並不佳,而現在之所以可以顯得如此真實,便是借助了「擴散模型」(Diffusion Model)的強大威力。大約 2019 年左右,「擴散模型」逐漸超越了原本主流的「生成對抗網路」(Generative Adversarial Network,GAN),吸引大量研究人員投入,也因此衍生出「Midjourney」這類的圖片服務,打個字、按個鈕便能生成美美的圖片。進階使用者還可以輸入如同咒語般長的自訂提示詞(Prompt),生成符合需求的圖片,甚至還有人專門訓練生成提示詞的 AI,各種 AI 藝術社群也如雨後春筍般成立。

提示詞給的資訊越多,就越有機會用繪圖 AI 生成想要的客製化圖片。
圖|研之有物(資料來源|Midjourney)

神奇 AI 訓練師——「擴散模型」與「生成對抗網路」

等等等等,什麼是「擴散模型」?什麼是「生成對抗網路」?想了解兩者的不同,讓我們先從比較「資深」的那個開始說起。

所謂「生成對抗網路」,其實是由兩個網路所組成的,分別是「鑑別網路」(Discriminating Network)與「生成網路」(Generative Network)。這兩者間的關係就像是考官和學生(亦敵亦友!),學生(生成網路)要負責把圖生出來,交給考官(鑑別網路)去判斷這張圖跟真實圖片的分布究竟像不像,像就給過、不像就退回去砍掉重練。

至於考官(鑑別網路)為什麼能如此精確呢?因為研究員會預先餵給它真實的圖片,好協助鑑別網路做出足夠專業的判斷、給予精準回饋。而學生(生成網路)則在這一次次「交作業、修正、交作業、修正」的過程中,畫出越來越接近真實模樣的圖片。

生成對抗網路的概念比喻圖,生成網路與鑑別網路這兩組神經網路會相互訓練,生成網路所產出的圖片會越來越接近鑑別網路的目標,差異越來越小。
圖|研之有物(資料來源|李宏毅

相比起 GAN 對錯分明、馬上定生死的特點,「擴散模型」採取的路徑相對而言非常迂迴,但是結果更為精準,如果採用知名電腦科學家臺大電機系李宏毅教授的比喻,擴散模型就像是從一塊大石頭裡面刻出大衛像,圖片就在雜訊當中!

「擴散模型」在訓練期間的第一步是加噪(add noise),以貓為案例來說,擴散模型的原理就是將一張正常的貓咪圖片,用統計方法取樣出一張特定大小的雜訊圖(例如 512*512),過程中研究人員會控制參數去加上高斯雜訊。第二步是去噪(denoise),透過減去預測的高斯噪聲,得到乾淨的原貓圖。模型訓練的越好,預測的高斯噪聲量越準。

訓練好之後,「擴散模型」在輸出的時候,為了輸出符合使用者文字指令的貓咪圖片,模型會從隨機的雜訊圖開始,應用訓練過程的去噪器,像物理的擴散過程一樣,逐漸改變每個像素點的值,反覆去掉噪點,得到最後新的貓咪圖。

如果有用過 Midjourney 的人,應該也會發現 AI 收到文字指令開始產圖的時候,是從一張模糊不清的圖片,一顆顆像素逐漸改變,變成你要的圖。

擴散模型透過加噪和去噪來訓練模型,利用去噪來生成圖片。實際生成圖片的過程,就是逐步去除噪聲的過程。
圖|研之有物(資料來源|李宏毅

陳駿丞指出,由於這些噪聲都是研究員自己加的,所以控制度極高,也可以掌握其中細部的變化過程。而這種「保姆式」訓練法,最大的好處就在於:擴散模型是一種漸進式學習的過程,因此對於細節的掌握度將會更高。

陳駿丞提到,兩種方式的訓練時間其實差不多,但以執行時間來說,「擴散模型」會比較久一點,因為需要慢慢摸索,而 GAN 則是幾乎一步到位。不過,雖說處理時間可能較長,「擴散模型」卻也因為訓練比 GAN 更穩定與更全面這份特質,可以訓練很大的資料集,也能生出較為豐富多元的成果。

侵權與假消息——生成式 AI 的負面影響

能生出細膩而接近真實的圖乍聽之下是好事,但它同時也是一把雙面刃,可能伴隨著侵害智財權、製造假消息等等負面效應。

在訓練生成式 AI 相關模型時,必定需要大量的資料做為參考,而以 AI 繪圖來說,許多資料其實是未經授權的網路圖片;假設宮崎駿的圖片被盜用去訓練開源模型,那這些生成式 AI 後來生出的圖可能就會帶有宮崎駿的風格或曾經畫過的元素,這樣是否會帶來侵權或抄襲的問題?是我們必須思考的重要課題。

而說到假消息,就一定得談到值得關注的「深偽」(Deepfake)技術。雖然這個詞很容易讓人聯想到一些負面的事件,比如新聞報導網紅小玉用深偽技術製作不雅影片。然而,陳駿丞澄清,深偽技術最常出現的場域其實是在電影工業中。其中,最知名的應用,莫過於《玩命關頭》系列電影,在拍攝期間主角保羅沃克不幸意外離世,劇組便透過電腦合成影像技術,讓主角的弟弟替身上陣,主角身影得以再次與觀眾相見。

用你的魔法對付你!反制深偽影像的 AI

深偽技術若運用得宜,便是賺人熱淚的神器,反之,卻也可能成為萬人唾罵的幫兇,面對這樣強大的工具,難道我們只能乖乖束手就擒嗎?才不!既然 AI 如此強大,那我們就訓練 AI 來對付它!

陳駿丞分享道,反制深偽影像常用的方法便是訓練「二元偵測器」,藉由蒐集大量真實與偽造影像資料去訓練 AI,讓它得以判斷影像的真偽。然而,深偽有很多種,而二元偵測器對於沒有看過的資料,表現會大打折扣。

過去人們是用 GAN 來生圖,現在是用擴散模型來產圖,未來也有可能出現新的方式,想要找出一個一勞永逸的方法,其實並不容易。

陳駿丞認真地說,深偽偵測的過程,其實很像在研發一套「防毒軟體」,防毒軟體很難永遠跑在病毒前面,大多是遇到病毒再往下思考解方。但是,面對這樣的情況也不用完全悲觀,因為訓練偵測模型可以透過「非監督式」和「自監督式」等方式去進行模擬,進而得出比較能廣泛應用的工具。

除了偵測深偽的錯處之外,我們也可以針對訓練資料動點手腳,像是加上一些「浮水印」。許多生成式 AI 的訓練資料來自圖庫圖片,其中許多圖片自帶防盜浮水印,假設 AI 蒐集了這些素材,往後生成的圖片中可能就會出現「版權所X」等等字樣。

而我們能做的,便是為訓練資料加上肉眼看不見的浮水印。比如說,在影像領域中,伽碼(gamma)指的是用來編(解)碼照度的非線性曲線,我們可以偷偷將浮水印藏在人眼看不見的伽碼範圍中,唯有調整到特定區域,才能看見浮水印。聽起來是不是很像我們小時候用檸檬汁玩的隱形墨水呢?

同樣是浮水印,我們也可以將它藏在人眼比較不敏感的頻率中,然後偷偷放去圖片中邊邊角角的地方,讓人眼看不出來。 加入浮水印後,我們就可以進一步訓練偵測器去尋找浮水印。假設偵測器能在圖上面找到浮水印,那就可以藉此推斷圖的真偽。

而相對偵測、加浮水印等等「補救」的方式,假設我們已經掌握了一些模型的架構,便能透過添加「對抗樣本」(Adversarial Examples),直接攻入生成式 AI 的大本營,讓這些深偽 AI 只能生出一些亂七八糟、毫無邏輯的圖片,或是強迫生成特定的圖案。例如找出幾個常用、能進行臉部特徵操作的 GAN,針對它們研發相關對抗樣本,如此一來,只要加入了團隊開發的噪聲,便能同時打壞這幾種 GAN 的生成。

對抗樣本是防禦深偽模型的有效手段,干擾深偽模型的影像生成。
圖|研之有物

假消息滿天飛怎麼辦?交給深偽影像偵測器!

這麼看下來,深偽偵測若想做得好,需包含的面向又多又廣、還很複雜,但請各位別緊張,陳駿丞與中研院、臺灣大學、臺灣科技大學、成功大學、中央大學以及國家高速網路與計算中心其他教授與研究員共同組成的研究團隊,最近才剛打造出一款泛用性相對較佳的「深偽影像偵測器」,團隊其他研究成員包括王新民研究員、曹昱研究員、花凱龍教授、許志仲教授、許永真教授、蔡宗翰教授與國網的郭嘉真研究員。

這款偵測器以慕尼黑工業大學和義大利拿坡里費德里克二世大學共同提出的偽造人臉資料庫「Face Forensic++」為基礎,透過自監督的方式去產生出深偽的各式可能形式。

團隊是如何訓練偵測器的呢?具體的運作方式是:先偵測輪廓、產生一個「面罩」去界定人臉的位置;接著,再讓偵測器透過些許微調去模擬深偽影像的特徵;再來,將這些「模擬的深偽影像」丟回去當作訓練資料。經過訓練的偵測器便能大幅升級,可以根據顏色、頻率、邊緣特徵等等參數,去判斷影像的真偽,甚至可以幫這些深偽影像區分難度呢!

影片是陳駿丞與團隊的深偽辨識成果,這裡設定為辨識 Deepfake 模型。看到紅框了嗎?數值越小,就表示圖片是深偽的可能越高,這個工具不僅能告訴你影像的真假,甚至能針對顏色、頻率、調整程度做出判斷。
圖│研之有物(資料來源│陳駿丞)

聽起來,這樣的偵測器已經很完美了?陳駿丞笑著說,這樣的內容一經發表,偽造資訊的一方可能又會想辦法繞過這些地方,對雙方來說,這就是場永無止盡的攻防戰,對此,陳駿丞表示,團隊想要完成的,便是:

盡量提供一個比較完整的解決方案,提供普羅大眾各種可能的工具,盡可能讓大家的資料不會被偽造,並幫助他們偵測。

陳駿丞笑著說,在發表深偽偵測的研究內容之後,偽造資訊的一方肯定又會想辦法繞過,這是一場永無止盡的攻防戰。
圖|研之有物

深偽技術防護罩——對所有事保持懷疑

這一份深偽影像偵測器凝結了眾人的心血,陳駿丞很期待未來偵測器正式上線後,能透過國家高速網路與計算中心設計的好用介面讓大家方便操作,在詐騙防治方面盡一份心力。同時,也期待各界看到這個工具的潛力,願意成為堅強的支持力量。

那在這麼好用的工具正式上線之前,我們又該如何去判斷影片的真假呢?陳駿丞傳授了我們一些獨家小絕招:首先:注意「姿勢」,深偽影片可能會出現一些不自然的怪異姿勢;其次,可以關注「背景」,比如突然出現裂痕之類的;再來,也要看看「衣服」等等細節,可能會發現破圖的蹤跡。而影片若是出現側臉時,也比較容易發現瑕疵,比如說頭髮動得很怪、眼神不對、牙齒沒牙縫等等。

另一方面,如果影像的解析度太低,也會影響深偽偵測的準確性,所以,對於太過模糊的圖片、影片,都應該格外小心。

陳駿丞也提醒,隨著相關造假技術日臻成熟,圖片、影片中的細微瑕疵將會越來越難以察覺,這時候,一定要謹記以下原則:

不能像以前一樣看到影片就覺得是真的,還是要抱持懷疑的態度。

假設看到一些違反常理或「怪怪」的內容,一定要多方查證,絕不可以馬上就相信。

讀到這裡的各位,想必已經被陳駿丞裝上了一套強而有力的「深偽防毒軟體」,希望大家帶著這層防護罩,在生活中遠離虛假、靠近真相!(p.s. 要記得定期更新啊!)

陳駿丞與實驗室成員合影。未來他們將和國網中心合作,正式推出深偽偵測辨識平台。
圖|研之有物
研之有物│中央研究院_96
286 篇文章 ・ 2913 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook