2

7
0

文字

分享

2
7
0

讓人工智慧為 VTuber 團隊撐腰!——AI幫你一鍵生成虛擬音樂家!

研之有物│中央研究院_96
・2021/11/03 ・5051字 ・閱讀時間約 10 分鐘

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位。

  • 採訪撰文│林承勳
  • 美術設計│林洵安

自動化音樂展演的可能性

人工智慧(簡稱 AI)技術日新月異,不只打敗人類圍棋高手,現在更用在醫療、交通、金融、資安各領域,遍佈了你我的日常生活。中央研究院資訊科學研究所副研究員蘇黎讓 AI 又多了一項新技能:自動化音樂展演。「虛擬音樂家系統」創造出具有動畫形象的虛擬人物,配合真人一同演出,而且演奏動畫和音樂伴奏皆可自動產生。未來,經營 VTuber(虛擬 YouTuber)背後可能不再需要龐大製作團隊,只要專注在企劃和劇本,其他讓 AI 幫你一鍵生成!

蘇黎與研究團隊開發的虛擬音樂家系統。圖/研之有物、Unsplash(資料來源:蘇黎)

真實與虛擬合奏的貝多芬小提琴奏鳴曲

虛擬音樂家系統,這是蘇黎與其團隊最近的研究成果,他將 AI 應用到音樂表演現場,並試圖推展到整個多媒體產業。這套系統已實際在舞台演示,並與多個音樂展演團隊合作,包括:沛思文教基金會、清大 AI 樂團、長笛家林怡君、口口實驗室等。

以近年蘇黎舉辦的音樂會為例,主要可分為兩部分,一個是台上親手彈奏著貝多芬〈春〉第一樂章伴奏部分的真人鋼琴家;另一個,即為該場演奏的特別之處:正在螢幕裡演奏主旋律的虛擬小提琴音樂家。這場表演是人類與「虛擬音樂家系統」的巧妙組合,真人鋼琴家彈奏的過程中,虛擬音樂家系統除了負責合奏,同時還要生成螢幕上虛擬演奏者的動畫身影。

蘇黎與研究團隊公開展示真人音樂家與虛擬音樂家的合奏。圖/蘇黎(虛擬音樂家 Virtual Musician

不放槍、不搶拍的自動伴奏系統

虛擬音樂家系統的「自動伴奏」,不同於卡拉 OK 的機器伴奏,演奏者不需配合伴唱音樂,而是程式控制伴唱音樂以配合演奏者,讓演奏者自由詮釋樂曲。但因為要配合真人演出的現場發揮與不確定性,自動伴奏的運算必須又快又準。蘇黎指出,這也是研究中比較具有挑戰性的部分。

自動伴奏系統的音樂偵測器、音樂追蹤器與位置估算單元,讓虛擬音樂家精準掌握真人演奏實況。

舉例來說,想要跟人合奏,首先要確定能同步開始,這個重責大任就由自動伴奏系統中的「音樂偵測器」擔綱。「音樂偵測器是偵測音樂什麼時候發出,但現場會有其他聲音,不可以讓機器聽到雜音就以為演奏開始了。」蘇黎說,因此團隊會先將整個樂譜,輸入到虛擬音樂家的自動伴奏系統中,並在演奏會場早早就讓系統持續待命,只要音樂偵測器偵測到樂譜的第一個音,伴奏隨即啟動。

自動伴奏系統在確認演奏開始之後,馬上又有另一項任務:追蹤音樂進度。因為每位音樂家會有自己的演奏風格,而且真人不管如何熟練,都還是有可能出現搶拍或延遲等變數。追蹤音樂進度的這項任務,便由自動伴奏系統中的「音樂追蹤器」和「位置估算單元」來執行。

「音樂追蹤器採用多執行緒線上動態時間校正(online dynamic time warping)演算法,每一個執行緒在最短時間內各自計算並取平均值,以找出最貼近該音樂家當下演奏速度的數值。」蘇黎解釋,追蹤器抓到現場演奏速度後拿來跟參考音樂檔案比對,就能推測多久後會演奏下一個音。至於位置估算單元,則是用來估計當下已演奏到整個樂譜的哪個位置。

虛擬音樂家系統藉由上述的自動伴奏技術,追蹤真人演奏進度,並自動觸發並演奏相應的聲部。目前團隊已經將偵測到觸發伴奏的平均延遲控制在 0.1 秒左右,但蘇黎的目標是要降低到「0.01」秒內。蘇黎表示,音樂心理學已證實,就算是沒有經過專業訓練的一般人,0.1 秒的誤差聽起來仍非常明顯,「延遲 0.01 秒可以勉強不引起業餘人士的注意;但面對專業音樂家時,延遲可能要到 0.001 秒左右才能過關。」

自動伴奏系統可以即時追蹤音樂進度,判斷真人音樂家目前已經演奏到樂曲的哪個位置。圖/蘇黎(虛擬音樂家 Virtual Musician

訓練 AI 自動生成虛擬音樂家動畫形象

現場音樂表演是影音的雙重享受,所以虛擬音樂家除了擁有自動伴奏的「聲音」,還需要擁有將表演動作形象化的動畫「影像」。

真人音樂家演奏時,不論是情感的表達、與其他合奏者及觀眾互動、還有操作樂器的動作等,都存在個人差異,沒有一套固定標準。例如拉琴的手勢,10 個音樂家可以有 10 種不同的習慣。因此蘇黎與研究團隊採取的方法是:取得大量影音資料,讓 AI 學習如何製造虛擬音樂家的肢體動作。

首先,徵求多位專業小提琴演奏者,穿上有標記點的特殊衣服,站在有動態捕捉裝置的空間中,演奏不同風格曲目。蘇黎使用的 3D 動作偵測技術,會偵測音樂家全身骨骼的關節點,作為虛擬音樂家動畫生成的訓練資料,並在訓練動畫生成模型的過程中,重點關注持弓的右手如何移動。

透過 U 型網路、自注意力機制等核心技術,來輸出虛擬音樂家動態肢體影像。

在訓練 AI 與生成動畫影像的過程中,需要卷積神經網路來協助完成工作。蘇黎團隊採用的模型是 U 型網路(U-net),負責圖像之間的轉換,由編碼圖層傳到解碼圖層。它的優點是速度快,而且輸入輸出格式相對容易設計,能一次輸出大量資料點。「 U-net 可以一次輸出單一時間的所有肢體骨架點,而非一個一個骨架點逐步輸出。」蘇黎說。

蘇黎與研究團隊採用 U 型網路模型訓練 AI,自動生成虛擬音樂家動畫影像。圖/蘇黎(Wu, Y. T., Chen, B., & Su, L. (2020)

除此之外,還有自注意力(self-attention)機制,讓 AI 學習判斷肢體動作與音樂的相關性。因為肢體動作跟音樂都是序列形式,有時間上的關聯性,假設真人音樂家某個動作在大鼓響起時一直出現,就會判定兩者存在關聯。之後自注意力機制在虛擬動作生成過程中,只要聽到該音樂的大鼓聲出現,就會發出明顯訊號,認為此時要搭配相應的肢體動作。

簡單來說,想要自動化生出虛擬小提琴家,不僅聲音要到位,動畫也要足夠精準。音樂需要自動伴奏系統,即時追蹤真人演奏者的進度並觸發伴奏;而相應的肢體動作,則有賴透過 U 型網路與自注意力機制,讓 AI 在音樂現場了解此時要搭配何種動作。

虛擬音樂家動畫的比較,左邊採用之前的研究,動作較不精準;中間是蘇黎團隊研究成果,自動生成的動畫骨架已有較多變化,並且右手拉弓動作較為準確;最右邊是符合真人動作的演奏動畫,需人工製作。圖/蘇黎(虛擬音樂家 Virtual Musician

進階挑戰:由聽覺到視覺的跨感官轉換

自動生成聲音和影像後,研究團隊還有一個更進階的目標。「我們想讓機器聽到某一首歌,就聯想到一幅畫。但坦白講,這種音樂到視覺風格轉換(music-to-visual style transfer)非常困難。」蘇黎說。當初有學生向他提出這個構想,想要訓練 AI 將音樂與畫面連結。只是這設定一開始就困難重重,因為最重要的訓練資料幾乎是無法取得。

AI 並非無中生有,機器學習有賴龐大、高品質的資料。

想要讓 AI 學習聽音樂聯想畫面,就必須要有真人示範,聆聽音樂並畫出心中所浮現的畫面來當作訓練資料。找人聽音樂不難,但找來的人未必善於繪畫;即使花大錢請畫家參與實驗,人少沒有代表性,人多則風格又可能大相逕庭。「演奏動作還有跡可循,但大家聽音樂腦補的畫面都不一樣,這樣是沒辦法當作訓練素材的。」蘇黎點出其中關鍵。

研究團隊決定退而求其次,改成在一組音樂跟一組影像資料庫,透過兩者之間共享的語義標註(labels),試圖建立起對應關係。就像是電腦在連連看,如果配對起來共通點還算合理就成功。此時問題又來了,所謂「合理」實在難以界定,於是執行標準只好再一次降低,音樂與畫面的共同標註越簡單越好。

「雖然這跟當初想像中的差距非常大,但目前我們也只能用創作年代來當標註。」蘇黎說,經由創作年代這個共同標註,電腦聽到 1800 年的樂曲就會連到同樣年代的圖畫。即使不符原本理想,模型建立起來後,在虛擬音樂家系統裡還是可以發揮一些功能,像是為演奏會搭配符合音樂年代的背景畫面,或色彩效果。

蘇黎團隊風格轉換的案例,透過共享語義標註,在電腦聽到印象樂派作曲家德布西的音樂(Sarabande in Pour le piano, L. 95(1901))之後,原本為巴比松畫派的圖像(The Lake Her Lone Bosom Expands to the Sky(1850)),會轉換成印象畫派風格。圖/蘇黎(Crossing You in Style

如何成為音樂資訊研究者?

在虛擬音樂家系統之前,蘇黎與實驗室團隊(音樂與文化科技實驗室)在自動音樂採譜方面的研究已經有豐厚成果,他們研發出開源工具《Omnizart》。

《Omnizart》是音樂與文化科技實驗室研究成果集大成的實用開源工具。

它具備當前全世界最多樣樂器組合的分析功能,只要輸入一段音樂,不管是鋼琴獨奏、多重樂器、打擊樂,還是和弦辨識、節拍偵測,甚至是困難的人聲處理,都會幫你分析。

「像鋼琴這類樂器的話,是音樂進去《Omnizart》,生出 MIDI;而人聲進去會輸出成供電腦判讀的數位資料。」蘇黎解釋,透過這些數字化的音訊數據能了解每一瞬間的音高變化,或是泛音、抖音等手法。研究自動採譜 AI 是因為,蘇黎想探究如蕭邦的夜曲等,這些百年來不斷被重複演奏超過千百次的古典樂,在不同時代、風格迥異的音樂家手中究竟是如何被詮釋。

而這次蘇黎用 AI 創造虛擬音樂家系統,同樣也是源於本身對音樂的喜愛與好奇。不是科班出身的他能彈奏鋼琴、吉他,會吹小號,喜歡聽經典的古典樂。對蘇黎來說,興趣是驅使研究向前的一大動力,他認為身為研究者必須要時常探索新的領域,因此常會要求自己不斷接觸世界各國的在地歌謠。

蘇黎的下一步,是以現有虛擬音樂家系統為基礎,加入更多細膩動作(例如臉部表情)的虛擬多人樂團。他也坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術,都還有很大的進步空間。想訓練電腦產生出更貼近真人演奏者動作的虛擬音樂家,必須花大量人力取得更多影片資料。「民眾常以為不用多做什麼 AI 就會自己學習,但真相是沒有夠好的資料什麼都不用談。」蘇黎解釋,AI 研究者的時間幾乎都耗在蒐集資料上。

同時,研究室也在規劃下一場發表。蘇黎認為,實體演奏會是考驗研究品質最好的方式。除了訓練好模型,現場還有很多要克服的變數,像是很多音樂廳沒有網路,團隊必須將整場演奏會所需的模型,事先設計成用一台筆電就能執行。「總不可能演奏到一半,資料量太大電腦跑不動,然後要跑出去連網路吧。」蘇黎笑著說,音樂會現場要面對很多做研究時不曾碰到的狀況,是很刺激、有挑戰性的任務。

AI 將是未來主流,是好、是壞終究取決於人心。

AI 出現之後,自然也面臨許多批判,例如工作是否會被 AI 取代,甚至以 AI 操控虛假言論或用在軍事用途,但蘇黎覺得,主導權終究還是躲在背後操作的「人」。同樣,隨著虛擬音樂家系統日漸完善,真人音樂家是否擔心未來飯碗被搶走?令人意外的是,蘇黎說身邊最期待這個系統的反而就是與他合作的藝術家,「別小看他們,藝術家可是一群勇敢、期待新事物、信仰未來的人。」

蘇黎未來研究方向是以現有虛擬音樂家系統為基礎,再加入更多細膩動作的虛擬多人樂團。他坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術,都還有很大的進步空間。圖/研之有物

延伸閱讀:

文章難易度
所有討論 2
研之有物│中央研究院_96
288 篇文章 ・ 2916 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

2

20
1

文字

分享

2
20
1
AI 接手譜出的貝多芬遺作《第十號交響曲》,連專業音樂家也「難解難分」!
Peggy Sha
・2021/11/03 ・2214字 ・閱讀時間約 4 分鐘

在古典音樂界裡,流傳著這麼一個傳說:作曲家在寫完第九號交響曲之後,生命也就到了盡頭。而貝多芬(Ludwig von Beethoven)便是這個詛咒最著名的「受害者」之一。

著名作曲家貝多芬。圖/維基百科

1817 年,英國皇家愛樂協會(Royal Philharmonic Society)請貝多芬創作了兩首交響曲,這第一首呢,便是《第九號交響曲》(Symphony No.9 in D minor, Op.125),完工後成為了經典不朽的代表作,把《歡樂頌》快樂直送到世界各地的人們耳中。

然而,可惜的是,在開始著手《第十號交響曲》(Beethoven Symphony No.10)後不久,貝多芬的健康便迅速惡化,最終在 1827 年離開了世界,而這第十號交響曲,除了幾個音符加上各式各樣的筆記之外,就啥也沒有了,從此成為了樂迷們心中的遺憾。

人死不能復生,但,大家的好奇心可沒這麼容易被殺死。最近,一個專門推廣音樂科技的奧地利機構,卡拉揚研究所(Karajan Institute)便集結了一群音樂學家、作曲家、AI 科學家、歷史學家,嘗試從手稿裡找到蛛絲馬跡,並藉由 AI 的力量,將貝多芬的遺作帶給世界,為他慶祝 250 歲生日。

到底,AI 是怎麼「寫」出這首曲子的?它真能滿足大家的耳朵嗎?

早有人挑戰續寫大師神作!風格不同被罵慘

你或許會想,啊都交給 AI 了,寫個曲應該沒什麼困難的吧?嘿,那你可就太小看貝多芬給大家出的作業了。

1988 年時,一位名叫貝瑞庫珀(Barry Cooper)的音樂學家便曾嘗試挑戰這項任務,他蒐集了貝多芬老大的手稿和各式資料,用自己的理解試圖創作出一個最接近貝多芬風格的第一和第二樂章。

不過呢,這兩個樂章寫完了之後,大家卻是罵聲連連,很多人覺得他根本沒有搞懂貝多芬的風格,只是在狗尾續貂。

另一方面,所謂「寫得出」曲子跟「寫得好」曲子完全是兩回事,要真正讓 AI 掌握作曲家原本的風格、進而去模仿,需要考量的面向比單純輸入資料難多了。

曾有音樂家挑戰續寫貝多芬的《第十號交響曲》,卻被抨擊為狗尾續貂。圖/Pixabay

發揮偵探精神,分工合作打團戰

曾經失敗沒關係,這次計畫的負責人,卡拉揚研究所的所長 Matthias Röder 可不是吃素的,他的最高原則大概可以八字概括:AI 不夠、人腦來湊

專家們開了幾次小組會議後,基本協調出了這樣的分工:計算音樂學家 Mark Gotham 與 AI 專家 Ahmed Elgammal 要梳理貝多芬的手稿,並將他過去的寫作脈絡通通餵給 AI,讓機器學習他的邏輯與理念;寫出 Intel 鈴聲的奧地利作曲家 Walter Werzowa 負責把貝多芬留下的片段和 AI 生出的旋律給合在一起;音樂學家 Robert Levin 提供專業建議,協助進行優化與調整。

這組合不錯,聽起來會順順完成對吧?錯!

所謂交響曲呢,通常會由四個樂章組成:第一個樂章開場,節奏稍快;第二個樂章來個轉折,變得較慢;第三樂章會是中板或快板;到了最後一個樂章時,則會以澎湃激昂快節奏結束。

好了那麼問題來了:同樣一段旋律,它出現在第二樂章與第四樂章,會達成完全不同的效果,弄得不好,那差異就像「我要結婚啦!」、「新郎不是我QQ」一樣悲劇。

於是乎,團隊需要判斷:第十號交響曲的主題旋律到底為何?哪個時候可能是新樂章的起點?這種種判斷,都有賴人腦協助決定。

作曲小白,從零開始的譜曲之路

決定好了各個音符或片段出現的位置後,團隊又有新的考驗:要怎麼就既有片段進行擴寫呢?當然不能隨機組合,想要延伸樂句,就必須遵從一些音樂形式,它可能是三拍子、聽起來輕快的詼諧曲;又或許是不同音高旋律和諧融合出的賦格……

接下來,團隊就開始了漫漫 AI 教學之路,先學會怎麼讓音符組起來和諧、再學怎麼將兩個段落連結、接著要知道怎麼為段落收尾、還要知道怎麼分配各個樂器,總而言之,就是讓 AI 掌握各種基本的作曲規則與技巧,生出的旋律才能符合規範。

小考囉!電腦、人腦,傻傻分不清楚?

經過一段時間的努力後,團隊終於帶著 AI 奔赴「考場」。2019 年 11 月,他們找來了一群記者、音樂學家和專門研究貝多芬的專家作聽眾,並讓鋼琴家演奏 AI 創作的音樂片段,測測聽眾們是否可以確定 AI 開始接手作曲的節點出現在哪裡?結果大家並未成功找出來。

幾天之後,他們又透過弦樂四重奏的方式演奏了 AI 所作的作品片段,結果只有非常熟悉貝多芬手稿的人才能確定人工智慧接手的點究竟在哪裡。

這兩次小考都算是成功通過,讓團隊信心倍增。在接下來的 18 個月中,研究團隊一起編出了兩個完整、各超過 20 分鐘的樂章。

終於,在 10 月 9 日,研究團隊帶著 AI 創作的作品回到了貝多芬的出生地德國波昂(Bonn)進行了全球首演,至於這首曲子聽起來到底夠不夠「貝多芬」呢?就交給你判斷吧:Beethoven X: The AI Project

參考資料:

  1. https://www.classicfm.com/composers/beethoven/news/computer-completes-unfinished-tenth-symphony/
  2. https://theconversation.com/how-a-team-of-musicologists-and-computer-scientists-completed-beethovens-unfinished-10th-symphony-168160
文章難易度
所有討論 2
Peggy Sha
69 篇文章 ・ 388 位粉絲
曾經是泛科的 S 編,來自可愛的教育系,是一位正努力成為科青的女子,永遠都想要知道更多新的事情,好奇心怎樣都不嫌多。

0

0
0

文字

分享

0
0
0
是什麼蒙蔽了我的雙眼?如何防範生成式 AI 的假資訊陷阱?——專訪中研院資訊科技創新研究中心副研究員陳駿丞
研之有物│中央研究院_96
・2023/09/24 ・5782字 ・閱讀時間約 12 分鐘

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|沙珮琦
  • 責任編輯|簡克志
  • 美術設計|蔡宛潔

不再是有圖有真相!深偽影像猖獗,我們該如何判別?

你看過美國前總統川普被警方逮捕的影片嗎?又或是英國女王在皇宮中大跳熱舞的片段?多年來,人們普遍相信著「有圖有真相」的道理,然而,隨著圖像與影音相關的生成式 AI 越發成熟,我們似乎再也不能輕易相信自己的雙眼。而在真假影音的差異可說是微乎其微的狀況下,我們究竟該如何判斷資訊真實性?中央研究院資訊科技創新研究中心的副研究員陳駿丞與團隊每天在尋找的,便是有效又好用的解決方案。本次,中研院「研之有物」將透過專訪,從生成式 AI 的原理開始了解,一步步為各位解開深偽影像的神秘面紗。

你已經是個成熟的 AI 了!幫我工作!

一講到生成式 AI,許多人都能立刻喊出「ChatGPT」的大名,足見這個領域之熱門程度。其實,生成式 AI 發展並不是近年才開始的事,可是為什麼直到最近,才受到社會大眾的熱烈歡迎呢?

中研院資創中心的陳駿丞副研究員認為,其中最關鍵的原因,莫過於 AI 程式的優秀表現開始讓一般人很「有感」。由於生成式 AI 的相關研究快速發展,基礎建設在近年來逐漸成熟,使用介面也設計得十分親民,讓大眾能透過極為直覺、簡單的方式去使用,實際體會到應用的效果,例如改善工作效率、處理圖像任務等,再加上大眾媒體的渲染,便帶起了 2023 前半年的 AI 風潮。

陳駿丞笑著說,雖然自己不是文字生成式 AI 的專家,但使用「ChatGPT」時,也發現到它真的能做到很多事,比早期的 Siri 效果更好、更準確。的確,對於我們來說,這款基於 OpenAI 開發的大型語言模型(Large Language Model)的聊天機器人(Chatbot),就彷彿是一個全能小秘書一般,可以整理文案、改錯字,甚至連寫程式碼都不在話下。

場景轉換到影像領域,如今市面上也有同樣由 OpenAI 打造出的圖像生成平台「DALL·E 2」,或是大名鼎鼎的「Midjourney 」,都可以很有效率的將使用者文字描述轉換成圖片。雖然這些平台生成的內容偶爾還是會出現「破圖」的情況,例如頭髮少一塊,或是出現奇怪色塊等,但它們的生成速度極快,也能產生不少令人印象深刻的高品質內容;對於一般大眾而言,自然充滿吸引力。

陳駿丞解釋,過去也有許多以文字產生圖片的嘗試,但品質並不佳,而現在之所以可以顯得如此真實,便是借助了「擴散模型」(Diffusion Model)的強大威力。大約 2019 年左右,「擴散模型」逐漸超越了原本主流的「生成對抗網路」(Generative Adversarial Network,GAN),吸引大量研究人員投入,也因此衍生出「Midjourney」這類的圖片服務,打個字、按個鈕便能生成美美的圖片。進階使用者還可以輸入如同咒語般長的自訂提示詞(Prompt),生成符合需求的圖片,甚至還有人專門訓練生成提示詞的 AI,各種 AI 藝術社群也如雨後春筍般成立。

提示詞給的資訊越多,就越有機會用繪圖 AI 生成想要的客製化圖片。
圖|研之有物(資料來源|Midjourney)

神奇 AI 訓練師——「擴散模型」與「生成對抗網路」

等等等等,什麼是「擴散模型」?什麼是「生成對抗網路」?想了解兩者的不同,讓我們先從比較「資深」的那個開始說起。

所謂「生成對抗網路」,其實是由兩個網路所組成的,分別是「鑑別網路」(Discriminating Network)與「生成網路」(Generative Network)。這兩者間的關係就像是考官和學生(亦敵亦友!),學生(生成網路)要負責把圖生出來,交給考官(鑑別網路)去判斷這張圖跟真實圖片的分布究竟像不像,像就給過、不像就退回去砍掉重練。

至於考官(鑑別網路)為什麼能如此精確呢?因為研究員會預先餵給它真實的圖片,好協助鑑別網路做出足夠專業的判斷、給予精準回饋。而學生(生成網路)則在這一次次「交作業、修正、交作業、修正」的過程中,畫出越來越接近真實模樣的圖片。

生成對抗網路的概念比喻圖,生成網路與鑑別網路這兩組神經網路會相互訓練,生成網路所產出的圖片會越來越接近鑑別網路的目標,差異越來越小。
圖|研之有物(資料來源|李宏毅

相比起 GAN 對錯分明、馬上定生死的特點,「擴散模型」採取的路徑相對而言非常迂迴,但是結果更為精準,如果採用知名電腦科學家臺大電機系李宏毅教授的比喻,擴散模型就像是從一塊大石頭裡面刻出大衛像,圖片就在雜訊當中!

「擴散模型」在訓練期間的第一步是加噪(add noise),以貓為案例來說,擴散模型的原理就是將一張正常的貓咪圖片,用統計方法取樣出一張特定大小的雜訊圖(例如 512*512),過程中研究人員會控制參數去加上高斯雜訊。第二步是去噪(denoise),透過減去預測的高斯噪聲,得到乾淨的原貓圖。模型訓練的越好,預測的高斯噪聲量越準。

訓練好之後,「擴散模型」在輸出的時候,為了輸出符合使用者文字指令的貓咪圖片,模型會從隨機的雜訊圖開始,應用訓練過程的去噪器,像物理的擴散過程一樣,逐漸改變每個像素點的值,反覆去掉噪點,得到最後新的貓咪圖。

如果有用過 Midjourney 的人,應該也會發現 AI 收到文字指令開始產圖的時候,是從一張模糊不清的圖片,一顆顆像素逐漸改變,變成你要的圖。

擴散模型透過加噪和去噪來訓練模型,利用去噪來生成圖片。實際生成圖片的過程,就是逐步去除噪聲的過程。
圖|研之有物(資料來源|李宏毅

陳駿丞指出,由於這些噪聲都是研究員自己加的,所以控制度極高,也可以掌握其中細部的變化過程。而這種「保姆式」訓練法,最大的好處就在於:擴散模型是一種漸進式學習的過程,因此對於細節的掌握度將會更高。

陳駿丞提到,兩種方式的訓練時間其實差不多,但以執行時間來說,「擴散模型」會比較久一點,因為需要慢慢摸索,而 GAN 則是幾乎一步到位。不過,雖說處理時間可能較長,「擴散模型」卻也因為訓練比 GAN 更穩定與更全面這份特質,可以訓練很大的資料集,也能生出較為豐富多元的成果。

侵權與假消息——生成式 AI 的負面影響

能生出細膩而接近真實的圖乍聽之下是好事,但它同時也是一把雙面刃,可能伴隨著侵害智財權、製造假消息等等負面效應。

在訓練生成式 AI 相關模型時,必定需要大量的資料做為參考,而以 AI 繪圖來說,許多資料其實是未經授權的網路圖片;假設宮崎駿的圖片被盜用去訓練開源模型,那這些生成式 AI 後來生出的圖可能就會帶有宮崎駿的風格或曾經畫過的元素,這樣是否會帶來侵權或抄襲的問題?是我們必須思考的重要課題。

而說到假消息,就一定得談到值得關注的「深偽」(Deepfake)技術。雖然這個詞很容易讓人聯想到一些負面的事件,比如新聞報導網紅小玉用深偽技術製作不雅影片。然而,陳駿丞澄清,深偽技術最常出現的場域其實是在電影工業中。其中,最知名的應用,莫過於《玩命關頭》系列電影,在拍攝期間主角保羅沃克不幸意外離世,劇組便透過電腦合成影像技術,讓主角的弟弟替身上陣,主角身影得以再次與觀眾相見。

用你的魔法對付你!反制深偽影像的 AI

深偽技術若運用得宜,便是賺人熱淚的神器,反之,卻也可能成為萬人唾罵的幫兇,面對這樣強大的工具,難道我們只能乖乖束手就擒嗎?才不!既然 AI 如此強大,那我們就訓練 AI 來對付它!

陳駿丞分享道,反制深偽影像常用的方法便是訓練「二元偵測器」,藉由蒐集大量真實與偽造影像資料去訓練 AI,讓它得以判斷影像的真偽。然而,深偽有很多種,而二元偵測器對於沒有看過的資料,表現會大打折扣。

過去人們是用 GAN 來生圖,現在是用擴散模型來產圖,未來也有可能出現新的方式,想要找出一個一勞永逸的方法,其實並不容易。

陳駿丞認真地說,深偽偵測的過程,其實很像在研發一套「防毒軟體」,防毒軟體很難永遠跑在病毒前面,大多是遇到病毒再往下思考解方。但是,面對這樣的情況也不用完全悲觀,因為訓練偵測模型可以透過「非監督式」和「自監督式」等方式去進行模擬,進而得出比較能廣泛應用的工具。

除了偵測深偽的錯處之外,我們也可以針對訓練資料動點手腳,像是加上一些「浮水印」。許多生成式 AI 的訓練資料來自圖庫圖片,其中許多圖片自帶防盜浮水印,假設 AI 蒐集了這些素材,往後生成的圖片中可能就會出現「版權所X」等等字樣。

而我們能做的,便是為訓練資料加上肉眼看不見的浮水印。比如說,在影像領域中,伽碼(gamma)指的是用來編(解)碼照度的非線性曲線,我們可以偷偷將浮水印藏在人眼看不見的伽碼範圍中,唯有調整到特定區域,才能看見浮水印。聽起來是不是很像我們小時候用檸檬汁玩的隱形墨水呢?

同樣是浮水印,我們也可以將它藏在人眼比較不敏感的頻率中,然後偷偷放去圖片中邊邊角角的地方,讓人眼看不出來。 加入浮水印後,我們就可以進一步訓練偵測器去尋找浮水印。假設偵測器能在圖上面找到浮水印,那就可以藉此推斷圖的真偽。

而相對偵測、加浮水印等等「補救」的方式,假設我們已經掌握了一些模型的架構,便能透過添加「對抗樣本」(Adversarial Examples),直接攻入生成式 AI 的大本營,讓這些深偽 AI 只能生出一些亂七八糟、毫無邏輯的圖片,或是強迫生成特定的圖案。例如找出幾個常用、能進行臉部特徵操作的 GAN,針對它們研發相關對抗樣本,如此一來,只要加入了團隊開發的噪聲,便能同時打壞這幾種 GAN 的生成。

對抗樣本是防禦深偽模型的有效手段,干擾深偽模型的影像生成。
圖|研之有物

假消息滿天飛怎麼辦?交給深偽影像偵測器!

這麼看下來,深偽偵測若想做得好,需包含的面向又多又廣、還很複雜,但請各位別緊張,陳駿丞與中研院、臺灣大學、臺灣科技大學、成功大學、中央大學以及國家高速網路與計算中心其他教授與研究員共同組成的研究團隊,最近才剛打造出一款泛用性相對較佳的「深偽影像偵測器」,團隊其他研究成員包括王新民研究員、曹昱研究員、花凱龍教授、許志仲教授、許永真教授、蔡宗翰教授與國網的郭嘉真研究員。

這款偵測器以慕尼黑工業大學和義大利拿坡里費德里克二世大學共同提出的偽造人臉資料庫「Face Forensic++」為基礎,透過自監督的方式去產生出深偽的各式可能形式。

團隊是如何訓練偵測器的呢?具體的運作方式是:先偵測輪廓、產生一個「面罩」去界定人臉的位置;接著,再讓偵測器透過些許微調去模擬深偽影像的特徵;再來,將這些「模擬的深偽影像」丟回去當作訓練資料。經過訓練的偵測器便能大幅升級,可以根據顏色、頻率、邊緣特徵等等參數,去判斷影像的真偽,甚至可以幫這些深偽影像區分難度呢!

影片是陳駿丞與團隊的深偽辨識成果,這裡設定為辨識 Deepfake 模型。看到紅框了嗎?數值越小,就表示圖片是深偽的可能越高,這個工具不僅能告訴你影像的真假,甚至能針對顏色、頻率、調整程度做出判斷。
圖│研之有物(資料來源│陳駿丞)

聽起來,這樣的偵測器已經很完美了?陳駿丞笑著說,這樣的內容一經發表,偽造資訊的一方可能又會想辦法繞過這些地方,對雙方來說,這就是場永無止盡的攻防戰,對此,陳駿丞表示,團隊想要完成的,便是:

盡量提供一個比較完整的解決方案,提供普羅大眾各種可能的工具,盡可能讓大家的資料不會被偽造,並幫助他們偵測。

陳駿丞笑著說,在發表深偽偵測的研究內容之後,偽造資訊的一方肯定又會想辦法繞過,這是一場永無止盡的攻防戰。
圖|研之有物

深偽技術防護罩——對所有事保持懷疑

這一份深偽影像偵測器凝結了眾人的心血,陳駿丞很期待未來偵測器正式上線後,能透過國家高速網路與計算中心設計的好用介面讓大家方便操作,在詐騙防治方面盡一份心力。同時,也期待各界看到這個工具的潛力,願意成為堅強的支持力量。

那在這麼好用的工具正式上線之前,我們又該如何去判斷影片的真假呢?陳駿丞傳授了我們一些獨家小絕招:首先:注意「姿勢」,深偽影片可能會出現一些不自然的怪異姿勢;其次,可以關注「背景」,比如突然出現裂痕之類的;再來,也要看看「衣服」等等細節,可能會發現破圖的蹤跡。而影片若是出現側臉時,也比較容易發現瑕疵,比如說頭髮動得很怪、眼神不對、牙齒沒牙縫等等。

另一方面,如果影像的解析度太低,也會影響深偽偵測的準確性,所以,對於太過模糊的圖片、影片,都應該格外小心。

陳駿丞也提醒,隨著相關造假技術日臻成熟,圖片、影片中的細微瑕疵將會越來越難以察覺,這時候,一定要謹記以下原則:

不能像以前一樣看到影片就覺得是真的,還是要抱持懷疑的態度。

假設看到一些違反常理或「怪怪」的內容,一定要多方查證,絕不可以馬上就相信。

讀到這裡的各位,想必已經被陳駿丞裝上了一套強而有力的「深偽防毒軟體」,希望大家帶著這層防護罩,在生活中遠離虛假、靠近真相!(p.s. 要記得定期更新啊!)

陳駿丞與實驗室成員合影。未來他們將和國網中心合作,正式推出深偽偵測辨識平台。
圖|研之有物
研之有物│中央研究院_96
288 篇文章 ・ 2916 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

1

1
1

文字

分享

1
1
1
AI 做簡報又更簡單了!只輸入網址,Bard 就整理好線上論文?
泛科學院_96
・2023/08/20 ・689字 ・閱讀時間約 1 分鐘

超誇張,只要貼上網址,Google Bard AI 把網頁內容變成簡報,這這這我還能不變心嗎?

之前有一支影片分享了 ChatGPT 結合 Power Point 的簡報製作技巧。

在 Bard 大更新之後,運用網頁瀏覽的功能,不管是線上期刊還是論文,轉換成簡報更加的方便,根據我自己的測試,只要五分鐘,從一篇網路上的論文就可以快速的變成一份漂亮的簡報,這真是懶人救星啊!

今天簡單的分享了 Bard 支援連接網路之後的論文摘要功能,並且回應之前影片網友遇到的內容大綱轉簡報的製作問題,希望這支影片能解決你的問題

看完影片之後你覺得 Bard 的哪個功能最讓你驚艷或驚嚇呢?

  1. 拳打 ChatGPT 的連網功能
  2. 腳踢 ChatGPT 的內容準確性
  3. 豪奪網站的資訊內容
  4. 巧取生成錯誤資訊魚目混珠

如果你有更多的想法與問題,歡迎加入泛科學 AI 的 Discord 論壇,我把連結放在影片下方資訊欄。

如果這支影片對你有幫助的話,請幫我在影片下方點個喜歡,或是透過超級感謝展現你的心意,讓我製作更多實用有趣的 AI 教學影片,最後別忘了訂閱泛科學院的頻道,我們下支影片再見囉。

更多、更完整的內容,歡迎上泛科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

所有討論 1
泛科學院_96
5 篇文章 ・ 7 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!