0

3
2

文字

分享

0
3
2

關於Deepfake色情影像:雖然內容是假的,但傷害是真的

雷雅淇 / y編_96
・2022/01/29 ・3412字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

2021 年 5 月,鏡週刊的深度報導《臉被偷走之後——無法可管的數位性暴力?台灣 Deepfake 事件獨家調查》中,揭露了早在 2020 年就已經存在、利用 Deepfake 深度造假技術製作收費色情影片的 Telegram 群組,並訪問了數位影片中的受害女性。

2021 年 10 月,臺灣警方透過 Twitter 上的換臉色情影片追蹤到了該群組,逮捕了相關涉案人,「被換臉」的人除了名人之外,也包含一般人的換臉影片。此案在臺灣掀起了翻天覆地的討論,內容圍繞在 Deepfake 技術的濫用、和數位性暴力等相關議題。

到底 Deepfake 色情內容有多氾濫?而它又造成了什麼樣的傷害呢?

大部分的 Deepfake 影片都是色情內容

圖/envato elements

「Deepfake」指的是利用人工智慧深度學習技術,在某人沒有說過、拍過和錄過某些內容的狀況下,生成他的聲音、圖像或影片。(延伸閱讀:Deepfake 不一定是問題,不知道才是大問題!關於 Deepfake,你需要知道的是⋯⋯?

-----廣告,請繼續往下閱讀-----

早在 2016 年,來自斯坦福大學、馬克斯普朗克研究所和埃爾蘭根-紐倫堡大學的研究人員,就已經創建了一個名為 Face2Face 的系統,透過捕捉演員的面部表情,在其他人臉上生成一樣表情的影像。不過,我們現在熟悉的「Deepfake」一詞,卻是 2017 年才現身;而且它最早的姿態,便是色情內容:由一位名為「deepfake」的 Reddit 的用戶,上傳的明星假性愛影片。

Face2Face: Real-time Face Capture and Reenactment of RGB Videos (CVPR 2016 Oral)

直到現在,網路上雖然不乏一些迷因、或是跟政治人物相關的 Deepfake 影片到處散播,而且數量越來越多,但 Deepfake 應用最多的,仍是色情內容。人工智慧公司 Sensity AI 的統計發現,自 2018 年以來,網路上的虛假影片每六個月成長一倍,截自 2020 年 12 月為止,他們透過自己的檢測技術,偵測到至少85047 個假影片在網路上流傳。

2019 年,Sensity AI(在當初的名稱為 Deeptrace)的報告統計,有 96%的 Deepfake 影片是色情內容,在色情網站上的內容幾乎百分之百都是以女性為主,被觀看次數超過 1.34 億次。由此可見,「色情內容」無疑是所有 Deepfake 應用中,內容最多、製造速度最快、傳播廣的類型。

色情網站龍頭 Pornhub

此外,儘管色情網站龍頭 Pornhub 指出,他們不會容許包含 Deepfake 影片在內的任何非自願性質的內容出現,但根據 Deeptrace 的統計,2019 年排名前十的色情網站中,有 8 個網站裡有 Deepfake 的內容,另外還有 9 個 only for Deepfake 的色情網站,而這些網站裡的內容,佔了 Deepfake 色情內容的九成以上。

-----廣告,請繼續往下閱讀-----

雖然,這些影片中被換臉的主角通常是名人,但受到 Deepfake 色情內容所苦的,不只有他們。

雖然內容是假的,但傷害是真的

2019 年 6 月 23 日,一個叫做 DeepNude 的網站上線:它提供可以免費下載的應用程式,利用生成對抗網路(Generative Adversarial Network,簡稱GAN)技術,將女性有穿衣服的照片生成為裸照。雖然由它生成的照片都有浮水印,但只要付費就能把浮水印變小;重點是,它的使用方法很傻瓜,只需要一張女性的照片就行了,而且「穿越少」效果「越好」。

這個應用程式因為 Motherboard 的報導而爆紅,甚至一度因為下載量過大,導致網站不堪負荷。諷刺的是,Motherboard 報導的目的,原本是為了要批評 DeepNude 對於女性的傷害。雖然DeepNude 隨後在 6 月 27 日下架(其後又在同年 7 月 19 日以 30000 美元出售給匿名買家);但其應用程式直到今天,仍在一些開源社群、種子網站等地方被不斷的上傳下載。

圖/envato elements

2020 年,Sensity AI 發現了另一個與 DeepNude 很相似的 Telegram bot,只要向這隻機器人傳送照片,便能直接生成裸照、且可以透過付費,得到去除浮水印或免等候等服務。根據統計,這當中起碼有十多萬名女性被生成裸照,當中包含未成年人。雖然被報導之後,相關群組一樣已經被官方刪除,但這絕對不會是最後一次,Deepfake 被這樣惡性利用。

-----廣告,請繼續往下閱讀-----

雖然 DeepNude 的創辦人表示,他當初設計這個程式的初衷,是被小時候在雜誌上看到的「X 光眼鏡」所啟發(其 logo 也是為此致敬),他有想過這個程式會不會傷害到人,但他也表示能用 DeepNude 做到的事,任何人用 Photoshop 也能做到;如果有任何人懷有惡意想要做壞事,那有沒有 DeepNude 並不會有影響。然而情況卻是,有人因為類似應用被威脅,甚至遭受到復仇式色情(Revenge porn,本用詞為俗稱,目前有倡議應稱呼「未經同意即散布之私密影像(Non-consensual pornography)」,以避免簡化問題本質)的攻擊。

所謂「復仇式色情」,指的是未經過他人同意,任意散佈含有他人色情內容之照片或影片等影像的報復手段。美國心理學會的一項研究發現,每 12 名女性中,就有一名最終在她們生命的某個階段成為復仇式色情片的受害者。在過往,合意或是被偷拍的親密影像在非自願的狀況下外流就已經夠難防了,有了 Deepfake 之後就更難了:因為當事人根本不會意識到有這樣的影像的存在。而這些內容被用於勒索,甚或是威脅名人、記者等案例層出不窮。

圖/envato elements

「我要怎麼證明那不是我?我走在路上、搭捷運,可能有一些陌生人,他看我或交頭接耳的時候,我都會覺得,是不是他們看過那個影片?覺得我是那樣的女生?覺得我是很糟糕的人?」在鏡週刊的訪問中,被換臉的 Youtuber 球球這樣說道。儘管那真的不是自己,儘管內容是假的,但這類的色情內容造成的傷害卻是真實的。

波士頓大學法律學教授 Dielle Citron 在他的著作《網路空間裡的仇恨犯罪(Hate Crimes in Cyberspace)》中提到:Deepfake技術正在成為針對女性的武器,這些性愛影片當中的身體雖然不是自己的,卻會對當事人造成影響,讓他們不想再上網、難以獲得或維持工作、並且感到不安。

-----廣告,請繼續往下閱讀-----

Deepfake 最大的傷害不是來自技術,而是使用方式

從大量資料到一張照片、從專家操作到素人也行、從粗糙到以假亂真,Deepfake 的技術一直進步,而這已然打開的潘朵拉的盒子,要關上的方法,也必然需要人與科技的協力。

從辨偽技術的進步(延伸閱讀:Deepfake 辨偽技術如何在魔高一尺時,能道高一丈呢?)、法規制度的更新(延伸閱讀:應對Deepfake濫用,台灣修正刑法夠用嗎?),到協助被害人刪除與爭取權益等制度的完善,以及不看、不擴散,多理解技術對社會可能的影響:在面對 Deepfake 色情內容所造成的傷害,沒有人是局外人。

參考資料

  1. Deepfake Porn Nearly Ruined My Life
  2. How to Detect a Deepfake Online: Image Forensics and Analysis of Deepfake Videos – Sensity
  3. THE STATE OF DEEPFAKES
  4. Deepnude: The Horrifying App Undressing Women
  5. 臉被偷走之後:無法可管的數位性暴力?台灣Deepfake 事件獨家調查- 鏡週刊Mirror Media
  6. Deepfake porn is ruining women’s lives. Now the law may finally ban it. | MIT Technology Review
  7. Deepfakes have got Congress panicking. This is what it needs to do. | MIT Technology Review
  8. A deepfake bot is being used to “undress” underage girls | MIT Technology Review
  9. Nonconsensual Pornography Among US Adults: A Sexual Scripts Framework on Victimization, Perpetration, and Health Correlates fo
  10. An AI app that “undressed” women shows how deepfakes harm the most vulnerable | MIT Technology Review
  11. Deepfakes have got Congress panicking. This is what it needs to do. | MIT Technology Review
  12. The biggest threat of deepfakes isn’t the deepfakes themselves | MIT Technology Review
  13. How to Detect a Deepfake Online: Image Forensics and Analysis of Deepfake Videos – Sensity
  14. The year deepfakes went mainstream | MIT Technology Review
  15. Inside the strange new world of being a deepfake actor | MIT Technology Review
  16. I Was The Victim Of A Deepfake Porn Plot Intended To Silence Me | HuffPost UK News
文章難易度
雷雅淇 / y編_96
38 篇文章 ・ 1232 位粉絲
之前是總編輯,代號是(y.),是會在每年4、7、10、1月密切追新番的那種宅。中興生技學程畢業,台師大科教所沒畢業,對科學花心的這個也喜歡那個也愛,彷徨地不知道該追誰,索性決定要不見笑的通吃,因此正在科學傳播裡打怪練功衝裝備。

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
雅文兒童聽語文教基金會_96
54 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。

0

3
0

文字

分享

0
3
0
有圖沒真相!?GAN 人工智慧系統的發展與未來——《AI 製造商沒說的祕密》
時報出版_96
・2023/01/31 ・4731字 ・閱讀時間約 9 分鐘

-----廣告,請繼續往下閱讀-----

醉後成為 GAN 之父

2013年秋天,伊恩.古德費洛(Ian Goodfellow)與大學實驗室夥伴在酒吧舉行歡送派對。大家就座,開始猛灌精釀啤酒。酒過三巡,古德費洛已有些微醺,這群研究員開始爭論什麼才是製造能夠自我創造相片寫實影像的機器之最佳途徑。

他們知道可以訓練一套神經網路來辨識影像,然後逆向操作,使其產生影像。但它只能產生一些精細、有如相片的影像,這樣的結果實在難以令人信服。

不過古德費洛的夥伴們有一個主意。他們可以對神經網路產生的影像進行統計分析──辨識特定像素的頻率、亮度,以及與其他像素間的關係。

然後將這些分析結果與真正的相片進行比對,這樣就可以顯示神經網路哪裡出錯了。問題是他們不知道該如何將這些資料編碼輸入他們的系統之中──這可能需要數十億的統計次數。

-----廣告,請繼續往下閱讀-----

古德費洛提出一個完全不同的解決之道。他解釋,他們應該做的是建立一套能夠向另一套神經網路學習的神經網路。第一套神經網路製造影像,企圖欺騙第二套神經網路認為這是真的。第二套會指出第一套的錯誤,第一套於是繼續嘗試欺騙,就這樣周而復始。他表示,如果這兩套相互對抗的神經網路對峙得夠久,他們就能製作出寫實的影像。

但是古德費洛的夥伴們並不認同。他們說這主意甚至比他們的還爛。同時,若非他已有些醉了,古德費洛可能也有同感。

「要訓練一套神經網路已經夠難了,」清醒時的古德費洛可能會這麼說,「你不可能在正在學習演算法的神經網路中訓練另一套神經網路。」不過他在當時完全相信可以做到。

當天晚上他返回公寓,他摸黑坐在床邊的桌前,仍然有些微醺,筆記型電腦螢幕的光反射在他臉上。「我的朋友是錯的!」他不斷告訴自己,同時用其他計畫的舊編碼來拼湊他所說的兩套對抗的神經網路,並且開始以數百張相片來訓練這套新裝置。

-----廣告,請繼續往下閱讀-----

幾個小時後,它開始顯現他所預期的效能。生成的影像很小,和一片指甲一樣,而且還有一些模糊。不過它們看來就和相片一樣。他後來表示,他完全是運氣來了。

「如果它不成功,我可能就會放棄了。」他後來在發表此一概念的論文中將它稱作「生成對抗網路」(generative adversarial networks,GANs)。自此之後,他成為全球人工智慧研究圈口中的「GAN之父」。

生成對抗網路的蓬勃發展

2014年夏天,他正式加入谷歌,當時他已在積極推廣GAN,強調這有助於加速人工智慧的研發。他在說明概念時,往往會以理查.費曼為例。費曼曾在教室黑板上寫道:「我創造不出來的東西,我就不了解。」

古德費洛相信費曼此一名言除了人類之外,也可以適用於機器:人工智慧創造不出來的東西,它就不了解。他們指出,創造,能夠幫助機器了解周遭的世界。

-----廣告,請繼續往下閱讀-----
GAN使人工智慧互相訓練與學習。圖/envatoelements

「如果人工智慧可以用逼真的細節去想像世界──能夠學習如何想像逼真的影像與逼真的聲音──這樣可以鼓勵人工智慧學習現實存在的世界結構,」古德費洛說道,「它能幫助人工智慧了解所看到的影像與所聽到的聲音。」如同語音、影像辨識與機器翻譯,GAN代表深度學習又向前邁進一大步。或者,至少深度學習的研究人員是這麼認為。

臉書人工智慧研究中心主任楊立昆(Yann LeCun)在2016年盛讚GAN「是深度學習近二十年來最酷的概念」。古德費洛的成就激發出許多圍繞其概念的計畫,有的是加以改進,有的是據此進一步發展,有的則是發起挑戰。

懷俄明大學的研究人員建造一套系統,能夠產生細小但是完美的影像,包括昆蟲、教堂、火山、餐廳、峽谷與宴會廳。輝達(NVIDIA)的一個研究團隊則是建造一套神經網路,可以將一幅顯示炎炎夏日的相片影像轉變成死氣沉沉的冬日。

加州大學柏克萊分校的研究小組則設計出一套系統,能夠將馬匹的影像轉變成斑馬,把莫內的畫變成梵谷的畫。這些都是科技界與學界最受人矚目與最有趣味的研發計畫。

-----廣告,請繼續往下閱讀-----

可是,就在這時,世界發生劇變。2016年11月,唐納.川普贏得美國總統大選。美國生活與國際政局隨之出現天翻地覆的變化,人工智慧也難以倖免。幾乎是立即出現的衝擊,政府開始打壓移民引發人才流動的憂慮。

美國排外政策造成 AI 產業衝擊

在美國就讀的國際學生已在減少之中,如今更是大幅銳減,對外國人才依賴甚重的美國科學與數學界也因此開始受創。「我們是開槍打自己的腦袋,」西雅圖著名的艾倫人工智慧研究所(Allen Institute for Artificial Intelligence)的執行長說,「我們不是打在腳上,是腦袋。」

一些大企業已在擴張他們的海外研發作業。臉書分別在蒙特婁與楊立昆的家鄉巴黎設立實驗室。川普政府移民政策所帶來的威脅在2017年4月就已顯現,距離他上任不過三個月。

與此同時,「深度學習運動之父」傑弗瑞.辛頓(Geoffrey Hinton)幫助成立向量人工智慧研究所(Vector Institute for Artificial Intelligence)。這是多倫多的一所研發育成機構,設立資金達一億三千萬美元,其中包括美國科技巨擘如谷歌與輝達的挹注。

-----廣告,請繼續往下閱讀-----

此外,加拿大總理賈斯汀.杜魯道(Justin Trudeau)也承諾以九千三百萬美元來扶持在多倫多、蒙特婁與愛德蒙頓的人工智慧研發中心。年輕的研究員莎拉.薩波爾(Sara Sabour)是辛頓一位關鍵性的合作夥伴,她的事業歷程足以說明人工智慧圈內的國際色彩是多麼容易受到政治影響。

2013年,在伊朗的謝里夫理工大學(Sharif University of Technology)完成電腦科學的學業之後,薩波爾申請到華盛頓大學深造,攻讀電腦視覺與其他方面的人工智慧,校方接受了她的申請。但是美國政府卻拒絕給予簽證,顯然是因為她在伊朗長大與就學的關係,而且她所要攻讀的領域,電腦視覺,也是潛在的軍事與安全科技。第二年,她成功進入多倫多大學,之後追隨辛頓加入谷歌。

在此同時,川普政府持續阻擋移民進入美國。「現在看來是美國企業獲益,」亞當.席格(Adam Segal)說道,他是美國外交關係協會(Council on Foreign Relations)有關新興科技與國家安全的專家,「但是就長期來看,科技與就業機會都不會在美國實現。」

2016年川普當選美國總統,開始打壓外國移民。圖,/wikipedia

人工智慧等技術讓製造假訊息變得更容易

但是人才的遷移還不是川普入主白宮所造成的最大變化。自選舉一結束,國內媒體就開始質疑網上假訊息對選舉結果的影響,引發社會大眾對「假新聞」的憂慮。

-----廣告,請繼續往下閱讀-----

起初祖克柏試圖消除這樣的關切,他在選舉的幾天後於矽谷的一個公開場合,輕描淡寫地表示,選民受假新聞左右是一個「相當瘋狂的想法」。但是許多記者、立法者、名嘴與公民都不予苟同。

事實上此一問題在選舉期間十分猖獗,尤其在臉書的社交網路,有數以萬計,甚至可能是百萬計的網民,分享一些虛假編造的故事,這些故事的標題例如「涉嫌希拉蕊電郵洩密案的聯邦調查局人員被發現死亡,顯為謀殺後自殺」或是「教宗方濟各支持川普競選總統震驚世界」。

臉書後來揭露有一家與克里姆林宮關係甚密的俄羅斯公司,花了超過十萬美元向470個假帳戶與頁面買網路廣告,散播有關種族、槍枝管制、同性戀權利與移民等方面的假訊息,此一事件使得公眾更感關切。

與此同時,社會大眾的憂慮也投射到GAN與其他相關的科技上,使它們以完全不同於過去的面貌成為世人焦點:這些科技看來是產生假新聞的管道。

-----廣告,請繼續往下閱讀-----
人工智慧讓假新聞更容易。圖/envatoelements

然而人工智慧科學家當時的研究卻完全是在助長這種看法。華盛頓大學的一支團隊,利用神經網路製作出一段冒用歐巴馬說話的影片。中國一家新創企業的工程師則利用相同的科技讓川普說中文。

其實偽造的影像並不是新玩意兒。自照相術發明以來,人們就開始利用技術來偽造相片。不過由於新式的深度學習可以自我學習這些工作──或者至少部分的工作──它們使得這樣的編輯變得更容易。

政治人物與活動、民族國家、社會運動人士、不滿分子往後不需要僱用大批人手來製造與散播假圖片和假影片,他們只要建造一套神經網路就能自動完成這些工作。

在美國總統大選期間,人工智慧的圖像操作潛能距離完全發揮仍有幾個月的時間。當時GAN只能產生如指甲大小的圖像,而要將字句置入政治人物的口中仍需要罕有的專業技能,更別說其他一些費力的工作了。

不過,在川普勝選一週年時,輝達在芬蘭實驗室的一支團隊開發出新款GAN,稱作「漸進式GAN」,可以利用對抗式的神經網路製造出實際尺寸的圖像,包括植物、馬匹、巴士與自行車,而且幾可亂真。

圖像不再能代表證據

不過這項科技最受矚目的是它能夠製造人臉。在分析數千張名人照片後,輝達這套系統可以製造出看來像是某位名人,但其實並不是的人臉圖像──一張看來像是珍妮佛.安妮斯頓(Jennifer Aniston)或席琳娜.戈梅茲(Selena Gomez)的臉孔,而實際上並非真人。這些被製造出來的臉孔看來都像真人,有他們自己的皺紋、毛孔、暗影,甚至個性。

「這項科技的進步速度太快,」菲利浦.艾索拉(Phillip Isola)說道,他是幫助開發此類科技的麻省理工學院教授,「剛開始時是這樣的,『好吧,這是一項有趣的學術性問題,你不可能用來製造假新聞,它只能產生一些略顯模糊的東西。』結果卻演變成『噢,你真的可以製作出像照片一樣逼真的臉孔。』」

在輝達宣布此一新科技的幾天後,古德費洛在波士頓一間小會議室發表演說,演說的幾分鐘前,一位記者問他該科技的意義何在。他指出他知道其實任何人都早已可以用 Photoshop 來製造假圖像,不過他也強調,重點是使得這項工作更為容易。「我們是促使已經具有可能性的事情加速實現。」他說道。

他解釋,隨著這些方法的改進,「有圖有真相」的時代也將結束。

「從歷史來看,這其實有些僥倖,我們能夠依賴影片作為事情曾經發生過的證據,」他說道,「我們過去常常是根據誰說的、誰有動機這麼說、誰有可信度、誰又沒有可信度,來看一件事情。現在看來我們又要回到那個時代。」

可是中間會有一段很艱難的過渡期。「遺憾的是現今世人不太會批判性思考。同時大家對於誰有可信度與誰沒有可信度都比較傾向於從族群意識去思考。」這也代表至少會有一段調整期。

「人工智慧為我們打開了許多我們不曾打開的門。我們都不知道在門的另一邊會有什麼東西,」他說道,「然而在此一科技方面,卻更像是人工智慧關閉了我們這一代人已經習慣打開的門。」

人們若不具有批判性思考的能力,就會容易被假圖像欺騙。圖/envatoelements

調整期幾乎是立即展開,某人自稱為「深度偽造」(Deepfakes),開始將一些名人的頭像剪接至色情影片中,然後再上傳至網路。這個匿名的惡作劇者後來把能搞出這些花樣的應用程式公開,這類影片立刻大量出現在討論板、社交網路與如 YouTube 的影音網站。

如 Pornhub、Reddit 與推特等平台趕忙禁止這種行為,但是此一操作與相關概念已滲透進入主流媒體。「深度偽造」也變成一個專有名詞,意指任何以人工智慧偽造,並在線上散播的影片。

——本文摘自《AI製造商沒說的祕密: 企業巨頭的搶才大戰如何改寫我們的世界?》,2022 年 8 月,時報出版,未經同意請勿轉載。

時報出版_96
174 篇文章 ・ 34 位粉絲
出版品包括文學、人文社科、商業、生活、科普、漫畫、趨勢、心理勵志等,活躍於書市中,累積出版品五千多種,獲得國內外專家讀者、各種獎項的肯定,打造出無數的暢銷傳奇及和重量級作者,在台灣引爆一波波的閱讀議題及風潮。

1

38
1

文字

分享

1
38
1
回到 AlphaGo 打敗棋王的那一天,看 AI 如何顛覆世界——《AI 製造商沒說的祕密》
時報出版_96
・2023/01/30 ・4915字 ・閱讀時間約 10 分鐘

-----廣告,請繼續往下閱讀-----

谷歌收購深度心智(DeepMind)幾週後,深度心智創辦人德米斯.哈薩比斯(Demis Hassabis)與其他幾位深度心智研究人員搭機來到北加州,與他們母公司的領袖舉行會議,並向他們展示深度學習如何破解「打磚塊」。

幕後推手——德米斯.哈薩比斯

會議結束後,哈薩比斯和谷歌創辦人賽吉.布林(Sergey Brin)聊了起來。他們聊著聊著發現有一共同的興趣:圍棋。布林表示當初他和賴利.佩吉(Larry Page)建立谷歌時,他沉迷在圍棋中,害得佩吉擔心他們根本無法成立公司。

哈薩比斯表示,如果他和他的團隊想要的話,他們能夠建造一套系統來打敗世界冠軍。「我覺得這是不可能的。」布林說道。就在這一刻,哈薩比斯下定決心要做到。

深度心智創辦人、英國人工智慧研究者——德米斯.哈薩比斯(Demis Hassabis)。圖/維基百科

「深度學習運動之父」傑弗瑞.辛頓(Geoffrey Hinton)將哈薩比斯比作羅伯.奧本海默(Robert Oppenheimer),二戰期間做出第一顆原子彈的曼哈頓計畫主持人。奧本海默是世界級的物理學家:他懂得眼前重大任務的科學原理,不過他更深諳激勵之道,他結合手下不斷擴大的科學家,將他們的力量合而為一,並且接納他們的弱點,一起為計畫目標努力。

-----廣告,請繼續往下閱讀-----

他知道如何感動男人(以及女人,包括辛頓的堂姊瓊安.辛頓),辛頓在哈薩比斯身上看到同樣的特質。「他主持 AlphaGo 就像奧本海默主持曼哈頓計畫,如果是別人來主持,他們可能就不會這麼快成功。」辛頓說。

揭開比賽序幕

深度心智的研究員們在 2014 年中曾發表一篇關於他們初期研究的論文,之後他們的研究規模大為擴大,並在第二年擊敗歐洲圍棋冠軍樊麾。此一結果震驚了全球圍棋界與人工智慧研究圈,但是 AlphaGo 對戰李世乭所造成的聲勢更是轟動。

IBM 的深藍超級電腦 1997 年在曼哈頓西城的一棟高樓裡擊敗世界頂尖的西洋棋高手,為電腦科學建立了一座里程碑,受到全球新聞界的廣為報導。但是若是與首爾的這場人機大戰相比,卻是小巫見大巫。在韓國——更別提日本與中國——圍棋是民族性的消遣活動。有超過二億人會觀看 AlphaGo 與李世乭的對弈,觀眾比超級盃多上一倍。

圍棋在中、日、韓具民族性,AlphaGo 與李世乭的對弈備受矚目。圖/維基百科

在總共五局對戰前夕的記者會上,李世乭誇口他能輕鬆獲勝:四比一或五比零。大部分的圍棋棋手也都有同感,雖然 AlphaGo 徹底擊敗樊麾,顯示這部機器是真正的贏家,但是樊麾的棋力遠不及李世乭。根據用來評估遊戲對戰能力的 ELO 等級制度,李世乭完全是在不同的等級。但是哈薩比斯卻認為這場人機大戰會有截然不同的結果。

-----廣告,請繼續往下閱讀-----

第二天下午,在展開第一局對戰的兩小時前,他與幾名記者共進午餐,他拿著一份《韓國先驅報》(Korea Herald),這是用桃色紙張印刷的韓國英文日報。他和李世乭的照片都出現在報紙的頭版上半部。他沒有想到竟會受到如此重視。

「我知道會受到關注,」這位像孩子般矮小,39 歲但已禿頂的英國人說道,「但是沒有想到會這麼多。」不過,在吃著餃子、韓式泡菜的午餐時,哈薩比斯表示他對這場棋賽「審慎樂觀」。他解釋,那些名嘴並不知道 AlphaGo 在十月的棋賽後仍在繼續苦練棋藝。

他和他的團隊初始是將三千萬步棋路輸入深度神經網路來教導機器學習圍棋,自此之後,AlphaGo 就開始不斷與自己對弈,並且記錄哪些棋路是成功的,哪些又是失敗的——其運作與實驗室用來破解雅達利老遊戲的系統類似。自擊敗樊麾以來這幾個月,AlphaGo 已和自己對弈了數百萬局;AlphaGo 持續自學圍棋,學習速度之快遠超過所有人類。

在四季飯店頂樓的賽前餐敘,谷歌董事長艾力克.施密特(Eric Schmidt)坐在哈薩比斯的對面,以他一貫冷峻的態度闡述深度學習的優點。一度有人稱他為工程師,他糾正他們,「我不是工程師,」他說道,「我是電腦科學家。」

-----廣告,請繼續往下閱讀-----
艾力克.施密特(Eric Schmidt)2001~2011 年間在 Google 擔任 CEO。圖/維基百科

他回憶他在 1970 年代研讀電腦科學時,人工智慧看來前景一片大好,但是隨著 1980 年代過去,進入 1990 年代,這樣的美景從未實現。如今,終於實現了。「這一科技,」他說道,「力量強大,引人入勝。」他表示,人工智慧不只是辨識照片的戲法,同時也代表谷歌 750 億美元的網際網路事業與其他無數的產業,包括保健產業。

機器與人類高手對決

在第一局,哈薩比斯是在私人觀賞室與走廊另一頭的 AlphaGo 控制室之間來回兩頭跑。控制室滿是個人電腦、筆記型電腦與平面顯示幕,這些設備全都與遠在太平洋彼端的谷歌數據中心內部數百台電腦相連。一支谷歌團隊在比賽前一週就已架設一條專屬的超高速光纖電纜直達控制室,以確保網際網路暢通無阻。

不過結果卻顯示控制室根本不需要進行多少操控:幾過多月的訓練之後,AlphaGo 已能完全獨力作業,不需要人為的幫助。同時,就算哈薩比斯與團隊想幫忙,也無用武之地。他們沒有一人的圍棋棋力達到大師級的水準,他們只能觀看棋局。

「我無法形容有多緊張,」深度心智研究員說道,「我們不知道該聽誰的。一邊是評論員的看法,你同時也看到 AlphaGo 的評估。所有的評論員都有不同的意見。」

-----廣告,請繼續往下閱讀-----

在第一天的棋賽,深度心智團隊與谷歌的重要人物都親眼目睹 AlphaGo 獲勝。

賽後記者會上,李世乭面對來自東、西方數百名記者與攝影師表示他感到震驚。這位 33 歲的棋士透過口譯員說道:「我沒想到 AlphaGo 下棋竟能夠如此完美。」經過逾四小時的對弈,AlphaGo 證明自己的棋力可與全球最厲害的高手匹敵,李世乭表示他被 AlphaGo 殺了個措手不及,他在第二局會改變策略。

左為代替 AlphaGo 移動棋子的深度心智台灣研究員黃士傑,右則為李世乭。圖/YouTube

神來一筆的第三十七手

第二局對弈進行一小時後,李世乭起身離開賽場,走到露台抽菸。坐在李世乭對面,代替 AlphaGo 移動棋子的是來自台灣的深度心智研究員黃士傑,他將一枚黑子落在棋盤右邊一大塊空地上單獨一枚白子的側邊下方,這是該局的第三十七手。

在角落的評論室內,西方唯一的圍棋最高段九段棋手邁克.雷蒙(Michael Redmond)忍不住多看了一眼確認,然後他告訴在線上觀看棋賽的兩百多萬英語觀眾:「我真的不知道這是高招還是爛招。」他的共同評論員克里斯.戈拉克(Chris Garlock)則表示:「我認為下錯了。」他是一本網路圍棋雜誌的資深編輯,同時也是美國圍棋協會的副會長。

-----廣告,請繼續往下閱讀-----

李世乭在幾分鐘後返回座椅,然後又緊盯著棋盤幾分鐘。他總共花了 15 分鐘才做出回應,在棋局的第一階段他有兩小時的時間,而這一手占用了他不少時間——而且此後他再也沒有找回節奏。在經過逾四小時的對弈後,他投子認輸,他連輸兩局了。

第三十七手也讓樊麾大感詫異,他在幾個月前遭到 AlphaGo 徹底擊敗,自此之後他就加入深度心智,在 AlphaGo 與李世乭對弈前擔任它的陪訓員。他從來沒有擊敗過這部人工智慧機器,但是他與 AlphaGo 的對弈也讓他對棋路的變化大開眼界。事實上,他在遭 AlphaGo 擊敗後的幾週內,與(人類)高手對弈連贏六場,他的世界排名也升至新高。

現在,他站在四季飯店七樓的評論室外面,在第三十七手落子幾分鐘後,他看出了此一怪招的威力。「這不是人類會下的棋路,我從來沒有看過有人這麼下,」他說道,「太美了。」他不斷地重複說道,太美了、太美了、太美了。

第二天上午,深度心智的研究員大衛.席瓦爾溜進控制室,他想知道 AlphaGo 如何做出第三十七手的選擇。AlphaGo 在每一局對弈中都會根據它所受過數千萬種人類落子變化的訓練,來計算人類做出此一選擇的機率,而在第三十七手,它算出的機率是萬分之一。

-----廣告,請繼續往下閱讀-----
AlphaGo 在對弈中會根據千萬種落子變化,計算出人類下此一步棋的機率。圖/YouTube

AlphaGo 知道這不是專業棋手會選擇的路數,然而它根據與自己對弈的數百萬次經驗——沒有人類參與的棋局——它仍是這麼做了;它已了解儘管人類不會選擇這一步,這一步棋仍是正確的選擇。「這是它自己發現的,」席瓦爾說道,「透過它的內省。」

這是一個既甜美又苦澀的時刻,儘管樊麾大讚此一步棋是神來之筆,但是一股鬱悶之情席捲四季飯店,甚至整個韓國。一位中國記者表示,儘管他為 AlphaGo 贏得第一局感到高興,可是現在他深感沮喪。

第二天,一位在首爾彼端經營一家新創企業育成中心的韓國人權五亨表示他也感到悲傷,這並非因為李世乭是一位韓國人,而是因為他是人類,「這是全人類的轉捩點,」權五亨說道,他的幾位同事點頭表示同意,「它讓我們了解人工智慧真的已在我們眼前——也讓我們了解到其中的危險。」

在那個週末,此一鬱悶的情緒只增不減。李世乭第三局也輸了,等於輸掉整個棋賽。坐在賽後記者會的桌子後面,李世乭懺悔之情溢於言表。「我不知道今天要說什麼,但是我首先要表達我的歉意,」他說道,「我應該拿出更好的成績,更好的結局,更好的比賽。」但是坐在李世乭身邊的哈薩比斯卻發現,自己衷心期盼這位韓國棋手在接下來的兩局中至少能贏一局。

-----廣告,請繼續往下閱讀-----

AlphaGo 認輸的那一局

在第四局的七十七手,李世乭再度陷入長考,就和第二局的情況一樣,但是這一回他考慮的時間更久。棋盤中間有一堆棋子,黑白相間,他有近二十分鐘只是緊盯著這些棋子,抓著後頸前後擺動。最後,他將他的白子落在棋盤中央的兩枚黑子之間,將棋勢一分為二,AlphaGo 方寸大亂。

在每一場對弈中,AlphaGo 都會不斷重新計算勝率,並且顯示在控制室的一台平面顯示幕上。

在李世乭落子後——第七十八手——這部機器的反擊很差,在顯示幕上的勝率立刻大降。「AlphaGo 累積到那一步之前的所有戰略都算是報銷了,」哈薩比斯說道,「它必須重新再來。」就在此刻,李世乭抬頭看著對面的黃士傑,彷彿他擊敗的是這人,不是機器。自此之後,AlphaGo 的勝率一路下跌,在近五個小時後,它投子認輸。

DeepMind 製作的 AlphaGo 與李世乭對弈紀綠片。/YouTube

兩天後,哈薩比斯穿過四季飯店的大廳,解釋 AlphaGo 為什麼會輸。AlphaGo 當時是假設沒有人類會這樣下第七十八手,它計算出來的機率是萬分之一——這是一個它熟悉的數字。

就像 AlphaGo 一樣,李世乭的棋力也達到一個新境界,他在棋賽最後一天的私人聚會場合中這樣告訴哈薩比斯。他說與機器對弈不僅讓他重燃對圍棋的熱情,同時也讓他茅塞頓開,使他有了新想法。「我已經進步了。」他告訴哈薩比斯,一如幾天前的樊麾,李世乭之後與人類高手對弈,連贏九場。

AlphaGo 與李世乭的對弈,使得人工智慧在世人眼前大爆發,它不僅是屬於人工智慧領域與科技公司,同時也是屬於市井小民的里程碑。在美國如此,在韓國與中國更是如此,因為這些國家視圍棋為人類智慧結晶的巔峰。這場棋賽彰顯出科技的力量與其終將超越人類的恐懼,同時也帶來樂觀的前景,此一科技往往會以出人意表的方式推動人類更上層樓。儘管馬斯克等人警告其中的危險性,但是這段時期人工智慧的前景一片光明。

裘蒂.英賽恩(Jordi Ensign)是佛羅里達州一位四十五歲的程式設計師,她在讀完棋賽報導後出去在身上紋了兩幅刺青,她在右臂內側紋了 AlphaGo 的第三十七手——左臂紋了李世乭的第七十八手。

——本文摘自《AI製造商沒說的祕密: 企業巨頭的搶才大戰如何改寫我們的世界?》,2022 年 8 月,時報出版,未經同意請勿轉載

所有討論 1
時報出版_96
174 篇文章 ・ 34 位粉絲
出版品包括文學、人文社科、商業、生活、科普、漫畫、趨勢、心理勵志等,活躍於書市中,累積出版品五千多種,獲得國內外專家讀者、各種獎項的肯定,打造出無數的暢銷傳奇及和重量級作者,在台灣引爆一波波的閱讀議題及風潮。