0

3
2

文字

分享

0
3
2

關於Deepfake色情影像:雖然內容是假的,但傷害是真的

雷雅淇 / y編_96
・2022/01/29 ・3412字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

2021 年 5 月,鏡週刊的深度報導《臉被偷走之後——無法可管的數位性暴力?台灣 Deepfake 事件獨家調查》中,揭露了早在 2020 年就已經存在、利用 Deepfake 深度造假技術製作收費色情影片的 Telegram 群組,並訪問了數位影片中的受害女性。

2021 年 10 月,臺灣警方透過 Twitter 上的換臉色情影片追蹤到了該群組,逮捕了相關涉案人,「被換臉」的人除了名人之外,也包含一般人的換臉影片。此案在臺灣掀起了翻天覆地的討論,內容圍繞在 Deepfake 技術的濫用、和數位性暴力等相關議題。

到底 Deepfake 色情內容有多氾濫?而它又造成了什麼樣的傷害呢?

大部分的 Deepfake 影片都是色情內容

圖/envato elements

「Deepfake」指的是利用人工智慧深度學習技術,在某人沒有說過、拍過和錄過某些內容的狀況下,生成他的聲音、圖像或影片。(延伸閱讀:Deepfake 不一定是問題,不知道才是大問題!關於 Deepfake,你需要知道的是⋯⋯?

-----廣告,請繼續往下閱讀-----

早在 2016 年,來自斯坦福大學、馬克斯普朗克研究所和埃爾蘭根-紐倫堡大學的研究人員,就已經創建了一個名為 Face2Face 的系統,透過捕捉演員的面部表情,在其他人臉上生成一樣表情的影像。不過,我們現在熟悉的「Deepfake」一詞,卻是 2017 年才現身;而且它最早的姿態,便是色情內容:由一位名為「deepfake」的 Reddit 的用戶,上傳的明星假性愛影片。

Face2Face: Real-time Face Capture and Reenactment of RGB Videos (CVPR 2016 Oral)

直到現在,網路上雖然不乏一些迷因、或是跟政治人物相關的 Deepfake 影片到處散播,而且數量越來越多,但 Deepfake 應用最多的,仍是色情內容。人工智慧公司 Sensity AI 的統計發現,自 2018 年以來,網路上的虛假影片每六個月成長一倍,截自 2020 年 12 月為止,他們透過自己的檢測技術,偵測到至少85047 個假影片在網路上流傳。

2019 年,Sensity AI(在當初的名稱為 Deeptrace)的報告統計,有 96%的 Deepfake 影片是色情內容,在色情網站上的內容幾乎百分之百都是以女性為主,被觀看次數超過 1.34 億次。由此可見,「色情內容」無疑是所有 Deepfake 應用中,內容最多、製造速度最快、傳播廣的類型。

色情網站龍頭 Pornhub

此外,儘管色情網站龍頭 Pornhub 指出,他們不會容許包含 Deepfake 影片在內的任何非自願性質的內容出現,但根據 Deeptrace 的統計,2019 年排名前十的色情網站中,有 8 個網站裡有 Deepfake 的內容,另外還有 9 個 only for Deepfake 的色情網站,而這些網站裡的內容,佔了 Deepfake 色情內容的九成以上。

-----廣告,請繼續往下閱讀-----

雖然,這些影片中被換臉的主角通常是名人,但受到 Deepfake 色情內容所苦的,不只有他們。

雖然內容是假的,但傷害是真的

2019 年 6 月 23 日,一個叫做 DeepNude 的網站上線:它提供可以免費下載的應用程式,利用生成對抗網路(Generative Adversarial Network,簡稱GAN)技術,將女性有穿衣服的照片生成為裸照。雖然由它生成的照片都有浮水印,但只要付費就能把浮水印變小;重點是,它的使用方法很傻瓜,只需要一張女性的照片就行了,而且「穿越少」效果「越好」。

這個應用程式因為 Motherboard 的報導而爆紅,甚至一度因為下載量過大,導致網站不堪負荷。諷刺的是,Motherboard 報導的目的,原本是為了要批評 DeepNude 對於女性的傷害。雖然DeepNude 隨後在 6 月 27 日下架(其後又在同年 7 月 19 日以 30000 美元出售給匿名買家);但其應用程式直到今天,仍在一些開源社群、種子網站等地方被不斷的上傳下載。

圖/envato elements

2020 年,Sensity AI 發現了另一個與 DeepNude 很相似的 Telegram bot,只要向這隻機器人傳送照片,便能直接生成裸照、且可以透過付費,得到去除浮水印或免等候等服務。根據統計,這當中起碼有十多萬名女性被生成裸照,當中包含未成年人。雖然被報導之後,相關群組一樣已經被官方刪除,但這絕對不會是最後一次,Deepfake 被這樣惡性利用。

-----廣告,請繼續往下閱讀-----

雖然 DeepNude 的創辦人表示,他當初設計這個程式的初衷,是被小時候在雜誌上看到的「X 光眼鏡」所啟發(其 logo 也是為此致敬),他有想過這個程式會不會傷害到人,但他也表示能用 DeepNude 做到的事,任何人用 Photoshop 也能做到;如果有任何人懷有惡意想要做壞事,那有沒有 DeepNude 並不會有影響。然而情況卻是,有人因為類似應用被威脅,甚至遭受到復仇式色情(Revenge porn,本用詞為俗稱,目前有倡議應稱呼「未經同意即散布之私密影像(Non-consensual pornography)」,以避免簡化問題本質)的攻擊。

所謂「復仇式色情」,指的是未經過他人同意,任意散佈含有他人色情內容之照片或影片等影像的報復手段。美國心理學會的一項研究發現,每 12 名女性中,就有一名最終在她們生命的某個階段成為復仇式色情片的受害者。在過往,合意或是被偷拍的親密影像在非自願的狀況下外流就已經夠難防了,有了 Deepfake 之後就更難了:因為當事人根本不會意識到有這樣的影像的存在。而這些內容被用於勒索,甚或是威脅名人、記者等案例層出不窮。

圖/envato elements

「我要怎麼證明那不是我?我走在路上、搭捷運,可能有一些陌生人,他看我或交頭接耳的時候,我都會覺得,是不是他們看過那個影片?覺得我是那樣的女生?覺得我是很糟糕的人?」在鏡週刊的訪問中,被換臉的 Youtuber 球球這樣說道。儘管那真的不是自己,儘管內容是假的,但這類的色情內容造成的傷害卻是真實的。

波士頓大學法律學教授 Dielle Citron 在他的著作《網路空間裡的仇恨犯罪(Hate Crimes in Cyberspace)》中提到:Deepfake技術正在成為針對女性的武器,這些性愛影片當中的身體雖然不是自己的,卻會對當事人造成影響,讓他們不想再上網、難以獲得或維持工作、並且感到不安。

-----廣告,請繼續往下閱讀-----

Deepfake 最大的傷害不是來自技術,而是使用方式

從大量資料到一張照片、從專家操作到素人也行、從粗糙到以假亂真,Deepfake 的技術一直進步,而這已然打開的潘朵拉的盒子,要關上的方法,也必然需要人與科技的協力。

從辨偽技術的進步(延伸閱讀:Deepfake 辨偽技術如何在魔高一尺時,能道高一丈呢?)、法規制度的更新(延伸閱讀:應對Deepfake濫用,台灣修正刑法夠用嗎?),到協助被害人刪除與爭取權益等制度的完善,以及不看、不擴散,多理解技術對社會可能的影響:在面對 Deepfake 色情內容所造成的傷害,沒有人是局外人。

參考資料

  1. Deepfake Porn Nearly Ruined My Life
  2. How to Detect a Deepfake Online: Image Forensics and Analysis of Deepfake Videos – Sensity
  3. THE STATE OF DEEPFAKES
  4. Deepnude: The Horrifying App Undressing Women
  5. 臉被偷走之後:無法可管的數位性暴力?台灣Deepfake 事件獨家調查- 鏡週刊Mirror Media
  6. Deepfake porn is ruining women’s lives. Now the law may finally ban it. | MIT Technology Review
  7. Deepfakes have got Congress panicking. This is what it needs to do. | MIT Technology Review
  8. A deepfake bot is being used to “undress” underage girls | MIT Technology Review
  9. Nonconsensual Pornography Among US Adults: A Sexual Scripts Framework on Victimization, Perpetration, and Health Correlates fo
  10. An AI app that “undressed” women shows how deepfakes harm the most vulnerable | MIT Technology Review
  11. Deepfakes have got Congress panicking. This is what it needs to do. | MIT Technology Review
  12. The biggest threat of deepfakes isn’t the deepfakes themselves | MIT Technology Review
  13. How to Detect a Deepfake Online: Image Forensics and Analysis of Deepfake Videos – Sensity
  14. The year deepfakes went mainstream | MIT Technology Review
  15. Inside the strange new world of being a deepfake actor | MIT Technology Review
  16. I Was The Victim Of A Deepfake Porn Plot Intended To Silence Me | HuffPost UK News
文章難易度
雷雅淇 / y編_96
38 篇文章 ・ 1240 位粉絲
之前是總編輯,代號是(y.),是會在每年4、7、10、1月密切追新番的那種宅。中興生技學程畢業,台師大科教所沒畢業,對科學花心的這個也喜歡那個也愛,彷徨地不知道該追誰,索性決定要不見笑的通吃,因此正在科學傳播裡打怪練功衝裝備。

0

2
0

文字

分享

0
2
0
人體吸收新突破:SEDDS 的魔力
鳥苷三磷酸 (PanSci Promo)_96
・2024/05/03 ・1194字 ・閱讀時間約 2 分鐘

本文由 紐崔萊 委託,泛科學企劃執行。 

營養品的吸收率如何?

藥物和營養補充品,似乎每天都在我們的生活中扮演著越來越重要的角色。但你有沒有想過,這些關鍵分子,可能無法全部被人體吸收?那該怎麼辦呢?答案或許就在於吸收率!讓我們一起來揭開這個謎團吧!

你吃下去的營養品,可以有效地被吸收嗎?圖/envato

當我們吞下一顆膠囊時,這個小小的丸子就開始了一場奇妙的旅程。從口進入消化道,與胃液混合,然後被推送到小腸,最後透過腸道被吸收進入血液。這個過程看似簡單,但其實充滿了挑戰。

首先,我們要面對的挑戰是藥物的溶解度。有些成分很難在水中溶解,這意味著它們在進入人體後可能無法被有效吸收。特別是對於脂溶性成分,它們需要透過油脂的介入才能被吸收,而這個過程相對複雜,吸收率也較低。

-----廣告,請繼續往下閱讀-----

你有聽過「藥物遞送系統」嗎?

為了解決這個問題,科學家們開發了許多藥物遞送系統,其中最引人注目的就是自乳化藥物遞送系統(Self-Emulsifying Drug Delivery Systems,簡稱 SEDDS),也被稱作吸收提升科技。這項科技的核心概念是利用遞送系統中的油脂、界面活性劑和輔助界面活性劑,讓藥物與營養補充品一進到腸道,就形成微細的乳糜微粒,從而提高藥物的吸收率。

自乳化藥物遞送系統,也被稱作吸收提升科技。 圖/envato

還有一點,這些經過 SEDDS 科技處理過的脂溶性藥物,在腸道中形成乳糜微粒之後,會經由腸道的淋巴系統吸收,因此可以繞過肝臟的首渡效應,減少損耗,同時保留了更多的藥物活性。這使得原本難以吸收的藥物,如用於愛滋病或新冠病毒療程的抗反轉錄病毒藥利托那韋(Ritonavir),以及緩解心絞痛的硝苯地平(Nifedipine),能夠更有效地發揮作用。

除了在藥物治療中的應用,SEDDS 科技還廣泛運用於營養補充品領域。許多脂溶性營養素,如維生素 A、D、E、K 和魚油中的 EPA、DHA,都可以通過 SEDDS 科技提高其吸收效率,從而更好地滿足人體的營養需求。

隨著科技的進步,藥品能打破過往的限制,發揮更大的療效,也就相當於有更高的 CP 值。SEDDS 科技的出現,便是增加藥物和營養補充品吸收率的解決方案之一。未來,隨著科學科技的不斷進步,相信會有更多藥物遞送系統 DDS(Drug Delivery System)問世,為人類健康帶來更多的好處。

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
199 篇文章 ・ 304 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

2
0

文字

分享

0
2
0
網路交到壞朋友?網路詐騙如何博取你的信任——《脫癮而出不迷網》
圓神出版‧書是活的_96
・2024/04/23 ・3552字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

這世代的年輕孩子,隨便一位都比我們大人更精熟網路及數位裝置的操作;但面對網路上無所不在的陷阱,腦袋並沒有因此進化得更靈光。

當你以為壞人都藏在社區附近的陰暗角落時,專家正在警告,潛藏在虛擬世界中的詐騙與剝削,才是你真正該提防的。

網路陷阱:誘騙、色情與性剝削

圖/envato

孩子是如何上鉤的?

先來聽聽宇岩的故事吧!

宇岩是個國二男生,在班上成績中上,行為大致循規蹈矩。和大部分的同學一樣,每天會上網玩一下線上遊戲。他在線上遊戲中,認識了一位網友小芸。因為幾次合作很有默契,小芸主動提議互相加 line,以方便聯繫。

-----廣告,請繼續往下閱讀-----

日後,小芸與宇岩就常在 line 上聊天,一開始是聊些與遊戲攻略有關的事,後來,聊及生活中的瑣事。小芸說,她是個高中生,功課壓力大,父母工作忙碌,不太關心她,她常覺得很寂寞。她覺得能和宇岩聊天很開心,希望宇岩當她的男朋友。

有一次,小芸問宇岩有沒有看過女生自慰,宇岩覺得不太對勁,但心中莫名興奮。後來,小芸時常提起一些性方面的話題,也開始傳一些露骨的畫面給宇岩,說是自己胸部、臀部等私密部位的照片。小芸問宇岩想看更多嗎?宇岩當然想!小芸要宇岩也傳張自己裸露生殖器官的照片過去,才要讓宇岩看更多。宇岩不疑有他,既然是男女朋友,應該沒關係,於是照辦了。

後來,小芸好幾次要求宇岩幫她買遊戲點數,但宇岩說自己身上沒那麼多錢。小芸卻生氣地抱怨宇岩一點都不在乎她,宇岩只好偷拿父母的錢。幾次之後,宇岩感到很不安,鄭重地拒絕小芸的要求,但她卻說:「別忘了,我手上有你的裸照喔!」

宇岩這才意識到,對方也許一開始,就不懷好意。事到如今只好硬著頭皮,向父母全盤說出這些事情,請父母出面解決。

-----廣告,請繼續往下閱讀-----

如果宇岩沒有向大人求助,接下來會發生什麼事呢?

那位名為小芸的高中生網友,肯定會對他糾纏不已,繼續索討更多的金錢,進而要求他交出帳號密碼、家人的個資,或者出賣朋友來「抓交替」。如果宇岩不從,就威脅公開裸照,讓他的聲譽不保,宇岩只能任對方予取予求。

網路誘騙的方式推陳出新,大多都是利用人性的好奇、貪婪或恐懼心態,取得受害者的個資或私密影像,進而抓住把柄,再藉此要脅,逼你就範。詐騙者常是亂槍打鳥,在各種有聊天功能的網路平臺上隨意搭訕,利用兒童或青少年的好奇、同情心或想結交朋友的渴望,逐漸取得信任,再讓你一步一步地走進預先設好的圈套中。

二○二○年南韓媒體披露震驚社會的「N 號房事件」,主嫌在網路上經營類似聊天室的「房間」,每個「房間」都有編號。會員付費後,依照付費多寡,可以進到不同房間裡觀看女性裸露的不雅影像。房間裡的主角有許多是兒童或青少年,影片內容包含了性侵、性虐待等不堪入目的情節,甚至有的以直播的形式供會員觀賞。

-----廣告,請繼續往下閱讀-----

這起駭人聽聞的性剝削事件,其實已經持續了數年之久,受害少女不計其數,凸顯了網路色情與誘騙氾濫的問題。究竟,這些不幸的孩子,是怎麼落入魔爪的呢?主嫌利用涉世未深的少女想快速賺錢的渴望,在網路上發布高薪兼職廣告,吸引許多有金錢需求的少女;主嫌再進一步要求他們提供個人資料或隱私裸照。如此,主嫌等於握有被害者的把柄了,便進一步要求少女錄下更多不雅影片,甚至約出來予以性侵。被害少女大多擔心自己的名譽不保,不敢不從,只能任憑主嫌擺布。事後有受害者向媒體表示,當時以為只要提供清涼照片,就能獲取大筆金錢,或者,以為只是單純的援交,沒想到,卻落到這般下場。

圖/envato

以網路做為誘騙或性剝削工具的事件在國內也時有所聞。不久之前,有位十四歲少女,在網路上認識三十一歲犯嫌。犯嫌以少女才華洋溢,想栽培她發展演藝事業為理由,哄騙少女離家,再把她囚禁於事先打造的夾層密室中。幸好警方快速偵破此案,少女得以平安返家。後來得知犯嫌專挑家境清寒的未成年少女下手,利用少女懵懂無知且一心致富的心態,誘騙上鉤。

復仇式色情

另一個值得關注的網路安全問題,是「復仇式色情」,常發生在情侶之間。

舉個常見的校園案例,小華與小明在學校社團中認識並交往,也常在校園中大方放閃。過一陣子,傳出兩人分手的消息。隔天,全校議論紛紛,原來,小華的私密影片被放到網路上瘋傳。才一個晚上,幾乎全校同學都看過這段影片,連別的學校的學生都知道這件事。

-----廣告,請繼續往下閱讀-----

後來,學校調查得知,是小明不滿小華提出分手,心有不甘,便決定在網路上公開小華之前傳來的私密影片,以及兩人親熱時的影像。他決定來個玉石俱焚,做為報復。小華因此心理嚴重受創,她的世界在一夕之間崩解。一方面,光想到不計其數的同學正看著自己的身體品頭論足,覺得快要崩潰了。後來,又聽到同學的閒言閒語:「誰叫她當初要拍這些影片?」「是她自己活該!」「她就自己犯賤呀!」之類的話語,又是二度傷害。

我們確實很少考慮到以數位形式保存的資料,不論是聲音、圖片或影片,是如此容易被複製並散播,一旦放到網路上,就全面失控了。熱戀中的情侶,愛得死去活來,恨不得把自己的一切,毫無保留地獻給對方。萬萬沒想到分手後,那些當初「愛的證明」,竟成了對方遂行報復的武器。

保護個人資訊安全

我們不希望這樣的事件再度發生,但類似事件卻層出不窮。

為了避免孩子成為下一個受害者,建議家長可以善加利用這類新聞事件,與孩子討論網路安全與自我保護的話題。你需要明確地讓孩子知道一個觀念:「網路上是沒有祕密的」,所有的隱私都有被公開的可能,不只不該把私密資料放在網路上,更不可以告知任何人,包括信任的好朋友也是。

-----廣告,請繼續往下閱讀-----

你或許可以這麼做,來保護孩子的個人資料與人身安全:

(一)如果可以的話,在孩子法定成年前,由你代為管理孩子的任何網路帳號。若孩子要新增或修改帳號內容,都需經過你的同意或由你代為操作。同時,定期為孩子更改帳戶密碼,避免遭駭。

(二)確保孩子接觸的網路內容符合年齡分級,盡可能不讓孩子接觸到風險性高或隱私控管不佳的網站。就算是一些常見的官方網站,若孩子需要輸入個人資料(姓名、身分證字號、住址、電話等)前,都需經過你的審核並同意。

(三)監督孩子的網路動態與行為。年紀較小的孩子,你需要知道他每次上網的內容,而大一點的孩子,你可以給予多一點的信任,但若察覺孩子出現任何異樣,仍該立即檢查帳戶,了解他在網路上是否惹上麻煩了。

-----廣告,請繼續往下閱讀-----

(四)要求孩子養成「登出」的習慣。不論是在家中或使用外面的公用電腦,使用完畢一定要記得「登出」。要求孩子將「下次自動登入」的選項取消勾選,並選擇不讓瀏覽器存取帳戶資訊。

(五)時常提醒孩子,謹慎提防在網路上遇到的任何人,陌生人或認識的朋友師長亦然。告訴孩子,如果與網友互動時有任何不舒服,請相信自己的直覺,立刻終止互動,並向大人求助。請讓孩子知道你會幫助他,而不會責備他。

(六)提醒孩子「天下沒有那麼好的事!」如果有什麼好運、機會或財富從天而降,宣稱能輕鬆致富或讓你飛黃騰達,通常有詐,應立刻提高警覺。

(七)若有發現任何涉及色情、誘騙或性剝削的網站,請向相關單位檢舉或通報。臺灣展翅協會長期關注兒少上網安全問題,你可以進入其建置的「Web547」網站中檢舉不法網站或不當資訊。

-----廣告,請繼續往下閱讀-----

至於,如何防範「復仇式色情」呢?

最簡單的方式,不是別把私密影像傳給對方,而是,根本不要拍下這類影像,連留著自己欣賞,都盡可能避免。再重申一次,所有以數位形式保存的內容,都能輕易被複製與流傳。不過,對方可能會因此抱怨:「不傳給我看,就是不夠愛我。」請教導孩子如何回應伴侶的情感勒索:「我認為,我們之間的愛情,不需要透過這種方式來證明。如果你愛我的話,請你尊重我。」 讓孩子知道,以尊重為前提的親密關係,才是健康的。如果對方仍死纏爛打,那麼,或許該認真考慮,是否還要繼續這段關係了。這是情感教育的一部分,而情感教育的核心,就是尊重自己與尊重他人。

——本文摘自《脫癮而出不迷網》,2022 年 1 月,圓神出版,未經同意請勿轉載。

討論功能關閉中。

圓神出版‧書是活的_96
13 篇文章 ・ 3 位粉絲
書是活的,他走來溫柔地貼近你,他不在意你在背後談論他,也不在意你劈腿好幾本。 這是一種愛吧。 圓神書活網 www.booklife.com.tw

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
雅文兒童聽語文教基金會_96
55 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。