0

0
0

文字

分享

0
0
0

你是「黃種人」嗎?這本書會告訴你不一樣的答案

林書帆
・2015/08/24 ・1581字 ・閱讀時間約 3 分鐘 ・SR值 531 ・七年級

(八旗)0UEC0006成為黃種人300dpi立體書封

 

近日關於「祖國」的爭議沸沸揚揚,幾乎可以肯定的是,至少對目前台灣的年輕一代來說,「炎黃子孫」已經退流行了,但如果問題換成「你是不是黃種人」呢?在回答之前,或許該先讀讀奇邁可這本《成為黃種人:一部東亞人由白變黃的歷史》

這本書的副標題已經透露出一個令人驚訝的訊息:我們曾經是白色的。奇邁可指出,「在歐洲『探險年代』之始,東亞民族幾乎一致被描述為『白色』,而從來就不是『黃色』。」那東亞人又是為何不復白皙?這就要提到奇邁可一個非常重要的觀察:在這些歐洲人的描述中,「白色」是屬於評價性用詞,而非敘述性用詞。東亞人被稱為「白」是因為他們的財富與文化精緻度,還有更重要的,「變得真正文明(即改信基督教)」的能力。奇邁可推論,或許是因為改宗情況不如預期,到了一六○○年左右,中國人的顏色開始變成「棕色」、「紅色」、「黃褐色」、「黑色」及「黝黑」(較多人改宗的日本就比較白)。

歐洲的殖民擴張讓科學家取得更多動植物及人體標本,加速了分類學的發展,瑞典植物學者林奈(Carl Linnaeus)以及德國醫師布盧門巴赫(Johann Blumenbach)的研究,成為科學種族主義的濫觴。林奈在《自然系統》第一版中,將「人屬」(Homo)分為四個「種」:歐羅巴白色、美利堅紅色、亞細亞棕色與阿非利加黑色。第十版修訂時,原指亞細亞的「棕」(fuscus)被改為luridus,此詞可譯為「黃色」、「灰黃色」、「死氣沉沉」等,在古典拉丁文中還帶有恐怖、醜陋與蒼白的含意。[1]

雖然《自然系統》被視為「黃種人」的重要起源,但要到十八世紀末,布盧門巴赫將「黃色」與他發明的「蒙古人種」聯繫在一起,才真正使得「黃色」與東亞人的形象密不可分。一八九五年出現的「黃禍」一詞,更強化了「黃種人」的負面意涵。奇邁可寫道:「只有在『黃皮膚』被接受為東方『禍害』的表徵時,人們才一致認為東方人的皮膚確實為『黃色』,進而緊緊凝聚數百年來緊密相關的概念:『黃皮膚』、多次『蒙古人種』侵略,以及該地區移民至西方的大量人口的駭人形象。」更進一步說,將東亞人稱為「黃色」是為了確保他們再也無法被稱為「白色」。

-----廣告,請繼續往下閱讀-----

從東亞人由白變黃的歷史中,可以看出科學很容易被用來支持種族成見。一次大戰後,學術界逐漸意識到種族主義可能帶來的惡果,更多左派與自由派的科學家否定種族主義是科學觀念。國際科學社群於1950年代早期在聯合國教科文組織的支持下,否認種族是個能用來辨認人類遺傳差異的科學名詞。[2]已故演化生物學家古爾德(S. J .Gould)也曾明言反對再將智人細分為不同種族或亞種,因為亞種這個單位,對自然界極具連續動態形式的種內變異來說是太過僵硬死板了。[3]

雖然已經有許多這樣的聲音,但種族論述至今仍沒有在醫療等科學領域完全消失。2003年,史丹佛大學十二位橫跨文科、理科的學者共同撰寫了聲明〈差異描述的倫理學〉,希望他們提出的十項原則能避免未來的生醫或遺傳學研究走回種族主義的老路。聲明中有個觀察似乎頗能呼應最近的祖國爭議:個人或族群對祖先的自我認同,會因一系列的歷史、文化和社會政治因素而和生物地理家譜不符。所以不論你身上流著誰的血,祖先都是可以選擇的。

在大多聚焦於黑白問題的種族研究領域中,《成為黃種人》無疑是一塊重要的拼圖,稍微可惜的是,它的行文風格並不如題材有趣,大量文獻資料對不習慣閱讀學術著作的讀者而言可能稍嫌枯燥,但也正因為作者鉅細靡遺地將這些史料羅列出來,我們才能清楚看到所謂的種族差異不過是社會文化的產物,且隨著時間不斷變遷,進而對所有的偏見與刻板印象更有抵抗力。

 

註1:《自然系統》不同版本、譯本眾多,若想細究「亞洲智人」在諸多版本中的細微「色差」,建議閱讀原書。

-----廣告,請繼續往下閱讀-----

註2:Keir Waddington,《歐洲醫療五百年》(2014:107-108)

註3:S. J .Gould,《達爾文大震撼》(1995:347-355)

-----廣告,請繼續往下閱讀-----
文章難易度
林書帆
15 篇文章 ・ 1 位粉絲
在東華大學華文所發現自己對科普書的興趣,相信E.O.Wilson說的「科學和人文藝術是由同一個紡織機編織出來的」。就像為蝴蝶命名這件事,誰能肯定林奈將「金色之馬」(Chrysippus)做為樺斑蝶的種名時,沒有一點文學想像呢?

0

1
0

文字

分享

0
1
0
人與 AI 的關係是什麼?走進「2024 未來媒體藝術節」,透過藝術創作尋找解答
鳥苷三磷酸 (PanSci Promo)_96
・2024/10/24 ・3176字 ・閱讀時間約 6 分鐘

本文與財團法人臺灣生活美學基金會合作。 

AI 有可能造成人們失業嗎?還是 AI 會成為個人專屬的超級助理?

隨著人工智慧技術的快速發展,AI 與人類之間的關係,成為社會大眾目前最熱烈討論的話題之一,究竟,AI 會成為人類的取代者或是協作者?決定關鍵就在於人們對 AI 的了解和運用能力,唯有人們清楚了解如何使用 AI,才能化 AI 為助力,提高自身的工作效率與生活品質。

有鑑於此,目前正於臺灣當代文化實驗場 C-LAB 展出的「2024 未來媒體藝術節」,特別將展覽主題定調為奇異點(Singularity),透過多重視角探討人工智慧與人類的共生關係。

-----廣告,請繼續往下閱讀-----

C-LAB 策展人吳達坤進一步說明,本次展覽規劃了 4 大章節,共集結來自 9 個國家 23 組藝術家團隊的 26 件作品,帶領觀眾從了解 AI 發展歷史開始,到欣賞各種結合科技的藝術創作,再到與藝術一同探索 AI 未來發展,希望觀眾能從中感受科技如何重塑藝術的創造範式,進而更清楚未來該如何與科技共生與共創。

從歷史看未來:AI 技術發展的 3 個高峰

其中,展覽第一章「流動的錨點」邀請了自牧文化 2 名研究者李佳霖和蔡侑霖,從軟體與演算法發展、硬體發展與世界史、文化與藝術三條軸線,平行梳理 AI 技術發展過程。

圖一、1956 年達特茅斯會議提出「人工智慧」一詞

藉由李佳霖和蔡侑霖長達近半年的調查研究,觀眾對 AI 發展有了清楚的輪廓。自 1956 年達特茅斯會議提出「人工智慧(Artificial Intelligence))」一詞,並明確定出 AI 的任務,例如:自然語言處理、神經網路、計算學理論、隨機性與創造性等,就開啟了全球 AI 研究浪潮,至今將近 70 年的過程間,共迎來三波發展高峰。

第一波技術爆發期確立了自然語言與機器語言的轉換機制,科學家將任務文字化、建立推理規則,再換成機器語言讓機器執行,然而受到演算法及硬體資源限制,使得 AI 只能解決小問題,也因此進入了第一次發展寒冬。

-----廣告,請繼續往下閱讀-----
圖二、1957-1970 年迎來 AI 第一次爆發

之後隨著專家系統的興起,讓 AI 突破技術瓶頸,進入第二次發展高峰期。專家系統是由邏輯推理系統、資料庫、操作介面三者共載而成,由於部份應用領域的邏輯推理方式是相似的,因此只要搭載不同資料庫,就能解決各種問題,克服過去規則設定無窮盡的挑戰。此外,機器學習、類神經網路等技術也在同一時期誕生,雖然是 AI 技術上的一大創新突破,但最終同樣受到硬體限制、技術成熟度等因素影響,導致 AI 再次進入發展寒冬。

走出第二次寒冬的關鍵在於,IBM 超級電腦深藍(Deep Blue)戰勝了西洋棋世界冠軍 Garry Kasparov,加上美國學者 Geoffrey Hinton 推出了新的類神經網路算法,並使用 GPU 進行模型訓練,不只奠定了 NVIDIA 在 AI 中的地位, 自此之後的 AI 研究也大多聚焦在類神經網路上,不斷的追求創新和突破。

圖三、1980 年專家系統的興起,進入第二次高峰

從現在看未來:AI 不僅是工具,也是創作者

隨著時間軸繼續向前推進,如今的 AI 技術不僅深植於類神經網路應用中,更在藝術、創意和日常生活中發揮重要作用,而「2024 未來媒體藝術節」第二章「創造力的轉變」及第三章「創作者的洞見」,便邀請各國藝術家展出運用 AI 與科技的作品。

圖四、2010 年發展至今,高性能電腦與大數據助力讓 AI 技術應用更強

例如,超現代映畫展出的作品《無限共作 3.0》,乃是由來自創意科技、建築師、動畫與互動媒體等不同領域的藝術家,運用 AI 和新科技共同創作的作品。「人們來到此展區,就像走進一間新科技的實驗室,」吳達坤形容,觀眾在此不僅是被動的觀察者,更是主動的參與者,可以親身感受創作方式的轉移,以及 AI 如何幫助藝術家創作。

-----廣告,請繼續往下閱讀-----
圖五、「2024 未來媒體藝術節——奇異點」展出現場,圖為超現代映畫的作品《無限共作3.0》。圖/C-LAB 提供

而第四章「未完的篇章」則邀請觀眾一起思考未來與 AI 共生的方式。臺灣新媒體創作團隊貳進 2ENTER 展出的作品《虛擬尋根-臺灣》,將 AI 人物化,採用與 AI 對話記錄的方法,探討網路發展的歷史和哲學,並專注於臺灣和全球兩個場景。又如國際非營利創作組織戰略技術展出的作品《無時無刻,無所不在》,則是一套協助青少年數位排毒、數位識毒的方法論,使其更清楚在面對網路資訊時,該如何識別何者為真何者為假,更自信地穿梭在數位世界裡。

透過歷史解析引起共鳴

在「2024 未來媒體藝術節」規劃的 4 大章節裡,第一章回顧 AI 發展史的內容設計,可說是臺灣近年來科技或 AI 相關展覽的一大創舉。

過去,這些展覽多半以藝術家的創作為展出重點,很少看到結合 AI 發展歷程、大眾文明演變及流行文化三大領域的展出內容,但李佳霖和蔡侑霖從大量資料中篩選出重點內容並儘可能完整呈現,讓「2024 未來媒體藝術節」觀眾可以清楚 AI 技術於不同階段的演進變化,及各發展階段背後的全球政治經濟與文化狀態,才能在接下來欣賞展區其他藝術創作時有更多共鳴。

圖六、「2024 未來媒體藝術節——奇異點」分成四個章節探究 AI 人工智慧時代的演變與社會議題,圖為第一章「流動的錨點」由自牧文化整理 AI 發展歷程的年表。圖/C-LAB 提供

「畢竟展區空間有限,而科技發展史的資訊量又很龐大,在評估哪些事件適合放入展區時,我們常常在心中上演拉鋸戰,」李佳霖笑著分享進行史料研究時的心路歷程。除了從技術的重要性及代表性去評估應該呈現哪些事件,還要兼顧詞條不能太長、資料量不能太多、確保內容正確性及讓觀眾有感等原則,「不過,歷史事件與展覽主題的關聯性,還是最主要的決定因素,」蔡侑霖補充指出。

-----廣告,請繼續往下閱讀-----

舉例來說,Google 旗下人工智慧實驗室(DeepMind)開發出的 AI 軟體「AlphaFold」,可以準確預測蛋白質的 3D 立體結構,解決科學家長達 50 年都無法突破的難題,雖然是製藥或疾病學領域相當大的技術突破,但因為與本次展覽主題的關聯性較低,故最終沒有列入此次展出內容中。

除了內容篩選外,在呈現方式上,2位研究者也儘量使用淺顯易懂的方式來呈現某些較為深奧難懂的技術內容,蔡侑霖舉例說明,像某些比較艱深的 AI 概念,便改以視覺化的方式來呈現,為此上網搜尋很多與 AI 相關的影片或圖解內容,從中找尋靈感,最後製作成簡單易懂的動畫,希望幫助觀眾輕鬆快速的理解新科技。

吳達坤最後指出,「2024 未來媒體藝術節」除了展出藝術創作,也跟上國際展會發展趨勢,於展覽期間規劃共 10 幾場不同形式的活動,包括藝術家座談、講座、工作坊及專家導覽,例如:由策展人與專家進行現場導覽、邀請臺灣 AI 實驗室創辦人杜奕瑾以「人工智慧與未來藝術」為題舉辦講座,希望透過帶狀活動創造更多話題,也讓展覽效益不斷發酵,讓更多觀眾都能前來體驗由 AI 驅動的未來創新世界,展望 AI 在藝術與生活中的無限潛力。

展覽資訊:「未來媒體藝術節——奇異點」2024 Future Media FEST-Singularity 
展期 ▎2024.10.04 ( Fri. ) – 12.15 ( Sun. ) 週二至週日12:00-19:00,週一休館
地點 ▎臺灣當代文化實驗場圖書館展演空間、北草坪、聯合餐廳展演空間、通信分隊展演空間
指導單位 ▎文化部
主辦單位 ▎臺灣當代文化實驗場

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
210 篇文章 ・ 312 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

0
0

文字

分享

0
0
0
「人無照天理,天無照甲子」?人比畜生便宜?明代鄉紳筆下的災荒紀實!——《價崩:氣候危機與大明王朝的終結》
衛城出版_96
・2024/05/22 ・3411字 ・閱讀時間約 7 分鐘

第一章 陳其德的故事

居安思危的明朝鄉紳

陳其德晚年回首過去時,總是萬分感嘆。崇禎十四年七月十五日的中元鬼節(按今曆為西元一六四一年八月二十一日),陳其德懷著愁緒提筆為文,描述自己周圍世界的崩壞。他親眼看見故鄉土崩瓦解──那是位於長江三角洲,距今上海西南一百公里處的桐鄉。

陳其德在當地教書,沒有什麼值得一提的成就。要不是他描述明朝最慘受災年的文章傳了下來,說不定世人早已忘卻此君是何許人也。

關於陳其德,我們所知的就只有他在自己著作中提到的事情,例如他在一五七○年前後出生,當時一切欣欣向榮。陳其德提到,自己生為傳統「四民」(士農工商,先後順序就是身分高低)中的最高階級,成長於「耕讀」之家,並為此感到慶幸──這代表他們家是鄉間的中等富裕之家,明史學者會稱之為「鄉紳」。

陳其德與其他鄉紳子弟一樣,努力讀書,期盼有朝一日能中舉登科,光耀門楣,為國效勞。二十多歲時,他每隔三年應試一次,卻始終未能中舉。三十歲時,他放棄了入試出頭的抱負,決定好好過生活,轉而從事教學,並且在接下來二十五年間用心教書,知足常樂。也就是說,陳其德相當認分,他受過教育,日子還過得去,也安於當他的低階鄉紳。

-----廣告,請繼續往下閱讀-----

陳其德為了證明萬曆年間豐衣足食,提出了充分的證詞:

斗米不過三四分。

陳其德用來稱呼穀物的字是「米」這個通用詞,指的可以是米心或米粒。「米」在長江三角洲的脈絡中通常指稻米,而不是北方人吃的小米或小麥,南方人比較愛吃米。他用「斗」這個單位來為米計價,而「斗」字面上是指一杓或一桶。陳其德提到的貨幣單位,是白銀的標準小單位「分」,「分」本意指「百分之一」,而這句話裡所說的是什麼的百分之一呢?是「兩」這種重量的百分之一。「兩」是中國主要的貨幣計算單位。

圖/unsplash

物價這麼低,榮景似乎觸手可及,至少陳其德寧願這麼想。誰都不用擔心東西不夠吃。 陳其德用戒慎的態度來勾勒這種安逸,提醒大家榮景不只能讓人豐衣足食,也會讓人鬆懈了道德。一五八八年至一五八九年這兩年間發生嚴重的天災,先是豪雨成災,然後是嚴重乾旱。身為重視道德的儒生,陳其德只能把這兩波天災歸諸於「人禍」。他認為,萬曆初年的富足,讓大家失了道德準繩。雨水與乾旱不只是天災,也是上天的警告。

令人驚心的災年物價

陳其德回過頭來談米價,把老天爺警告的嚴重程度加以量化。

-----廣告,請繼續往下閱讀-----

當是時,積米一擔,博價一兩有六。然米價騰貴,僅以月計,便覺野無青草,樹無完膚,而流離載道,橫屍遍路。

一擔有十斗,等於一斗要價十六分,也就是說米價漲了四到五倍。米價這麼貴,窮人只好盡可能從身邊的大自然找尋替代品,從青草到樹皮都不放過。社會愈來愈動盪。

講完一五八九年的天災,陳其德跳到天啟年間的一六二○年代,宦官派系在統御無方的明熹宗治下抬頭,朝綱混亂,讓政治菁英與衛道人士大感失望。陳其德簡短描述當時的混亂,將之視為上天的警告,接著跳到他為文的主軸,也就是繼位的崇禎皇帝統治末年。

陳其德再次以米價來量化災害並追蹤其進展。

-----廣告,請繼續往下閱讀-----
圖/unsplash

米價初自一兩餘,漸至二兩餘。至水退而吳興農父重覓苗於嘉禾,一時爭為奇貨。即七月終旬,猶然舟接尾而去也。

陳其德在此把單位往上翻了一番,從「斗」上調到「石」,大約等於一百「升」。數字除以十就能還原出每斗的價格:價格在一六四○年先漲到每斗十分,接著二十分。

這些物價對經濟的影響,是導致市場關閉。至於社會影響,則堪稱災難。連當鋪都關門大吉,因為誰都沒有東西能典當。農民還是打起精神,出門耕田,但作物才剛種下去,蝗蟲便席捲而來,連剛發芽的東西都不放過。溪流乾涸,有水桶也無用武之地。

接下來疫情爆發,很可能是鼠疫,百分之五十到六十的家戶染疫。陳其德提到有許多人「就木」,至於「無木可就者,不過以青蠅為弔客」。

-----廣告,請繼續往下閱讀-----

接著陳其德重新回來談物價,把敘事主軸從米價轉向其他食品的價格,藉此強調物價漲到難以置信的水準。陳其德在文章最後提醒讀者「勿視為老生腐談」。光是能活命就足以感恩涕零,但大多數人都想忘記受過的苦難,假裝什麼壞事都沒發生過,那可不行。

就連豬都比人貴?

災難還沒到頭。陳其德在一六四一年中元節擱筆時,也沒想過情況還可以變得更糟。一年又一個多月之後,陳其德在中秋節(一六四二年九月十九日)再度提筆為文,把去年的故事接著說下去。他在文章開頭提到,那年冬天嚴重缺米。他不是說米價有多高,而是沒提價格,因為根本沒米可以標價。

填不飽肚子的人或者拋棄自己的孩子,或者殺了他們來吃。染疫的比率上升到百分之九十。情況愈來愈慘,無計可施的老百姓甚至不惜把自己討來的丁點食物拿去拜拜,尤其疫情復燃之後更甚,期盼神明能出手幫忙。陳其德說,這種可悲的做法只會讓糧價變得更貴。

又因病者祈祝太甚,食物倍貴於去年。大雞二足,得錢一千;即小而初能鳴者,亦五百六百。湯猪一口,動輒自五兩至六七兩;即乳豬一口,亦一兩五六錢至一兩七八錢。若小廝婦女,反不過錢一千二千。又安見人貴而畜賤耶?

-----廣告,請繼續往下閱讀-----
圖/unsplash

陳其德此處提到物價時,講到兩種不同的貨幣。豬用銀兩,雞用銅錢,人也用銅錢。社會上普遍把「銅」跟「銀」的用處區分得很清楚,銅錢用來買便宜的東西,銀兩則是用於大手筆的買賣。陳其德用銅錢替奴僕定價,其實是反指不該用銅錢給人標價,銅錢應該是用來給雞標價才對。然而在經濟崩潰的年代,就連豬都比人貴。

大明王朝的儒家宇宙觀

人們往往在逆境中尋求倫理教訓,尤其是陳其德這種道學之士。身居鄉紳底端的他,不停反省自己享有的那一點點特權,免得讓僅有的一絲絲福德溜走。他父母之所以為他取名「其德」(大概可以解為「有德之人」),或者也有這一番期許吧。陳其德身家有限,又沒有中過舉,只能仰賴其德來維持自己的社會地位,而他對此也是戒慎恐懼。

儒家把倫理與宇宙觀緊密結合,讓兩者之間幾乎沒有分別。雨水來自天上,天不下雨,是因為天決定不下雨,做為某種警告或懲罰。今日的我們抱持著大不相同的宇宙觀,但就連我們都會在日常生活中替天氣與疾病生態所受到的擾動賦予道德意義,宛如破壞環境與氣候變遷的警告。

所以,雖然我們的道德權衡基準與明代百姓截然不同,但我們跟他們其實相去不遠。在本書裡,我希望大家各退一步,試圖找回明代百姓生活的世界。我們如今把「世界」想成某個深受條件變化影響的有形生態體系,而他們當年則是把「世界」看成某種形而上的桌上遊戲,主導遊戲走向的則是上天。兩種觀念的建構方式並不相同,我也不覺得非得採用儒家道理,但我確實覺得當時人有他們的體會,他們用自己覺得有意義的方式在理解世界,我們不妨盡可能去貼近他們的體悟與認知。如果我們不去觀照生存危機對他們的意義,就等於是掏空了歷史。

-----廣告,請繼續往下閱讀-----

其實,無論是我們還是他們,大家都生活在一個容易遭受擾動的全球生態系,擾動的因素也許是蒼生愚昧阻礙了天恩,也許是人類製造的碳與氣膠阻擋了太陽能。我們大家還有一個共同習慣,就是從必需支付的物價來看自己財富的變化。本書要順著陳其德的腳步,觀察糧價,但為的不是當成天怒程度的氣壓計,而是做為氣候變遷的衡量指標。

——本文摘自《價崩:氣候危機與大明王朝的終結》,2024 年 05 月,城出版出版,未經同意請勿轉載。

-----廣告,請繼續往下閱讀-----
衛城出版_96
4 篇文章 ・ 4 位粉絲
"每個人心中都有一座城。每個人在心裡攜帶著文明的種子。 守衛讀者心中之城,與文明的生命力。"

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
-----廣告,請繼續往下閱讀-----
雅文兒童聽語文教基金會_96
58 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。