0

1
0

文字

分享

0
1
0

剖析霍金的「代言人」:人機如何透過語音互動溝通?

活躍星系核_96
・2018/03/28 ・7723字 ・閱讀時間約 16 分鐘 ・SR值 521 ・七年級

  • 作者/施登騰 中國科技大學互動娛樂設計系主任
史蒂芬・霍金(Stephen Hawking )博士。 圖/Lwp Kommunikáció

今年(2018)年 3 月 14 日傳來史蒂芬・霍金(Stephen Hawking )博士 76 歲長眠的消息,舉世同哀。早上開電腦上網後,看到有更多他的相關消息與回顧,這些熱烈討論從昨天到今天都仍持續不斷著。

霍金的語音代言人

圖/《愛的萬物論》劇照

曾與家人一同欣賞史蒂芬・霍金的傳記電影「愛的萬物論 (The Theory of Everything)」(頗喜歡這中英文片名),不過沒看他的「時間簡史」,只借閱過他親筆自傳《我的人生簡史》。電影透過戲劇呈現霍金博士的生平,算來是個奇特經驗。我們比較熟悉的霍金博士,是那個因罹患漸凍症,後來失去說話能力,需透過電腦語音代言,卻仍不減溝通能力與幽默的霍金博士。當然,電影中也演出了這段經歷,透過電腦語音重拾溝通能力並不簡單。

網路上可以找到霍金博士親自說明,電腦語音如何協助他發言,可以點以下影片聆聽他的熟悉聲音。

還有一個網站提供「霍金聲音生成器 (Stephen Hawking Voice Generator)」。霍金博士在影片中提到,他當時使用的語音合成軟硬體設備,是由「劍橋精益通訊公司(Cambridge Adaptive Communication)」的 David Mason 幫他裝設在電動輪椅後面;使用的是一款名為「Equalizer (等化器)」的軟體,由加州電腦專家華托茲(Walt Woltosz)於 1985 年幫霍金博士研發的,這在他的自傳中也有提到。

-----廣告,請繼續往下閱讀-----

這合成的聲音不僅像機器人說話,而且還有美國口音。《Meet the man who lent Stephen Hawking his voice》(將聲音借給霍金的人)這篇報導中,作者 Rachel Kraus 引述雜誌《Wired》的深入報導,寫到這個聲音原屬 Dennis Klatt 這位美國麻省理工的學者,以他自己的聲音透過電腦合成而成。在 80 年,當霍金博士失去口語能力時,找到了 Dennis Klatt 所合作的《DECtalk》公司的語音合成軟體(Speech synthesizer),透過文字輸入方式進行語音合成(Text-to-Speech,TTS)。

霍金親述他是如何透過科技說話溝通的。 圖/〈Stephen Hawking – How is he talking?〉影片。

目前霍金所使用的語音合成軟體《Equalizer》已經提供開源碼,希望能嘉惠更多有需要的人;正式的官方名稱為「Assistive Context-Aware Toolkit (輔助式語意感知工具包)」,適用於有 Windows 7 以後的版本、使用 C# 語言;不支援 Mac 系統。有需要進一步資訊的話, 雜誌《Wired》2015 年 8 月的這篇報導「You Can Now Use Stephen Hawking’s Speech Software For Free」(免費使用霍金用的說話軟體!)會更清楚。

由於漸凍症的緣故,霍金博士除了逐漸失去說話能力;即使電腦語音的拼字輸入方式,也因症狀加劇而逐漸弱化。到了後期,霍金博士甚至需要借助 IR 去偵測臉頰肌肉運動進行輸入控制,使用的是《Words Plus》公司的軟體《EZ Keys》,只要輸入幾個字,前方螢幕會據以顯示候選字句,讓霍金博士以臉頰的微幅動作控制選字句組合,然後再透過 《Equalizer》轉成聲音檔,也就是那個美國口音的機器人聲 。

據 Rachel Kraus 引述雜誌《Wired》報導,霍金博士不僅在《DECtalk》公司進行語音合成軟體升級時,要求使用原聲音檔,甚至後來 Intel 為他建置新的軟體時,還在他的堅持下,找回 Dennis Klatt 的原始聲音檔去進行軟體升級。大家可以欣賞「Master Of The Universe: Stephen Hawking」(宇宙大師:霍金)這部紀錄片,片中 22:10~22:40 這一段就有霍金博士以臉頰動作輸入文字的畫面。

-----廣告,請繼續往下閱讀-----
圖/〈How Does Stephen Hawking Talk?〉影片

人機互動──語音助理可以做到什麼?

這令人遺憾的新聞確實讓我想到「人機互動 (HCI)」的發展(很抱歉),加上最近跟好友借用了《Amazon Echo》跟《Echo Dot》來玩,常常在早上就使用,會「請」Alexa 服務,說聲「Alexa, Play music.」,Amazon 的語音助理 Alexa,就會幫我播「70 年代電台音樂」,也玩過《Jeopardy 猜謎》,這是 24,000 多個 Alexa Skills(技能)提供的服務(根據 2017.12 數據)。

圖/Amazon

Amazon 也開放 Alexa Skills Kit,歡迎第三方參與開發。iOS 的 Siri 自然我也常用,因為上下班搭車移動中習慣戴耳機,所以都會長按耳機控制鈕呼叫出Siri,要她播音樂或撥電話。但有許多科技報導說得很直白,直接指出 Siri 不僅被遠遠拋在 Amazon Alexa 與 Google Assistant 後面,更不用說相關應用根本跟不上Amazon Alexa Skills 與 Google Me-Too 的第三方應用那樣的快速發展。

也有篇科技新訊提出相關分析,並特別點出三家公司在發展「Voice First Platform」這種新型個人數位服務與應用平台上的顯著差距,或許會成為影響三家公司發展前景的致命關鍵。

Amazon Echo 語音助理裝置。圖/作者拍攝。

替 Siri 配音的人

此外,再談談原音重現。就像霍金博士的語音合成的原音是 Dennis Klatt。iOS Siri 在發音上非常接近自然人聲,而最常用的女音則是 Susan Bennet 的聲音組合的(見下圖),而男聲版本的,可以查到資料的是幫英國 Siri 版配音的 Jon Briggs,他算是 iPhone 4 第一代 Siri 的男聲。

-----廣告,請繼續往下閱讀-----

而根據 Susan Bennett 接受訪問的錄音內容「Siri is dying. Long live Susan Bennett,她提到她在2005年接到一個配音委託,當時她不知道這些錄音是做什麼用的,整整花了 1 個月,每天 4 小時去錄許多短句,後來還是同事在 2011 年問她,她才知道是用在 Siri 的人聲語音服務上。只不過 Apple 也未曾正式承認 Susan Bennett 就是 Siri 這個機器人助理的幕後人聲。

但對 Susan 來說,至少 CNN 請了專家鑑定確定,她在 TED 以「Accidentally Famous: The Story Behind the Original Voice of Siri 」為題演講過;但根據報導,Jon Briggs 卻還接到 Apple 電話,被要求不要公開談論他就是 Siri 的男聲,理由就是「不希望 Apple 的數位語音助理被聯想到特定的人」。他們兩位曾同時被訪問過這些特殊經驗,有興趣者可以看這篇訪問稿:「Hey, Siri! Meet the real people behind Apple’s voice-activated assistant」。

siri 的幕後配音員 Susan Bennett 。 圖/Susan Bennett 個人網站

如何讓數位語音助理「聽起來」越來越像人?

那就接續談談在發音上越來越接近人聲的數位語音助理(Digital Voice Assistant)吧!

之前在「The Voice of Museum」這篇分享中(博物館學會網站刊載連結),曾於針對博物館科技應用談到「數位語音助理」與「語音服務」時,有提到如下的內容:

-----廣告,請繼續往下閱讀-----

無論是把 Echo、 Siri,、Cortana 稱之為語音助理(Voice Assistant)、虛擬助理(Virtual Assistant)、人工智慧助理(AI Assistant、AI-Powered Virtual Assistant),而且就像「The Surprising Repercussion of Making AI Assistants Sound Human」以及「Why Do So Many Digital Assistants Have Feminine Names」談到的議題,我們對人工智慧科技服務的具體想像,其實不是機器人助理,而是更接近「人」的虛擬助理,無論是在語音對答服務時更像真人的語調,或者是在命名與性別上。

文章中提到所謂的「依存互動 Contingent Interaction」,並引用研究說人類比較能夠對可以來回反應、對話與互動的人事物有所連結。報導也都提出不僅「擬人 Humanlike」是具體目標,兼有個性與實用性(Personality and Utility)的虛擬助理服務也是眾所企求的。

這也讓我想起在智慧博物館《AI 上博物館中,引述 Deeson 廣告公司的科技策略總監 Ronald Ashiri 在文章How Museums Are Using Chatbots》(博物館如何應用聊天機器人),其中的概念「Giving chatbots a face」(賦予聊天機器人個性形貌)。就從上述所分享的實際案例來看,目前的人工智慧發展已讓「想像」逐漸成真。

其中所提的數位語音助理的 Humanlike、擬人化anthropomorphic)傾向,以及命名女性化的特徵,在在顯示了數位助理的研發,是在追求一個全知的 AI 語音助理;或許在具體樣貌上,就會越來越接近電影《鋼鐵人》的人工智慧助理:J.A V.I.S. (Just Another Rather Very Intelligent System的縮寫) 。

圖/《鋼鐵人》劇照 @The Verge

人機互動的溝通:語音轉文字,文字轉語音

前面提到,霍金博士透過軟體《EZ Keys》選擇字句,再由軟體《Equalizer》轉譯成聲音。這種 Text-to-Speech(TTS,文字轉語音)的數位轉譯形式對現在的數位技術來說其實是很簡單的應用,因為已有很多 App 都能支援,即使是逆向工程:Speech-to-Text(STT,語音轉文字),也已經很普及,像是現在手機輸入法中內建的語音輸入法。

-----廣告,請繼續往下閱讀-----

特別再提及這點,是因為「文字」與「語音」都是與 AI 數位助理溝通的重要媒介與元素。就如同在《AI 上博物館》與《AI 上互動娛樂設計系》[註1](這兩篇所介紹的許多數位語音應用,博物館與其不同業界所使用的「AI 聊天機器人」,不管是「純簡訊服務類(text messaging service)」、「即時對話服務類 (chatbot conversational service) 」、「問與答諮詢類(Q&A chatbot service)」類;基本上,人機互動都是透過「文字」或/與「語音」溝通。

像 Google 就研發了專屬的「語音合成標記語言」( the Speech Synthesis Markup Language;SSML )技術來支援語音合成應用程式,並操控互動語音系統;使得與 AI 數位語音助理的對話,可以像是跟某人說話互動一樣。

舉兩個實際的應用案例:

Google Story Speaker (互動故事閱讀器)

基本概念是將在網路文件編輯器 《Google Doc 》上所編寫的互動腳本(文字檔),透過 Add-On (附加元件)加入應用程式《Story Speaker》,就可以使用智慧管家《Google Home》或語音助理《Google Assistant》,以語音播放;「文字朗讀功能(TTS)」再加上「語音辨識功能(STT)」,就可以讓《Google Home》成為《Story Speaker》,而且還會在特定段落詢問閱聽者的決定,提供不同路線的故事內容,導引到不同的故事結局。

-----廣告,請繼續往下閱讀-----

Google Grilled Murder Mystery(互動偵探角色扮演)

此應用的概念,是讓玩家在這個語音互動應用程式中的謀殺案中扮演偵探的角色,玩家透過訪問四名嫌犯中的每一名去調查餐館老闆的命案的線索,以確定誰才是兇手。此應用程式也使用了 SSML 語音合成標記語言技術,所以玩家就像是透過一位「助理」的協助,進行命案的偵查。

由 Google 開發的人工智慧語音互動遊戲「Grilled Murder Mystery」。 圖/Grilled Murder Mystery

現代人工智慧可以執行什麼任務?

所以無論與語音助理之間的溝通,是透過 TTS 或 STT 形式,在未來,透過人工智慧、自然語言處理、機器學習等先進技術的導入,要在現實生活中有 JAVIS 協助打點一切,並提供全知的資訊服務,並非不可能。

語境(Context)」、「語言(Language)」、「推理(Reasoning)」被視為人工智慧的三大挑戰,但如果是要考慮的 AI 數位語音助理之研發應用的話,它們也是機器學習、自然語言處理兩項技術的重大挑戰。

現如今,金融特別是一個全面採用 AI 技術、自動化技術的行業,也就是大家熟悉的 FinTech 趨勢。針對「數據資料導向任務(Data-Driven Task)」的自動化來說,AI 技術已被充分運用了,AI 財經機器人已能自動撰寫處理「基金財務報告 Fund Reporting」、「損益分析報告 Profit & Loss Reports」、「信用管理報告 Credit Management Reporting」、「銷售報告 Sales Reporting」(資料來源)。看來,許多挑戰已隨著應用需求與科技發展,而逐漸被克服。

-----廣告,請繼續往下閱讀-----

而我的重點是,人工智慧技術、機器學習模型已經能夠自動判斷文本的結構和含義,像是根據霍金博士輸入的幾個字,自動判斷後提供「選用字句(Candidate Sentence)」,有效減少輸入次數;或者像前面例舉的「互動偵探角色扮演(Grilled Murder Mystery)」此一類型的智慧語音應用。

「全知型」互動對話導覽服務

在 TTS、STT、AI、Machine Learning、NLP 等技術的持續發展,以及典藏資料庫的內容支援下,很期待未來有機會在博物館、商展、展演機構見到「全知型」互動對話導覽服務的出現。

梵谷自畫像。 圖/ The Art Institute of Chicago via Google Arts & Culture

下圖是使用自然語言處理(NLP)技術,利用分析器(Parser)將一段「畫作說明文字」(梵谷自畫像)進行語法分析(Syntactic analysis)的結果。這段「畫作說明文字」在數位處理分析後,由分析器解構成各個詞彙單位,並呈現其結構和含義。語法分析也用來建立樹狀的語法樹(syntax tree),透過中間表述提供詞彙單位串流的語法結構。

該段說明文字如下:

Vincent van Gogh painted his first known self-portrait in 1886, following the model of the 17th-century Dutch artist Rembrandt. But by the time he made this work, a year later, he had clearly shifted his allegiance from the Old Masters to the Parisian avant-garde. Under the influence of Neo-Impressionist color theory, he based this painting on the contrast of complementary colors.

Syntax分析結果見下圖:

語法分析(Syntactic analysis)圖。 圖/作者提供

也就因為這些強大的數位技術支援,我們與機器的「文字」或「語音」互動對話,都能更自然,人工智慧更思考能力,人機互動更接近我們的日常行為。所以數位科技讓因為漸凍症無法言語的霍金博士仍能繼續寫作、演講;相信數位科技也打開了與具有龐大內容的數位語音助理/電腦/資料庫進行深度互動的機會。

WATSON,美術館中的全知數位導覽員

我個人認為的理想數位導覽應用典型,應該是是巴西奧美廣告公司與 IBM 公司合作,於 2017 年 6 月在巴西聖保羅博薩博物館(Pinacoteca do Estado de Sao Paulo) 所推出的數位導覽服務《The Voice of Art / with WASTON》

這個 App 使用的數位語音技術就是由 IBM 研發的《WATSON》。研發團隊為了培養 WATSON 的應答能力,共花了 6 個月時間與西聖保羅州立博物館策展人和研究員合作,以大量的書籍、報導、傳記、訪談、網路資料、影片讓 WATSON 透過機器學習累積對於藝術作品豐富知識與答案,並擴大可對話與提供回覆的範疇,WATSON 就像個全知的數位導覽員。

在「The Voice of Art / with WASTON」的宣傳影片中,研發人員說:

「用預錄的聲音介紹藝術史,並不是真正的互動。」

所以他們花了非常大的努力,希望讓 WASTON 與使用者有更自然的對話。影片中,有位小孩則看著肖像畫,問畫中人物說「你喜歡踢足球嗎?」。我想 WASTON 的確做到了!!!!

小朋友透過導覽器問說:「你喜歡踢足球嗎?」 圖/ADWEEK
-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
778 篇文章 ・ 127 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

1
0

文字

分享

0
1
0
人與 AI 的關係是什麼?走進「2024 未來媒體藝術節」,透過藝術創作尋找解答
鳥苷三磷酸 (PanSci Promo)_96
・2024/10/24 ・3176字 ・閱讀時間約 6 分鐘

本文與財團法人臺灣生活美學基金會合作。 

AI 有可能造成人們失業嗎?還是 AI 會成為個人專屬的超級助理?

隨著人工智慧技術的快速發展,AI 與人類之間的關係,成為社會大眾目前最熱烈討論的話題之一,究竟,AI 會成為人類的取代者或是協作者?決定關鍵就在於人們對 AI 的了解和運用能力,唯有人們清楚了解如何使用 AI,才能化 AI 為助力,提高自身的工作效率與生活品質。

有鑑於此,目前正於臺灣當代文化實驗場 C-LAB 展出的「2024 未來媒體藝術節」,特別將展覽主題定調為奇異點(Singularity),透過多重視角探討人工智慧與人類的共生關係。

-----廣告,請繼續往下閱讀-----

C-LAB 策展人吳達坤進一步說明,本次展覽規劃了 4 大章節,共集結來自 9 個國家 23 組藝術家團隊的 26 件作品,帶領觀眾從了解 AI 發展歷史開始,到欣賞各種結合科技的藝術創作,再到與藝術一同探索 AI 未來發展,希望觀眾能從中感受科技如何重塑藝術的創造範式,進而更清楚未來該如何與科技共生與共創。

從歷史看未來:AI 技術發展的 3 個高峰

其中,展覽第一章「流動的錨點」邀請了自牧文化 2 名研究者李佳霖和蔡侑霖,從軟體與演算法發展、硬體發展與世界史、文化與藝術三條軸線,平行梳理 AI 技術發展過程。

圖一、1956 年達特茅斯會議提出「人工智慧」一詞

藉由李佳霖和蔡侑霖長達近半年的調查研究,觀眾對 AI 發展有了清楚的輪廓。自 1956 年達特茅斯會議提出「人工智慧(Artificial Intelligence))」一詞,並明確定出 AI 的任務,例如:自然語言處理、神經網路、計算學理論、隨機性與創造性等,就開啟了全球 AI 研究浪潮,至今將近 70 年的過程間,共迎來三波發展高峰。

第一波技術爆發期確立了自然語言與機器語言的轉換機制,科學家將任務文字化、建立推理規則,再換成機器語言讓機器執行,然而受到演算法及硬體資源限制,使得 AI 只能解決小問題,也因此進入了第一次發展寒冬。

-----廣告,請繼續往下閱讀-----
圖二、1957-1970 年迎來 AI 第一次爆發

之後隨著專家系統的興起,讓 AI 突破技術瓶頸,進入第二次發展高峰期。專家系統是由邏輯推理系統、資料庫、操作介面三者共載而成,由於部份應用領域的邏輯推理方式是相似的,因此只要搭載不同資料庫,就能解決各種問題,克服過去規則設定無窮盡的挑戰。此外,機器學習、類神經網路等技術也在同一時期誕生,雖然是 AI 技術上的一大創新突破,但最終同樣受到硬體限制、技術成熟度等因素影響,導致 AI 再次進入發展寒冬。

走出第二次寒冬的關鍵在於,IBM 超級電腦深藍(Deep Blue)戰勝了西洋棋世界冠軍 Garry Kasparov,加上美國學者 Geoffrey Hinton 推出了新的類神經網路算法,並使用 GPU 進行模型訓練,不只奠定了 NVIDIA 在 AI 中的地位, 自此之後的 AI 研究也大多聚焦在類神經網路上,不斷的追求創新和突破。

圖三、1980 年專家系統的興起,進入第二次高峰

從現在看未來:AI 不僅是工具,也是創作者

隨著時間軸繼續向前推進,如今的 AI 技術不僅深植於類神經網路應用中,更在藝術、創意和日常生活中發揮重要作用,而「2024 未來媒體藝術節」第二章「創造力的轉變」及第三章「創作者的洞見」,便邀請各國藝術家展出運用 AI 與科技的作品。

圖四、2010 年發展至今,高性能電腦與大數據助力讓 AI 技術應用更強

例如,超現代映畫展出的作品《無限共作 3.0》,乃是由來自創意科技、建築師、動畫與互動媒體等不同領域的藝術家,運用 AI 和新科技共同創作的作品。「人們來到此展區,就像走進一間新科技的實驗室,」吳達坤形容,觀眾在此不僅是被動的觀察者,更是主動的參與者,可以親身感受創作方式的轉移,以及 AI 如何幫助藝術家創作。

-----廣告,請繼續往下閱讀-----
圖五、「2024 未來媒體藝術節——奇異點」展出現場,圖為超現代映畫的作品《無限共作3.0》。圖/C-LAB 提供

而第四章「未完的篇章」則邀請觀眾一起思考未來與 AI 共生的方式。臺灣新媒體創作團隊貳進 2ENTER 展出的作品《虛擬尋根-臺灣》,將 AI 人物化,採用與 AI 對話記錄的方法,探討網路發展的歷史和哲學,並專注於臺灣和全球兩個場景。又如國際非營利創作組織戰略技術展出的作品《無時無刻,無所不在》,則是一套協助青少年數位排毒、數位識毒的方法論,使其更清楚在面對網路資訊時,該如何識別何者為真何者為假,更自信地穿梭在數位世界裡。

透過歷史解析引起共鳴

在「2024 未來媒體藝術節」規劃的 4 大章節裡,第一章回顧 AI 發展史的內容設計,可說是臺灣近年來科技或 AI 相關展覽的一大創舉。

過去,這些展覽多半以藝術家的創作為展出重點,很少看到結合 AI 發展歷程、大眾文明演變及流行文化三大領域的展出內容,但李佳霖和蔡侑霖從大量資料中篩選出重點內容並儘可能完整呈現,讓「2024 未來媒體藝術節」觀眾可以清楚 AI 技術於不同階段的演進變化,及各發展階段背後的全球政治經濟與文化狀態,才能在接下來欣賞展區其他藝術創作時有更多共鳴。

圖六、「2024 未來媒體藝術節——奇異點」分成四個章節探究 AI 人工智慧時代的演變與社會議題,圖為第一章「流動的錨點」由自牧文化整理 AI 發展歷程的年表。圖/C-LAB 提供

「畢竟展區空間有限,而科技發展史的資訊量又很龐大,在評估哪些事件適合放入展區時,我們常常在心中上演拉鋸戰,」李佳霖笑著分享進行史料研究時的心路歷程。除了從技術的重要性及代表性去評估應該呈現哪些事件,還要兼顧詞條不能太長、資料量不能太多、確保內容正確性及讓觀眾有感等原則,「不過,歷史事件與展覽主題的關聯性,還是最主要的決定因素,」蔡侑霖補充指出。

-----廣告,請繼續往下閱讀-----

舉例來說,Google 旗下人工智慧實驗室(DeepMind)開發出的 AI 軟體「AlphaFold」,可以準確預測蛋白質的 3D 立體結構,解決科學家長達 50 年都無法突破的難題,雖然是製藥或疾病學領域相當大的技術突破,但因為與本次展覽主題的關聯性較低,故最終沒有列入此次展出內容中。

除了內容篩選外,在呈現方式上,2位研究者也儘量使用淺顯易懂的方式來呈現某些較為深奧難懂的技術內容,蔡侑霖舉例說明,像某些比較艱深的 AI 概念,便改以視覺化的方式來呈現,為此上網搜尋很多與 AI 相關的影片或圖解內容,從中找尋靈感,最後製作成簡單易懂的動畫,希望幫助觀眾輕鬆快速的理解新科技。

吳達坤最後指出,「2024 未來媒體藝術節」除了展出藝術創作,也跟上國際展會發展趨勢,於展覽期間規劃共 10 幾場不同形式的活動,包括藝術家座談、講座、工作坊及專家導覽,例如:由策展人與專家進行現場導覽、邀請臺灣 AI 實驗室創辦人杜奕瑾以「人工智慧與未來藝術」為題舉辦講座,希望透過帶狀活動創造更多話題,也讓展覽效益不斷發酵,讓更多觀眾都能前來體驗由 AI 驅動的未來創新世界,展望 AI 在藝術與生活中的無限潛力。

展覽資訊:「未來媒體藝術節——奇異點」2024 Future Media FEST-Singularity 
展期 ▎2024.10.04 ( Fri. ) – 12.15 ( Sun. ) 週二至週日12:00-19:00,週一休館
地點 ▎臺灣當代文化實驗場圖書館展演空間、北草坪、聯合餐廳展演空間、通信分隊展演空間
指導單位 ▎文化部
主辦單位 ▎臺灣當代文化實驗場

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

0

0
0

文字

分享

0
0
0
從認證到實踐:以智慧綠建築三大標章邁向淨零
鳥苷三磷酸 (PanSci Promo)_96
・2024/11/15 ・4487字 ・閱讀時間約 9 分鐘

本文由 建研所 委託,泛科學企劃執行。 


當你走進一棟建築,是否能感受到它對環境的友善?或許不是每個人都意識到,但現今建築不只提供我們居住和工作的空間,更是肩負著重要的永續節能責任。

綠建築標準的誕生,正是為了應對全球氣候變遷與資源匱乏問題,確保建築設計能夠減少資源浪費、降低污染,同時提升我們的生活品質。然而,要成為綠建築並非易事,每一棟建築都需要通過層層關卡,才能獲得標章認證。

為推動環保永續的建築環境,政府自 1999 年起便陸續著手推動「綠建築標章」、「智慧建築標章」以及「綠建材標章」的相關政策。這些標章的設立,旨在透過標準化的建築評估系統,鼓勵建築設計融入生態友善、能源高效及健康安全的原則。並且政府在政策推動時,為鼓勵業界在規劃設計階段即導入綠建築手法,自 2003 年特別辦理優良綠建築作品評選活動。截至 2024 年為止,已有 130 件優良綠建築、31 件優良智慧建築得獎作品,涵蓋學校、醫療機構、公共住宅等各類型建築,不僅提升建築物的整體性能,也彰顯了政府對綠色、智慧建築的重視。

-----廣告,請繼續往下閱讀-----

說這麼多,你可能還不明白建築要變「綠」、變「聰明」的過程,要經歷哪些標準與挑戰?

綠建築標章智慧建築標章綠建材標章
來源:內政部建築研究所

第一招:依循 EEWH 標準,打造綠建築典範

環境友善和高效率運用資源,是綠建築(green building)的核心理念,但這樣的概念不僅限於外觀或用材這麼簡單,而是涵蓋建築物的整個生命週期,也就是包括規劃、設計、施工、營運和維護階段在內,都要貼合綠建築的價值。

關於綠建築的標準,讓我們先回到 1990 年,當時英國建築研究機構(BRE)首次發布有關「建築研究發展環境評估工具(Building Research Establishment Environmental Assessment Method,BREEAM®)」,是世界上第一個建築永續評估方法。美國則在綠建築委員會成立後,於 1998 年推出「能源與環境設計領導認證」(Leadership in Energy and Environmental Design, LEED)這套評估系統,加速推動了全球綠建築行動。

臺灣在綠建築的制訂上不落人後。由於臺灣地處亞熱帶,氣溫高,濕度也高,得要有一套我們自己的評分規則——臺灣綠建築評估系統「EEWH」應運而生,四個英文字母分別為 Ecology(生態)、Energy saving(節能)、Waste reduction(減廢)以及 Health(健康),分成「合格、銅、銀、黃金和鑽石」共五個等級,設有九大評估指標。

-----廣告,請繼續往下閱讀-----

我們就以「台江國家公園」為例,看它如何躍過一道道指標,成為「鑽石級」綠建築的國家公園!

位於臺南市四草大橋旁的「台江國家公園」是臺灣第8座國家公園,也是臺灣唯一的濕地型的國家公園。同時,還是南部行政機關第一座鑽石級的綠建築,其外觀採白色系列,從高空俯瞰,就像在一座小島上座落了許多白色建築群的聚落;從地面看則有臺南鹽山的意象。

因其地形與地理位置的特殊,生物多樣性的保護則成了台江國家公園的首要考量。園區利用既有的魚塭結構,設計自然護岸,保留基地既有的雜木林和灌木草原,並種植原生與誘鳥誘蟲等多樣性植物,採用複層雜生混種綠化。以石籠作為擋土護坡與卵石回填增加了多孔隙,不僅強化了環境的保護力,也提供多樣的生物棲息環境,使這裡成為動植物共生的美好棲地。

台江國家公園是南部行政機關第一座鑽石級的綠建築。圖/內政部建築研究所

第二招:想成綠建築,必用綠建材

要成為一幢優秀好棒棒的綠建築,使用在原料取得、產品製造、應用過程和使用後的再生利用循環中,對地球環境負荷最小、對人類身體健康無害的「綠建材」非常重要。

-----廣告,請繼續往下閱讀-----

這種建材最早是在 1988 年國際材料科學研究會上被提出,一路到今日,國際間對此一概念的共識主要包括再使用(reuse)、再循環(recycle)、廢棄物減量(reduce)和低污染(low emission materials)等特性,從而減少化學合成材料產生的生態負荷和能源消耗。同時,使用自然材料與低 VOC(Volatile Organic Compounds,揮發性有機化合物)建材,亦可避免對人體產生危害。

在綠建築標章後,內政部建築研究所也於 2004 年 7 月正式推行綠建材標章制度,以建材生命週期為主軸,提出「健康、生態、高性能、再生」四大方向。舉例來說,為確保室內環境品質,建材必須符合低逸散、低污染、低臭氣等條件;為了防溫室效應的影響,須使用本土材料以節省資源和能源;使用高性能與再生建材,不僅要經久耐用、具高度隔熱和防音等特性,也強調材料本身的再利用性。


在台江國家公園內,綠建材的應用是其獲得 EEWH 認證的重要部分。其不僅在設計結構上體現了生態理念,更在材料選擇上延續了對環境的關懷。園區步道以當地的蚵殼磚鋪設,並利用蚵殼作為建築格柵的填充材料,為鳥類和小生物營造棲息空間,讓「蚵殼磚」不再只是建材,而是與自然共生的橋樑。園區的內部裝修選用礦纖維天花板、矽酸鈣板、企口鋁板等符合綠建材標準的系統天花。牆面則粉刷乳膠漆,整體綠建材使用率為 52.8%。

被建築實體圍塑出的中庭廣場,牆面設計有蚵殼格柵。圖/內政部建築研究所

在日常節能方面,台江國家公園也做了相當細緻的設計。例如,引入樓板下的水面蒸散低溫外氣,屋頂下設置通風空氣層,高處設置排風窗讓熱空氣迅速排出,廊道還配備自動控制的微噴霧系統來降溫。屋頂採用蚵殼與漂流木創造生態棲地,創造空氣層及通風窗引入水面低溫外企,如此一來就能改善事內外氣溫及熱空氣的通風對流,不僅提升了隔熱效果,減少空調需求,讓建築如同「與海共舞」,在減廢與健康方面皆表現優異,展示出綠建築在地化的無限可能。

-----廣告,請繼續往下閱讀-----
島式建築群分割後所形成的巷道與水道。圖/內政部建築研究所

在綠建材的部分,另外補充獲選為 2023 年優良綠建築的臺南市立九份子國民中小學新建工程,其採用生產過程中二氧化碳排放量較低的建材,比方提高高爐水泥(具高強度、耐久、緻密等特性,重點是發熱量低)的量,並使用能提高混凝土晚期抗壓性、降低混凝土成本與建物碳足跡的「爐石粉」,還用再生透水磚做人行道鋪面。

2023 年優良綠建築的臺南市立九份子國民中小學。圖/內政部建築研究所
2023 年優良綠建築的臺南市立九份子國民中小學。圖/內政部建築研究所

同樣入選 2023 年綠建築的還有雲林豐泰文教基金會的綠園區,首先,他們捨棄金屬建材,讓高爐水泥使用率達 100%。別具心意的是,他們也將施工開挖的土方做回填,將有高地差的荒地恢復成平坦綠地,本來還有點「工業風」的房舍告別荒蕪,無痛轉綠。

雲林豐泰文教基金會的綠園區。圖/內政部建築研究所

等等,這樣看來建築夠不夠綠的命運,似乎在建材選擇跟設計環節就決定了,是這樣嗎?當然不是,建築是活的,需要持續管理–有智慧的管理。

第三招:智慧管理與科技應用

我們對生態的友善性與資源運用的效率,除了從建築設計與建材的使用等角度介入,也須適度融入「智慧建築」(intelligent buildings)的概念,即運用資通訊科技來提升建築物效能、舒適度與安全性,使空間更人性化。像是透過建築物佈建感測器,用於蒐集環境資料和使用行為,並作為空調、照明等設備、設施運轉操作之重要參考。

-----廣告,請繼續往下閱讀-----

為了推動建築與資通訊產業的整合,內政部建築研究所於 2004 年建立了「智慧建築標章」制度,為消費者提供判斷建築物是否善用資通訊感知技術的標準。評估指標經多次修訂,目前是以「基礎設施、維運管理、安全防災、節能管理、健康舒適、智慧創新」等六大項指標作為評估基準。
以節能管理指標為例,為了掌握建築物生命週期中的能耗,需透過系統設備和技術的主動控制來達成低耗與節能的目標,評估重點包含設備效率、節能技術和能源管理三大面向。在健康舒適方面,則在空間整體環境、光環境、溫熱環境、空氣品質、水資源等物理環境,以及健康管理系統和便利服務上進行評估。

樹林藝文綜合大樓在設計與施工過程中,充分展現智慧建築應用綜合佈線、資訊通信、系統整合、設施管理、安全防災、節能管理、健康舒適及智慧創新 8 大指標先進技術,來達成兼顧環保和永續發展的理念,也是利用建築資訊模型(BIM)技術打造的指標性建築,受到國際矚目。

樹林藝文綜合大樓。圖/內政部建築研究所「111年優良智慧建築專輯」(新北市政府提供)

在興建階段,為了保留基地內 4 棵原有老樹,團隊透過測量儀器對老樹外觀進行精細掃描,並將大小等比例匯入 BIM 模型中,讓建築師能清晰掌握樹木與建築物之間的距離,確保施工過程不影響樹木健康。此外,在大樓啟用後,BIM 技術被運用於「電子維護管理系統」,透過 3D 建築資訊模型,提供大樓內設備位置及履歷資料的即時讀取。系統可進行設備的監測和維護,包括保養計畫、異常修繕及耗材管理,讓整棟大樓的全生命週期狀況都能得到妥善管理。

智慧建築導入 BIM 技術的應用,從建造設計擴展至施工和日常管理,使建築生命周期的管理更加智慧化。以 FM 系統 ( Facility Management,簡稱 FM ) 為例,該系統可在雲端進行遠端控制,根據會議室的使用時段靈活調節空調風門,會議期間開啟通往會議室的風門以加強換氣,而非使用時段則可根據二氧化碳濃度調整外氣空調箱的運轉頻率,保持低頻運作,實現節能效果。透過智慧管理提升了節能效益、建築物的維護效率和公共安全管理。

-----廣告,請繼續往下閱讀-----

總結

綠建築、綠建材與智慧建築這三大標章共同構建了邁向淨零碳排、居住健康和環境永續的基礎。綠建築標章強調設計與施工的生態友善與節能表現,從源頭減少碳足跡;綠建材標章則確保建材從生產到廢棄的全生命週期中對環境影響最小,並保障居民的健康;智慧建築標章運用科技應用,實現能源的高效管理和室內環境的精準調控,增強了居住的舒適性與安全性。這些標章的綜合應用,讓建築不僅是滿足基本居住需求,更成為實現淨零、促進健康和支持永續的具體實踐。

建築物於魚塭之上,採高腳屋的構造形式,尊重自然地貌。圖/內政部建築研究所

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

0

5
0

文字

分享

0
5
0
來當一日語音設計師——如何設計好聽的合成語音?
雅文兒童聽語文教基金會_96
・2023/03/31 ・3727字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

  • 文/邱彥哲|雅文基金會聽語科學研究中心 助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎?你會要求他回答什麼呢?受限於目前的技術,你可能不會得到非常滿意的答案,但至少你會聽到一陣悅耳如同真人的語音吧!這項現今習以為常的技術,其實背後是由很多知識累積而成的。今天,讓我邀請你擔任一日「語音設計師」,從語音合成的技術開始,接著了解人類使用者的聽覺偏好,最後探索不同族群對聆聽合成語音的差異吧!

語音助理進駐現代人的日常生活。圖/freepik

語音合成(speech synthesis),是指以人工方式,製造出說話的聲音,可以理解為使機器裝置說出人話的技術。廣義來說,很多人也會把文字轉語音(Text to Speech,簡稱 TTS),含括在語音合成的範疇。

語音合成像樂高,但樂高有兩種

早在 1970 年代,人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事,最直接的方式就是請真人錄一段聲音,然後在指定的時機播放。不過,面對複雜的語言情境,我們不可能錄下所有可能的回應 ; 而且若要這樣做,也實在太沒效率。幸好,借助電腦運算技術,可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類,分別是單元選取合成(Unit Selection Synthesis)及參數合成(Parametric Synthesis)[1]

單元選取合成這種方法,是將某個語言的語音成分分別以人聲錄製起來,再根據需要的目標語音進行組合。簡單來說,如果需要機器說發出「八」的語音,就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便,但也有缺點。就是事先必須建立一個龐大的語音資料庫,這個資料庫必須包含一個語言所有語音成分,此外,還必須錄下這些語音成分在所有情境下的變化,光想起來就令人有點頭痛。

-----廣告,請繼續往下閱讀-----

所以後者,參數合成,就顯得方便許多。這種方法,是直接將語音參數輸入電腦,讓電腦直接根據參數發出聲音,再組成語音。使用參數合成,就可以免去請人錄音的步驟,但直接使用電腦生成的語音,聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高,都是將語音成分一塊一塊組合起來,只是前者的樂高是自然材質(比如說木頭製),後者是人造材質(比如說塑膠)。

借助深度學習,電腦說話很自動

不過,無論是上述哪種方法,都還是需要不少的人工調校,才能使聲音逐步接近人類的語音。但還好,隨著電腦演算的進步,將深度學習(deep learning)運用在語音合成的領域,不但減少了人工成本,也大大提升的語音的擬人性。所謂深度學習,簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法,設計者只需蒐集大量的語音資料,將資料「餵」給電腦,無須事先切分或分析,電腦便會自動學習其中的規律。如此一來,只要資料數量足夠龐大,電腦就可以自動產生符合自然規律且真實的語音。

但是,身為一位語音設計師,要進一步思考的是:「究竟要餵給電腦什麼呢?」這個問題又必須從使用者的角度來思考:「人類會偏好聆聽什麼樣的語音?」就像生產商品一樣,語音百百款,要能投其所好,才能讓使用者日日寸步不離,對吧!

-----廣告,請繼續往下閱讀-----

聆聽也要投其所好,性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖/freepik

關於合成語音的聆聽偏好,最先被討論的,是性別。雖然我們都知道機器沒有性別,但若希望他和人一樣跟你互動,投射性別是很自然的。不過有人就提出質疑:「為什麼我們的語音助理,都是女性的聲音呢?」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查,測試了 8 種族裔的使用者,結果發現 64% 的人只偏好女性的聲音[2]

這樣看起來,預設為女性的聲音應該是沒問題的吧?不過,有人認為這是社會對「助理」的性別刻板印象所致;因為社會習慣女性作為「服務者」,所以在設計語音時,直覺地就挑選了女性聲音。雖然單就頻率方面,的確有研究指出,使用者確實是偏好頻率較高的合成語音[3],但若是一昧如此,也極有可能不斷複製性別偏見的印象[4]

有鑒於此,越來越多系統開始提供男性語音的選項。更甚者,哥本哈根研究團隊突發奇想,不以性別為選項,而是改以頻率作為調查標準。分析之後,他們得到一個最佳的頻率值──185 赫茲,設計出史上第一個無性別語音助理「Q」[5]。如此一來,青菜蘿蔔各有所好,聆聽的偏好也朝著多元共好的目標邁進!

聽得舒服,語速考量不能少

解決的性別與頻率的問題,還得注意甚麼呢?專門研究輔助溝通系統(Augmentative and Alternative Communication,簡稱 AAC)的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」,是用以輔助溝通障礙者溝通的工具; 簡單如圖卡,複雜如電子溝通板,都算是其中一員。而像是電子溝通板這類,以螢幕顯示圖片,點擊後可以播放語音的輔具來說,合成語音是很關鍵的技術。

-----廣告,請繼續往下閱讀-----

這些溝通障礙專家想知道:「究竟什麼樣的語音速度,是最舒服的呢?」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者,對合成語音進行語速評分[6]。語速的計算方式,採用每分鐘幾個字(Words per minute,簡稱 WPM)計算。他們將合成語音調整成不同的語速,範圍介於 120 到 250WPM 之間。結果發現,無論年輕人或年長者,偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍,其實與過去研究提出的人類平均語速,相去不遠[7]

如果想知道不同語速聽起來感受如何,可以到合成語音軟體 Speechify[8]的網站試用,自行調整語速(以 WPM 計算),細細品味其中差異。或者,讓我為你朗讀,請聽示範(語速約 180WPM,內容為「我是彥哲,我是普通人。」)! 

可見,語音合成的技術雖是極為理性的領域,但若要設計出美妙的語音,對人類感性的理解,也絕對不能偏廢。

-----廣告,請繼續往下閱讀-----
圖/Pixabay

合成語音聆聽不易,考量族群差異最貼心

「所以,我只要想辦法把語音設計得很像人類就可以了吧?」你可能會這樣想,不過這裡頭還少了一個部分。現代社會提倡多元,客製化當道,每個人使用同個產品的狀況必然會有差異。

其實,即使是一般人,聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出:由於合成語音的清晰度普遍較差,因此聆聽者通常需要動用更多的認知資源(像是電腦需要動用較多記憶體),以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此,對於某些特殊族群來說,想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務,是要在聽完自然語音及合成語音播放的八個詞彙之後,再將這八個詞彙回憶並說出來,回答無須按照順序。結果研究者發現,兩組兒童無論聆聽自然或合成語音,回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言,記憶合成語音的表現又更不理想。

由此可知,兒童本身的記憶能力就較成年人弱,在聆聽合成語音時,可以說是是難上加難。

-----廣告,請繼續往下閱讀-----

另一個被探討的,是聽障族群。聽障族群最主要的困難,就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難,那對聽障族群應該是更加艱困的挑戰吧!Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音,並請他們在聆聽後寫出聽到的單字。結果可想而知,聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況,身為語音設計師的你,在設計語音的時候,是不是也應該從使用者的背景差異去調整你的語音呢?也許是調整語音的頻率,也許是調整語速,也可能,也可能有更多領域需要探索。唯有這樣,才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣?沒想到要設計語音,希望機器說出一句話,背後涉及理性的技術與感性的考量,非常不容易吧!看完之後,你還是可以輕鬆地要求你的行動裝置說個笑話,唱首歌給你聽,自娛娛人;但也千萬別忘記,多留點心思,給這人類文明的結晶致上敬意。一日語音設計師,功成身退!

參考資料

  1. 詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯,頁104-137)。商周出版。
  2. Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
  3. 顏宏旭,楊麗平,宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4),83-107。
  4. West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
  5. GenderLess Voice. (2023/3/3) Meet Q [Web message].
  6. Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
  7. Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
  8. Speechify. (2023/3/3) Speechify.
  9. Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
  10. Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
  11. Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.
-----廣告,請繼續往下閱讀-----
雅文兒童聽語文教基金會_96
58 篇文章 ・ 222 位粉絲
雅文基金會提供聽損兒早期療育服務,近年來更致力分享親子教養資訊、推動聽損兒童融合教育,並普及聽力保健知識,期盼在家庭、學校和社會埋下良善的種子,替聽損者營造更加友善的環境。