0

文字

繁 | 简

0

科技能源

虛擬試衣間! virtual dressing room

Scimage ・2011/07/13 ・419字・閱讀時間少於 1 分鐘・SR值 481

・五年級

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

融合虛擬與真實影像常常帶來新的應用，之前介紹過虛擬化妝模擬器就是一例。這次的影片是介紹虛擬試衣間，像是kinect之類的及時動作捕捉技術的成熟。目前已經有簡單的方案把即時的人體影像轉成電腦立體模型，這也意味著可以利用電腦的計算能力及時把各種不同的虛擬物件直接跟人體模型互動。

影片中介紹的是可以把想要試穿的衣服、皮包、配件等直接在電腦裡試穿，讓一些可能的搭配直接呈現出來。雖然系統還不完美，不過接下來幾年一定會改善。這樣的技術或許在以後的網路衣物購物上，能幫消費者做出更好的購買判斷。

影片中最後也展示了可以模擬穿著衣物滑雪的模樣，當然同樣類型的虛擬場景也可以利用像是電視製作或是舞台表演的場合。這些都是接近成熟的技術了，之後就等待有創意的朋友來找到更合適的應用跟發揮想像了！

本文原發表於 Scimage 科學影像 [2011. 7. 12]

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

Scimage

113 篇文章・ 4 位粉絲

每日介紹科學新知, 科普知識與實際實驗影片-歡迎每一顆好奇的心 @_@!

TRENDING 熱門討論

即時熱門

1

文字

0

1

停工即停薪：如何證明你的時間值多少？車禍背後的認知 x 情緒 x 金錢 x 法律大混戰

鳥苷三磷酸 (PanSci Promo) ・2026/01/09 ・3351字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

本文與 PAMO車禍線上律師合作，泛科學企劃執行

走在台灣的街頭，你是否發現馬路變得越來越「急躁」？滿街穿梭的外送員、分秒必爭的多元計程車，為了拚單量與獎金，每個人都在跟時間賽跑。與此同時，拜經濟發展所賜，路上的豪車也變多了。

這場關於速度與金錢的博弈，讓車禍不再只是一場意外，更是一場複雜的經濟算計。PAMO 車禍線上律師施尚宏律師在接受《思想實驗室 video podcast》訪談時指出，我們正處於一個交通生態的轉折點，當「把車當生財工具」的職業駕駛，撞上了「將車視為珍貴資產」的豪車車主，傳統的理賠邏輯往往會失靈。

在「停工即停薪」（有跑才有錢，沒跑就沒收入）的零工經濟時代，如果運氣不好遇上車禍，我們該如何證明自己的時間價值？又該如何在保險無法覆蓋的灰色地帶中全身而退？

-----廣告，請繼續往下閱讀-----

如果運氣不好遇上車禍，我們該如何證明自己的時間價值？/ 圖片來源: Nano Banana

薪資證明的難題：零工經濟者的「隱形損失」

過去處理車禍理賠，邏輯相對單純：拿出公司的薪資單或扣繳憑單，計算這幾個月的平均薪資，就能算出因傷停工的「薪資損失」。

但在零工經濟時代，這套邏輯卡關了！施尚宏律師指出，許多外送員、自由接案者或是工地打工者，他們的收入往往是領現金，或者分散在多個不同的 App 平台中。更麻煩的是，零工經濟的特性是「高度變動」，上個月可能拚了 7 萬，這個月休息可能只有 0 元，導致「平均收入」難以定義。

這時候，律師的角色就不只是法條的背誦者，更像是一名「翻譯」。

施律師解釋「PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』，轉譯成法官或保險公司聽得懂的法律語言。」這包括將不同平台（如 Uber、台灣大車隊）的流水帳整合，或是找出過往的接單紀錄來證明當事人的「勞動能力」。即使當下沒有收入（例如學生開學期間），只要能證明過往的接單能力與紀錄，在談判桌上就有籌碼要求合理的「勞動力減損賠償」。

-----廣告，請繼續往下閱讀-----

PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』，轉譯成法官或保險公司聽得懂的法律語言 / 圖片來源: Nano Banana

300 萬張罰單背後的僥倖：你的直覺，正在害死你

根據警政署統計，台灣交通違規的第一名常年是「違規停車」，一年可以開出約 300 萬張罰單。這龐大的數字背後，藏著兩個台灣駕駛人最容易誤判的「直覺陷阱」。

陷阱 A：我在紅線違停，人還在車上，沒撞到也要負責？ 許多人認為：「我人就在車上，車子也沒動，甚至是熄火狀態。結果一台機車為了閃避我，自己操作不當摔倒了，這關我什麼事？」

施律師警告，這是一個致命的陷阱。「人在車上」或「車子沒動」在法律上並不是免死金牌。法律看重的是「因果關係」。只要你的違停行為阻礙了視線或壓縮了車道，導致後方車輛必須閃避而發生事故，你就可能必須背負民事賠償責任，甚至揹上「過失傷害」的刑責。

數據會說話：台灣每年約有 700 件車禍是直接因違規停車導致的。這 300 萬張罰單背後的僥倖心態，其巨大的代價可能是人命。

-----廣告，請繼續往下閱讀-----

陷阱 B：變換車道沒擦撞，對方自己嚇到摔車也算我的？ 另一個常年霸榜的肇事原因是「變換車道不當」。如果你切換車道時，後方騎士因為嚇到而摔車，但你感覺車身「沒震動、沒碰撞」，能不能直接開走？

答案是：絕對不行。

施律師強調，車禍不以「碰撞」為前提。只要你的駕駛行為與對方的事故有因果關係，你若直接離開現場，在法律上就構成了「肇事逃逸」。這是一條公訴罪，後果遠比你想像的嚴重。正確的做法永遠是：停下來報警，釐清責任，並保留行車記錄器自保。

正確的做法永遠是：停下來報警，釐清責任，並保留行車記錄器自保。/ 圖片來源: Nano Banana

保險不夠賠？豪車時代的「超額算計」

另一個現代駕駛的惡夢，是撞到豪車。這不僅是因為修車費貴，更因為衍生出的「代步費用」驚人。

-----廣告，請繼續往下閱讀-----

施律師舉例，過去撞到車，只要把車修好就沒事。但現在如果撞到一台 BMW 320，車主可能會主張修車的 8 天期間，他需要租一台同等級的 BMW 320 來代步。以一天租金 4000 元計算，光是代步費就多了 3 萬多塊。這時候，一般人會發現「全險」竟然不夠用。為什麼？

因為保險公司承擔的是「合理的賠償責任」，他們有內部的數據庫，只願意賠償一般行情的修車費或代步費。但對方車主可能不這麼想，為了拿到這筆額外的錢，對方可能會採取「以刑逼民」的策略：提告過失傷害，利用刑事訴訟的壓力（背上前科的恐懼），迫使你自掏腰包補足保險公司不願賠償的差額。

這就是為什麼在全險之外，駕駛人仍需要懂得談判策略，或考慮尋求律師協助，在保險公司與對方的漫天喊價之間，找到一個停損點。

談判桌的最佳姿態：「溫柔而堅定」最有效？

除了有單據的財損，車禍中最難談判的往往是「精神慰撫金」。施律師直言，這在法律上沒有公式，甚至有點像「開獎」，高度依賴法官的自由心證。

-----廣告，請繼續往下閱讀-----

雖然保險公司內部有一套簡單的算法（例如醫療費用的 2 到 5 倍），但到了法院，法官會考量雙方的社會地位、傷勢嚴重程度。在缺乏標準公式的情況下，正確的「態度」能幫您起到加分效果。

施律師建議，在談判桌上最好的姿態是「溫柔而堅定」。有些人會試圖「扮窮」或「裝兇」，這通常會有反效果。特別是面對看過無數案件的保險理賠員，裝兇只會讓對方心裡想著：「進了法院我保證你一毛都拿不到，準備看你笑話」。

相反地，如果你能客氣地溝通，但手中握有完整的接單紀錄、醫療單據，清楚知道自己的底線與權益，這種「堅定」反而能讓談判對手買單，甚至在證明不足的情況下（如外送員的開學期間收入），更願意採信你的主張。

車禍不只是一場意外，它是認知、情緒、金錢與法律邏輯的總和。

在這個交通環境日益複雜的時代，無論你是為了生計奔波的職業駕駛，還是天天上路的通勤族，光靠保險或許已經不夠。大部分的車禍其實都是小案子，可能只是賠償 2000 元的輕微擦撞，或是責任不明的糾紛。為了這點錢，要花幾萬塊請律師打官司絕對「不划算」。但當事人往往會因為資訊落差，恐懼於「會不會被告肇逃？」、「會不會留案底？」、「賠償多少才合理？」而整夜睡不著覺。

-----廣告，請繼續往下閱讀-----

PAMO看準了這個「焦慮商機」，推出了一種顛覆傳統的解決方案——「年費 1200 元的訂閱制法律服務 」。

這就像是「法律界的 Netflix」或「汽車強制險」的概念。PAMO 的核心邏輯不是「代打」，而是「賦能」。不同於傳統律師收費高昂，PAMO 提倡的是「大腦武裝」，當車禍發生時，線上律師團提供策略，教你怎麼做筆錄、怎麼蒐證、怎麼判斷對方開價合不合理等。

施律師表示，他們的目標是讓客戶在面對不確定的風險時，背後有個軍師，能安心地睡個好覺。平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略。

平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略。 / 圖片來源: Nano Banana

從違停的陷阱到訂閱制的解方，我們正處於交通與法律的轉型期。未來，挑戰將更加嚴峻。

-----廣告，請繼續往下閱讀-----

當 AI 與自駕車（Level 4/5）真正上路，一旦發生事故，責任主體將從「駕駛人」轉向「車廠」或「演算法系統」。屆時，誰該負責？怎麼舉證？

但在那天來臨之前，面對馬路上的豪車、零工騎士與法律陷阱，你選擇相信運氣，還是相信策略？ 先「武裝好自己的大腦」，或許才是現代駕駛人最明智的保險。

PAMO車禍線上律師官網：https://pse.is/8juv6k

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

243 篇文章・ 319 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

1

6

1

文字

1

6

1

虛擬世界將主宰「全宇宙」？元宇宙的發展近況與未來——《加密貨幣的真相》

先覺出版・2023/05/12 ・2438字・閱讀時間約 5 分鐘

相關標籤：

熱門標籤：

元宇宙是利用雲端伺服器建立的虛擬世界，使用者可以使用虛擬實境 (VR) 或擴增實境 (AR) 進入雲端，以虛擬替身與其他使用者交流，那麼目前已經發展到什麼程度？未來又會如何發展呢？

第一個接近元宇宙的平台：機器磚塊 (Roblox)

講到元宇宙的概念，許多人立刻會想到目前熱門的多人線上角色扮演遊戲，例如：動物森友會、模擬市民、暗黑破壞神、仙劍奇俠傳等。這些線上遊戲可以讓玩家在虛擬的遊戲裡擁有另外一個身分與全新的生活，但由於技術上的限制，這些線上遊戲帶給玩家的沉浸感不足，內容也只是遊戲，與元宇宙希望建立的世界還有很大的差距。

第一個接近元宇宙的平台是「機器磚塊 (Roblox) 」，它不只是一個線上角色扮演遊戲，使用者還可以設計自己的遊戲、物品、衣服，同時遊玩自己或其他開發者建立的各種遊戲，是由像樂高積木般的虛擬磚塊所建構的網路虛擬世界。

就類似於我們的影音創作發表在 YouTube 平台上，或程式設計師的程式創作發表在「應用程式商店 (App Store) 」平台上，經由平台分享讓谷歌 (Google) 分潤的概念。

-----廣告，請繼續往下閱讀-----

元宇宙的未來可能有兩個發展方向

目前元宇宙的建立還在初期戰國時代多強爭霸的階段，各種不同的社群平台與遊戲廠商都躍躍欲試，因此還沒有系統能夠一統天下，未來誰會勝出仍不確定。元宇宙的未來可能有兩個發展方向：

第一階段：可能是由某家公司主導，但是開放原始程式碼讓任何人都可以使用，類似谷歌建立 Android 平台，讓所有開發者在平台上建立應用程式 (App：Application Program)。

例如：我在臉書的元宇宙要參加舞會，想買一個「虛擬愛馬仕包包」，則必須到「虛擬愛馬仕商店」購買，而愛馬仕公司則必須到臉書的元宇宙裡開設一家虛擬愛馬仕商店，在這裡「虛擬愛馬仕包包」就好像一個應用程式，因此和 Android 平台讓所有開發者在平台上建立應用程式的概念是一樣的。

第二階段：可能是由某個基金會主導，開放原始程式碼讓任何人都可以使用，不同公司開發的虛擬世界具有相容性，可以串連成大一統的元宇宙，就像我們現在使用相同的通訊協定在網際網路上漫遊一樣，現在我們上網都是使用「超文本轉換傳輸協定 (HTTP：Hyper Text Transfer Protocol) 」。

-----廣告，請繼續往下閱讀-----

假設我們在臉書的元宇宙裡買了一個「虛擬愛馬仕包包」，能不能把它背到谷歌的元宇宙裡去參加舞會？答案是不行，因為程式不相容，因此未來不同公司開發的元宇宙具有相容性，才能串連成大一統的元宇宙。目前元宇宙的發展還在第一階段，未來還有無限可能，元宇宙大爆發，臉書創辦人說：「元宇宙就是下一世代的網際網路。」就是這個意思。

由於目前臉書營運面臨瓶頸，因此開始啟動轉型，將「臉書 (Facebook) 」改名為「超越 (Meta) 」；輝達 (Nvidia) 執行長說：「元宇宙的經濟規模終將大過實體世界。」由於虛擬世界 3D 建模需要大量的圖形處理器 (GPU)，將為輝達帶來另一波成長動能。我們在思考元宇宙時必須跳脫線上遊戲的思維，發展成創意發想平台、互動社交平台。

科技業界爆紅：元宇宙將主宰全宇宙？

Roundhill 投資公司預估 2030 年元宇宙產值高達 2.5 兆美元，這個數字可能有些誇大，但是確實代表元宇宙未來有不小的市場。事實上，未來元宇宙的重度使用者，主要還是目前網路遊戲的使用者，因此要估計元宇宙的市場，可以從目前的遊戲市場著手。

目前全球的遊戲市場每年有超過 2,500 億美元的商機，等於未來 8 年要成長大約 10 倍，如果我們把建立元宇宙所需要的資料中心所有硬體成本都計算進去，的確有可能達到這個規模。除了科技大廠躍躍欲試，為什麼連金融業、精品業也擁抱元宇宙？

-----廣告，請繼續往下閱讀-----

大家想想，要建立一個能夠容納全球數十億玩家的虛擬世界，而且現在大家對畫質與 3D 影像的品質要求愈來愈高，需要加蓋許多資料中心，包括：雲端伺服器、中央處理器 (CPU)、圖形處理器 (GPU)、儲存元件 (DDR/SSD)；使用者連線需要各種網路設備與終端裝置，包括：網通設備、光纖通訊、第五代行動電話 (5G) 與物聯網 (IoT)、虛擬實境 (VR) 與擴增實境 (AR) 眼鏡、平面顯示器、智慧型手機、個人電腦等，顯然會給科技產業帶來巨大的商機。

此外，玩家在元宇宙裡需要線上消費、因此需要虛擬信用卡，金融業就有參與的角色；加密貨幣在真實世界裡就是個圈錢的龐氏騙局，都可以炒作到天價，在元宇宙的虛擬世界裡，怎麼可能放過這個炒作的機會？在真實世界裡我買不起愛馬仕的包包、鞋子、項鍊、耳環等各種精品，在虛擬世界裡不就可以買了嗎？因此精品業就有參與的角色。

在真實世界裡，我住狹窄的公寓、開國產轎車，在虛擬世界裡就可以住豪宅、開法拉利跑車；在真實世界裡，我是個員工每天被老闆罵，在虛擬世界裡我就是老闆可以罵員工；在真實世界裡，想搭SpaceX的太空飛船去火星「貴森森」我付不起，在虛擬世界裡我當然可以去星際旅遊跑遍全宇宙，甚至元宇宙會提供某些工作，所以未來可能有人在真實世界沒有工作，是進入虛擬世界上班的。

總之當我們在思考元宇宙時，不要被限制在現有的網路世界裡，請發揮你的想像力！

-----廣告，請繼續往下閱讀-----

——本文摘自《加密貨幣的真相：揭穿區塊鏈無本金融的國王新衣》，2022 年 1 1月，先覺出版，未經同意請勿轉載。

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 1

登入與大家一起討論

#1

狐禪 2023/05/12

要閒到不必賺錢，不必打仗也不必抓姦時，才需要幻想吧。

先覺出版

2 篇文章・ 1 位粉絲

TRENDING 熱門討論

即時熱門

2

7

0

文字

2

7

0

讓人工智慧為 VTuber 團隊撐腰！——AI幫你一鍵生成虛擬音樂家！

研之有物│中央研究院・2021/11/03 ・5057字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位。

採訪撰文│林承勳
美術設計│林洵安

自動化音樂展演的可能性

人工智慧（簡稱 AI）技術日新月異，不只打敗人類圍棋高手，現在更用在醫療、交通、金融、資安各領域，遍佈了你我的日常生活。中央研究院資訊科學研究所副研究員蘇黎讓 AI 又多了一項新技能：自動化音樂展演。「虛擬音樂家系統」創造出具有動畫形象的虛擬人物，配合真人一同演出，而且演奏動畫和音樂伴奏皆可自動產生。未來，經營 VTuber（虛擬 YouTuber）背後可能不再需要龐大製作團隊，只要專注在企劃和劇本，其他讓 AI 幫你一鍵生成！

蘇黎與研究團隊開發的虛擬音樂家系統。圖／研之有物、Unsplash（資料來源：蘇黎）

真實與虛擬合奏的貝多芬小提琴奏鳴曲

虛擬音樂家系統，這是蘇黎與其團隊最近的研究成果，他將 AI 應用到音樂表演現場，並試圖推展到整個多媒體產業。這套系統已實際在舞台演示，並與多個音樂展演團隊合作，包括：沛思文教基金會、清大 AI 樂團、長笛家林怡君、口口實驗室等。

以近年蘇黎舉辦的音樂會為例，主要可分為兩部分，一個是台上親手彈奏著貝多芬〈春〉第一樂章伴奏部分的真人鋼琴家；另一個，即為該場演奏的特別之處：正在螢幕裡演奏主旋律的虛擬小提琴音樂家。這場表演是人類與「虛擬音樂家系統」的巧妙組合，真人鋼琴家彈奏的過程中，虛擬音樂家系統除了負責合奏，同時還要生成螢幕上虛擬演奏者的動畫身影。

蘇黎與研究團隊公開展示真人音樂家與虛擬音樂家的合奏。圖／蘇黎（虛擬音樂家 Virtual Musician）

不放槍、不搶拍的自動伴奏系統

虛擬音樂家系統的「自動伴奏」，不同於卡拉 OK 的機器伴奏，演奏者不需配合伴唱音樂，而是程式控制伴唱音樂以配合演奏者，讓演奏者自由詮釋樂曲。但因為要配合真人演出的現場發揮與不確定性，自動伴奏的運算必須又快又準。蘇黎指出，這也是研究中比較具有挑戰性的部分。

-----廣告，請繼續往下閱讀-----

自動伴奏系統的音樂偵測器、音樂追蹤器與位置估算單元，讓虛擬音樂家精準掌握真人演奏實況。

舉例來說，想要跟人合奏，首先要確定能同步開始，這個重責大任就由自動伴奏系統中的「音樂偵測器」擔綱。「音樂偵測器是偵測音樂什麼時候發出，但現場會有其他聲音，不可以讓機器聽到雜音就以為演奏開始了。」蘇黎說，因此團隊會先將整個樂譜，輸入到虛擬音樂家的自動伴奏系統中，並在演奏會場早早就讓系統持續待命，只要音樂偵測器偵測到樂譜的第一個音，伴奏隨即啟動。

自動伴奏系統在確認演奏開始之後，馬上又有另一項任務：追蹤音樂進度。因為每位音樂家會有自己的演奏風格，而且真人不管如何熟練，都還是有可能出現搶拍或延遲等變數。追蹤音樂進度的這項任務，便由自動伴奏系統中的「音樂追蹤器」和「位置估算單元」來執行。

「音樂追蹤器採用多執行緒線上動態時間校正（online dynamic time warping）演算法，每一個執行緒在最短時間內各自計算並取平均值，以找出最貼近該音樂家當下演奏速度的數值。」蘇黎解釋，追蹤器抓到現場演奏速度後拿來跟參考音樂檔案比對，就能推測多久後會演奏下一個音。至於位置估算單元，則是用來估計當下已演奏到整個樂譜的哪個位置。

虛擬音樂家系統藉由上述的自動伴奏技術，追蹤真人演奏進度，並自動觸發並演奏相應的聲部。目前團隊已經將偵測到觸發伴奏的平均延遲控制在 0.1 秒左右，但蘇黎的目標是要降低到「0.01」秒內。蘇黎表示，音樂心理學已證實，就算是沒有經過專業訓練的一般人，0.1 秒的誤差聽起來仍非常明顯，「延遲 0.01 秒可以勉強不引起業餘人士的注意；但面對專業音樂家時，延遲可能要到 0.001 秒左右才能過關。」

-----廣告，請繼續往下閱讀-----

自動伴奏系統可以即時追蹤音樂進度，判斷真人音樂家目前已經演奏到樂曲的哪個位置。圖／蘇黎（虛擬音樂家 Virtual Musician）

訓練 AI 自動生成虛擬音樂家動畫形象

現場音樂表演是影音的雙重享受，所以虛擬音樂家除了擁有自動伴奏的「聲音」，還需要擁有將表演動作形象化的動畫「影像」。

真人音樂家演奏時，不論是情感的表達、與其他合奏者及觀眾互動、還有操作樂器的動作等，都存在個人差異，沒有一套固定標準。例如拉琴的手勢，10 個音樂家可以有 10 種不同的習慣。因此蘇黎與研究團隊採取的方法是：取得大量影音資料，讓 AI 學習如何製造虛擬音樂家的肢體動作。

首先，徵求多位專業小提琴演奏者，穿上有標記點的特殊衣服，站在有動態捕捉裝置的空間中，演奏不同風格曲目。蘇黎使用的 3D 動作偵測技術，會偵測音樂家全身骨骼的關節點，作為虛擬音樂家動畫生成的訓練資料，並在訓練動畫生成模型的過程中，重點關注持弓的右手如何移動。

透過 U 型網路、自注意力機制等核心技術，來輸出虛擬音樂家動態肢體影像。

在訓練 AI 與生成動畫影像的過程中，需要卷積神經網路來協助完成工作。蘇黎團隊採用的模型是 U 型網路（U-net），負責圖像之間的轉換，由編碼圖層傳到解碼圖層。它的優點是速度快，而且輸入輸出格式相對容易設計，能一次輸出大量資料點。「 U-net 可以一次輸出單一時間的所有肢體骨架點，而非一個一個骨架點逐步輸出。」蘇黎說。

-----廣告，請繼續往下閱讀-----

蘇黎與研究團隊採用 U 型網路模型訓練 AI，自動生成虛擬音樂家動畫影像。圖／蘇黎（Wu, Y. T., Chen, B., & Su, L. (2020)）

除此之外，還有自注意力（self-attention）機制，讓 AI 學習判斷肢體動作與音樂的相關性。因為肢體動作跟音樂都是序列形式，有時間上的關聯性，假設真人音樂家某個動作在大鼓響起時一直出現，就會判定兩者存在關聯。之後自注意力機制在虛擬動作生成過程中，只要聽到該音樂的大鼓聲出現，就會發出明顯訊號，認為此時要搭配相應的肢體動作。

簡單來說，想要自動化生出虛擬小提琴家，不僅聲音要到位，動畫也要足夠精準。音樂需要自動伴奏系統，即時追蹤真人演奏者的進度並觸發伴奏；而相應的肢體動作，則有賴透過 U 型網路與自注意力機制，讓 AI 在音樂現場了解此時要搭配何種動作。

虛擬音樂家動畫的比較，左邊採用之前的研究，動作較不精準；中間是蘇黎團隊研究成果，自動生成的動畫骨架已有較多變化，並且右手拉弓動作較為準確；最右邊是符合真人動作的演奏動畫，需人工製作。圖／蘇黎（虛擬音樂家 Virtual Musician）

進階挑戰：由聽覺到視覺的跨感官轉換

自動生成聲音和影像後，研究團隊還有一個更進階的目標。「我們想讓機器聽到某一首歌，就聯想到一幅畫。但坦白講，這種音樂到視覺風格轉換（music-to-visual style transfer）非常困難。」蘇黎說。當初有學生向他提出這個構想，想要訓練 AI 將音樂與畫面連結。只是這設定一開始就困難重重，因為最重要的訓練資料幾乎是無法取得。

AI 並非無中生有，機器學習有賴龐大、高品質的資料。

想要讓 AI 學習聽音樂聯想畫面，就必須要有真人示範，聆聽音樂並畫出心中所浮現的畫面來當作訓練資料。找人聽音樂不難，但找來的人未必善於繪畫；即使花大錢請畫家參與實驗，人少沒有代表性，人多則風格又可能大相逕庭。「演奏動作還有跡可循，但大家聽音樂腦補的畫面都不一樣，這樣是沒辦法當作訓練素材的。」蘇黎點出其中關鍵。

-----廣告，請繼續往下閱讀-----

研究團隊決定退而求其次，改成在一組音樂跟一組影像資料庫，透過兩者之間共享的語義標註（labels），試圖建立起對應關係。就像是電腦在連連看，如果配對起來共通點還算合理就成功。此時問題又來了，所謂「合理」實在難以界定，於是執行標準只好再一次降低，音樂與畫面的共同標註越簡單越好。

「雖然這跟當初想像中的差距非常大，但目前我們也只能用創作年代來當標註。」蘇黎說，經由創作年代這個共同標註，電腦聽到 1800 年的樂曲就會連到同樣年代的圖畫。即使不符原本理想，模型建立起來後，在虛擬音樂家系統裡還是可以發揮一些功能，像是為演奏會搭配符合音樂年代的背景畫面，或色彩效果。

蘇黎團隊風格轉換的案例，透過共享語義標註，在電腦聽到印象樂派作曲家德布西的音樂（Sarabande in Pour le piano, L. 95（1901））之後，原本為巴比松畫派的圖像（The Lake Her Lone Bosom Expands to the Sky（1850）），會轉換成印象畫派風格。圖／蘇黎（Crossing You in Style）

如何成為音樂資訊研究者？

在虛擬音樂家系統之前，蘇黎與實驗室團隊（音樂與文化科技實驗室）在自動音樂採譜方面的研究已經有豐厚成果，他們研發出開源工具《Omnizart》。

《Omnizart》是音樂與文化科技實驗室研究成果集大成的實用開源工具。

它具備當前全世界最多樣樂器組合的分析功能，只要輸入一段音樂，不管是鋼琴獨奏、多重樂器、打擊樂，還是和弦辨識、節拍偵測，甚至是困難的人聲處理，都會幫你分析。

-----廣告，請繼續往下閱讀-----

「像鋼琴這類樂器的話，是音樂進去《Omnizart》，生出 MIDI；而人聲進去會輸出成供電腦判讀的數位資料。」蘇黎解釋，透過這些數字化的音訊數據能了解每一瞬間的音高變化，或是泛音、抖音等手法。研究自動採譜 AI 是因為，蘇黎想探究如蕭邦的夜曲等，這些百年來不斷被重複演奏超過千百次的古典樂，在不同時代、風格迥異的音樂家手中究竟是如何被詮釋。

而這次蘇黎用 AI 創造虛擬音樂家系統，同樣也是源於本身對音樂的喜愛與好奇。不是科班出身的他能彈奏鋼琴、吉他，會吹小號，喜歡聽經典的古典樂。對蘇黎來說，興趣是驅使研究向前的一大動力，他認為身為研究者必須要時常探索新的領域，因此常會要求自己不斷接觸世界各國的在地歌謠。

蘇黎的下一步，是以現有虛擬音樂家系統為基礎，加入更多細膩動作（例如臉部表情）的虛擬多人樂團。他也坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術，都還有很大的進步空間。想訓練電腦產生出更貼近真人演奏者動作的虛擬音樂家，必須花大量人力取得更多影片資料。「民眾常以為不用多做什麼 AI 就會自己學習，但真相是沒有夠好的資料什麼都不用談。」蘇黎解釋，AI 研究者的時間幾乎都耗在蒐集資料上。

同時，研究室也在規劃下一場發表。蘇黎認為，實體演奏會是考驗研究品質最好的方式。除了訓練好模型，現場還有很多要克服的變數，像是很多音樂廳沒有網路，團隊必須將整場演奏會所需的模型，事先設計成用一台筆電就能執行。「總不可能演奏到一半，資料量太大電腦跑不動，然後要跑出去連網路吧。」蘇黎笑著說，音樂會現場要面對很多做研究時不曾碰到的狀況，是很刺激、有挑戰性的任務。

-----廣告，請繼續往下閱讀-----

AI 將是未來主流，是好、是壞終究取決於人心。

AI 出現之後，自然也面臨許多批判，例如工作是否會被 AI 取代，甚至以 AI 操控虛假言論或用在軍事用途，但蘇黎覺得，主導權終究還是躲在背後操作的「人」。同樣，隨著虛擬音樂家系統日漸完善，真人音樂家是否擔心未來飯碗被搶走？令人意外的是，蘇黎說身邊最期待這個系統的反而就是與他合作的藝術家，「別小看他們，藝術家可是一群勇敢、期待新事物、信仰未來的人。」

蘇黎未來研究方向是以現有虛擬音樂家系統為基礎，再加入更多細膩動作的虛擬多人樂團。他坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術，都還有很大的進步空間。圖／研之有物

延伸閱讀：

蘇黎（2021）。〈我們與機器的距離：與人類互動的虛擬音樂家系統〉，《中研院訊》。
張凱鈞（2017）。〈天才莫札特的傳說很狂？現在只要一鍵就做得到！〉，《研之有物》。
音樂與文化科技實驗室，《Omnizart: Music Transcription Made Easy》。
Wu, Y. T., Chen, B., & Su, L. (2020). Multi-Instrument Automatic Music Transcription With Self-Attention-Based Instance Segmentation.IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 2796–2809.

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 2

登入與大家一起討論

#1

hbzgwhzcvmqp 2021/11/18

在臉書上發文吐槽過了簡單解釋一下
以內文來看這種應用應該歸類成VOCALOID的升級版也就是初音未來這類初音只有單純的形象及聲音沒有個性及人設所以音樂創作者可以不用考慮形象及相關問題概念上就是把自己的作品請初音來唱而已

然而vtuber是虛擬實況主撇開實況主不見得會音樂和主打音樂這點 vtuber是牽涉到人設的而且vtuber是以虛擬外皮進行活動的以文中情況請問現在這名實況主應該是作曲者呢? 還是這個ai生成只有外皮跟動作的空殼呢?
不管回答是哪種皆不符合vtuber的概念這是個單純有在看v的人都能分辨出的基本錯誤甚至內文提到自動生成動作這點都不是v需要的因為這些動作細節都屬於v自己表演甚至是詮釋v人設的一環所以這個替v團隊撐腰的標題簡直是… 鬼扯
我也不是什麼內行人就我所知道v所需要的成本基本上是硬體設備動態捕捉以及模組問題本來看標題以為是我不知道什麼但進來後很失望

我不清楚這序言是中央研究院寫的還是貴團隊但從貴團隊創立至今極少犯這種連基本查詢都沒有的超低級錯誤希望能看到有所說明或更改

#2