2

7

0

文字

繁 | 简

2

7

0

文明足跡社會群體科學傳播電腦資訊

讓人工智慧為 VTuber 團隊撐腰！——AI幫你一鍵生成虛擬音樂家！

研之有物│中央研究院・2021/11/03 ・5057字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位。

採訪撰文│林承勳
美術設計│林洵安

自動化音樂展演的可能性

人工智慧（簡稱 AI）技術日新月異，不只打敗人類圍棋高手，現在更用在醫療、交通、金融、資安各領域，遍佈了你我的日常生活。中央研究院資訊科學研究所副研究員蘇黎讓 AI 又多了一項新技能：自動化音樂展演。「虛擬音樂家系統」創造出具有動畫形象的虛擬人物，配合真人一同演出，而且演奏動畫和音樂伴奏皆可自動產生。未來，經營 VTuber（虛擬 YouTuber）背後可能不再需要龐大製作團隊，只要專注在企劃和劇本，其他讓 AI 幫你一鍵生成！

蘇黎與研究團隊開發的虛擬音樂家系統。圖／研之有物、Unsplash（資料來源：蘇黎）

真實與虛擬合奏的貝多芬小提琴奏鳴曲

虛擬音樂家系統，這是蘇黎與其團隊最近的研究成果，他將 AI 應用到音樂表演現場，並試圖推展到整個多媒體產業。這套系統已實際在舞台演示，並與多個音樂展演團隊合作，包括：沛思文教基金會、清大 AI 樂團、長笛家林怡君、口口實驗室等。

以近年蘇黎舉辦的音樂會為例，主要可分為兩部分，一個是台上親手彈奏著貝多芬〈春〉第一樂章伴奏部分的真人鋼琴家；另一個，即為該場演奏的特別之處：正在螢幕裡演奏主旋律的虛擬小提琴音樂家。這場表演是人類與「虛擬音樂家系統」的巧妙組合，真人鋼琴家彈奏的過程中，虛擬音樂家系統除了負責合奏，同時還要生成螢幕上虛擬演奏者的動畫身影。

蘇黎與研究團隊公開展示真人音樂家與虛擬音樂家的合奏。圖／蘇黎（虛擬音樂家 Virtual Musician）

不放槍、不搶拍的自動伴奏系統

虛擬音樂家系統的「自動伴奏」，不同於卡拉 OK 的機器伴奏，演奏者不需配合伴唱音樂，而是程式控制伴唱音樂以配合演奏者，讓演奏者自由詮釋樂曲。但因為要配合真人演出的現場發揮與不確定性，自動伴奏的運算必須又快又準。蘇黎指出，這也是研究中比較具有挑戰性的部分。

-----廣告，請繼續往下閱讀-----

自動伴奏系統的音樂偵測器、音樂追蹤器與位置估算單元，讓虛擬音樂家精準掌握真人演奏實況。

舉例來說，想要跟人合奏，首先要確定能同步開始，這個重責大任就由自動伴奏系統中的「音樂偵測器」擔綱。「音樂偵測器是偵測音樂什麼時候發出，但現場會有其他聲音，不可以讓機器聽到雜音就以為演奏開始了。」蘇黎說，因此團隊會先將整個樂譜，輸入到虛擬音樂家的自動伴奏系統中，並在演奏會場早早就讓系統持續待命，只要音樂偵測器偵測到樂譜的第一個音，伴奏隨即啟動。

自動伴奏系統在確認演奏開始之後，馬上又有另一項任務：追蹤音樂進度。因為每位音樂家會有自己的演奏風格，而且真人不管如何熟練，都還是有可能出現搶拍或延遲等變數。追蹤音樂進度的這項任務，便由自動伴奏系統中的「音樂追蹤器」和「位置估算單元」來執行。

「音樂追蹤器採用多執行緒線上動態時間校正（online dynamic time warping）演算法，每一個執行緒在最短時間內各自計算並取平均值，以找出最貼近該音樂家當下演奏速度的數值。」蘇黎解釋，追蹤器抓到現場演奏速度後拿來跟參考音樂檔案比對，就能推測多久後會演奏下一個音。至於位置估算單元，則是用來估計當下已演奏到整個樂譜的哪個位置。

虛擬音樂家系統藉由上述的自動伴奏技術，追蹤真人演奏進度，並自動觸發並演奏相應的聲部。目前團隊已經將偵測到觸發伴奏的平均延遲控制在 0.1 秒左右，但蘇黎的目標是要降低到「0.01」秒內。蘇黎表示，音樂心理學已證實，就算是沒有經過專業訓練的一般人，0.1 秒的誤差聽起來仍非常明顯，「延遲 0.01 秒可以勉強不引起業餘人士的注意；但面對專業音樂家時，延遲可能要到 0.001 秒左右才能過關。」

-----廣告，請繼續往下閱讀-----

自動伴奏系統可以即時追蹤音樂進度，判斷真人音樂家目前已經演奏到樂曲的哪個位置。圖／蘇黎（虛擬音樂家 Virtual Musician）

訓練 AI 自動生成虛擬音樂家動畫形象

現場音樂表演是影音的雙重享受，所以虛擬音樂家除了擁有自動伴奏的「聲音」，還需要擁有將表演動作形象化的動畫「影像」。

真人音樂家演奏時，不論是情感的表達、與其他合奏者及觀眾互動、還有操作樂器的動作等，都存在個人差異，沒有一套固定標準。例如拉琴的手勢，10 個音樂家可以有 10 種不同的習慣。因此蘇黎與研究團隊採取的方法是：取得大量影音資料，讓 AI 學習如何製造虛擬音樂家的肢體動作。

首先，徵求多位專業小提琴演奏者，穿上有標記點的特殊衣服，站在有動態捕捉裝置的空間中，演奏不同風格曲目。蘇黎使用的 3D 動作偵測技術，會偵測音樂家全身骨骼的關節點，作為虛擬音樂家動畫生成的訓練資料，並在訓練動畫生成模型的過程中，重點關注持弓的右手如何移動。

透過 U 型網路、自注意力機制等核心技術，來輸出虛擬音樂家動態肢體影像。

在訓練 AI 與生成動畫影像的過程中，需要卷積神經網路來協助完成工作。蘇黎團隊採用的模型是 U 型網路（U-net），負責圖像之間的轉換，由編碼圖層傳到解碼圖層。它的優點是速度快，而且輸入輸出格式相對容易設計，能一次輸出大量資料點。「 U-net 可以一次輸出單一時間的所有肢體骨架點，而非一個一個骨架點逐步輸出。」蘇黎說。

-----廣告，請繼續往下閱讀-----

蘇黎與研究團隊採用 U 型網路模型訓練 AI，自動生成虛擬音樂家動畫影像。圖／蘇黎（Wu, Y. T., Chen, B., & Su, L. (2020)）

除此之外，還有自注意力（self-attention）機制，讓 AI 學習判斷肢體動作與音樂的相關性。因為肢體動作跟音樂都是序列形式，有時間上的關聯性，假設真人音樂家某個動作在大鼓響起時一直出現，就會判定兩者存在關聯。之後自注意力機制在虛擬動作生成過程中，只要聽到該音樂的大鼓聲出現，就會發出明顯訊號，認為此時要搭配相應的肢體動作。

簡單來說，想要自動化生出虛擬小提琴家，不僅聲音要到位，動畫也要足夠精準。音樂需要自動伴奏系統，即時追蹤真人演奏者的進度並觸發伴奏；而相應的肢體動作，則有賴透過 U 型網路與自注意力機制，讓 AI 在音樂現場了解此時要搭配何種動作。

虛擬音樂家動畫的比較，左邊採用之前的研究，動作較不精準；中間是蘇黎團隊研究成果，自動生成的動畫骨架已有較多變化，並且右手拉弓動作較為準確；最右邊是符合真人動作的演奏動畫，需人工製作。圖／蘇黎（虛擬音樂家 Virtual Musician）

進階挑戰：由聽覺到視覺的跨感官轉換

自動生成聲音和影像後，研究團隊還有一個更進階的目標。「我們想讓機器聽到某一首歌，就聯想到一幅畫。但坦白講，這種音樂到視覺風格轉換（music-to-visual style transfer）非常困難。」蘇黎說。當初有學生向他提出這個構想，想要訓練 AI 將音樂與畫面連結。只是這設定一開始就困難重重，因為最重要的訓練資料幾乎是無法取得。

AI 並非無中生有，機器學習有賴龐大、高品質的資料。

想要讓 AI 學習聽音樂聯想畫面，就必須要有真人示範，聆聽音樂並畫出心中所浮現的畫面來當作訓練資料。找人聽音樂不難，但找來的人未必善於繪畫；即使花大錢請畫家參與實驗，人少沒有代表性，人多則風格又可能大相逕庭。「演奏動作還有跡可循，但大家聽音樂腦補的畫面都不一樣，這樣是沒辦法當作訓練素材的。」蘇黎點出其中關鍵。

-----廣告，請繼續往下閱讀-----

研究團隊決定退而求其次，改成在一組音樂跟一組影像資料庫，透過兩者之間共享的語義標註（labels），試圖建立起對應關係。就像是電腦在連連看，如果配對起來共通點還算合理就成功。此時問題又來了，所謂「合理」實在難以界定，於是執行標準只好再一次降低，音樂與畫面的共同標註越簡單越好。

「雖然這跟當初想像中的差距非常大，但目前我們也只能用創作年代來當標註。」蘇黎說，經由創作年代這個共同標註，電腦聽到 1800 年的樂曲就會連到同樣年代的圖畫。即使不符原本理想，模型建立起來後，在虛擬音樂家系統裡還是可以發揮一些功能，像是為演奏會搭配符合音樂年代的背景畫面，或色彩效果。

蘇黎團隊風格轉換的案例，透過共享語義標註，在電腦聽到印象樂派作曲家德布西的音樂（Sarabande in Pour le piano, L. 95（1901））之後，原本為巴比松畫派的圖像（The Lake Her Lone Bosom Expands to the Sky（1850）），會轉換成印象畫派風格。圖／蘇黎（Crossing You in Style）

如何成為音樂資訊研究者？

在虛擬音樂家系統之前，蘇黎與實驗室團隊（音樂與文化科技實驗室）在自動音樂採譜方面的研究已經有豐厚成果，他們研發出開源工具《Omnizart》。

《Omnizart》是音樂與文化科技實驗室研究成果集大成的實用開源工具。

它具備當前全世界最多樣樂器組合的分析功能，只要輸入一段音樂，不管是鋼琴獨奏、多重樂器、打擊樂，還是和弦辨識、節拍偵測，甚至是困難的人聲處理，都會幫你分析。

-----廣告，請繼續往下閱讀-----

「像鋼琴這類樂器的話，是音樂進去《Omnizart》，生出 MIDI；而人聲進去會輸出成供電腦判讀的數位資料。」蘇黎解釋，透過這些數字化的音訊數據能了解每一瞬間的音高變化，或是泛音、抖音等手法。研究自動採譜 AI 是因為，蘇黎想探究如蕭邦的夜曲等，這些百年來不斷被重複演奏超過千百次的古典樂，在不同時代、風格迥異的音樂家手中究竟是如何被詮釋。

而這次蘇黎用 AI 創造虛擬音樂家系統，同樣也是源於本身對音樂的喜愛與好奇。不是科班出身的他能彈奏鋼琴、吉他，會吹小號，喜歡聽經典的古典樂。對蘇黎來說，興趣是驅使研究向前的一大動力，他認為身為研究者必須要時常探索新的領域，因此常會要求自己不斷接觸世界各國的在地歌謠。

蘇黎的下一步，是以現有虛擬音樂家系統為基礎，加入更多細膩動作（例如臉部表情）的虛擬多人樂團。他也坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術，都還有很大的進步空間。想訓練電腦產生出更貼近真人演奏者動作的虛擬音樂家，必須花大量人力取得更多影片資料。「民眾常以為不用多做什麼 AI 就會自己學習，但真相是沒有夠好的資料什麼都不用談。」蘇黎解釋，AI 研究者的時間幾乎都耗在蒐集資料上。

同時，研究室也在規劃下一場發表。蘇黎認為，實體演奏會是考驗研究品質最好的方式。除了訓練好模型，現場還有很多要克服的變數，像是很多音樂廳沒有網路，團隊必須將整場演奏會所需的模型，事先設計成用一台筆電就能執行。「總不可能演奏到一半，資料量太大電腦跑不動，然後要跑出去連網路吧。」蘇黎笑著說，音樂會現場要面對很多做研究時不曾碰到的狀況，是很刺激、有挑戰性的任務。

-----廣告，請繼續往下閱讀-----

AI 將是未來主流，是好、是壞終究取決於人心。

AI 出現之後，自然也面臨許多批判，例如工作是否會被 AI 取代，甚至以 AI 操控虛假言論或用在軍事用途，但蘇黎覺得，主導權終究還是躲在背後操作的「人」。同樣，隨著虛擬音樂家系統日漸完善，真人音樂家是否擔心未來飯碗被搶走？令人意外的是，蘇黎說身邊最期待這個系統的反而就是與他合作的藝術家，「別小看他們，藝術家可是一群勇敢、期待新事物、信仰未來的人。」

蘇黎未來研究方向是以現有虛擬音樂家系統為基礎，再加入更多細膩動作的虛擬多人樂團。他坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術，都還有很大的進步空間。圖／研之有物

延伸閱讀：

蘇黎（2021）。〈我們與機器的距離：與人類互動的虛擬音樂家系統〉，《中研院訊》。
張凱鈞（2017）。〈天才莫札特的傳說很狂？現在只要一鍵就做得到！〉，《研之有物》。
音樂與文化科技實驗室，《Omnizart: Music Transcription Made Easy》。
Wu, Y. T., Chen, B., & Su, L. (2020). Multi-Instrument Automatic Music Transcription With Self-Attention-Based Instance Segmentation.IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 2796–2809.

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 2

登入與大家一起討論

#1

hbzgwhzcvmqp 2021/11/18

在臉書上發文吐槽過了簡單解釋一下
以內文來看這種應用應該歸類成VOCALOID的升級版也就是初音未來這類初音只有單純的形象及聲音沒有個性及人設所以音樂創作者可以不用考慮形象及相關問題概念上就是把自己的作品請初音來唱而已

然而vtuber是虛擬實況主撇開實況主不見得會音樂和主打音樂這點 vtuber是牽涉到人設的而且vtuber是以虛擬外皮進行活動的以文中情況請問現在這名實況主應該是作曲者呢? 還是這個ai生成只有外皮跟動作的空殼呢?
不管回答是哪種皆不符合vtuber的概念這是個單純有在看v的人都能分辨出的基本錯誤甚至內文提到自動生成動作這點都不是v需要的因為這些動作細節都屬於v自己表演甚至是詮釋v人設的一環所以這個替v團隊撐腰的標題簡直是… 鬼扯
我也不是什麼內行人就我所知道v所需要的成本基本上是硬體設備動態捕捉以及模組問題本來看標題以為是我不知道什麼但進來後很失望

我不清楚這序言是中央研究院寫的還是貴團隊但從貴團隊創立至今極少犯這種連基本查詢都沒有的超低級錯誤希望能看到有所說明或更改

#2

lioshiwa 2022/08/28

#1
你又怎麼知道這種技術未來能不能運用在 VTUBER 上?

研之有物│中央研究院

296 篇文章・ 3901 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

2

20

1

文字

2

20

1

AI 接手譜出的貝多芬遺作《第十號交響曲》，連專業音樂家也「難解難分」！

peggysha ・2021/11/03 ・2214字・閱讀時間約 4 分鐘

相關標籤：

熱門標籤：

在古典音樂界裡，流傳著這麼一個傳說：作曲家在寫完第九號交響曲之後，生命也就到了盡頭。而貝多芬（Ludwig von Beethoven）便是這個詛咒最著名的「受害者」之一。

1817 年，英國皇家愛樂協會（Royal Philharmonic Society）請貝多芬創作了兩首交響曲，這第一首呢，便是《第九號交響曲》（Symphony No.9 in D minor, Op.125），完工後成為了經典不朽的代表作，把《歡樂頌》快樂直送到世界各地的人們耳中。

然而，可惜的是，在開始著手《第十號交響曲》（Beethoven Symphony No.10）後不久，貝多芬的健康便迅速惡化，最終在 1827 年離開了世界，而這第十號交響曲，除了幾個音符加上各式各樣的筆記之外，就啥也沒有了，從此成為了樂迷們心中的遺憾。

人死不能復生，但，大家的好奇心可沒這麼容易被殺死。最近，一個專門推廣音樂科技的奧地利機構，卡拉揚研究所（Karajan Institute）便集結了一群音樂學家、作曲家、AI 科學家、歷史學家，嘗試從手稿裡找到蛛絲馬跡，並藉由 AI 的力量，將貝多芬的遺作帶給世界，為他慶祝 250 歲生日。

-----廣告，請繼續往下閱讀-----

到底，AI 是怎麼「寫」出這首曲子的？它真能滿足大家的耳朵嗎？

早有人挑戰續寫大師神作！風格不同被罵慘

你或許會想，啊都交給 AI 了，寫個曲應該沒什麼困難的吧？嘿，那你可就太小看貝多芬給大家出的作業了。

1988 年時，一位名叫貝瑞庫珀（Barry Cooper）的音樂學家便曾嘗試挑戰這項任務，他蒐集了貝多芬老大的手稿和各式資料，用自己的理解試圖創作出一個最接近貝多芬風格的第一和第二樂章。

不過呢，這兩個樂章寫完了之後，大家卻是罵聲連連，很多人覺得他根本沒有搞懂貝多芬的風格，只是在狗尾續貂。

-----廣告，請繼續往下閱讀-----

另一方面，所謂「寫得出」曲子跟「寫得好」曲子完全是兩回事，要真正讓 AI 掌握作曲家原本的風格、進而去模仿，需要考量的面向比單純輸入資料難多了。

曾有音樂家挑戰續寫貝多芬的《第十號交響曲》，卻被抨擊為狗尾續貂。圖／Pixabay

發揮偵探精神，分工合作打團戰

曾經失敗沒關係，這次計畫的負責人，卡拉揚研究所的所長 Matthias Röder 可不是吃素的，他的最高原則大概可以八字概括：AI 不夠、人腦來湊。

專家們開了幾次小組會議後，基本協調出了這樣的分工：計算音樂學家 Mark Gotham 與 AI 專家 Ahmed Elgammal 要梳理貝多芬的手稿，並將他過去的寫作脈絡通通餵給 AI，讓機器學習他的邏輯與理念；寫出 Intel 鈴聲的奧地利作曲家 Walter Werzowa 負責把貝多芬留下的片段和 AI 生出的旋律給合在一起；音樂學家 Robert Levin 提供專業建議，協助進行優化與調整。

這組合不錯，聽起來會順順完成對吧？錯！

-----廣告，請繼續往下閱讀-----

所謂交響曲呢，通常會由四個樂章組成：第一個樂章開場，節奏稍快；第二個樂章來個轉折，變得較慢；第三樂章會是中板或快板；到了最後一個樂章時，則會以澎湃激昂快節奏結束。

好了那麼問題來了：同樣一段旋律，它出現在第二樂章與第四樂章，會達成完全不同的效果，弄得不好，那差異就像「我要結婚啦！」、「新郎不是我QQ」一樣悲劇。

於是乎，團隊需要判斷：第十號交響曲的主題旋律到底為何？哪個時候可能是新樂章的起點？這種種判斷，都有賴人腦協助決定。

作曲小白，從零開始的譜曲之路

決定好了各個音符或片段出現的位置後，團隊又有新的考驗：要怎麼就既有片段進行擴寫呢？當然不能隨機組合，想要延伸樂句，就必須遵從一些音樂形式，它可能是三拍子、聽起來輕快的詼諧曲；又或許是不同音高旋律和諧融合出的賦格……

-----廣告，請繼續往下閱讀-----

接下來，團隊就開始了漫漫 AI 教學之路，先學會怎麼讓音符組起來和諧、再學怎麼將兩個段落連結、接著要知道怎麼為段落收尾、還要知道怎麼分配各個樂器，總而言之，就是讓 AI 掌握各種基本的作曲規則與技巧，生出的旋律才能符合規範。

小考囉！電腦、人腦，傻傻分不清楚？

經過一段時間的努力後，團隊終於帶著 AI 奔赴「考場」。2019 年 11 月，他們找來了一群記者、音樂學家和專門研究貝多芬的專家作聽眾，並讓鋼琴家演奏 AI 創作的音樂片段，測測聽眾們是否可以確定 AI 開始接手作曲的節點出現在哪裡？結果大家並未成功找出來。

幾天之後，他們又透過弦樂四重奏的方式演奏了 AI 所作的作品片段，結果只有非常熟悉貝多芬手稿的人才能確定人工智慧接手的點究竟在哪裡。

這兩次小考都算是成功通過，讓團隊信心倍增。在接下來的 18 個月中，研究團隊一起編出了兩個完整、各超過 20 分鐘的樂章。

-----廣告，請繼續往下閱讀-----

終於，在 10 月 9 日，研究團隊帶著 AI 創作的作品回到了貝多芬的出生地德國波昂（Bonn）進行了全球首演，至於這首曲子聽起來到底夠不夠「貝多芬」呢？就交給你判斷吧：Beethoven X: The AI Project

參考資料：

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 2

登入與大家一起討論

#1

狐禪 2021/11/03

聽起來像舒曼的作品。

#2

peggysha 2021/11/09

#1　XDDD居然像舒曼嗎　研究團隊哭哭

peggysha

69 篇文章・ 390 位粉絲

曾經是泛科的 S 編，來自可愛的教育系，是一位正努力成為科青的女子，永遠都想要知道更多新的事情，好奇心怎樣都不嫌多。

TRENDING 熱門討論

即時熱門

2

7

0

文字

2

7

0

讓人工智慧為 VTuber 團隊撐腰！——AI幫你一鍵生成虛擬音樂家！

研之有物│中央研究院・2021/11/03 ・5057字・閱讀時間約 10 分鐘

相關標籤：

熱門標籤：

本文轉載自中央研究院研之有物，泛科學為宣傳推廣執行單位。

採訪撰文│林承勳
美術設計│林洵安

自動化音樂展演的可能性

人工智慧（簡稱 AI）技術日新月異，不只打敗人類圍棋高手，現在更用在醫療、交通、金融、資安各領域，遍佈了你我的日常生活。中央研究院資訊科學研究所副研究員蘇黎讓 AI 又多了一項新技能：自動化音樂展演。「虛擬音樂家系統」創造出具有動畫形象的虛擬人物，配合真人一同演出，而且演奏動畫和音樂伴奏皆可自動產生。未來，經營 VTuber（虛擬 YouTuber）背後可能不再需要龐大製作團隊，只要專注在企劃和劇本，其他讓 AI 幫你一鍵生成！

真實與虛擬合奏的貝多芬小提琴奏鳴曲

虛擬音樂家系統，這是蘇黎與其團隊最近的研究成果，他將 AI 應用到音樂表演現場，並試圖推展到整個多媒體產業。這套系統已實際在舞台演示，並與多個音樂展演團隊合作，包括：沛思文教基金會、清大 AI 樂團、長笛家林怡君、口口實驗室等。

以近年蘇黎舉辦的音樂會為例，主要可分為兩部分，一個是台上親手彈奏著貝多芬〈春〉第一樂章伴奏部分的真人鋼琴家；另一個，即為該場演奏的特別之處：正在螢幕裡演奏主旋律的虛擬小提琴音樂家。這場表演是人類與「虛擬音樂家系統」的巧妙組合，真人鋼琴家彈奏的過程中，虛擬音樂家系統除了負責合奏，同時還要生成螢幕上虛擬演奏者的動畫身影。

不放槍、不搶拍的自動伴奏系統

虛擬音樂家系統的「自動伴奏」，不同於卡拉 OK 的機器伴奏，演奏者不需配合伴唱音樂，而是程式控制伴唱音樂以配合演奏者，讓演奏者自由詮釋樂曲。但因為要配合真人演出的現場發揮與不確定性，自動伴奏的運算必須又快又準。蘇黎指出，這也是研究中比較具有挑戰性的部分。

-----廣告，請繼續往下閱讀-----

自動伴奏系統的音樂偵測器、音樂追蹤器與位置估算單元，讓虛擬音樂家精準掌握真人演奏實況。

舉例來說，想要跟人合奏，首先要確定能同步開始，這個重責大任就由自動伴奏系統中的「音樂偵測器」擔綱。「音樂偵測器是偵測音樂什麼時候發出，但現場會有其他聲音，不可以讓機器聽到雜音就以為演奏開始了。」蘇黎說，因此團隊會先將整個樂譜，輸入到虛擬音樂家的自動伴奏系統中，並在演奏會場早早就讓系統持續待命，只要音樂偵測器偵測到樂譜的第一個音，伴奏隨即啟動。

自動伴奏系統在確認演奏開始之後，馬上又有另一項任務：追蹤音樂進度。因為每位音樂家會有自己的演奏風格，而且真人不管如何熟練，都還是有可能出現搶拍或延遲等變數。追蹤音樂進度的這項任務，便由自動伴奏系統中的「音樂追蹤器」和「位置估算單元」來執行。

「音樂追蹤器採用多執行緒線上動態時間校正（online dynamic time warping）演算法，每一個執行緒在最短時間內各自計算並取平均值，以找出最貼近該音樂家當下演奏速度的數值。」蘇黎解釋，追蹤器抓到現場演奏速度後拿來跟參考音樂檔案比對，就能推測多久後會演奏下一個音。至於位置估算單元，則是用來估計當下已演奏到整個樂譜的哪個位置。

虛擬音樂家系統藉由上述的自動伴奏技術，追蹤真人演奏進度，並自動觸發並演奏相應的聲部。目前團隊已經將偵測到觸發伴奏的平均延遲控制在 0.1 秒左右，但蘇黎的目標是要降低到「0.01」秒內。蘇黎表示，音樂心理學已證實，就算是沒有經過專業訓練的一般人，0.1 秒的誤差聽起來仍非常明顯，「延遲 0.01 秒可以勉強不引起業餘人士的注意；但面對專業音樂家時，延遲可能要到 0.001 秒左右才能過關。」

-----廣告，請繼續往下閱讀-----

訓練 AI 自動生成虛擬音樂家動畫形象

現場音樂表演是影音的雙重享受，所以虛擬音樂家除了擁有自動伴奏的「聲音」，還需要擁有將表演動作形象化的動畫「影像」。

真人音樂家演奏時，不論是情感的表達、與其他合奏者及觀眾互動、還有操作樂器的動作等，都存在個人差異，沒有一套固定標準。例如拉琴的手勢，10 個音樂家可以有 10 種不同的習慣。因此蘇黎與研究團隊採取的方法是：取得大量影音資料，讓 AI 學習如何製造虛擬音樂家的肢體動作。

首先，徵求多位專業小提琴演奏者，穿上有標記點的特殊衣服，站在有動態捕捉裝置的空間中，演奏不同風格曲目。蘇黎使用的 3D 動作偵測技術，會偵測音樂家全身骨骼的關節點，作為虛擬音樂家動畫生成的訓練資料，並在訓練動畫生成模型的過程中，重點關注持弓的右手如何移動。

透過 U 型網路、自注意力機制等核心技術，來輸出虛擬音樂家動態肢體影像。

在訓練 AI 與生成動畫影像的過程中，需要卷積神經網路來協助完成工作。蘇黎團隊採用的模型是 U 型網路（U-net），負責圖像之間的轉換，由編碼圖層傳到解碼圖層。它的優點是速度快，而且輸入輸出格式相對容易設計，能一次輸出大量資料點。「 U-net 可以一次輸出單一時間的所有肢體骨架點，而非一個一個骨架點逐步輸出。」蘇黎說。

-----廣告，請繼續往下閱讀-----

除此之外，還有自注意力（self-attention）機制，讓 AI 學習判斷肢體動作與音樂的相關性。因為肢體動作跟音樂都是序列形式，有時間上的關聯性，假設真人音樂家某個動作在大鼓響起時一直出現，就會判定兩者存在關聯。之後自注意力機制在虛擬動作生成過程中，只要聽到該音樂的大鼓聲出現，就會發出明顯訊號，認為此時要搭配相應的肢體動作。

簡單來說，想要自動化生出虛擬小提琴家，不僅聲音要到位，動畫也要足夠精準。音樂需要自動伴奏系統，即時追蹤真人演奏者的進度並觸發伴奏；而相應的肢體動作，則有賴透過 U 型網路與自注意力機制，讓 AI 在音樂現場了解此時要搭配何種動作。

進階挑戰：由聽覺到視覺的跨感官轉換

自動生成聲音和影像後，研究團隊還有一個更進階的目標。「我們想讓機器聽到某一首歌，就聯想到一幅畫。但坦白講，這種音樂到視覺風格轉換（music-to-visual style transfer）非常困難。」蘇黎說。當初有學生向他提出這個構想，想要訓練 AI 將音樂與畫面連結。只是這設定一開始就困難重重，因為最重要的訓練資料幾乎是無法取得。

AI 並非無中生有，機器學習有賴龐大、高品質的資料。

想要讓 AI 學習聽音樂聯想畫面，就必須要有真人示範，聆聽音樂並畫出心中所浮現的畫面來當作訓練資料。找人聽音樂不難，但找來的人未必善於繪畫；即使花大錢請畫家參與實驗，人少沒有代表性，人多則風格又可能大相逕庭。「演奏動作還有跡可循，但大家聽音樂腦補的畫面都不一樣，這樣是沒辦法當作訓練素材的。」蘇黎點出其中關鍵。

-----廣告，請繼續往下閱讀-----

研究團隊決定退而求其次，改成在一組音樂跟一組影像資料庫，透過兩者之間共享的語義標註（labels），試圖建立起對應關係。就像是電腦在連連看，如果配對起來共通點還算合理就成功。此時問題又來了，所謂「合理」實在難以界定，於是執行標準只好再一次降低，音樂與畫面的共同標註越簡單越好。

「雖然這跟當初想像中的差距非常大，但目前我們也只能用創作年代來當標註。」蘇黎說，經由創作年代這個共同標註，電腦聽到 1800 年的樂曲就會連到同樣年代的圖畫。即使不符原本理想，模型建立起來後，在虛擬音樂家系統裡還是可以發揮一些功能，像是為演奏會搭配符合音樂年代的背景畫面，或色彩效果。

如何成為音樂資訊研究者？

在虛擬音樂家系統之前，蘇黎與實驗室團隊（音樂與文化科技實驗室）在自動音樂採譜方面的研究已經有豐厚成果，他們研發出開源工具《Omnizart》。

《Omnizart》是音樂與文化科技實驗室研究成果集大成的實用開源工具。

它具備當前全世界最多樣樂器組合的分析功能，只要輸入一段音樂，不管是鋼琴獨奏、多重樂器、打擊樂，還是和弦辨識、節拍偵測，甚至是困難的人聲處理，都會幫你分析。

-----廣告，請繼續往下閱讀-----

「像鋼琴這類樂器的話，是音樂進去《Omnizart》，生出 MIDI；而人聲進去會輸出成供電腦判讀的數位資料。」蘇黎解釋，透過這些數字化的音訊數據能了解每一瞬間的音高變化，或是泛音、抖音等手法。研究自動採譜 AI 是因為，蘇黎想探究如蕭邦的夜曲等，這些百年來不斷被重複演奏超過千百次的古典樂，在不同時代、風格迥異的音樂家手中究竟是如何被詮釋。

而這次蘇黎用 AI 創造虛擬音樂家系統，同樣也是源於本身對音樂的喜愛與好奇。不是科班出身的他能彈奏鋼琴、吉他，會吹小號，喜歡聽經典的古典樂。對蘇黎來說，興趣是驅使研究向前的一大動力，他認為身為研究者必須要時常探索新的領域，因此常會要求自己不斷接觸世界各國的在地歌謠。

蘇黎的下一步，是以現有虛擬音樂家系統為基礎，加入更多細膩動作（例如臉部表情）的虛擬多人樂團。他也坦言目前自動伴奏系統、肢體生成還有風格轉換這三項技術，都還有很大的進步空間。想訓練電腦產生出更貼近真人演奏者動作的虛擬音樂家，必須花大量人力取得更多影片資料。「民眾常以為不用多做什麼 AI 就會自己學習，但真相是沒有夠好的資料什麼都不用談。」蘇黎解釋，AI 研究者的時間幾乎都耗在蒐集資料上。

同時，研究室也在規劃下一場發表。蘇黎認為，實體演奏會是考驗研究品質最好的方式。除了訓練好模型，現場還有很多要克服的變數，像是很多音樂廳沒有網路，團隊必須將整場演奏會所需的模型，事先設計成用一台筆電就能執行。「總不可能演奏到一半，資料量太大電腦跑不動，然後要跑出去連網路吧。」蘇黎笑著說，音樂會現場要面對很多做研究時不曾碰到的狀況，是很刺激、有挑戰性的任務。

-----廣告，請繼續往下閱讀-----

AI 將是未來主流，是好、是壞終究取決於人心。

AI 出現之後，自然也面臨許多批判，例如工作是否會被 AI 取代，甚至以 AI 操控虛假言論或用在軍事用途，但蘇黎覺得，主導權終究還是躲在背後操作的「人」。同樣，隨著虛擬音樂家系統日漸完善，真人音樂家是否擔心未來飯碗被搶走？令人意外的是，蘇黎說身邊最期待這個系統的反而就是與他合作的藝術家，「別小看他們，藝術家可是一群勇敢、期待新事物、信仰未來的人。」

延伸閱讀：

蘇黎（2021）。〈我們與機器的距離：與人類互動的虛擬音樂家系統〉，《中研院訊》。
張凱鈞（2017）。〈天才莫札特的傳說很狂？現在只要一鍵就做得到！〉，《研之有物》。
音樂與文化科技實驗室，《Omnizart: Music Transcription Made Easy》。
Wu, Y. T., Chen, B., & Su, L. (2020). Multi-Instrument Automatic Music Transcription With Self-Attention-Based Instance Segmentation.IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 2796–2809.

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 2

登入與大家一起討論

#1

hbzgwhzcvmqp 2021/11/18

在臉書上發文吐槽過了簡單解釋一下
以內文來看這種應用應該歸類成VOCALOID的升級版也就是初音未來這類初音只有單純的形象及聲音沒有個性及人設所以音樂創作者可以不用考慮形象及相關問題概念上就是把自己的作品請初音來唱而已

然而vtuber是虛擬實況主撇開實況主不見得會音樂和主打音樂這點 vtuber是牽涉到人設的而且vtuber是以虛擬外皮進行活動的以文中情況請問現在這名實況主應該是作曲者呢? 還是這個ai生成只有外皮跟動作的空殼呢?
不管回答是哪種皆不符合vtuber的概念這是個單純有在看v的人都能分辨出的基本錯誤甚至內文提到自動生成動作這點都不是v需要的因為這些動作細節都屬於v自己表演甚至是詮釋v人設的一環所以這個替v團隊撐腰的標題簡直是… 鬼扯
我也不是什麼內行人就我所知道v所需要的成本基本上是硬體設備動態捕捉以及模組問題本來看標題以為是我不知道什麼但進來後很失望

我不清楚這序言是中央研究院寫的還是貴團隊但從貴團隊創立至今極少犯這種連基本查詢都沒有的超低級錯誤希望能看到有所說明或更改

#2

lioshiwa 2022/08/28

#1
你又怎麼知道這種技術未來能不能運用在 VTUBER 上?

研之有物│中央研究院

296 篇文章・ 3901 位粉絲

研之有物，取諧音自「言之有物」，出處為《周易·家人》：「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活，成為串聯您與中研院的橋梁，通往博大精深的知識世界。網頁：研之有物臉書：研之有物@Facebook

TRENDING 熱門討論

即時熱門

1

文字

0

1

停工即停薪：如何證明你的時間值多少？車禍背後的認知 x 情緒 x 金錢 x 法律大混戰

鳥苷三磷酸 (PanSci Promo) ・2026/01/09 ・3351字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

本文與 PAMO車禍線上律師合作，泛科學企劃執行

走在台灣的街頭，你是否發現馬路變得越來越「急躁」？滿街穿梭的外送員、分秒必爭的多元計程車，為了拚單量與獎金，每個人都在跟時間賽跑。與此同時，拜經濟發展所賜，路上的豪車也變多了。

這場關於速度與金錢的博弈，讓車禍不再只是一場意外，更是一場複雜的經濟算計。PAMO 車禍線上律師施尚宏律師在接受《思想實驗室 video podcast》訪談時指出，我們正處於一個交通生態的轉折點，當「把車當生財工具」的職業駕駛，撞上了「將車視為珍貴資產」的豪車車主，傳統的理賠邏輯往往會失靈。

在「停工即停薪」（有跑才有錢，沒跑就沒收入）的零工經濟時代，如果運氣不好遇上車禍，我們該如何證明自己的時間價值？又該如何在保險無法覆蓋的灰色地帶中全身而退？

-----廣告，請繼續往下閱讀-----

如果運氣不好遇上車禍，我們該如何證明自己的時間價值？/ 圖片來源: Nano Banana

薪資證明的難題：零工經濟者的「隱形損失」

過去處理車禍理賠，邏輯相對單純：拿出公司的薪資單或扣繳憑單，計算這幾個月的平均薪資，就能算出因傷停工的「薪資損失」。

但在零工經濟時代，這套邏輯卡關了！施尚宏律師指出，許多外送員、自由接案者或是工地打工者，他們的收入往往是領現金，或者分散在多個不同的 App 平台中。更麻煩的是，零工經濟的特性是「高度變動」，上個月可能拚了 7 萬，這個月休息可能只有 0 元，導致「平均收入」難以定義。

這時候，律師的角色就不只是法條的背誦者，更像是一名「翻譯」。

施律師解釋「PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』，轉譯成法官或保險公司聽得懂的法律語言。」這包括將不同平台（如 Uber、台灣大車隊）的流水帳整合，或是找出過往的接單紀錄來證明當事人的「勞動能力」。即使當下沒有收入（例如學生開學期間），只要能證明過往的接單能力與紀錄，在談判桌上就有籌碼要求合理的「勞動力減損賠償」。

-----廣告，請繼續往下閱讀-----

PAMO車禍線上律師的工作是把外送員口中零散的『跑單損失』，轉譯成法官或保險公司聽得懂的法律語言 / 圖片來源: Nano Banana

300 萬張罰單背後的僥倖：你的直覺，正在害死你

根據警政署統計，台灣交通違規的第一名常年是「違規停車」，一年可以開出約 300 萬張罰單。這龐大的數字背後，藏著兩個台灣駕駛人最容易誤判的「直覺陷阱」。

陷阱 A：我在紅線違停，人還在車上，沒撞到也要負責？ 許多人認為：「我人就在車上，車子也沒動，甚至是熄火狀態。結果一台機車為了閃避我，自己操作不當摔倒了，這關我什麼事？」

施律師警告，這是一個致命的陷阱。「人在車上」或「車子沒動」在法律上並不是免死金牌。法律看重的是「因果關係」。只要你的違停行為阻礙了視線或壓縮了車道，導致後方車輛必須閃避而發生事故，你就可能必須背負民事賠償責任，甚至揹上「過失傷害」的刑責。

數據會說話：台灣每年約有 700 件車禍是直接因違規停車導致的。這 300 萬張罰單背後的僥倖心態，其巨大的代價可能是人命。

-----廣告，請繼續往下閱讀-----

陷阱 B：變換車道沒擦撞，對方自己嚇到摔車也算我的？ 另一個常年霸榜的肇事原因是「變換車道不當」。如果你切換車道時，後方騎士因為嚇到而摔車，但你感覺車身「沒震動、沒碰撞」，能不能直接開走？

答案是：絕對不行。

施律師強調，車禍不以「碰撞」為前提。只要你的駕駛行為與對方的事故有因果關係，你若直接離開現場，在法律上就構成了「肇事逃逸」。這是一條公訴罪，後果遠比你想像的嚴重。正確的做法永遠是：停下來報警，釐清責任，並保留行車記錄器自保。

正確的做法永遠是：停下來報警，釐清責任，並保留行車記錄器自保。/ 圖片來源: Nano Banana

保險不夠賠？豪車時代的「超額算計」

另一個現代駕駛的惡夢，是撞到豪車。這不僅是因為修車費貴，更因為衍生出的「代步費用」驚人。

-----廣告，請繼續往下閱讀-----

施律師舉例，過去撞到車，只要把車修好就沒事。但現在如果撞到一台 BMW 320，車主可能會主張修車的 8 天期間，他需要租一台同等級的 BMW 320 來代步。以一天租金 4000 元計算，光是代步費就多了 3 萬多塊。這時候，一般人會發現「全險」竟然不夠用。為什麼？

因為保險公司承擔的是「合理的賠償責任」，他們有內部的數據庫，只願意賠償一般行情的修車費或代步費。但對方車主可能不這麼想，為了拿到這筆額外的錢，對方可能會採取「以刑逼民」的策略：提告過失傷害，利用刑事訴訟的壓力（背上前科的恐懼），迫使你自掏腰包補足保險公司不願賠償的差額。

這就是為什麼在全險之外，駕駛人仍需要懂得談判策略，或考慮尋求律師協助，在保險公司與對方的漫天喊價之間，找到一個停損點。

談判桌的最佳姿態：「溫柔而堅定」最有效？

除了有單據的財損，車禍中最難談判的往往是「精神慰撫金」。施律師直言，這在法律上沒有公式，甚至有點像「開獎」，高度依賴法官的自由心證。

-----廣告，請繼續往下閱讀-----

雖然保險公司內部有一套簡單的算法（例如醫療費用的 2 到 5 倍），但到了法院，法官會考量雙方的社會地位、傷勢嚴重程度。在缺乏標準公式的情況下，正確的「態度」能幫您起到加分效果。

施律師建議，在談判桌上最好的姿態是「溫柔而堅定」。有些人會試圖「扮窮」或「裝兇」，這通常會有反效果。特別是面對看過無數案件的保險理賠員，裝兇只會讓對方心裡想著：「進了法院我保證你一毛都拿不到，準備看你笑話」。

相反地，如果你能客氣地溝通，但手中握有完整的接單紀錄、醫療單據，清楚知道自己的底線與權益，這種「堅定」反而能讓談判對手買單，甚至在證明不足的情況下（如外送員的開學期間收入），更願意採信你的主張。

車禍不只是一場意外，它是認知、情緒、金錢與法律邏輯的總和。

在這個交通環境日益複雜的時代，無論你是為了生計奔波的職業駕駛，還是天天上路的通勤族，光靠保險或許已經不夠。大部分的車禍其實都是小案子，可能只是賠償 2000 元的輕微擦撞，或是責任不明的糾紛。為了這點錢，要花幾萬塊請律師打官司絕對「不划算」。但當事人往往會因為資訊落差，恐懼於「會不會被告肇逃？」、「會不會留案底？」、「賠償多少才合理？」而整夜睡不著覺。

-----廣告，請繼續往下閱讀-----

PAMO看準了這個「焦慮商機」，推出了一種顛覆傳統的解決方案——「年費 1200 元的訂閱制法律服務 」。

這就像是「法律界的 Netflix」或「汽車強制險」的概念。PAMO 的核心邏輯不是「代打」，而是「賦能」。不同於傳統律師收費高昂，PAMO 提倡的是「大腦武裝」，當車禍發生時，線上律師團提供策略，教你怎麼做筆錄、怎麼蒐證、怎麼判斷對方開價合不合理等。

施律師表示，他們的目標是讓客戶在面對不確定的風險時，背後有個軍師，能安心地睡個好覺。平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略。

平時保留好收入證明、發生事故時懂得不亂說話、與各方談判時掌握對應策略。 / 圖片來源: Nano Banana

從違停的陷阱到訂閱制的解方，我們正處於交通與法律的轉型期。未來，挑戰將更加嚴峻。

-----廣告，請繼續往下閱讀-----

當 AI 與自駕車（Level 4/5）真正上路，一旦發生事故，責任主體將從「駕駛人」轉向「車廠」或「演算法系統」。屆時，誰該負責？怎麼舉證？

但在那天來臨之前，面對馬路上的豪車、零工騎士與法律陷阱，你選擇相信運氣，還是相信策略？ 先「武裝好自己的大腦」，或許才是現代駕駛人最明智的保險。

PAMO車禍線上律師官網：https://pse.is/8juv6k

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)

243 篇文章・ 319 位粉絲

充滿能量的泛科學品牌合作帳號！相關行銷合作請洽：contact@pansci.asia

TRENDING 熱門討論

即時熱門

1

0

文字

0

1

0

人工智慧的極限

賴昭正・2026/01/15 ・5790字・閱讀時間約 12 分鐘

相關標籤：

熱門標籤：

在發現的道路上，智慧（intellect）作用不大。意識（consciousness）━你可以稱之為直覺或其它任何你想用的詞━會發生一次飛躍，答案會突然出現在你面前，而你卻不知道它是如何或為什麼出現的。

-愛因斯坦（1879-1955），1921年諾貝爾物理獎

2025 年 10 月 13 日在參加建國中學高三 6 班畢業 66 週年的同學旅遊後，希望能瞭解一下投稿多年、從未謀面之《泛科學》的作業情形及發展計畫等，我決定到「泛科創新股份有限公司」參觀一下：沒想到知識長鄭國威竟然邀請我錄了一集「思想實驗室」。當被問及有關人工智慧（artificial intelligence，AI）的看法時，我突然冒出「因為科學的發現很多都是意外的，因此AI無法像人類一樣具有創造性」。沒想到這句話似乎成為這次訪問的主題，也引起比較熱烈的討論，因此我想在這裡補充一下。

AI（人工智慧）是否能青出於藍、更勝於藍地超越我們？這事實上也是專家爭論最多的話題。我不是專家，雖然知道「我思故我在」，但完全不知人類如何思想、大腦如何運作，更不瞭解上面愛因斯坦所提到之意識（consciousness）如何飛躍！但是已經被國威推上了這個平台，因此只好在這裡野人獻曝，依我所知的科學史提出懷疑。

回歸正題，上面問題的直覺反應答案是：人製造出來的怎麼可能比人聰明呢？但相信很多人都知道：人類所製造出來的圍棋軟體 AlphaGo 已經戰勝了所有的人類！其主人谷歌（Google）謂：它能戰勝人類是因為它利用策略網絡來推薦有希望的走法，並利用價值網絡來評估在給定局面下獲勝的機率，從而大幅縮小搜尋空間，使得它能夠「預想」數百萬步棋，並透過自身的對弈不斷學習，最終超越人類的層次。從這段話看來，我覺得 AlphaGo 能戰勝人類是基於高速地使用人類所設計出來之有路可循、亦有跡可尋的「邏輯策略」！

同樣地，如果我們給 AI 一含所有物質之性質的資料庫，然後告訴它如何尋找「規律」（pattern），相信它會非常勝任地發現許多具有某種特性的「新物質」、「新藥物」、甚或告訴我們如何製造它們（有機合成的資料庫）。但是 AI 雖然知道哈密瓜的所有性質（資料庫），可是它會想到哈密瓜含有能大量分泌青黴素的菌株、即時在第二次世界大戰中拯救了上百萬士兵的生命嗎（見後）？我覺得後者不是邏輯的問題，是沒辦法訓練的，因此 AI 不能「真正創造」不是依靠邏輯的發現。這正是本文所要談的：許多科學大突破都不是靠訓練或邏輯分析的！

-----廣告，請繼續往下閱讀-----

視眾人所見視，思眾人所未思

牛頓的傳記《艾薩克·牛頓爵士生平回憶錄》（Memoirs of Sir Isaac Newton’s Life）於1752年出版；作者斯圖克利（William Stukeley）在書中轉述：「晚餐後，天氣溫暖，我們去了花園，在幾棵蘋果樹的樹蔭下喝茶……他（牛頓）告訴我，他當時的處境和以前一樣，剛剛想到萬有引力的概念。當他正沉思時，一個蘋果掉了下來。他心想：『為什麼蘋果總是垂直落到地上，永遠不會向上或向一側掉落呢？……』，這使他得出結論：地球一定具有『引力』，從而發展出他的萬有引力理論。」

早在西元前 4 世紀左右，亞里斯多德（Aristotle）及歐幾里德（Euclid）等希臘哲學家就為自然哲學和邏輯奠定了基礎。樹上的水果都是往地面掉，這是任何小孩都知道的「常識」，但為什麼卻等了 1700 年才引起牛頓的注意？我們不知道為何牛頓會想到這個問題，但 AI 也會注意到這個現象嗎？如果會，它會先想到萬有引力或是直接跳到更精確的愛因斯坦廣義相對論（見後）呢?

發現世上第一個抗生素的弗萊明（Alexander Fleming）度假回來後發現培養皿因未加蓋而發霉（見後），一般的研究者大多會將這些被黴菌孢子污染的培養皿丟掉；但弗萊明這次卻心血來潮……。他回憶說：

「基於先前「溶菌酶」的經驗，也像許多細菌學家那樣，我應該會把污染的培養皿丟掉，……某些細菌學家也有可能（早就）注意到我（那時）看到的相似變化，……但是在對天然產生的抗菌物質沒有任何興趣的情況下，都會順手地將培養物丟棄。……但（這次）我沒有找個藉口丟掉受污染的培養液；相反地，我做了進一步的探討。」

如果AI也能做實驗，它會像許多細菌學家那樣「順手地」丟棄培養物嗎？機會總是降臨在那些做好準備的「人」身上。

-----廣告，請繼續往下閱讀-----

幸運的靈感/直覺

一位正在自由下落的人不會感覺到自己的重量，那不是等於漂浮在沒有任何重力的外太空空間嗎？如果加速度可以抵消重力，那麼在沒有重力的情況下，加速度本身不是可以模擬重力，產生與真實重力沒有區別的人造重力嗎？愛因斯坦稱上面這一發現為「等效原理」（Equivalence Principle）：我們雖然不知道重力是什麼，但其現象可以用加速度來模擬！這一想法啟動了愛因斯坦嘗試改變牛頓重力論的八年艱苦抗戰，於 1915 年 11 月完成了人類有史以來最美麗的物理理論━「廣義相對論」（General Theory of Relativity）。100 多年後的今天，愛因斯坦這一透過想像力來推測的理論仍然在指引著物理學家們去瞭解宇宙的基本特徵！怪不得愛因斯坦後來大膽地稱它為「我一生中最幸運的靈感」。

德國理論物理學家普朗克 (Max Planck) 謂他是靠「幸運的直覺 (lucky intuition) 」而意外地敲響了量子力學革命之鐘聲！在 1918 年諾貝爾獎頒獎典禮上，普朗克回憶說：

「然而，即使（我推導出來的）輻射公式絕對準確，它仍然只是一個幸運猜測（lucky guess）了正確插值公式的結果，其價值是非常有限的。因為這個原因，從那時起，我就忙著… 想闡明此公式的真實物理特性，這導致我考慮連接熵和概率之間的波茲曼（Boltzmann）關係。在經過我生命中最艱苦的幾個星期之工作後，光明終於驅除了黑暗，一個新的、從未夢想到的的觀點在我面前展開了。」

這普朗克從未夢想到的觀點是什麼呢? 就是「能量量化」的觀念，違反了當時「能量是連續」的共識！因之此後的十幾年，普朗克便一直在努力地想使他的量子觀念能容於古典力學裡；可是每次嘗試的結果，似乎均使自己失望得想收回那革命性的「大膽假設」而已。

錯誤的假設

好吧，就假設 AI 像愛因斯坦一樣也有「最幸運的靈感」，發現了廣義相對論。可是後來物理學家瞭解到了愛因斯坦的「等效定理」事實上不完全正確，是有限制的，也就是說它只是一種近似的基本定律，只適用於一個局部、無限小的時空區域內。哈，如果AI比人類聰明，怎麼會在邏輯上犯下這個錯誤呢？如果不犯這個錯誤，它能發現廣義相對論呢？

-----廣告，請繼續往下閱讀-----

又如 1905 年，愛因斯坦在題為「關於運動物體的電動力學」的（狹義相對論）論文引言裡，開宗明義地謂「不要爭辯」光速了：

「我們建議將「相對性原理」這個猜想（conjecture）提升到一個公設（postulate）的地位，並引入另一個表面上與前者不調和（irreconcilable）的公設，即光是在真空中的傳播速率為一與發射體運動狀態無關的定值 c。這兩個假設足以（讓我們）透過適用於靜止物體（狀態）之馬克斯威（Maxwell）理論，導出一個簡單且不矛盾（consistent）的電動力學理論。」

愛因斯坦真大膽：一個可以用實驗來確定的光速，怎麼可以定為「公設」呢？光速與發射體運動狀態無關不是完全違反了我們日常生活的經驗（如聲速）嗎？愛因斯坦在其時鐘「同步程序」的假想實驗裡魔術般地導入了他的公設：光在任何方向的速度都是一樣的 c 值！完全忽略了當時幾乎所有物理學家都相信光是在「以太」中傳播的理論。

1924 年，一位名不見經傳，任教於東巴基斯坦的講師波思 (Styendra Bose) 在一篇 1500 字的論文裡做了一個誤打誤撞、連他自己本人都不知道、在整篇論文中隻字未提的重要及創新性假設：光量子是不可分辨的！在當時，所有的物理學家都認為光量子像銅板一樣是可以分辨的（我們可以分辨哪個是 A 銅板、哪個是 B 銅板、…），因此兩個銅板出現「一正及一反」的或然率是 2/4；但如果它們不能分辨呢？則出現「一正及一反」的或然率將變成 1/3。沒想到這一「錯誤」的假設後來竟成為打開量子統計力學的鑰匙！超強邏輯的AI會犯這種錯誤嗎？

愛因斯坦1915年完成他的廣義相對論後，發現他的方程式所預測的宇宙只能膨脹或收縮，與當時大部分科學家所認為的靜態宇宙觀相衝突！沒想到推翻了深植物理學家心中達兩百多年之牛頓時空觀念的革命壯士，竟然在這裡屈服了：為了符合當時的想法，愛因斯坦於1917年強行地於其廣義相對論導出之宇宙觀中加入一「常數」來平衡萬有引力，使他的宇宙能保持靜態！沒想到1929年後，新數據顯示宇宙不是靜態，而是在膨脹中；愛因斯坦因而後悔當初為何不相信自己的推論，稱那強行加入人為常數━「宇宙論常數」（cosmological constant）━為他一生中所犯之「最大錯誤」。AI會犯這種錯誤嗎？

-----廣告，請繼續往下閱讀-----

只有萬有引力的宇宙膨脹速率在一段時間後應該慢慢減小；但90年代末期，新的發現顯示現在宇宙膨脹速率不是隨時間減小、而是在加大！沒想到那錯誤的「宇宙論常數」現在竟然成為提供瞭解釋膨脹速率加快所需之排斥力來源─雖然我們還不知道那是啥！當然，我們也不知道愛因斯坦在天之靈是否還認為「宇宙論常數」是他一生中所犯的最大錯誤？而AI如果當初未犯那「最大錯誤」，現在是否反而會後悔呢？

老天的幫忙

硝化甘油為液體，非常不穩定，一不小心就爆炸；因此諾貝爾 (Alfred Nobel)一直在尋找取代物，但久而不得。傳說有一天儲存的硝化甘油意外泄漏，與用來包裝儲存鐵桶之板狀矽藻土混合但未爆炸，使他想到了試用此板狀矽藻土。經實驗後，他發現兩者相混之固體不但安全可靠，而且還可保持原有之爆炸威力─這不正是他夢寐以求、研究甚久而未能找到的「穩定炸藥」嗎？他因此發了大財，設定了今日大家所知道的諾貝爾獎。

在「發現能治療糖尿病的胰島素—胰島素與生技產業的誕生（上）」一文裡，我提到了「….將狗的胰臟割除，發現這隻可憐狗整天口渴及隨地小便。數日後，一位助手覺得實驗室內的蒼蠅好像突然多了起來，尤其是在狗小便過的地板。分析狗尿及其血液後，梅倫（Joseph von Mering）及明考斯基（Oskar Minkowski）很驚奇地發現裡面充滿了糖份。」顯然地，胰腺具有調解體內糖代謝的功能，它一旦受損將導致糖尿病。就這樣，法國兩位外科手術醫生無意中發現了「困擾」人類三千多年之糖尿病的病源━胰臟分泌物「胰島素」失調！這不是透過邏輯分析得到的結果，AI能做到嗎？

前面所提到之蘇格蘭醫生兼微生物學家弗萊明是一位粗心的實驗室技術員。1928 年夏在研究葡萄球菌的某一天，他忘了將含有葡萄球菌培養物的培養皿放在培養箱中，留在實驗室工作台上就匆匆忙忙地離開實驗室去度假。命運就是這樣作弄人：那時室內的溫度及濕度均適合霉菌（mold，或譯「黴菌」）的生長；因此兩個禮拜回來後，弗萊明發現在敞開窗戶旁的培養皿因未加蓋而發霉。經細心觀察及研究後，弗萊明發現抑制或預防細菌生長的不是黴菌本身，而是黴菌產生的「黴汁」。就這樣，弗萊明發現了世上第一個抗生素「盤尼西林」（Penicillin，又稱為「青黴素」）！被《時代》雜誌評選為20世紀的100位最重要人物！

-----廣告，請繼續往下閱讀-----

1943年的某一天，在伊利諾州皮奧里亞 (Peoria) 的農業部北部區域研究實驗室 (NRRL) 工作的亨特 (Mary Hunt) ，無意中在一雜貨店裡發現了一顆表皮長滿漂亮及金色青黴的哈密瓜。將它帶回實驗室，篩選出能大量分泌青黴素的菌株後，她發現該菌株產生的青黴素數量是notatum的200倍━她因之贏得「發霉瑪麗 (Moldy Mary)」的綽號。在許多研究團隊紛紛加入菌種及製造方法的改良後，青黴素產量由1943年只能醫治不到1000人，一下子跳到1944年時，已有足夠的青黴素來治療每位需要的士兵，為第二次世界大戰提供了功不可沒的貢獻！也啓動了尋找其它抗生素的研究，開創了醫學的新紀元。

結論

上面我們提到科學家意外地發現了穩定的炸藥、控制血糖的胰島素、及治療特定細菌感染的抗生素。這些化合物都已經存在自然界中，但絕對不是邏輯分析可以發現其功能的，因此如果不是「老天的幫忙」，我實在很難理解AI怎麼會想到？事實上靠「老天幫忙」所發現的化學物是非常之多的。不需要靠老天幫忙的理論物理呢？

在討論牛頓「思眾人所未思」地發現萬有引力、開創了古典物理後，我們其它的討論都是針對全面改變我們日常生活之近代物理━量子力學及相對論━的發現史。希望讀完本文後，讀者能體會到科學進步不但鮮少一帆風順，相反地是一條充滿了意想不到之彎路和迷茫時刻的曲折蜿蜒旅程：這正是我在訪談中所提到的要多看「課外書」，鑑古知今瞭解理論背後歷史有助於瞭解理論本身。也希望讀完本文後，讀者能感受到科學上的突破幾乎全不是源自邏輯分析，而是出自無法捕捉的「靈感」、「直覺」、「錯誤假設」，「老天幫忙」、以及挑戰既有認知的「勇氣」。AI具有這些人性「缺點」嗎？

最後讓我們在此以公認為最偉大之兩位物理學家的話來結束。牛頓說：「沒有大膽的猜測，就沒有偉大的發現」；愛因斯坦謂：「我從未通過理性思考的過程取得任何發現」。

-----廣告，請繼續往下閱讀-----

致謝

謹在此感謝《泛科學》鄭國威、曹盛威、謝富丞、廖儀瑄、王喆宣等同仁的招待及讓我有機會當了一次近代科技 Podcast 的明星。Podcast 的出現造就了許多不需要經過好萊塢的影視明星以及網紅，是我首次接觸到之近代日常生活典範的另一個重大轉變，真是活到老學到老。

延伸閱讀

《我愛科學》，華騰文化有限公司，2017年12月出版（內含我2018年前出版之所有科普文章）。
愛因斯坦的光速魔術《泛科學》，2024/10/05。
愛因斯坦的最大錯誤？ — 宇宙論常數《泛科學》，2011/12/11（原載於《科學月刊》，2011年12月；此一轉載讓我與《泛科學》結了不了之緣）。
忘了收培養皿就去度假，回來後發現世上第一個抗生素！《泛科學》，2020/12/23。
愛因斯坦是第一個發現狹義相對論的物理學家嗎？《泛科學》，2022/10/21。
思考別人沒有想到的東西──誰發現量子力學？《泛科學》，2022/06/01。
發現能治療糖尿病的胰島素－胰島素與生物科技產業的誕生（上）《泛科學》，2017/02/15。
黑體輻射光譜與量子革命《科學月刊》，2022年7月號。
愛因斯坦一生中最幸運的靈感-廣義相對論的助產士《科學月刊》，2021年6月號。
歐氏幾何學的啟示《泛科學》，20253/12/9。
日常生活範式的轉變：從紙筆到 AI《泛科學》，2023/3/8。

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

賴昭正

50 篇文章・ 61 位粉絲

成功大學化學工程系學士，芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學，因此畢業後不久即回清大化學系任教。自認平易近人，但教學嚴謹，因此獲有「賴大刀」之惡名！於1982年時當選爲清大化學系新一代的年青首任系主任兼所長；但壯志難酬，兩年後即辭職到美留浪，IBM顧問研究化學家退休。晚期曾回台蓋工廠及創業，均應「水土不服」而鎩羽而歸。正式退休後，除了開始又爲科學月刊寫文章外，全職帶小孫女（半歲起）；現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲它轉載我的科學月刊上的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」。

TRENDING 熱門討論

即時熱門

讓人工智慧為 VTuber 團隊撐腰！——AI幫你一鍵生成虛擬音樂家！

自動化音樂展演的可能性

真實與虛擬合奏的貝多芬小提琴奏鳴曲

不放槍、不搶拍的自動伴奏系統

訓練 AI 自動生成虛擬音樂家動畫形象

進階挑戰：由聽覺到視覺的跨感官轉換

如何成為音樂資訊研究者？

延伸閱讀：

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

早有人挑戰續寫大師神作！風格不同被罵慘

發揮偵探精神，分工合作打團戰

作曲小白，從零開始的譜曲之路

小考囉！電腦、人腦，傻傻分不清楚？

參考資料：

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

自動化音樂展演的可能性

真實與虛擬合奏的貝多芬小提琴奏鳴曲

不放槍、不搶拍的自動伴奏系統

訓練 AI 自動生成虛擬音樂家動畫形象

進階挑戰：由聽覺到視覺的跨感官轉換

如何成為音樂資訊研究者？

延伸閱讀：

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

薪資證明的難題：零工經濟者的「隱形損失」

300 萬張罰單背後的僥倖：你的直覺，正在害死你

保險不夠賠？豪車時代的「超額算計」

談判桌的最佳姿態：「溫柔而堅定」最有效？

車禍不只是一場意外，它是認知、情緒、金錢與法律邏輯的總和 。

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

視眾人所見視，思眾人所未思

幸運的靈感/直覺

錯誤的假設

老天的幫忙

結論

致謝

延伸閱讀

發表意見 <img width="24" height="24" class="icon_arrow ml-2" src="https://pansci.asia/wp-content/themes/pansci-bootstrap-child/src/imgs/chevron-down.svg">

發表意見

發表意見

發表意見

車禍不只是一場意外，它是認知、情緒、金錢與法律邏輯的總和。

發表意見

發表意見