音樂擁有不可捉摸、觸人心弦的魔力,無法用任何公式、語言來描述。
若我們能讓電腦學會欣賞她的美,她的美將更深入我們的日常生活中。
文 / 楊奕軒
音樂具有感染人心的魔力,而此魔力也正是人們喜歡聆聽及創作音樂的主因。音樂可以拉近人與人之間的距離、創造共同的回憶、增加活動或戲劇的氣氛、更能輕易地引起我們的喜怒哀愁。熱情的歌曲讓我們慷慨激昂、悲傷的歌曲說出人們的心傷、悠揚的歌曲則讓我們心情平靜。對許多人來說,生活中少了音樂,便覺得索然無味。
人們在聆聽音樂時感受到的情緒其實受到許多因素影響,除了樂曲本身之外,聽者本身的個性、性別、年齡、對於該音樂或歌手的熟悉度、喜好度、聆聽時所帶有的心情、聆聽時周遭的時地物,乃至於聽者對於該音樂所持有的回憶等等,都會產生一定程度的影響。也因此,聽者所感受到的情緒和作曲家或是歌手想傳達的情緒,並不盡然相同。
但在許多時候,我們可以說人們對於音樂中所要傳達的情緒是有共識的。或許在聽一首輕快的歌曲時,心情並不因此特別覺得愉悅,但卻能夠感覺到這首歌一般人聽起來應該是會覺得滿輕快的。人們對於音樂的情緒具有這樣的欣賞力與鑑別力,但電腦卻還沒有。
本文所要介紹的「音樂情緒辨識」(Music Emotion Recognition),即是在談如何讓電腦像人腦一般,具有辨別音樂情緒的能力。理想中,一個音樂情緒辨識系統能夠藉由分析一首歌曲的聲波,找出諸如旋律、節奏、音色、歌詞等等的特性,從而自動地辨識出這首樂曲所要傳達的情緒。就像一台配備「人臉偵測」(Face Detection)的數位相機,能夠藉由分析場景內的畫面,自動地判斷哪些區域具有人臉一樣。在資訊科學領域,這樣的研究常被稱為樣式辨認或是圖形辨認(Pattern Recognition)。
圖形辨認的發展與人們想讓電腦能夠更有智慧地理解圖像、聲音有密不可分的關係。傳統上認為,電腦與人腦相比較,電腦強於記憶和計算,不僅能夠儲存大量的資料,更具有強大的運算能力,但是,電腦卻沒辦法像人腦一樣理解這些資料的內容與意涵。電腦能夠知道一張圖片中那個區域的顏色最藍,但卻沒辦法判斷究竟是藍天或是大海;電腦能夠知道一段聲音檔中哪個片段的音量最大聲,但卻沒辦法判斷這個片段究竟是人聲、樂器聲、還是爆炸聲。然而,隨著近來圖形辨認與相關科技的發展,電腦在理解多媒體資料內涵的能力上已有許多進步,電腦與人腦之間的差距也逐漸在縮小,自動化地辨識音樂情緒即是一例。
為什麼要做音樂情緒辨識?
音樂與情緒有密不可分的關係,自古以來便有許多不同學門的學者在探究音樂與情緒的關係,包含哲學家、社會學家、音樂學家、人類學家、神經科學家、音樂治療學家等,但資訊領域真正大量投入人力研究自動化音樂情緒辨識系統,卻要遲至21 世紀初期。因此,音樂情緒辨識仍是個還非常新的概念與研究領域。
音樂情緒辨識的興起,主要是源於數位化時代的來臨,MP3 壓縮技術以及硬碟儲存能力長足的發展,儲存媒體不僅空間越來越大、價格也越壓越低,人們能輕而易舉地在個人電腦或是行動裝置上儲存成千上萬首的歌曲,可是如何在那麼龐大的音樂庫中找到想聽的歌曲,就成了個很棘手且重要的問題。
傳統上,一般使用者還是習慣將歌曲以歌手名稱、專輯名稱等分資料夾存放,就如同一片片的光碟一樣。使用者想要聽歌的時候,必須在資料夾間瀏覽,選取自己想要聆聽的專輯,或是從許多不同專輯中挑出部分歌曲。較為進階的使用者會將不同專輯的歌曲組合、儲存成播放清單,作為一種簡單的捷徑,在不同的時機挑選不同的播放清單來聽。
然而,手動地挑歌是非常耗費時間的行為,播放清單的使用也造成只有少數部分的歌曲被反覆地聆聽,大多數的歌曲其實很少會被使用者給選到,降低了音樂庫實質上的豐富性。況且,在許多時候使用者並不清楚或不願意選擇要聽哪些歌曲,而只想跟著當下的情緒或是情境,聆聽符合那種感覺的歌曲。比如說,無聊的時候想要聽點比較會讓人亢奮的音樂、專心念書或是工作的時候想要聽點優雅安靜的音樂。這樣的需求必須透過音樂情緒辨識的幫助,深入分析音樂的內容及情緒,方才能夠被滿足。
有了音樂情緒辨識系統,使用者可以以情緒為索引來找尋歌曲。比如說,使用者可以指定特定的情緒,要求系統回傳帶有這一類情緒的歌曲;使用者也可以指定一系列的情緒,例如說從平靜到亢奮再回歸平靜,從而產生一個音樂播放清單,其中歌曲情緒的變化便隨著使用者的設定。這樣的檢索方式不但便利、有趣,也更加的人性化。
除了讓使用者選擇音樂的情緒之外,結合現有的科技也可以讓電腦根據使用者的心情、狀態「主動地」推薦。例如一個智慧型的空間,比如說客廳或是汽車內,可以透過攝影機或是麥克風捕捉使用者的表情、動作、音量等的資訊,從這些資訊中判斷使用者當前的心情,再主動地推薦符合該心情的歌曲。
一個智慧型手機或是音樂播放器也可結合當時的時間、地點或是一些感測器蒐集到的資料,判斷當時使用者可能在從事怎樣的活動, 比如說起床、運動、工作或通勤等,藉此來推薦適當的歌曲。有了音樂情緒辨識,音樂將能更深入日常生活中,豐富我們的生活。
情緒標定
音樂情緒辨識本身是個跨領域的研究,同時會需要心理學、音樂學及資訊科學的知識。由於音樂情緒辨識關切的是人對於音樂的感受,因此也可以說是一個藝術與科學的交會點。
就像我們教小孩子認字一樣,我們會使用許許多多的範例,教導小孩子說這個字是1 、那個字是2 。小孩子會透過這些範例慢慢學習到,一條線直直下來的圖形是1 、兩個圓圈疊在一起的圖形是8⋯⋯。同樣地,要教電腦辨識音樂中的情緒,也需要先準備一個標定好的資料庫,在這個資料庫裡面,我們很明確的知道哪些歌是屬於快樂的情緒、哪些歌是屬於悲傷的情緒,如此一來,電腦方能利用這些資料來找出各種音樂的特徵與情緒的關係,分析出具有怎樣特性的音樂會引起怎樣的情緒。就像是有個老師在旁邊給小孩子許多範例,教導她學習,這樣的過程也被稱之為監督式學習(Supervised Learning),而不是盲人摸象,沒有提供任何訓練資料就要電腦做判斷。
音樂情緒資料庫的建立關係到心理學「實驗設計」的理論。由於情緒的感受沒有客觀的答案,因此通常還需要邀請一些受測者來替歌曲作情緒的標定。這些標定會被當成是歌曲情緒的「標準答案」。電腦會被要求能夠像人類受測者一樣準確地判斷出這些歌曲的情緒。
由於情緒受到聽者個性、性別與年齡等等的影響,因此必須讓不只一位的受測者聽我們所選定的音樂,並記錄這些受測者聆聽之後所感受到的歌曲情緒。如果一首歌曲的情緒無法取得多數人的共識,那代表所要傳達的情緒是比較模糊的,或許就不適宜納入資料庫內。使用者的選定必須均衡,例如一半是男生、一半是女生,背景皆固定為大學院校中的學生等;歌曲的選定則必須多元,我們希望資料庫裡包含的音樂盡量越豐富越好,能涵蓋各種不同類別、不同情緒的音樂,如此資料庫才能具有代表性。另外,也需要注意實驗設計不能給受測者太多的負擔,且標定情緒的過程要明確且統一,例如,究竟是要以音樂旋律所傳達的情緒為準,還是以歌詞為準,或是兩者皆考慮?這些因素皆必須仔細考慮並設計,否則可能會影響標準答案的品質,進而限制了情緒辨識的可學習性。
情緒運算
有了標準答案之後,我們還必須用到數位信號處理的技術,結合音樂學的知識和圖形辨認的技術,分析音樂信號的特徵,方能將音樂的特徵與音樂的情緒做連結。
那些音樂的特徵會跟情緒有關呢?我們不難猜到,情緒的亢奮與否和歌曲的音量大小、節奏快慢、音調高低與音色是否明亮有關;情緒是快樂或悲傷則可以從樂曲是大調或是小調、音色是否和諧順暢有關。雖然這些資訊都可以在樂譜中得到,但在實際的情況中,許多時候我們只有音樂信號,並沒有相對應的樂譜。再加上以現代的科技而言,電腦還沒辦法像受過音樂訓練的人腦一樣,精準地將歌曲的樂譜從聲波中還原出來,電腦能夠做到的,是透過數位信號處理的技術,盡量去估測出這些音樂特徵的值,例如估測一首歌一分鐘大約會有幾個拍子、或是估測一首歌音高的分布情形等。由於電腦尚無法精確地以音樂的語言來描述音樂,只能透過一些統計值及的準確率也因而受到影響。
音樂特徵的分析本身亦是一門很大的學問,世界上還有許多科學家正努力研究更好的演算法來提升分析的效能。這類型的研究被統稱為「音樂資料檢索」(Music Information Retrieval)。自從2000 年開始,每年都會舉辦一個國際性的音樂資料檢索學術研討會(International Society Conference on Music Information Retrieval, http://www.ismir.net/),讓世界各地的音樂資料檢索學家一同分享與討論研究,並有各式各樣的比賽比較各種音樂分析演算法的優劣。音樂資料檢索學家關注的題目很多,包含弦律辨識、和弦偵測、音色分類、自動轉譜、人聲與樂器聲分離、音樂指紋、音樂序列比較、音樂推薦、音樂資料庫管理等。國內許多大專院校與中研院,也都有設立專門研究音樂的實驗室。這些研究除了能增進我們對音樂的認識,也能夠幫助使用者更有效率地管理並檢索音樂。
另一個分析音樂情緒的方法是透過歌詞語意的分析。許多人認為,相較於歌詞,音樂信號對於情緒的感染力還是比較強,主要是因為人們依然可以從外國歌曲或是純音樂中辨認出適當的情緒。但是許多研究指出,引進歌詞資訊仍然有助於提升音樂情緒辨識的準確率。主要的原因是因為歌詞中有許多強烈與情緒相關的關鍵字,比如說「分手」、「謊言」、「安慰」、「幸福」等,這些關鍵字可以很容易地被辨認出來並用來估量歌曲的情緒。
歌詞分析的困難點在於現今的語音科技仍然無法準確地從聲音信號中辨識出歌詞,因此必須假設歌曲的歌詞是可以在網路上下載下來進行分析,但對於許多歌曲,尤其是比較冷門或是早期的歌曲,這樣的假設並不成立。
無論是透過音樂信號分析或是歌詞分析,甚至是兩者的結合,我們都能運用圖形辨認的技術,找出若干音樂與情緒之間的對應關係。如此一來,對於沒有經過受測者標定過的歌曲,依然可以應用這些學到的對應關係,來猜測歌曲中內涵的情緒,進而將每一首歌曲的情緒辨識出來,供使用者端的應用程式使用。
除了上述的流程之外,我們也可以在情緒辨識系統裡加入一些個人化的功能,讓情緒辨識系統可以根據使用者的喜好有不同的反應。畢竟情緒的感知是很主觀的,能做好個人化的部分可以讓音樂情緒辨識更加地實用。
結 語
有人說,音樂之所以那麼迷人,是因為她那不可捉摸、觸人心弦的魔力,這魔力沒辦法用任何公式或是語言來描述。或許,我們永遠沒辦法、也沒有必要,去破解為何音樂能夠如此輕易地引起我們的喜、怒、哀、愁,但或許我們能夠讓電腦學會去欣賞音樂的美,進而讓音樂的美更加充斥在我們的日常生活中。
楊奕軒︰任職中央研究院資訊科技創新研究中心
原發表於科學月刊第四十三卷第二期