1

11
2

文字

分享

1
11
2

讓機器讀懂我們的心情!臺灣AI情緒辨識技術再突破

科技大觀園_96
・2021/08/16 ・3428字 ・閱讀時間約 7 分鐘

李祈均團隊開發的AI情緒辨識技術,可能在未來應用於「AI面試官」判讀面試者的情緒與個性。(圖/fatcat11繪)
李祈均團隊開發的AI情緒辨識技術,可能在未來應用於「AI面試官」判讀面試者的情緒與個性。(圖/fatcat11繪)

「只要知道多一項資訊,就有更多想像的可能性!」清大電機工程系副教授李祈均的團隊,今年發表了「個人特質整合語音互動之深度情緒辨識技術」,可以在情緒辨識時嵌入個人化的元素,是目前獲得最佳準確率的做法。這項技術除了在「情感運算」(affective computing)的頂尖國際學術研討會 ACII 2019 與全球最大的語音技術會議 INTERSPEECH 2019 發表,也在未來科技展獲得「未來科技突破獎」並入選為亮點技術。

AI 與情緒的結合,在一般人的腦海中串聯出科幻小說般的未來情節,經常給人陌生、不可測的印象,不過這在科學界其實已經有很長期的研究。情緒辨識的應用也受到各界高度關注,對此李祈均表示,情緒辨識目前可以應用在客服、廣告、人資、精神醫療等領域,「我覺得很多應用的價值是要創造的。譬如你是做醫療的,能夠多得到一點資訊,你就能進一步思考可不可以多做什麼事情:可以怎麼照顧?再做什麼治療?更早知道什麼事情來預防?每個人想的不一樣,價值就會不太一樣。」 

打開情緒辨識的黑盒子

回到情緒辨識的起點,「情感運算」這個詞從 1995 年就由 MIT 的教授羅莎琳.皮卡德(Rosalind Picard)提出。當情緒產生變化時,人類也會有生理上的反應,等到訊號量測、處理的技術發展得更成熟,人們自然就將這些技術連結起來思考:是不是可以透過偵測生理訊號的變化,來辨識情緒?

情緒辨識的處理架構,包括資料收集、資料標記、資料輸入、機器學習、辨識輸出等階段。「以前很多技術是功能性的,會產生明確的結果,例如打電話聲音轉文字,這是自動語音辨識的技術;文字裡面說了什麼,這是自然語言處理(Natural Language Processing,NLP)的技術。我們轉個彎去想,情緒跟這些東西有關,做完自動語音辨識、NLP 分析,是不是可以多分析一點內在的狀態?技術整合就會出現。」李祈均所投入的多模態情緒辨識,也就是透過整合語音(如說話的音高、語調)、文字、臉部表情等資訊,透過深度神經網絡分析,進行情緒的判讀。

-----廣告,請繼續往下閱讀-----

只不過,因為情緒這種東西抽象又主觀,標記上會更為複雜。李祈均說明,目前典型的標記方式有兩種,一種是使用「類別」,即直接標示喜、怒、哀、樂等情緒種類;有些研究者進一步採用「象限」的方式,同時衡量「激動程度」(arousal)與「正負向程度」(valence),做更為細膩的表達。像是「生悶氣」就是激動程度較低、負向程度高,可和「生氣」有所區隔。 正確的判讀情緒,在應用上有助於提供更準確的服務;而整個情緒辨識系統,可以把過去仰賴經驗累積的專業,更為系統化並留存下來。「客戶很生氣地打電話給客服,跟單純想要詢問功能性的問題,我們提供的服務會完全不一樣。現在我們很仰賴第一線跟人接觸的人,客服靠經驗感覺你是什麼情緒,跟著改變決策;有經驗的人資,就是可以在技能之外,同時看出應徵者的個性,像是合不合作、在壓力下會有什麼反應。很多經驗的累積可以用 AI 系統化,有經驗的人離開之後,這些經驗也不會跟著不見。」 

把個性「算」出來!

人類情緒複雜,性別、年齡、個性、生活背景、乃至不同的互動情境都會影響,但過去情緒辨識無法具體評估個體差異在其中所造成的影響,讓辨識結果不夠精確。

榮獲2019年未來科技突獎的李祈均副教授,發展出目前獲得最佳準確率的情緒辨識技術。(圖/林妤庭攝)
榮獲 2019 年未來科技突獎的李祈均副教授,發展出目前獲得最佳準確率的情緒辨識技術。(圖/林妤庭攝) 

李祈均新的做法,是以「遷移學習」(transfer learning)的角度,在原本的資料外,再導入一個由其他現有許多資料庫集結而成的「背景資料庫」。所謂的「遷移學習」,是當資料不足以訓練模型,將已有資料所得的參數遷移至新資料的方法。用在個人化的情緒辨識上,假設要分析的樣本為 A,演算法會比對背景資料庫中具有類似用字、語調等特徵的樣本 B,賦予一個 A 與 B 之間有多相似的權重,做為「個人特質」的參照點,再據此去修正情緒辨識的結果。 李祈均進一步解釋,「我們將這一組值稱作 A 在背景資料庫裡面『個人特質的空間位置』,相當於利用演算法在這個背景資料庫為 A 找一個位置,去代表 A 的個人特質。」傳統要進行個性的標記,需要讓每個人填寫相關量表,對於實務應用而言,這樣的做法難以規模化,也缺乏效率。「所以我不用量表找,我用行為找,」李祈均說。當我們難以取得個性的標記,卻又希望了解個體差異會為情緒辨識造成何種影響,就必須想辦法進行轉換。這個背景資料庫中累積的語音文字等人類行為產生的資料,就是探索個人特質的一道窗口。 

嵌入個人特質的情緒辨識技術示意圖解。(圖/沈佩泠繪,資料來源:李祈均)
嵌入個人特質的情緒辨識技術示意圖解。(圖/沈佩泠繪,資料來源:李祈均)

 而從機器學習的分析結果來看,加入了個人化過程後,的確發現模型會對一些情緒線索的權重進行修正。舉例而言,同樣是使用正向詞彙,但是權重被下降,表示有可能是個人特質造成的影響。如果是個性活潑、習慣使用正向詞彙的人,不一定代表他特別開心,模型透過背景資料庫推導出個性特徵後,後續進行情緒辨識便會適度下修正向詞彙的影響力。如此一來,便能提升情緒辨識的準確度。

-----廣告,請繼續往下閱讀-----

「以前想要知道個體差異會如何影響情緒表達,會需要將資料依照性別、年齡、種族等特徵分組,但資料分割地越細,訓練一組模型的資料就會越少,結果就變不準,這是一個很大的問題。」李祈均的個人化技術反向思考,以遷移學習繞過個性標記的瓶頸,利用機器學習一窺個體差異的端倪,為情緒辨識在缺乏個性標記的實際應用,開啟了新的可能。

懂得跨界整合,資料便無處不在

要進行情緒辨識的技術開發,需要的不只是工程方面的專業知識,其實還需要不斷摒除成見,並發揮敏銳的觀察力找到創意的突破點。以李祈均團隊 2017 年釋出的中文情緒互動多模態語料庫(NTHU-NTUA Chinese Interactive Multimodal Emotion Corpus,NNIME)為例,最特別的地方便在於和國立臺灣藝術大學合作,收集情緒資料。

「戲劇表演可以呈現很強的情緒張力,」李祈均表示,為了在鏡頭前捕捉最自然的情緒反應,同時擴大資料收集的效率,設計互動情境請專業演員演出,並進行錄影,是目前學界常見收集資料的方法。不過中間涉及許多專業的表演知識,導演如何訓練演員?要如何設計情境才能獲得最接近現實的情緒反應?「每多解一個小問題,就會有人提出更多的問題,也讓我多懂一點人,這個過程很有趣!」李祈均說。 

情緒辨識研究,還可以如何突破?「有經驗之後,有些工具會讓標記速度變快,收集資料反而最難。」李祈均驚訝地發現,其實有很多既有資料可以多加利用。例如企業管理研究的學者探討組織溝通的行為,過程中本來就會錄下大量 3 到 4 個人的即時互動過程,「國際上公開資料庫釋出 3 到 4 人的互動資料,大約是 28 組,不過接觸臺大企管系後發現,他們手上的資料,近兩年累積下來,已經有 90 幾組!」 

-----廣告,請繼續往下閱讀-----

這樣的速度與規模讓他非常驚豔,原本收集資料是情緒辨識研究最困難的一道關卡,李祈均認為,透過跨領域的整合,把其他學科對於人類行為的研究資料挖掘出來進行工程分析,有機會快步提升臺灣情緒辨識技術開發的腳步。

情緒辨識技術的開發若要突破,最終還是要仰賴對於「人」的理解,並將技術落實到日常生活,解決「人」的問題。無論是學界或企業,臺灣各個領域都有非常優秀的專家,研究過程潛藏著無數人類互動的資料,只要工程端加以規模化,就能創造出不同價值。李祈均期待未來能有更多跨領域人才願意投入這個領域,在跨域整合下碰撞出更多新的創意火花。  

-----廣告,請繼續往下閱讀-----
文章難易度
所有討論 1
科技大觀園_96
82 篇文章 ・ 1126 位粉絲
為妥善保存多年來此類科普活動產出的成果,並使一般大眾能透過網際網路分享科普資源,科技部於2007年完成「科技大觀園」科普網站的建置,並於2008年1月正式上線營運。 「科技大觀園」網站為一數位整合平台,累積了大量的科普影音、科技新知、科普文章、科普演講及各類科普活動訊息,期使科學能扎根於每個人的生活與文化中。

0

1
0

文字

分享

0
1
0
人與 AI 的關係是什麼?走進「2024 未來媒體藝術節」,透過藝術創作尋找解答
鳥苷三磷酸 (PanSci Promo)_96
・2024/10/24 ・3176字 ・閱讀時間約 6 分鐘

本文與財團法人臺灣生活美學基金會合作。 

AI 有可能造成人們失業嗎?還是 AI 會成為個人專屬的超級助理?

隨著人工智慧技術的快速發展,AI 與人類之間的關係,成為社會大眾目前最熱烈討論的話題之一,究竟,AI 會成為人類的取代者或是協作者?決定關鍵就在於人們對 AI 的了解和運用能力,唯有人們清楚了解如何使用 AI,才能化 AI 為助力,提高自身的工作效率與生活品質。

有鑑於此,目前正於臺灣當代文化實驗場 C-LAB 展出的「2024 未來媒體藝術節」,特別將展覽主題定調為奇異點(Singularity),透過多重視角探討人工智慧與人類的共生關係。

-----廣告,請繼續往下閱讀-----

C-LAB 策展人吳達坤進一步說明,本次展覽規劃了 4 大章節,共集結來自 9 個國家 23 組藝術家團隊的 26 件作品,帶領觀眾從了解 AI 發展歷史開始,到欣賞各種結合科技的藝術創作,再到與藝術一同探索 AI 未來發展,希望觀眾能從中感受科技如何重塑藝術的創造範式,進而更清楚未來該如何與科技共生與共創。

從歷史看未來:AI 技術發展的 3 個高峰

其中,展覽第一章「流動的錨點」邀請了自牧文化 2 名研究者李佳霖和蔡侑霖,從軟體與演算法發展、硬體發展與世界史、文化與藝術三條軸線,平行梳理 AI 技術發展過程。

圖一、1956 年達特茅斯會議提出「人工智慧」一詞

藉由李佳霖和蔡侑霖長達近半年的調查研究,觀眾對 AI 發展有了清楚的輪廓。自 1956 年達特茅斯會議提出「人工智慧(Artificial Intelligence))」一詞,並明確定出 AI 的任務,例如:自然語言處理、神經網路、計算學理論、隨機性與創造性等,就開啟了全球 AI 研究浪潮,至今將近 70 年的過程間,共迎來三波發展高峰。

第一波技術爆發期確立了自然語言與機器語言的轉換機制,科學家將任務文字化、建立推理規則,再換成機器語言讓機器執行,然而受到演算法及硬體資源限制,使得 AI 只能解決小問題,也因此進入了第一次發展寒冬。

-----廣告,請繼續往下閱讀-----
圖二、1957-1970 年迎來 AI 第一次爆發

之後隨著專家系統的興起,讓 AI 突破技術瓶頸,進入第二次發展高峰期。專家系統是由邏輯推理系統、資料庫、操作介面三者共載而成,由於部份應用領域的邏輯推理方式是相似的,因此只要搭載不同資料庫,就能解決各種問題,克服過去規則設定無窮盡的挑戰。此外,機器學習、類神經網路等技術也在同一時期誕生,雖然是 AI 技術上的一大創新突破,但最終同樣受到硬體限制、技術成熟度等因素影響,導致 AI 再次進入發展寒冬。

走出第二次寒冬的關鍵在於,IBM 超級電腦深藍(Deep Blue)戰勝了西洋棋世界冠軍 Garry Kasparov,加上美國學者 Geoffrey Hinton 推出了新的類神經網路算法,並使用 GPU 進行模型訓練,不只奠定了 NVIDIA 在 AI 中的地位, 自此之後的 AI 研究也大多聚焦在類神經網路上,不斷的追求創新和突破。

圖三、1980 年專家系統的興起,進入第二次高峰

從現在看未來:AI 不僅是工具,也是創作者

隨著時間軸繼續向前推進,如今的 AI 技術不僅深植於類神經網路應用中,更在藝術、創意和日常生活中發揮重要作用,而「2024 未來媒體藝術節」第二章「創造力的轉變」及第三章「創作者的洞見」,便邀請各國藝術家展出運用 AI 與科技的作品。

圖四、2010 年發展至今,高性能電腦與大數據助力讓 AI 技術應用更強

例如,超現代映畫展出的作品《無限共作 3.0》,乃是由來自創意科技、建築師、動畫與互動媒體等不同領域的藝術家,運用 AI 和新科技共同創作的作品。「人們來到此展區,就像走進一間新科技的實驗室,」吳達坤形容,觀眾在此不僅是被動的觀察者,更是主動的參與者,可以親身感受創作方式的轉移,以及 AI 如何幫助藝術家創作。

-----廣告,請繼續往下閱讀-----
圖五、「2024 未來媒體藝術節——奇異點」展出現場,圖為超現代映畫的作品《無限共作3.0》。圖/C-LAB 提供

而第四章「未完的篇章」則邀請觀眾一起思考未來與 AI 共生的方式。臺灣新媒體創作團隊貳進 2ENTER 展出的作品《虛擬尋根-臺灣》,將 AI 人物化,採用與 AI 對話記錄的方法,探討網路發展的歷史和哲學,並專注於臺灣和全球兩個場景。又如國際非營利創作組織戰略技術展出的作品《無時無刻,無所不在》,則是一套協助青少年數位排毒、數位識毒的方法論,使其更清楚在面對網路資訊時,該如何識別何者為真何者為假,更自信地穿梭在數位世界裡。

透過歷史解析引起共鳴

在「2024 未來媒體藝術節」規劃的 4 大章節裡,第一章回顧 AI 發展史的內容設計,可說是臺灣近年來科技或 AI 相關展覽的一大創舉。

過去,這些展覽多半以藝術家的創作為展出重點,很少看到結合 AI 發展歷程、大眾文明演變及流行文化三大領域的展出內容,但李佳霖和蔡侑霖從大量資料中篩選出重點內容並儘可能完整呈現,讓「2024 未來媒體藝術節」觀眾可以清楚 AI 技術於不同階段的演進變化,及各發展階段背後的全球政治經濟與文化狀態,才能在接下來欣賞展區其他藝術創作時有更多共鳴。

圖六、「2024 未來媒體藝術節——奇異點」分成四個章節探究 AI 人工智慧時代的演變與社會議題,圖為第一章「流動的錨點」由自牧文化整理 AI 發展歷程的年表。圖/C-LAB 提供

「畢竟展區空間有限,而科技發展史的資訊量又很龐大,在評估哪些事件適合放入展區時,我們常常在心中上演拉鋸戰,」李佳霖笑著分享進行史料研究時的心路歷程。除了從技術的重要性及代表性去評估應該呈現哪些事件,還要兼顧詞條不能太長、資料量不能太多、確保內容正確性及讓觀眾有感等原則,「不過,歷史事件與展覽主題的關聯性,還是最主要的決定因素,」蔡侑霖補充指出。

-----廣告,請繼續往下閱讀-----

舉例來說,Google 旗下人工智慧實驗室(DeepMind)開發出的 AI 軟體「AlphaFold」,可以準確預測蛋白質的 3D 立體結構,解決科學家長達 50 年都無法突破的難題,雖然是製藥或疾病學領域相當大的技術突破,但因為與本次展覽主題的關聯性較低,故最終沒有列入此次展出內容中。

除了內容篩選外,在呈現方式上,2位研究者也儘量使用淺顯易懂的方式來呈現某些較為深奧難懂的技術內容,蔡侑霖舉例說明,像某些比較艱深的 AI 概念,便改以視覺化的方式來呈現,為此上網搜尋很多與 AI 相關的影片或圖解內容,從中找尋靈感,最後製作成簡單易懂的動畫,希望幫助觀眾輕鬆快速的理解新科技。

吳達坤最後指出,「2024 未來媒體藝術節」除了展出藝術創作,也跟上國際展會發展趨勢,於展覽期間規劃共 10 幾場不同形式的活動,包括藝術家座談、講座、工作坊及專家導覽,例如:由策展人與專家進行現場導覽、邀請臺灣 AI 實驗室創辦人杜奕瑾以「人工智慧與未來藝術」為題舉辦講座,希望透過帶狀活動創造更多話題,也讓展覽效益不斷發酵,讓更多觀眾都能前來體驗由 AI 驅動的未來創新世界,展望 AI 在藝術與生活中的無限潛力。

展覽資訊:「未來媒體藝術節——奇異點」2024 Future Media FEST-Singularity 
展期 ▎2024.10.04 ( Fri. ) – 12.15 ( Sun. ) 週二至週日12:00-19:00,週一休館
地點 ▎臺灣當代文化實驗場圖書館展演空間、北草坪、聯合餐廳展演空間、通信分隊展演空間
指導單位 ▎文化部
主辦單位 ▎臺灣當代文化實驗場

-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

鳥苷三磷酸 (PanSci Promo)_96
210 篇文章 ・ 312 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

3
1

文字

分享

0
3
1
當情緒像過山車?從亢奮到低落,解碼躁鬱症的真實面貌
PanSci_96
・2024/10/12 ・2253字 ・閱讀時間約 4 分鐘

躁鬱症(Bipolar Disorder),正式名稱為「雙向情緒疾患」或「雙極性情感障礙」,是一種讓患者的情緒不受控制地在極度亢奮和極度低落之間擺盪的精神疾病。這樣的情緒變化不僅僅是短暫的起伏,而是持續多天、甚至數週的狀態,對於患者的生活、關係和工作會造成重大影響。

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

什麼是躁鬱症?

躁鬱症患者的情緒通常經歷兩個極端階段:躁期和鬱期。

在躁期,患者可能會感到無比的精力充沛、自信心爆棚,甚至會有過度樂觀和衝動的行為。然而,躁鬱症不僅僅是「情緒高漲」的表現,在躁期過後,患者往往會經歷嚴重的情緒低谷,進入所謂的鬱期。此時,他們會感到情緒低落、無力感、甚至有自我傷害的傾向。

近幾年大眾逐漸正視精神疾病的影響,許多名人也曾經公開分享他們的躁鬱症經歷,如歌手瑪麗亞.凱莉、演員小勞勃道尼。這些公眾人物的經歷讓我們看到了這種精神疾病的廣泛影響,以及如何對他們的創作、生活和心理造成衝擊。

-----廣告,請繼續往下閱讀-----

躁鬱症的分類與盛行率

根據跨國研究,不論種族、性別或地區,躁鬱症的盛行率約為 1%,這意味著每 100 人中就有一人可能經歷過躁鬱症的發作。如果將所有的亞型計算在內,終生盛行率甚至可能高達 2.4%。躁鬱症的發病年齡通常集中在 20 至 30 歲之間,超過 70% 的患者在 25 歲前就會出現早期症狀。

躁鬱症依照症狀的不同,還可以分為不同的亞型。最常見的分類是第一型和第二型。第一型躁鬱症的特徵是患者會經歷完整的躁期,通常會影響患者的日常功能,甚至需要住院治療。而第二型躁鬱症的躁期則相對較輕,稱為「輕躁期」,但鬱期仍然會對患者的生活造成嚴重影響。

躁鬱症根據症狀可分為不同亞型,最常見的是第一型和第二型。圖/envato

什麼是「躁期」和「鬱期」?

「躁期」和「鬱期」是躁鬱症的兩個主要特徵階段。

躁期: 許多人對「躁」字的理解常常會聯想到「暴躁」或「焦躁」,實際上躁鬱症的躁期,更多的是情緒高昂、亢奮的狀態。在輕躁期(Hypomania),患者會持續數天感到極度精力充沛,無論在工作還是生活中,表現得比平時更有自信和創造力。但問題是,這種情緒亢奮狀態不一定持續太久,躁期可能會逐漸惡化為狂躁期(Mania)。這時,患者的行為可能會變得極端,容易做出無法預測的決定,例如過度消費、縱情娛樂或進行不安全的行為。

-----廣告,請繼續往下閱讀-----

鬱期: 在鬱期,患者的情緒和行為完全反轉。他們會感到無精打采、情緒低落,對任何事物都提不起勁。這時候,患者的日常活動變得困難,注意力和記憶力也會大幅下降,甚至有自我傷害或自殺的傾向。

從外界看來,躁期似乎是一個非常「高能」的狀態,但實際上,躁鬱症的危險之處正在於它的不穩定性。躁鬱症患者在躁期中無法控制自己的情緒與行為,即使感覺自己處於高峰狀態,這樣的「興奮」很可能會導致衝動行為,如不理智的財務決策或人際衝突。

如何應對躁鬱症?

躁鬱症不僅僅是情緒的擺盪,同時也會對患者的生活產生影響:

  1. 無法控制的躁期時間:躁期的長度和強度不是患者能控制的,患者可能從精力充沛的狀態,轉變為難以收拾的混亂局面。
  2. 鬱期的危險性:在躁期過後,進入鬱期的患者常常因為自責或對前期行為的後悔,而陷入更深的低谷,這增加了自我傷害的風險。
  3. 生活質量下降:反覆發作的情緒擺盪讓患者難以享受生活,甚至對快樂的感受也會變得懷疑和恐懼。
  4. 人際關係受損:情緒極端的變化會讓患者難以建立穩定的人際關係,這對於長期支持系統的建立是巨大的挑戰。
  5. 大腦損傷:每次發作對大腦的損害都是不可逆的,長期下來,注意力、記憶力、甚至思考能力都會受到影響。

治療與日常應對方法

對於躁鬱症的治療,藥物和心理治療是兩個不可或缺的部分。穩定情緒的藥物,如鋰鹽,是控制躁鬱症的重要工具。鋰鹽自 20 世紀開始就被廣泛用於躁鬱症的治療,能有效減少躁鬱症的復發風險。如果患者正處於躁期,醫生還可能會使用抗精神病藥物來幫助控制症狀。

-----廣告,請繼續往下閱讀-----

除了藥物治療,心理治療同樣重要,特別是在症狀穩定後,透過心理治療,患者可以學習如何識別躁鬱症復發的早期徵兆,以及如何調適壓力和情緒。

心理治療可以幫助患者學習識別躁鬱症復發的早期徵兆,並有效調適壓力和情緒。圖/envato

如何支持身邊的躁鬱症患者?

身為躁鬱症患者的家人或朋友,了解如何在不同的情緒階段支持患者是關鍵。在躁期時,避免硬碰硬,而是試著將患者的注意力引導到安全的活動上;在鬱期時,提供非批評的陪伴,讓患者感受到被理解與支持。

躁鬱症是一種需要長期管理的疾病,但這並不意味著生活的希望就此消失。許多躁鬱症患者在接受治療後,依然能過著豐富充實的生活,並在自己的專業領域中發揮才華,擁有幸福的人生。

-----廣告,請繼續往下閱讀-----

討論功能關閉中。

PanSci_96
1252 篇文章 ・ 2380 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

0
0

文字

分享

0
0
0
如何讓 Suno 製作出你想要的音樂?四大規則讓你用精準的 prompt 做出心中所想的音樂!
泛科學院_96
・2024/07/04 ・2849字 ・閱讀時間約 5 分鐘

最近用了跟 Suno 類似的音樂生成服務 Udio 才讓我理解歌曲生成的 prompt 要怎麼寫,然後配合 sonoteller 這個神器,讓你聽到什麼就能生出什麼!

所以我們這集就來講講:

  1. AI 音樂生成 prompt 的規則
  2. 抄音樂 prompt 的好幫手 sonoteller
  3. suno 跟 udio 的差異

提醒一下,這集沒有詳細的 Suno 操作,重點會放在怎麼寫 prompt 上。

這邊整理一下你看這集必須要知道的事,可以暫停看一下:

-----廣告,請繼續往下閱讀-----


那如果想看詳細的 Suno 操作,可以到這支影片:

好啦,讓我們開始吧。

輸入 Suno 的 prompt 只要關鍵字就好?

一開始用 Suno 時,我一直很困惑,到底要怎麼打 prompt 才能有效控制生成的音樂?

自從最近用了 Udio,它有 prompt 隨機生成,研究了一下 Udio 的 prompt,規則大概是「一句有情緒的故事梗概,加上多個曲風或歌曲細節詞彙」。

-----廣告,請繼續往下閱讀-----

然後我把 Udio 的 prompt 拿到 Suno 上跑,也能跑出不錯的東西。

所以,前面應該是指定整首歌的情境?

例如情境換成悲慘命運,聽起來就會變悲傷。

然後我在後面加上輕快 (Brisk)⋯⋯欸?悲傷去哪了?前面那串根本消失啦!

-----廣告,請繼續往下閱讀-----

那如果把前面那句話,拆解成情緒與事件關鍵字輸入也行嗎?

畢竟字數有限,這樣就能下更多 prompt 了!

嗯,事實是沒差,只要關鍵字就好。

所以結論是,音樂生成的 prompt 跟 Stable Diffusion 差不多,一個一個單詞輸入就好。

-----廣告,請繼續往下閱讀-----

四大規則!

在多次測試之後,我認為有效的 prompt 可以分為這四類:

1. 曲風類:funk、rock、pop、classical 之類的特定曲風。

這些詞最重要,會最大幅度限制歌曲的走向,通常會放多個有關聯的曲風,例如 city pop 跟 funk 還有 Disco 有關,我前面的 prompt 就選了 city pop 跟 funk,不用 Disco 單純是出來之後更有電音舞曲感,我不喜歡。

2. 歌曲控制類:B 小調、brisk、BPM 之類的名詞。

-----廣告,請繼續往下閱讀-----

這類名詞只能做到修飾,例如前面的 prompt 加個 BPM 200,也不可能演奏出 BPM 200 的 city pop,只是稍微加快,但如果我把曲風換成 rock, metal,就能接近我要求的 BPM 200。

3. 情緒、狀態類:miserable, adventure 這些日常生活中會出現的詞彙,能提供整首歌曲的旋律、節奏,但效果極弱。

例如前面放了輕快 brisk,悲傷感就消失了。

4. 樂器類:歌曲中有出現什麼樂器。

-----廣告,請繼續往下閱讀-----

你在選曲風的時候,就已經有樂器配置了。像上面的 city pop,就已經預設會有效果器 (Synthesizer),因此就算輸入民謠吉他 (Acoustic Guitar),也聽不到民謠吉他的原聲,滿滿的效果器。

我把上面的重點總結在這裡,有需要的可以停下來看,總之,先找對曲風,才能生出你想要的音樂。

怎麼知道喜歡的歌是什麼曲風?

那這時你可能會問啦,我哪知道自己想生的曲風是什麼啊?

這時就輪到 Sonoteller 登場啦!

-----廣告,請繼續往下閱讀-----

Sonoteller 是分析歌詞與曲風的 AI 工具,只要給他 Youtube 網址就會幫你分析啦。

這樣你就可以在 Youtube 上先找一首參考的歌曲,再丟到 Sonoteller 分析,瞬間就有曲風的 prompt 啦。不過近期 Sonoteller 的伺服器不堪負荷,常會遇到拒絕分析歌曲的情況。

但如果是超流行的歌,例如 Ado 的 Show,因為已經有人分析過,就會直接調之前分析的資料給你。

畫面的左半邊是歌詞分析,因我沒有生成歌詞的需求,這裡就不詳細說,


不過我自己截一些 summary 中的字當 prompt。

右半邊是曲風分析,Genres 就是我們的曲風啦,也有提供副曲風、情緒、樂器、BPM、key 之類的資訊,都可以複製回去當 prompt 用。

後面的數字是相似程度,參考就好,畢竟曲風、情緒感受是很主觀的,

好啦,讓我們聽聽用 ado show 的曲風做出來的歌長怎樣吧。

好像不太對勁,加個 J-pop 進去看看,這個感覺比較對,就先到這邊吧。

也提醒一下,我們不太可能只複製一首歌的 prompt 就得到想要的歌,多放幾首你覺得類似的歌到 sonoteller 分析是個好方法!

配合 ChatGPT 之類的工具來生成額外 prompt 也可以。不過我覺得門檻比 sonoteller 高,而且也不容易搞懂那些詞彙到底代表了什麼。

等等,Udio 和 Suno 到底哪一個好用?

再來說說前面有提到的 Udio 和 Suno 有什麼差吧!

基本邏輯是相同的,但 Udio 的操作更直覺,Udio 有提供 prompt 提示,不僅給我靈感,讓我學到很多新名詞,真的超級多,可能我在學校音樂課學的詞彙都沒有這幾個禮拜學到的多。

還有 Udio 每次生成歌曲只有 30 秒,更容易修改或擴充,它的擴充還可以選擇 intro outro 來生成音樂的開頭結尾,比起suno用起來更順手。

然後現在 udio 完全免費,一個月能生成 600 首,超適合拿來練 prompt!

蛤?你說這集為什麼沒有 Udio 生成的歌?

因為現在 udio 免費生成的音樂不能商用!

所以這支影片,就還是以 Suno 為主啦。

最後,你覺得 AI 生成的音樂聽起來如何呢?

  1. 當背景音樂不錯聽
  2. 匠氣太重,了無新意
  3. 沒感覺,要做的話
  4. 其他也可以留言分享喔

如果有其他想看的 AI 工具測試或相關問題,也可以留言告訴我們~

更多、更完整的內容,歡迎上泛科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

-----廣告,請繼續往下閱讀-----
泛科學院_96
44 篇文章 ・ 52 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!