1

11
2

文字

分享

1
11
2

讓機器讀懂我們的心情!臺灣AI情緒辨識技術再突破

科技大觀園_96
・2021/08/16 ・3428字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

李祈均團隊開發的AI情緒辨識技術,可能在未來應用於「AI面試官」判讀面試者的情緒與個性。(圖/fatcat11繪)
李祈均團隊開發的AI情緒辨識技術,可能在未來應用於「AI面試官」判讀面試者的情緒與個性。(圖/fatcat11繪)

「只要知道多一項資訊,就有更多想像的可能性!」清大電機工程系副教授李祈均的團隊,今年發表了「個人特質整合語音互動之深度情緒辨識技術」,可以在情緒辨識時嵌入個人化的元素,是目前獲得最佳準確率的做法。這項技術除了在「情感運算」(affective computing)的頂尖國際學術研討會 ACII 2019 與全球最大的語音技術會議 INTERSPEECH 2019 發表,也在未來科技展獲得「未來科技突破獎」並入選為亮點技術。

AI 與情緒的結合,在一般人的腦海中串聯出科幻小說般的未來情節,經常給人陌生、不可測的印象,不過這在科學界其實已經有很長期的研究。情緒辨識的應用也受到各界高度關注,對此李祈均表示,情緒辨識目前可以應用在客服、廣告、人資、精神醫療等領域,「我覺得很多應用的價值是要創造的。譬如你是做醫療的,能夠多得到一點資訊,你就能進一步思考可不可以多做什麼事情:可以怎麼照顧?再做什麼治療?更早知道什麼事情來預防?每個人想的不一樣,價值就會不太一樣。」 

打開情緒辨識的黑盒子

回到情緒辨識的起點,「情感運算」這個詞從 1995 年就由 MIT 的教授羅莎琳.皮卡德(Rosalind Picard)提出。當情緒產生變化時,人類也會有生理上的反應,等到訊號量測、處理的技術發展得更成熟,人們自然就將這些技術連結起來思考:是不是可以透過偵測生理訊號的變化,來辨識情緒?

情緒辨識的處理架構,包括資料收集、資料標記、資料輸入、機器學習、辨識輸出等階段。「以前很多技術是功能性的,會產生明確的結果,例如打電話聲音轉文字,這是自動語音辨識的技術;文字裡面說了什麼,這是自然語言處理(Natural Language Processing,NLP)的技術。我們轉個彎去想,情緒跟這些東西有關,做完自動語音辨識、NLP 分析,是不是可以多分析一點內在的狀態?技術整合就會出現。」李祈均所投入的多模態情緒辨識,也就是透過整合語音(如說話的音高、語調)、文字、臉部表情等資訊,透過深度神經網絡分析,進行情緒的判讀。

-----廣告,請繼續往下閱讀-----

只不過,因為情緒這種東西抽象又主觀,標記上會更為複雜。李祈均說明,目前典型的標記方式有兩種,一種是使用「類別」,即直接標示喜、怒、哀、樂等情緒種類;有些研究者進一步採用「象限」的方式,同時衡量「激動程度」(arousal)與「正負向程度」(valence),做更為細膩的表達。像是「生悶氣」就是激動程度較低、負向程度高,可和「生氣」有所區隔。 正確的判讀情緒,在應用上有助於提供更準確的服務;而整個情緒辨識系統,可以把過去仰賴經驗累積的專業,更為系統化並留存下來。「客戶很生氣地打電話給客服,跟單純想要詢問功能性的問題,我們提供的服務會完全不一樣。現在我們很仰賴第一線跟人接觸的人,客服靠經驗感覺你是什麼情緒,跟著改變決策;有經驗的人資,就是可以在技能之外,同時看出應徵者的個性,像是合不合作、在壓力下會有什麼反應。很多經驗的累積可以用 AI 系統化,有經驗的人離開之後,這些經驗也不會跟著不見。」 

把個性「算」出來!

人類情緒複雜,性別、年齡、個性、生活背景、乃至不同的互動情境都會影響,但過去情緒辨識無法具體評估個體差異在其中所造成的影響,讓辨識結果不夠精確。

榮獲2019年未來科技突獎的李祈均副教授,發展出目前獲得最佳準確率的情緒辨識技術。(圖/林妤庭攝)
榮獲 2019 年未來科技突獎的李祈均副教授,發展出目前獲得最佳準確率的情緒辨識技術。(圖/林妤庭攝) 

李祈均新的做法,是以「遷移學習」(transfer learning)的角度,在原本的資料外,再導入一個由其他現有許多資料庫集結而成的「背景資料庫」。所謂的「遷移學習」,是當資料不足以訓練模型,將已有資料所得的參數遷移至新資料的方法。用在個人化的情緒辨識上,假設要分析的樣本為 A,演算法會比對背景資料庫中具有類似用字、語調等特徵的樣本 B,賦予一個 A 與 B 之間有多相似的權重,做為「個人特質」的參照點,再據此去修正情緒辨識的結果。 李祈均進一步解釋,「我們將這一組值稱作 A 在背景資料庫裡面『個人特質的空間位置』,相當於利用演算法在這個背景資料庫為 A 找一個位置,去代表 A 的個人特質。」傳統要進行個性的標記,需要讓每個人填寫相關量表,對於實務應用而言,這樣的做法難以規模化,也缺乏效率。「所以我不用量表找,我用行為找,」李祈均說。當我們難以取得個性的標記,卻又希望了解個體差異會為情緒辨識造成何種影響,就必須想辦法進行轉換。這個背景資料庫中累積的語音文字等人類行為產生的資料,就是探索個人特質的一道窗口。 

嵌入個人特質的情緒辨識技術示意圖解。(圖/沈佩泠繪,資料來源:李祈均)
嵌入個人特質的情緒辨識技術示意圖解。(圖/沈佩泠繪,資料來源:李祈均)

 而從機器學習的分析結果來看,加入了個人化過程後,的確發現模型會對一些情緒線索的權重進行修正。舉例而言,同樣是使用正向詞彙,但是權重被下降,表示有可能是個人特質造成的影響。如果是個性活潑、習慣使用正向詞彙的人,不一定代表他特別開心,模型透過背景資料庫推導出個性特徵後,後續進行情緒辨識便會適度下修正向詞彙的影響力。如此一來,便能提升情緒辨識的準確度。

-----廣告,請繼續往下閱讀-----

「以前想要知道個體差異會如何影響情緒表達,會需要將資料依照性別、年齡、種族等特徵分組,但資料分割地越細,訓練一組模型的資料就會越少,結果就變不準,這是一個很大的問題。」李祈均的個人化技術反向思考,以遷移學習繞過個性標記的瓶頸,利用機器學習一窺個體差異的端倪,為情緒辨識在缺乏個性標記的實際應用,開啟了新的可能。

懂得跨界整合,資料便無處不在

要進行情緒辨識的技術開發,需要的不只是工程方面的專業知識,其實還需要不斷摒除成見,並發揮敏銳的觀察力找到創意的突破點。以李祈均團隊 2017 年釋出的中文情緒互動多模態語料庫(NTHU-NTUA Chinese Interactive Multimodal Emotion Corpus,NNIME)為例,最特別的地方便在於和國立臺灣藝術大學合作,收集情緒資料。

「戲劇表演可以呈現很強的情緒張力,」李祈均表示,為了在鏡頭前捕捉最自然的情緒反應,同時擴大資料收集的效率,設計互動情境請專業演員演出,並進行錄影,是目前學界常見收集資料的方法。不過中間涉及許多專業的表演知識,導演如何訓練演員?要如何設計情境才能獲得最接近現實的情緒反應?「每多解一個小問題,就會有人提出更多的問題,也讓我多懂一點人,這個過程很有趣!」李祈均說。 

情緒辨識研究,還可以如何突破?「有經驗之後,有些工具會讓標記速度變快,收集資料反而最難。」李祈均驚訝地發現,其實有很多既有資料可以多加利用。例如企業管理研究的學者探討組織溝通的行為,過程中本來就會錄下大量 3 到 4 個人的即時互動過程,「國際上公開資料庫釋出 3 到 4 人的互動資料,大約是 28 組,不過接觸臺大企管系後發現,他們手上的資料,近兩年累積下來,已經有 90 幾組!」 

-----廣告,請繼續往下閱讀-----

這樣的速度與規模讓他非常驚豔,原本收集資料是情緒辨識研究最困難的一道關卡,李祈均認為,透過跨領域的整合,把其他學科對於人類行為的研究資料挖掘出來進行工程分析,有機會快步提升臺灣情緒辨識技術開發的腳步。

情緒辨識技術的開發若要突破,最終還是要仰賴對於「人」的理解,並將技術落實到日常生活,解決「人」的問題。無論是學界或企業,臺灣各個領域都有非常優秀的專家,研究過程潛藏著無數人類互動的資料,只要工程端加以規模化,就能創造出不同價值。李祈均期待未來能有更多跨領域人才願意投入這個領域,在跨域整合下碰撞出更多新的創意火花。  

-----廣告,請繼續往下閱讀-----
文章難易度
所有討論 1
科技大觀園_96
82 篇文章 ・ 1126 位粉絲
為妥善保存多年來此類科普活動產出的成果,並使一般大眾能透過網際網路分享科普資源,科技部於2007年完成「科技大觀園」科普網站的建置,並於2008年1月正式上線營運。 「科技大觀園」網站為一數位整合平台,累積了大量的科普影音、科技新知、科普文章、科普演講及各類科普活動訊息,期使科學能扎根於每個人的生活與文化中。

0

1
0

文字

分享

0
1
0
AI 能像人類一樣思考?諾貝爾物理學獎研究助力人工智慧模擬人類大腦
PanSci_96
・2024/11/14 ・2117字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

即使再怎麼模仿,AI 終究無法以與生物相同的方式思考吧?畢竟電腦的電子元件和我們大腦中的神經細胞結構截然不同。再怎麼模仿,AI 終究無法以與生物相同的方式思考吧?

錯,可以。

2024 年諾貝爾物理學獎跌破所有專家的眼鏡,頒給了兩位研究機器學習的科學家——約翰·霍普菲爾德(John Hopfield)和傑佛瑞·辛頓(Geoffrey Hinton)。他們以「人工」的方法打造了類神經網路,最終模擬出生物的「智慧」,奠定了當代深度學習的基礎。

為什麼解決人工智慧發展瓶頸的,竟然會是物理學?物理要怎麼讓 AI 更像人類?

-----廣告,請繼續往下閱讀-----
歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

從巴甫洛夫的狗到赫布理論:理解學習的基礎

為了解答這個疑問,我們需要一些背景知識。

20 世紀初,俄羅斯心理學家巴甫洛夫發現,狗在食物還沒入口前,就會開始分泌唾液。他進行了一系列實驗,改變食物出現前的環境,比如讓狗習慣在聽到鈴聲後馬上得到食物。久而久之,狗只要聽到鈴聲,就會開始分泌唾液。

大約 50 年後,神經科學家赫布(Donald Hebb)提出了一個假說:大腦中相近的神經元,因為經常同時放電,會產生更強的連結。這種解釋稱為「赫布理論」,不僅奠定了神經心理學的發展,更成為現代深度學習的基礎。

然而,赫布理論雖然描述了鄰近神經元的關係,卻無法解釋大腦如何建構出如此複雜的聯想網路。

-----廣告,請繼續往下閱讀-----

霍普菲爾德網路:物理學家對神經網路的貢獻

然而,赫布理論雖能描述神經元之間的關係,卻缺乏數學模型。物理學家約翰·霍普菲爾德從數學家約翰·康威(John Conway)的「生命遊戲」(Game of Life)中獲得靈感,試圖建立一個可以在電腦上運行的記憶系統。

霍普菲爾德受「生命遊戲」啟發,嘗試建立電腦記憶系統。圖/envato

「生命遊戲」由數學家康威(John Conway)發明,玩家開始時有一個棋盤,每個格子代表一個細胞,細胞可以是「活」或「死」的狀態。根據特定規則,細胞會根據鄰居的狀態決定下一次的生存狀態。康威的目的是展示複雜的系統不一定需要複雜的規則。

霍普菲爾德發現,這個遊戲與赫布理論有強大的關聯性。大腦中的大量神經元,在出生時處於初始狀態,經過刺激後,神經元間的連結會產生或斷裂,形成強大的記憶系統。他希望利用這些理論,創造一個能在電腦上運行的記憶系統。

然而,他面臨一個難題:赫布理論沒有明確的數學模型來決定神經元連結的規則。而在電腦上運行,必須要有明確的數學規則。

-----廣告,請繼續往下閱讀-----

物理學的啟發:易辛模型

霍普菲爾德從物理學的研究中找到了類似的模型:易辛模型(Ising Model)。這個模型用於解釋鐵磁性物質的磁性特性。

在鐵磁性物質中,電子具有「自旋」,自旋產生磁矩。電子的自旋方向只有「向上」或「向下」,這就像生命遊戲中細胞的「生」或「死」。鄰近的電子會影響彼此的自旋方向,類似於細胞之間的互動。

易辛模型能用數學描述電子間的相互影響,並通過計算系統能量,得出自旋狀態的分佈。霍普菲爾德借用了這個概念,將神經元的互動視為電子自旋的互動。

他結合了康威生命遊戲的時間演化概念、易辛模型的能量計算,以及赫布理論的動態連結,創造了「霍普菲爾德網路」。這讓電腦能夠模擬生物大腦的學習過程。

-----廣告,請繼續往下閱讀-----

突破瓶頸:辛頓與波茲曼機

約翰·霍普菲爾德於1982年發明聯想神經網路,即「霍普菲爾網路」。圖/wikimedia

然而,霍普菲爾德網路並非完美。它容易陷入「局部最小值」的問題,無法找到系統的全局最優解。為了解決這個問題,加拿大計算機科學家傑佛瑞·辛頓(Geoffrey Hinton)提出了「波茲曼機」(Boltzmann Machine)。

辛頓將「模擬退火」的概念引入神經網路,允許系統以一定的機率跳出局部最小值,尋找全局最優解。他還引入了「隱藏層」的概念,將神經元分為「可見層」和「隱藏層」,提高了網路的學習能力。

受限波茲曼機(Restricted Boltzmann Machine)進一步簡化了模型,成為深度學習的基礎結構之一。這些創新使得 AI 能夠更有效地模擬人類的思維和學習過程。

AI 的未來:跨學科的融合

霍普菲爾德和辛頓的工作,將物理學的概念成功應用於人工智慧。他們的研究不僅解決了 AI 發展的瓶頸,還奠定了深度學習的基礎,對現代 AI 技術產生了深遠的影響。因此,2024 年諾貝爾物理學獎頒給他們,並非意外,而是對他們在跨學科領域的重大貢獻的肯定。

-----廣告,請繼續往下閱讀-----

AI 的發展,離不開物理學、生物學、數學等多學科的融合。霍普菲爾德和辛頓的工作,正是這種融合的典範。未來,隨著科學技術的進步,我們有理由相信,AI 將越來越接近人類的思維方式,甚至可能超越我們的想像。

-----廣告,請繼續往下閱讀-----

討論功能關閉中。

PanSci_96
1261 篇文章 ・ 2388 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

3
1

文字

分享

0
3
1
當情緒像過山車?從亢奮到低落,解碼躁鬱症的真實面貌
PanSci_96
・2024/10/12 ・2253字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

躁鬱症(Bipolar Disorder),正式名稱為「雙向情緒疾患」或「雙極性情感障礙」,是一種讓患者的情緒不受控制地在極度亢奮和極度低落之間擺盪的精神疾病。這樣的情緒變化不僅僅是短暫的起伏,而是持續多天、甚至數週的狀態,對於患者的生活、關係和工作會造成重大影響。

歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

什麼是躁鬱症?

躁鬱症患者的情緒通常經歷兩個極端階段:躁期和鬱期。

在躁期,患者可能會感到無比的精力充沛、自信心爆棚,甚至會有過度樂觀和衝動的行為。然而,躁鬱症不僅僅是「情緒高漲」的表現,在躁期過後,患者往往會經歷嚴重的情緒低谷,進入所謂的鬱期。此時,他們會感到情緒低落、無力感、甚至有自我傷害的傾向。

近幾年大眾逐漸正視精神疾病的影響,許多名人也曾經公開分享他們的躁鬱症經歷,如歌手瑪麗亞.凱莉、演員小勞勃道尼。這些公眾人物的經歷讓我們看到了這種精神疾病的廣泛影響,以及如何對他們的創作、生活和心理造成衝擊。

-----廣告,請繼續往下閱讀-----

躁鬱症的分類與盛行率

根據跨國研究,不論種族、性別或地區,躁鬱症的盛行率約為 1%,這意味著每 100 人中就有一人可能經歷過躁鬱症的發作。如果將所有的亞型計算在內,終生盛行率甚至可能高達 2.4%。躁鬱症的發病年齡通常集中在 20 至 30 歲之間,超過 70% 的患者在 25 歲前就會出現早期症狀。

躁鬱症依照症狀的不同,還可以分為不同的亞型。最常見的分類是第一型和第二型。第一型躁鬱症的特徵是患者會經歷完整的躁期,通常會影響患者的日常功能,甚至需要住院治療。而第二型躁鬱症的躁期則相對較輕,稱為「輕躁期」,但鬱期仍然會對患者的生活造成嚴重影響。

躁鬱症根據症狀可分為不同亞型,最常見的是第一型和第二型。圖/envato

什麼是「躁期」和「鬱期」?

「躁期」和「鬱期」是躁鬱症的兩個主要特徵階段。

躁期: 許多人對「躁」字的理解常常會聯想到「暴躁」或「焦躁」,實際上躁鬱症的躁期,更多的是情緒高昂、亢奮的狀態。在輕躁期(Hypomania),患者會持續數天感到極度精力充沛,無論在工作還是生活中,表現得比平時更有自信和創造力。但問題是,這種情緒亢奮狀態不一定持續太久,躁期可能會逐漸惡化為狂躁期(Mania)。這時,患者的行為可能會變得極端,容易做出無法預測的決定,例如過度消費、縱情娛樂或進行不安全的行為。

-----廣告,請繼續往下閱讀-----

鬱期: 在鬱期,患者的情緒和行為完全反轉。他們會感到無精打采、情緒低落,對任何事物都提不起勁。這時候,患者的日常活動變得困難,注意力和記憶力也會大幅下降,甚至有自我傷害或自殺的傾向。

從外界看來,躁期似乎是一個非常「高能」的狀態,但實際上,躁鬱症的危險之處正在於它的不穩定性。躁鬱症患者在躁期中無法控制自己的情緒與行為,即使感覺自己處於高峰狀態,這樣的「興奮」很可能會導致衝動行為,如不理智的財務決策或人際衝突。

如何應對躁鬱症?

躁鬱症不僅僅是情緒的擺盪,同時也會對患者的生活產生影響:

  1. 無法控制的躁期時間:躁期的長度和強度不是患者能控制的,患者可能從精力充沛的狀態,轉變為難以收拾的混亂局面。
  2. 鬱期的危險性:在躁期過後,進入鬱期的患者常常因為自責或對前期行為的後悔,而陷入更深的低谷,這增加了自我傷害的風險。
  3. 生活質量下降:反覆發作的情緒擺盪讓患者難以享受生活,甚至對快樂的感受也會變得懷疑和恐懼。
  4. 人際關係受損:情緒極端的變化會讓患者難以建立穩定的人際關係,這對於長期支持系統的建立是巨大的挑戰。
  5. 大腦損傷:每次發作對大腦的損害都是不可逆的,長期下來,注意力、記憶力、甚至思考能力都會受到影響。

治療與日常應對方法

對於躁鬱症的治療,藥物和心理治療是兩個不可或缺的部分。穩定情緒的藥物,如鋰鹽,是控制躁鬱症的重要工具。鋰鹽自 20 世紀開始就被廣泛用於躁鬱症的治療,能有效減少躁鬱症的復發風險。如果患者正處於躁期,醫生還可能會使用抗精神病藥物來幫助控制症狀。

-----廣告,請繼續往下閱讀-----

除了藥物治療,心理治療同樣重要,特別是在症狀穩定後,透過心理治療,患者可以學習如何識別躁鬱症復發的早期徵兆,以及如何調適壓力和情緒。

心理治療可以幫助患者學習識別躁鬱症復發的早期徵兆,並有效調適壓力和情緒。圖/envato

如何支持身邊的躁鬱症患者?

身為躁鬱症患者的家人或朋友,了解如何在不同的情緒階段支持患者是關鍵。在躁期時,避免硬碰硬,而是試著將患者的注意力引導到安全的活動上;在鬱期時,提供非批評的陪伴,讓患者感受到被理解與支持。

躁鬱症是一種需要長期管理的疾病,但這並不意味著生活的希望就此消失。許多躁鬱症患者在接受治療後,依然能過著豐富充實的生活,並在自己的專業領域中發揮才華,擁有幸福的人生。

-----廣告,請繼續往下閱讀-----

討論功能關閉中。

PanSci_96
1261 篇文章 ・ 2388 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

0
0

文字

分享

0
0
0
如何讓 Suno 製作出你想要的音樂?四大規則讓你用精準的 prompt 做出心中所想的音樂!
泛科學院_96
・2024/07/04 ・2849字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

最近用了跟 Suno 類似的音樂生成服務 Udio 才讓我理解歌曲生成的 prompt 要怎麼寫,然後配合 sonoteller 這個神器,讓你聽到什麼就能生出什麼!

所以我們這集就來講講:

  1. AI 音樂生成 prompt 的規則
  2. 抄音樂 prompt 的好幫手 sonoteller
  3. suno 跟 udio 的差異

提醒一下,這集沒有詳細的 Suno 操作,重點會放在怎麼寫 prompt 上。

這邊整理一下你看這集必須要知道的事,可以暫停看一下:

-----廣告,請繼續往下閱讀-----


那如果想看詳細的 Suno 操作,可以到這支影片:

好啦,讓我們開始吧。

輸入 Suno 的 prompt 只要關鍵字就好?

一開始用 Suno 時,我一直很困惑,到底要怎麼打 prompt 才能有效控制生成的音樂?

自從最近用了 Udio,它有 prompt 隨機生成,研究了一下 Udio 的 prompt,規則大概是「一句有情緒的故事梗概,加上多個曲風或歌曲細節詞彙」。

-----廣告,請繼續往下閱讀-----

然後我把 Udio 的 prompt 拿到 Suno 上跑,也能跑出不錯的東西。

所以,前面應該是指定整首歌的情境?

例如情境換成悲慘命運,聽起來就會變悲傷。

然後我在後面加上輕快 (Brisk)⋯⋯欸?悲傷去哪了?前面那串根本消失啦!

-----廣告,請繼續往下閱讀-----

那如果把前面那句話,拆解成情緒與事件關鍵字輸入也行嗎?

畢竟字數有限,這樣就能下更多 prompt 了!

嗯,事實是沒差,只要關鍵字就好。

所以結論是,音樂生成的 prompt 跟 Stable Diffusion 差不多,一個一個單詞輸入就好。

-----廣告,請繼續往下閱讀-----

四大規則!

在多次測試之後,我認為有效的 prompt 可以分為這四類:

1. 曲風類:funk、rock、pop、classical 之類的特定曲風。

這些詞最重要,會最大幅度限制歌曲的走向,通常會放多個有關聯的曲風,例如 city pop 跟 funk 還有 Disco 有關,我前面的 prompt 就選了 city pop 跟 funk,不用 Disco 單純是出來之後更有電音舞曲感,我不喜歡。

2. 歌曲控制類:B 小調、brisk、BPM 之類的名詞。

-----廣告,請繼續往下閱讀-----

這類名詞只能做到修飾,例如前面的 prompt 加個 BPM 200,也不可能演奏出 BPM 200 的 city pop,只是稍微加快,但如果我把曲風換成 rock, metal,就能接近我要求的 BPM 200。

3. 情緒、狀態類:miserable, adventure 這些日常生活中會出現的詞彙,能提供整首歌曲的旋律、節奏,但效果極弱。

例如前面放了輕快 brisk,悲傷感就消失了。

4. 樂器類:歌曲中有出現什麼樂器。

-----廣告,請繼續往下閱讀-----

你在選曲風的時候,就已經有樂器配置了。像上面的 city pop,就已經預設會有效果器 (Synthesizer),因此就算輸入民謠吉他 (Acoustic Guitar),也聽不到民謠吉他的原聲,滿滿的效果器。

我把上面的重點總結在這裡,有需要的可以停下來看,總之,先找對曲風,才能生出你想要的音樂。

怎麼知道喜歡的歌是什麼曲風?

那這時你可能會問啦,我哪知道自己想生的曲風是什麼啊?

這時就輪到 Sonoteller 登場啦!

-----廣告,請繼續往下閱讀-----

Sonoteller 是分析歌詞與曲風的 AI 工具,只要給他 Youtube 網址就會幫你分析啦。

這樣你就可以在 Youtube 上先找一首參考的歌曲,再丟到 Sonoteller 分析,瞬間就有曲風的 prompt 啦。不過近期 Sonoteller 的伺服器不堪負荷,常會遇到拒絕分析歌曲的情況。

但如果是超流行的歌,例如 Ado 的 Show,因為已經有人分析過,就會直接調之前分析的資料給你。

畫面的左半邊是歌詞分析,因我沒有生成歌詞的需求,這裡就不詳細說,


不過我自己截一些 summary 中的字當 prompt。

右半邊是曲風分析,Genres 就是我們的曲風啦,也有提供副曲風、情緒、樂器、BPM、key 之類的資訊,都可以複製回去當 prompt 用。

後面的數字是相似程度,參考就好,畢竟曲風、情緒感受是很主觀的,

好啦,讓我們聽聽用 ado show 的曲風做出來的歌長怎樣吧。

好像不太對勁,加個 J-pop 進去看看,這個感覺比較對,就先到這邊吧。

也提醒一下,我們不太可能只複製一首歌的 prompt 就得到想要的歌,多放幾首你覺得類似的歌到 sonoteller 分析是個好方法!

配合 ChatGPT 之類的工具來生成額外 prompt 也可以。不過我覺得門檻比 sonoteller 高,而且也不容易搞懂那些詞彙到底代表了什麼。

等等,Udio 和 Suno 到底哪一個好用?

再來說說前面有提到的 Udio 和 Suno 有什麼差吧!

基本邏輯是相同的,但 Udio 的操作更直覺,Udio 有提供 prompt 提示,不僅給我靈感,讓我學到很多新名詞,真的超級多,可能我在學校音樂課學的詞彙都沒有這幾個禮拜學到的多。

還有 Udio 每次生成歌曲只有 30 秒,更容易修改或擴充,它的擴充還可以選擇 intro outro 來生成音樂的開頭結尾,比起suno用起來更順手。

然後現在 udio 完全免費,一個月能生成 600 首,超適合拿來練 prompt!

蛤?你說這集為什麼沒有 Udio 生成的歌?

因為現在 udio 免費生成的音樂不能商用!

所以這支影片,就還是以 Suno 為主啦。

最後,你覺得 AI 生成的音樂聽起來如何呢?

  1. 當背景音樂不錯聽
  2. 匠氣太重,了無新意
  3. 沒感覺,要做的話
  4. 其他也可以留言分享喔

如果有其他想看的 AI 工具測試或相關問題,也可以留言告訴我們~

更多、更完整的內容,歡迎上泛科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

-----廣告,請繼續往下閱讀-----
泛科學院_96
44 篇文章 ・ 52 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!