Loading [MathJax]/extensions/tex2jax.js

0

1
0

文字

分享

0
1
0

人工智慧讓學音樂變簡單!那音樂AI會取代音樂家嗎?

研之有物│中央研究院_96
・2017/08/05 ・4785字 ・閱讀時間約 9 分鐘 ・SR值 517 ・六年級

-----廣告,請繼續往下閱讀-----

「自動音樂採譜研究」的重要性

相傳莫札特十四歲時聽到複雜的教堂樂曲,便能默記全曲並寫成樂譜。在這個充滿神秘色彩的故事中,除了隱含人們對音樂「天份」這道門檻的敬畏以外,自動採譜也成為 AI 人工智慧研究者所挑戰的重要夢想。
中研院資訊科學研究所的蘇黎,專攻音樂資訊檢索(Music Information Retrieval,MIR) ,以「多重音高偵測技術」為基礎,發展出自動採譜的人工智慧,以更輕鬆簡單的方式來協助我們學音樂、理解音樂和製作音樂。

自動採譜的功能與發展,讓人人都能開外掛擁有莫札特的絕對音感與解譜能力,可以馬上就編譯樂譜。圖/iStock

目前市場上已經有許多人工智慧在音樂上的應用,例如人們用 Soundhound 音樂識別軟體來搜尋當下聽到的歌,或試聽線上串流平台推薦的歌曲,或透過軟體快速找到自己想要聽的歌。這方面的發展已接近成熟,但主要都是針對「聆聽」的行為。

若想透過人工智慧進一步了解音樂的深層意涵,例如作曲家的創作思維,演奏家的詮釋技法,乃至於樂評家的觀點,那麼,一個擁有像莫札特般卓越音樂聽力,可以協助自動採譜,並將聽見的音樂變成容易親近演奏的完整樂譜的人工智慧,會是關鍵性的一步。

人類如何認識音樂?音高 94 關鍵!

試著哼唱莫札特的〈小星星〉,想起小學教室裡的風琴伴奏,而那架風琴的 Do 還老是走音。在這樣簡單的歌曲裡頭,事實上已經包含了許多複雜的資訊,如速度、節奏、音高、和弦、器樂及人聲的音色等多樣要素,別忘了還有走音的 Do 這個偏差因子。

因此,人工智慧對大編制樂曲如交響樂的自動採譜,必須面對大量且交疊的資訊,難度仍然很高。所以要把聽到的樂曲轉成可以看到的譜,還是要找出其中特徵最穩定,也能決定旋律的關鍵—「音高」。

-----廣告,請繼續往下閱讀-----

「音高」為樂曲所有要素中最基本的特徵,樂譜上的資訊,大多與音高有關。

說起音樂訊號的本質,蘇黎認為音高是音樂訊號中的最基本的資訊之一,而音高偵測正是音樂訊號處理的基本技術。

舉個大家都有的生活經驗:當朋友打電話來,有時我們會覺得對方的聲音好像不太一樣。這是因為線路與裝置在訊號傳輸過程中改變了朋友說話的音色,讓我們的聽覺受到混淆。但對方聲音在電話裡的語調,也就是音高,不論是上揚還是下降,並不容易受影響。

因此,我們即使因為雜訊而不認得對方的聲音,但往往還能聽懂對方講話的內容。也因為音高擁有這樣的基本特性,所以如何辨識音高可以說是分析聲音資訊的一項基本技術。

從最常使用記載樂曲的五線譜來看,接起每一個音高才會組成一段旋律,若依照標準樂譜所演奏的樂曲中,音高該上揚,還是下降,是不會被演奏者影響及改變。 圖/iStock

此外,音高資訊並不僅包含絕對音高,還包含音與音相對的關係,甚至是那轉音之時,各種詮釋的可能。

-----廣告,請繼續往下閱讀-----

就如同有人唱著〈小星星〉的曲調,即使沒一個音在音準上,我們仍然聽得出這是〈小星星〉的曲調。這是因為我們認得旋律軌跡(melody contour)的樣態,也就是「曲調的起伏」。只要曲調起伏的趨勢與原曲相似,我們就能如 Soundhound 音樂識別軟體一樣聽得出來。

用「多重音高偵測」,記錄人耳辨識困難的合音

音高資訊除了表現於旋律以外,更是伴奏、和聲與對位結構中的基本資訊,也就是「和弦辨識(chord recognition)」與「多重音高偵測(multi-pitch estimation, MPE)」技術。

近年來多重音高偵測技術的發展重點,大多仍集中於西方古典音樂,因為此類音樂的資料庫相對完整,每種樂器的聲響型態較容易標準化,在分析樂曲時就相當便利。但因為西方古典音樂大多有完整樂譜,往往是最不需要這項技術輔助研究的。相反的,大量在缺乏譜例記載的傳唱民謠,需大量人力從事轉譜工作以方便判讀分析,多重音高偵測技術在此時便派上用場,並且能給予譜例之外更多的資訊。

以布農族的祈禱小米豐收歌 Pasibutbut ,也就是著名的「八部合音」(註一)為例。為什麼稱之八部,據說是因為「泛音唱法」(註二),即一個人可以同時唱出兩個音高的聲音,除了唱出基音以外,還增強某一個高階泛音的能量。

-----廣告,請繼續往下閱讀-----

但現今所看到音樂學家所整理的譜例,大多仍是記為四部,這是因為演唱的編制確實只有四個聲部:最高音、次高音、中音和低音。至於泛音唱法之下多出的聲部,有些人聽得出來,有些人則感知不到;且不同的錄音版本差很大,很難明確指出是哪八個聲部,各自音高為何。

布農族 Pasibutbut 八部合音的時頻圖:橫軸代表時間,縱軸代表聲音的頻率,發亮的能量條則是聲音。資料來源/蘇黎。聲音/臺灣音樂資訊交流平台

蘇黎透過訊號的時頻圖(spectrogram)資料佐證,可以清楚看見泛音唱法的特徵:每一個聲部都在偶數的倍頻上產生更多能量。經過多重音高偵測(即 CFP transcription result),去掉多倍頻的泛音,除了基音外,也很容易看見第一泛音(基音的二倍頻)的位置上有能量存在,顯示了新的音高成份,演算法呈現的結果證實了泛音唱法的存在。

藉由計算瞬時頻率的技術,也就是「多重音高偵測」,便能把每一個聲部的音高軌跡精準算出,將能協助民族音樂的採譜工作。

音樂視覺化!將視覺和聽覺同步表現

蘇黎團隊目前所研究的「多重音高偵測技術」,以適用於各種音樂訊號為目的,其能有效刻劃出每一種聲響結構,並且將聲響即時轉化成樂譜。

多重音高偵測技術不僅可以應用於民族音樂學等領域的採譜處理問題,它的即時處理以及視覺化能力,也能在教育、娛樂等應用領域中有龐大潛力,將複雜的演奏即時轉為視覺表現。

-----廣告,請繼續往下閱讀-----
使用多重音高偵測技術,鋼琴每彈下一個音,電腦會自動定位音高,在螢幕上再度轉化成鋼琴鍵,圖中的橫軸則為時間軸,清楚地看出該時間點演奏者按下哪一個鋼琴鍵,演奏完畢便完成曲譜的轉譯。資料來源/《日新‧樂譯》跨界科技音樂會 DEMO 宣傳影片。製作/ 魏一傑、吳曉筑

在聆聽音樂的同時建立視覺與聽覺的關聯,以增強對音樂元素如音高、和弦的認知,是豐盛音樂表演 (enriched music performance)所努力的方向。

為了推廣這個概念,蘇黎與沛思文教基金會將於 2017 年 11 月合作推出《日新‧樂譯》跨界科技音樂會(註三),將現場演奏即時轉譯成樂譜動畫,用科技的語言,述說音樂的故事,透過多媒體動畫影像,讓大家聽得到也看得到音樂的演出。

除了紀錄樂譜,還能做什麼應用呢?

「多重音高偵測技術」對於輔助學習的應用,也不僅限於音樂元素的偵測與視覺化。

音樂人工智慧的研究範疇,除了理解音樂天才如何聽音樂以外,還有音樂演奏家如何「詮釋」音樂。圖/Clem Onojeghuo

精確的多重音高偵測技術為了滿足這個目標,往往需要更精確的頻率與能量偵測演算法,精確描述演奏者在演奏時的音量有多大、抖音怎麼使用、如何控制音長等等。

蘇黎與成大蘇文鈺老師、中研院楊奕軒老師合作的工作中,專注探討小提琴演奏者的詮釋,就像同樣的小星星會有很多不同的詮釋版本,可以彈得恬靜、彈得莊嚴、彈得詼諧、彈得有精神,種種不同的表情術語和詮釋方式,都可以從精確的音高偵測演算法中看出端倪。

-----廣告,請繼續往下閱讀-----

更進一步地說,未來我們或許能建立一個檢定的標準:當彈奏者把自己的演奏記錄下來,並輸入音樂人工智慧時,就可以和標準演奏做出比對,看看自己演奏得好不好。或是藉由音樂人工智慧的示範演出,讓初學者可以不斷聆聽各種詮釋方式,再去揣摩自己喜歡的演奏表情。這一些都是未來可以從「多重音高偵測技術」中,延伸開發的音樂人工智慧。

此圖為小星星的第一個 Do 音在不同音樂情緒的表現。每一個彈奏風格的聲音變化,都可以被明確記錄下來,抓到彈奏要點。資料來源/Analysis of expressive musical terms in violin using score-informed and expression-based audio features 。圖/張凱鈞、張語辰

果可以辨識演奏的詮釋方式,則有機會透過音樂人工智慧,從仰慕的音樂高手的精湛演奏中,學習樂器的彈奏技巧。

精確的音高偵測技術不僅可以用來分析古典音樂中的表情術語,另一個有趣的應用是分析搖滾樂中,吉他 solo 複雜的演奏技巧。

帥氣熱血的吉他 solo 往往結合各式不同的演奏技巧,如推弦,滑音、悶音、捶勾弦等等,這是吉他新手在學習抓譜時最困擾的地方。「多重音高偵測技術」有助於辦識出吉他的演奏技巧,把這一些技巧轉變成可閱讀的技巧符號,並記載在樂譜上,讓我們可以更容易去理解彈奏方式,進而模仿演奏者的演奏變化,達成自己想要的音樂學習目標,也是種未來可能發展出的音樂學習系統。

吉他 solo 的時頻圖:可清楚看到推弦、勾弦等不同演奏技巧的音頻變化,並進一步將明星吉他手的「個人演奏風格」變成樂譜,供粉絲或學生「臨摹」學習。資料來源/Electric guitar playing technique detection in real-world recording based on F0 sequence pattern recognition.

音樂人工智慧會取代音樂家嗎?

當 AlphaGo 問世改寫了圍棋的新面貌,一一擊敗了世界頂尖的圍棋好手,有人感到恐懼、有人感到興奮,無非都是因為人工智慧科技所帶來的改變,但換一個角度想,這不正是把漫畫「棋靈王」的故事搬到現實世界嗎?

-----廣告,請繼續往下閱讀-----

當 AlphaGo 變成每個人的藤原佐為,我們就可以像進藤光一樣,即使沒有從小就接觸圍棋,也可以學習到好的圍棋思維。根據類似的道理,我們可以說, 音樂人工智慧科技的進步,其目的並不在於取代音樂家的工作。相反的,我們能看到在不久的將來,這些科技將會被用來增進人類學習音樂的效率,而擴大音樂的學習與消費市場。

正如工業革命讓古鋼琴現代化並大量製造,而孕育浪漫樂派蕭邦、舒曼等作曲家不朽的鋼琴獨奏作品;當代音樂人工智慧的成熟發展將開展另一場革命,不僅讓學習音樂變得更輕鬆有趣,也提供音樂家前所未有的音樂創作思維。

蘇黎不僅是個資訊科學家,也是一個音樂愛好者。深度研究「多重音高偵測技術」,逐步發展出可以正確轉譯樂譜的音樂人工智慧,一方面希望讓專業的音樂創作人擁有更好的創作環境,不用在記載與解析樂譜上耗費太多心力,創作者可以運用更充足的時間來創作嶄新的音樂風格。

另一方面則期望,讓每個想學習音樂的人,可以搭載猶如莫札特的音樂耳。每個人都好像擁有一個虛擬音樂老師,以更輕鬆、簡單的方式,認識音樂的組成結構,降低學習成本,加快學習音樂的速度。讓想學音樂的心,不會隨著年齡增長而有所阻礙,讓全年齡層的人們都有興趣把音樂成為生活的一部分。

如何打破「會音樂」與「不會音樂」的高牆,利用科技創造更好的音樂學習介面,讓音樂欣賞與彈奏更好上手,便是蘇黎致力研究的目標。圖/張語辰

延伸閱讀

-----廣告,請繼續往下閱讀-----
  • 採訪編輯|張凱鈞
  • 美術編輯|張語辰

CC 4.0

本著作由研之有物製作,以創用CC 姓名標示–非商業性–禁止改作 4.0 國際 授權條款釋出。

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

-----廣告,請繼續往下閱讀-----
文章難易度
研之有物│中央研究院_96
296 篇文章 ・ 3640 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

0

1
0

文字

分享

0
1
0
數智驅動未來:從信任到執行,AI 為企業創新賦能
鳥苷三磷酸 (PanSci Promo)_96
・2025/01/13 ・4938字 ・閱讀時間約 10 分鐘

-----廣告,請繼續往下閱讀-----

本文由 鼎新數智 與 泛科學 共同規劃與製作

你有沒有想過,當 AI 根據病歷與 X 光片就能幫你診斷病症,或者決定是否批准貸款,甚至從無人機發射飛彈時,它的每一步「決策」是怎麼來的?如果我們不能知道 AI 的每一個想法步驟,對於那些 AI 輔助的診斷和判斷,要我們如何放心呢?

馬斯克與 OpenAI 的奧特曼鬧翻後,創立了新 AI 公司 xAI,並推出名為 Grok 的產品。他宣稱目標是以開源和可解釋性 AI 挑戰其他模型,而 xAI 另一個意思是 Explainable AI 也就是「可解釋性 AI」。

如今,AI 已滲透生活各處,而我們對待它的方式卻像求神問卜,缺乏科學精神。如何讓 AI 具備可解釋性,成為當前關鍵問題?

-----廣告,請繼續往下閱讀-----
AI 已滲透生活各處,而我們對待它的方式卻像求神問卜,缺乏科學精神。如何讓 AI 具備可解釋性,成為當前關鍵問題?圖/pexels

黑盒子模型背後的隱藏秘密

無法解釋的 AI 究竟會帶來多少問題?試想,現在許多銀行和貸款機構已經使用 AI 評估借貸申請者的信用風險,但這些模型往往如同黑箱操作。有人貸款被拒,卻完全不知原因,感覺就像被分手卻不告訴理由。更嚴重的是,AI 可能擅自根據你的住所位置或社會經濟背景給出負面評價,這些與信用風險真的相關嗎?這種不透明性只會讓弱勢群體更難融入金融體系,加劇貧富差距。這種不透明性,會讓原本就已經很難融入金融體系的弱勢群體,更加難以取得貸款,讓貧富差距越來越大,雪上加霜。

AI 不僅影響貸款,還可能影響司法公正性。美國部分法院自 2016 年起使用「替代性制裁犯罪矯正管理剖析軟體」 COMPAS 這款 AI 工具來協助量刑,試圖預測嫌犯再犯風險。然而,這些工具被發現對有色人種特別不友好,往往給出偏高的再犯風險評估,導致更重的刑罰和更嚴苛的保釋條件。更令人擔憂的是,這些決策缺乏透明度,AI 做出的決策根本沒法解釋,這讓嫌犯和律師無法查明問題根源,結果司法公正性就這麼被悄悄削弱了。

此外,AI 在醫療、社交媒體、自駕車等領域的應用,也充滿類似挑戰。例如,AI 協助診斷疾病,但若原因報告無法被解釋,醫生和患者又怎能放心?同樣地,社群媒體或是 YouTube 已經大量使用 AI 自動審查,以及智慧家居或工廠中的黑盒子問題,都像是一場越來越複雜的魔術秀——我們只看到結果,卻無法理解過程。這樣的情況下,對 AI 的信任感就成為了一個巨大的挑戰。

為什麼人類設計的 AI 工具,自己卻無法理解?

原因有二。首先,深度學習模型結構複雜,擁有數百萬參數,人類要追蹤每個輸入特徵如何影響最終決策結果,難度極高。例如,ChatGPT 中的 Transformer 模型,利用注意力機制(Attention Mechanism)根據不同詞之間的重要性進行特徵加權計算,因為機制本身涉及大量的矩陣運算和加權計算,這些數學操作使得整個模型更加抽象、不好理解。

-----廣告,請繼續往下閱讀-----

其次,深度學習模型會會從資料中學習某些「特徵」,你可以當作 AI 是用畫重點的方式在學習,人類劃重點目的是幫助我們加速理解。AI 的特徵雖然也能幫助 AI 學習,但這些特徵往往對人類來說過於抽象。例如在影像辨識中,人類習慣用眼睛、嘴巴的相對位置,或是手指數量等特徵來解讀一張圖。深度學習模型卻可能會學習到一些抽象的形狀或紋理特徵,而這些特徵難以用人類語言描述。

深度學習模型通常採用分佈式表示(Distributed Representation)來編碼特徵,意思是將一個特徵表示為一個高維向量,每個維度代表特徵的不同方面。假設你有一個特徵是「顏色」,在傳統的方式下,你可能用一個簡單的詞來表示這個特徵,例如「紅色」或「藍色」。但是在深度學習中,這個「顏色」特徵可能被表示為一個包含許多數字的高維向量,向量中的每個數字表示顏色的不同屬性,比如亮度、色調等多個數值。對 AI 而言,這是理解世界的方式,但對人類來說,卻如同墨跡測驗般難以解讀。

假設你有一個特徵是「顏色」,在傳統的方式下,你可能用一個簡單的詞來表示這個特徵,例如「紅色」或「藍色」。但是在深度學習中,這個「顏色」特徵可能被表示為一個包含許多數字的高維向量,向量中的每個數字表示顏色的不同屬性,比如亮度、色調等多個數值。圖/unsplash

試想,AI 協助診斷疾病時,若理由是基於醫生都無法理解的邏輯,患者即使獲得正確診斷,也會感到不安。畢竟,人們更相信能被理解的東西。

打開黑盒子:可解釋 AI 如何運作?我們要如何教育 AI?

首先,可以利用熱圖(heatmap)或注意力圖這類可視化技術,讓 AI 的「思維」有跡可循。這就像行銷中分析消費者的視線停留在哪裡,來推測他們的興趣一樣。在卷積神經網絡和 Diffusion Models 中 ,當 AI 判斷這張照片裡是「貓」還是「狗」時,我需要它向我們展示在哪些地方「盯得最緊」,像是耳朵的形狀還是毛色的分布。

-----廣告,請繼續往下閱讀-----

其次是局部解釋,LIME 和 SHAP 是兩個用來發展可解釋 AI 的局部解釋技術。

SHAP 的概念來自博弈,它將每個特徵看作「玩家」,而模型的預測結果則像「收益」。SHAP 會計算每個玩家對「收益」的貢獻,讓我們可以了解各個特徵如何影響最終結果。並且,SHAP 不僅能透過「局部解釋」了解單一個結果是怎麼來的,還能透過「全局解釋」理解模型整體的運作中,哪些特徵最重要。

以實際的情景來說,SHAP 可以讓 AI 診斷出你有某種疾病風險時,指出年齡、體重等各個特徵的影響。

LIME 的運作方式則有些不同,會針對單一個案建立一個簡單的模型,來近似原始複雜模型的行為,目的是為了快速了解「局部」範圍內的操作。比如當 AI 拒絕你的貸款申請時,LIME 可以解釋是「收入不穩定」還是「信用紀錄有問題」導致拒絕。這種解釋在 Transformer 和 NLP 應用中廣泛使用,一大優勢是靈活且計算速度快,適合臨時分析不同情境下的 AI 判斷。比方說在醫療場景,LIME 可以幫助醫生理解 AI 為何推薦某種治療方案,並說明幾個主要原因,這樣醫生不僅能更快做出決策,也能增加患者的信任感。

-----廣告,請繼續往下閱讀-----

第三是反事實解釋:如果改變一點點,會怎麼樣?

如果 AI 告訴你:「這家銀行不會貸款給你」,這時你可能會想知道:是收入不夠,還是年齡因素?這時你就可以問 AI:「如果我年輕五歲,或者多一份工作,結果會怎樣?」反事實解釋會模擬這些變化對結果的影響,讓我們可以了解模型究竟是如何「權衡利弊」。

最後則是模型內部特徵的重要性排序。這種方法能顯示哪些輸入特徵對最終結果影響最大,就像揭示一道菜中,哪些調味料是味道的關鍵。例如在金融風險預測中,模型可能指出「收入」影響了 40%,「消費習慣」占了 30%,「年齡」占了 20%。不過如果要應用在像是 Transformer 模型等複雜結構時,還需要搭配前面提到的 SHAP 或 LIME 以及可視化技術,才能達到更完整的解釋效果。

講到這裡,你可能會問:我們距離能完全信任 AI 還有多遠?又或者,我們真的應該完全相信它嗎?

-----廣告,請繼續往下閱讀-----

我們終究是想解決人與 AI 的信任問題

當未來你和 AI 同事深度共事,你自然希望它的決策與行動能讓你認可,幫你省心省力。因此,AI 既要「可解釋」,也要「能代理」。

當未來你和 AI 同事深度共事,你自然希望它的決策與行動能讓你認可,幫你省心省力。圖/unsplash

舉例來說,當一家公司要做一個看似「簡單」的決策時,背後的過程其實可能極為複雜。例如,快時尚品牌決定是否推出新一季服裝,不僅需要考慮過去的銷售數據,還得追蹤熱門設計趨勢、天氣預測,甚至觀察社群媒體上的流行話題。像是暖冬來臨,厚外套可能賣不動;或消費者是否因某位明星愛上一種顏色,這些細節都可能影響決策。

這些數據來自不同部門和來源,龐大的資料量與錯綜關聯使企業判斷變得困難。於是,企業常希望有個像經營大師的 AI 代理人,能吸收數據、快速分析,並在做決定時不僅給出答案,還能告訴你「為什麼要這麼做」。

傳統 AI 像個黑盒子,而可解釋 AI (XAI)則清楚解釋其判斷依據。例如,為什麼不建議推出厚外套?可能理由是:「根據天氣預測,今年暖冬概率 80%,過去三年數據顯示暖冬時厚外套銷量下降 20%。」這種透明解釋讓企業更信任 AI 的決策。

-----廣告,請繼續往下閱讀-----

但會解釋還不夠,AI 還需能真正執行。這時,就需要另一位「 AI 代理人」上場。想像這位 AI 代理人是一位「智慧產品經理」,大腦裝滿公司規則、條件與行動邏輯。當客戶要求變更產品設計時,這位產品經理不會手忙腳亂,而是按以下步驟行動:

  1. 檢查倉庫物料:庫存夠不夠?有沒有替代料可用?
  2. 評估交期影響:如果需要新物料,供應商多快能送到?
  3. 計算成本變化:用新料會不會超出成本預算?
  4. 做出最優判斷,並自動生成變更單、工單和採購單,通知各部門配合執行。

這位 AI 代理人不僅能自動處理每個環節,還會記錄每次決策結果,學習如何變得更高效。隨時間推移,這位「智慧產品經理」的判斷將更聰明、決策速度更快,幾乎不需人工干預。更重要的是,這些判斷是基於「以終為始」的原則,為企業成長目標(如 Q4 業績增長 10%)進行連續且動態地自我回饋,而非傳統系統僅月度檢核。

這兩位 AI 代理人的合作,讓企業決策流程不僅透明,還能自動執行。這正是數智驅動的核心,不僅依靠數據驅動決策,還要能解釋每一個選擇,並自動行動。這個過程可簡化為 SUPA,即「感知(Sensing)→ 理解(Understanding)→ 規劃(Planning)→ 行動(Acting)」的閉環流程,隨著數據的變化不斷進化。

偉勝乾燥工業為例,他們面臨高度客製化與訂單頻繁變更的挑戰。導入鼎新 METIS 平台後,偉勝成功將數智驅動融入業務與產品開發,專案準時率因此提升至 80%。他們更將烤箱技術與搬運機器人結合,開發出新形態智慧化設備,成功打入半導體產業,帶動業績大幅成長,創造下一個企業的增長曲線。

-----廣告,請繼續往下閱讀-----

值得一提的是,數智驅動不僅帶動業務增長,還讓員工擺脫繁瑣工作,讓工作更輕鬆高效。

數智驅動的成功不僅依賴技術,還要與企業的商業策略緊密結合。為了讓數智驅動真正發揮作用,企業首先要確保它服務於具體的業務需求,而不是為了技術而技術。

這種轉型需要有策略、文化和具體應用場景的支撐,才能讓數智驅動真正成為企業持續增長的動力。

還在猶豫數智驅動的威力?免費上手企業 AI 助理!👉 企業 AI 體驗
現在使用專屬邀請碼《 KP05 》註冊就享知:https://lihi.cc/EDUk4
訂閱泛科學獨家知識頻道,深入科技趨勢與議題內容。

👉立即免費加入

-----廣告,請繼續往下閱讀-----
鳥苷三磷酸 (PanSci Promo)_96
222 篇文章 ・ 313 位粉絲
充滿能量的泛科學品牌合作帳號!相關行銷合作請洽:contact@pansci.asia

0

1
0

文字

分享

0
1
0
AI 能像人類一樣思考?諾貝爾物理學獎研究助力人工智慧模擬人類大腦
PanSci_96
・2024/11/14 ・2117字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

即使再怎麼模仿,AI 終究無法以與生物相同的方式思考吧?畢竟電腦的電子元件和我們大腦中的神經細胞結構截然不同。再怎麼模仿,AI 終究無法以與生物相同的方式思考吧?

錯,可以。

2024 年諾貝爾物理學獎跌破所有專家的眼鏡,頒給了兩位研究機器學習的科學家——約翰·霍普菲爾德(John Hopfield)和傑佛瑞·辛頓(Geoffrey Hinton)。他們以「人工」的方法打造了類神經網路,最終模擬出生物的「智慧」,奠定了當代深度學習的基礎。

為什麼解決人工智慧發展瓶頸的,竟然會是物理學?物理要怎麼讓 AI 更像人類?

-----廣告,請繼續往下閱讀-----
歡迎訂閱 Pansci Youtube 頻道 獲取更多深入淺出的科學知識!

從巴甫洛夫的狗到赫布理論:理解學習的基礎

為了解答這個疑問,我們需要一些背景知識。

20 世紀初,俄羅斯心理學家巴甫洛夫發現,狗在食物還沒入口前,就會開始分泌唾液。他進行了一系列實驗,改變食物出現前的環境,比如讓狗習慣在聽到鈴聲後馬上得到食物。久而久之,狗只要聽到鈴聲,就會開始分泌唾液。

大約 50 年後,神經科學家赫布(Donald Hebb)提出了一個假說:大腦中相近的神經元,因為經常同時放電,會產生更強的連結。這種解釋稱為「赫布理論」,不僅奠定了神經心理學的發展,更成為現代深度學習的基礎。

然而,赫布理論雖然描述了鄰近神經元的關係,卻無法解釋大腦如何建構出如此複雜的聯想網路。

-----廣告,請繼續往下閱讀-----

霍普菲爾德網路:物理學家對神經網路的貢獻

然而,赫布理論雖能描述神經元之間的關係,卻缺乏數學模型。物理學家約翰·霍普菲爾德從數學家約翰·康威(John Conway)的「生命遊戲」(Game of Life)中獲得靈感,試圖建立一個可以在電腦上運行的記憶系統。

霍普菲爾德受「生命遊戲」啟發,嘗試建立電腦記憶系統。圖/envato

「生命遊戲」由數學家康威(John Conway)發明,玩家開始時有一個棋盤,每個格子代表一個細胞,細胞可以是「活」或「死」的狀態。根據特定規則,細胞會根據鄰居的狀態決定下一次的生存狀態。康威的目的是展示複雜的系統不一定需要複雜的規則。

霍普菲爾德發現,這個遊戲與赫布理論有強大的關聯性。大腦中的大量神經元,在出生時處於初始狀態,經過刺激後,神經元間的連結會產生或斷裂,形成強大的記憶系統。他希望利用這些理論,創造一個能在電腦上運行的記憶系統。

然而,他面臨一個難題:赫布理論沒有明確的數學模型來決定神經元連結的規則。而在電腦上運行,必須要有明確的數學規則。

-----廣告,請繼續往下閱讀-----

物理學的啟發:易辛模型

霍普菲爾德從物理學的研究中找到了類似的模型:易辛模型(Ising Model)。這個模型用於解釋鐵磁性物質的磁性特性。

在鐵磁性物質中,電子具有「自旋」,自旋產生磁矩。電子的自旋方向只有「向上」或「向下」,這就像生命遊戲中細胞的「生」或「死」。鄰近的電子會影響彼此的自旋方向,類似於細胞之間的互動。

易辛模型能用數學描述電子間的相互影響,並通過計算系統能量,得出自旋狀態的分佈。霍普菲爾德借用了這個概念,將神經元的互動視為電子自旋的互動。

他結合了康威生命遊戲的時間演化概念、易辛模型的能量計算,以及赫布理論的動態連結,創造了「霍普菲爾德網路」。這讓電腦能夠模擬生物大腦的學習過程。

-----廣告,請繼續往下閱讀-----

突破瓶頸:辛頓與波茲曼機

約翰·霍普菲爾德於1982年發明聯想神經網路,即「霍普菲爾網路」。圖/wikimedia

然而,霍普菲爾德網路並非完美。它容易陷入「局部最小值」的問題,無法找到系統的全局最優解。為了解決這個問題,加拿大計算機科學家傑佛瑞·辛頓(Geoffrey Hinton)提出了「波茲曼機」(Boltzmann Machine)。

辛頓將「模擬退火」的概念引入神經網路,允許系統以一定的機率跳出局部最小值,尋找全局最優解。他還引入了「隱藏層」的概念,將神經元分為「可見層」和「隱藏層」,提高了網路的學習能力。

受限波茲曼機(Restricted Boltzmann Machine)進一步簡化了模型,成為深度學習的基礎結構之一。這些創新使得 AI 能夠更有效地模擬人類的思維和學習過程。

AI 的未來:跨學科的融合

霍普菲爾德和辛頓的工作,將物理學的概念成功應用於人工智慧。他們的研究不僅解決了 AI 發展的瓶頸,還奠定了深度學習的基礎,對現代 AI 技術產生了深遠的影響。因此,2024 年諾貝爾物理學獎頒給他們,並非意外,而是對他們在跨學科領域的重大貢獻的肯定。

-----廣告,請繼續往下閱讀-----

AI 的發展,離不開物理學、生物學、數學等多學科的融合。霍普菲爾德和辛頓的工作,正是這種融合的典範。未來,隨著科學技術的進步,我們有理由相信,AI 將越來越接近人類的思維方式,甚至可能超越我們的想像。

-----廣告,請繼續往下閱讀-----

討論功能關閉中。

PanSci_96
1262 篇文章 ・ 2401 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

1

1
1

文字

分享

1
1
1
讓 AI 取代真人執法可行嗎?將判斷全交給 AI 可能隱藏什麼危險?——專訪中研院歐美研究所陳弘儒助研究員
研之有物│中央研究院_96
・2024/03/18 ・6292字 ・閱讀時間約 13 分鐘

-----廣告,請繼續往下閱讀-----

本文轉載自中央研究院「研之有物」,為「中研院廣告」

  • 採訪撰文|劉韋佐
  • 責任編輯|田偲妤
  • 美術設計|蔡宛潔

人工智慧將改變以人為主的法治領域?

由人工智慧擔任警察,再也不是科幻電影的情節,交通管制常見的科技執法就是應用 AI 辨識闖紅燈、未依規定轉彎、車輛不停讓行人等違規行為。 AI 的客觀、高效率正在挑戰以人為審判主體的法治領域,這樣的轉變會對我們產生什麼影響呢?中央研究院「研之有物」專訪院內歐美研究所陳弘儒助研究員,他將帶我們思考:當 AI 取代人類執法時,將如何改變人們對守法的認知?

交通尖峰時段,後方出現一台救護車,你願意闖紅燈讓道嗎?
圖|iStock

想像有一天你正在尖峰時段開車,車子停在十字路口等紅燈時,後方出現一輛急駛而來的救護車,你為了讓道必須開過停止線。這時你是否願意冒著違規被開罰的風險?還是承擔風險以換取他人盡速就醫?

在上述情境中,針對「要不要闖紅燈」我們經歷了一段價值判斷過程。如果剛好十字路口有真人警察,他的判斷可能是:這是情急之下不得不的行為,並非蓄意違規。

然而,如果負責執法的是「法律人工智慧系統」(Artificially legal intelligent,簡稱 ALI)情況可能截然不同。

-----廣告,請繼續往下閱讀-----

ALI 這個詞源自 Mireille Hildebrandt 的研究,在概念上可區分為兩類:採取傳統程式碼的 IFTTT(if this then that)、運用機器學習的資料驅動。前者是注重法律推理或論證的計算機模型,將法律規範轉為程式碼,藉由程式編寫來執行法律任務。後者則透過大量資料的學習,來預測行為範式,用於再犯率、判決結果預測上有較好的成果。

一般情況下,應用在交通管制的 ALI 會辨識車輛是否超速、闖紅燈等違規行為,不過交通情境千變萬化,ALI 能否做出包含「道德價值的判斷」將是一大挑戰!

中研院歐美研究所陳弘儒助研究員察覺,人工智慧(AI)正在左右人們對守法的價值判斷及背後的因果結構,進而反思當我們將原本由人來判斷的事項,全權交由 AI 來執行時,可能產生哪些潛移默化的影響?

讓我們與陳弘儒展開一場從法哲學出發的對話,探索 AI 與法治價值之間的緊張關係。

-----廣告,請繼續往下閱讀-----
中研院歐美研究所陳弘儒助研究員,從法哲學出發,探索 AI 與法治價值之間的緊張關係。
圖|之有物

問

怎麼會對「人工智慧」(AI)與「法律人工智慧系統」(ALI)產生研究興趣?

會對 AI 感興趣是因為我很早就對電腦有興趣,我原本大學想唸資訊工程,因為高中有些科目沒辦法唸,於是去唸文組,大學進入法律系就讀,研究所考入「基礎法學組」研讀法哲學。

後來我到美國讀書,當時 AlphaGo 的新聞造成很大的轟動,啟發我思考 AI 的應用應該有些法律課題值得探討,於是開始爬梳 AI 與法律的發展脈絡。

AI 這個詞大概在 1950 年代被提出,而 AI 與法律相關的討論則在 1970、80 年代就有學者開始思考:我們能否將法律推理過程電腦程式化,讓電腦做出跟法律人一樣的判斷?

事實上,AI 沒有在做推理,它做的是機率的演算,但法律是一種規範性的判斷,所有判斷必須奠基在法律條文的認識與解釋上,給予受審對象合理的判決理由。

這讓我好奇:如果未來廣泛應用 AI 執法,法律或受法律規範的民眾會怎麼轉變?

-----廣告,請繼續往下閱讀-----

至於真正開始研究「法律人工智慧系統」(ALI)是受到我父親的啟發。有一陣子我經常開車南北往返,有一天我跟父親聊到用區間測速執法的議題。交通部曾在萬里隧道使用區間測速,計算你在隧道裡的平均速率,如果超速就開罰。

父親就問我:「政府有什麼理由用區間測速罰我?如果要開罰就必須解釋是哪一個時間點超速。」依照一般的數學邏輯,你一定有在某個時間點超速,所以平均起來的速率才會超過速限,可是法律判斷涉及規範性,我們必須思考背後的正當性課題,不能只用邏輯解釋,這啟發我逐漸把問題勾勒出來,試圖分析執法背後的規範性意涵。

問

如果將執行法律任務的權限賦予 AI,可能暗藏什麼風險?

我們先來談人類和 AI 在做判斷時的差別。人類無時無刻都在做判斷,判斷的過程通常會先做「區分」,例如在你面前有 A 和 B 兩個選項,在做判斷前必須先把 A 和 B 區分開來,讓選項有「可區別性」。

在資料龐大的情況下,AI 的優勢在於能協助人類快速做好區分,可是做判斷還需經歷一段 AI 難以觸及的複雜過程。人類在成長過程中會發展出一套顧及社會與文化認知的世界觀,做判斷時通常會將要區分的選項放進這個世界觀中,最終做出符合社會或自身考量的抉擇。

-----廣告,請繼續往下閱讀-----

當我們將判斷程序交由 AI 執行,就會涉及「判斷權限移轉」的問題,這經常在日常生活中發生,你只要發現原本自己可以執行的事情,有另外一個對象做的比你好或差不多好,你就會漸漸把判斷的工作交給它,久而久之,你大概會覺得這是很好的做法,因為可以節省大量時間。

自駕車導航系統就是判斷權限移轉的例子,由於導航通常可以找出最佳行車路線,駕駛人幾乎會跟著走,但仍有可能誤入路況不佳或無法通行的地方。
圖|Vladimir Srajber, Pexels

我擔心這種判斷權限移轉會快速且廣泛的發生,因為 AI 的工作效率極高,可以大幅節省人力成本,但是哪一些權限可以放給 AI?哪一些權限人類一定要守住?我們經常沒有充足的討論,等到發生問題再亡羊補牢可能為時已晚。

以讓道給救護車而闖紅燈的情境為例,如果讓 AI 來做交管,可以節省警察人力,又可以快速精準地開罰,卻迫使民眾需額外花時間,證明闖紅燈有正當理由。如果是真人警察來判斷,警察通常會認為你的行為有正當理由而不開罰。這對於受法律規範的民眾來說,會產生兩種全然不同的規範作用。

AI 產生的規範作用會讓民眾擔心事後銷單的麻煩程序,如果無法順利解決,可能會訴諸民意代表或上爆料公社,並漸漸改變民眾對守法的態度。而真人警察產生的規範作用,將使民眾自主展現對法律的高度重視,雖然當下的行為牴觸法律,卻是行為人經過多方權衡後做的判斷,相信法律會支持自己出於同理心的行為。

-----廣告,請繼續往下閱讀-----

問

使用 AI 執法除了看上它的高效率,也是因為和真人相比 AI 不會受私情影響,比較可以做出公正的判斷。如果從法治觀念來看,為何決策權不能全權交由 AI 執行?

我認為法治的核心價值在臺灣並沒有很好的發展,我們常想的是怎麼用處罰促成民眾守法,長久下來可能會得到反效果。當人們養成凡事規避處罰的習慣,一旦哪天不再受法律約束,可能會失去守法的動機。

事實上,法治最根深柢固的價值為:

法律作為一種人類行為規範的展現,促使民眾守法的方式有很多種,關鍵在於尊重人的道德自主性,並向民眾陳述判決理由。

給理由非常重要,可以讓民眾不斷透過理由來跟自己和法律體系溝通。如此也可以形成一種互惠關係,使民眾相信,國家公權力能用適當的理由來制定法律,而制定出的法律是以尊重公民自主性為主。當民眾理解法律對我所處的社會有利,會比較願意自動產生守法的動機。

AI 執法看似比人類「公正無私」,但它的執法方式以處罰為主、缺乏理由陳述,也沒有對具體情境的「敏感性」。人跟人之間的互動經常需要敏感性,這樣才能理解他人到底在想什麼。這種敏感性是要鍛鍊的,真人警察可在執法過程中,透過拿捏不同情境的處理方式來累積經驗。

-----廣告,請繼續往下閱讀-----

例如在交通尖峰時段應該以維持交通順暢為原則,這時警察是否具備判斷的敏感性就很重要,例如看到輕微的違規不一定要大動作開罰,可以吹個警笛給駕駛警示一下就好。

我越來越覺得人類這種互動上的敏感性很重要,我們會在跟他人相處的過程中思考:跟我溝通的對象是什麼樣的人?我在他心中是什麼模樣?然後慢慢微調表現方式,這是人類和 AI 最根本的不同。

行動者受各種法律變項影響的因果圖。上圖是由真人警察執法,對於處罰之可能性有影響力,可依不同情境判斷是否開罰。下圖是由全自動法律人工智慧執法,由 AI 直接將處罰之可能性加諸在行動者身上,缺乏真人警察二次確認,很可能影響行動者對守法與否的衡量。
圖|之有物(資料來源|陳弘儒)

問

相較於法律人工智慧,ChatGPT 等生成式 AI 強大的語言功能似乎更接近理想中的 AI,其發展可能對我們產生哪些影響?

我認為會有更複雜的影響。ChatGPT 是基於大型語言模型的聊天機器人,使用大量自然語言文本進行深度學習,在文本生成、問答對話等任務上都有很好的表現。因此,在與 ChatGPT 互動的過程中,我們容易產生一種錯覺,覺得螢幕後好像有一名很有耐心的真人在跟你對話。

事實上,對於生成式 AI 來說,人類只是刺激它運作的外在環境,人機之間的互動並沒有想像中的對等。

仔細回想一下整個互動過程,每當外在環境(人類)給 ChatGPT 下指令,系統才會開始運作並生成內容,如果我們不滿意,可以再調整指令,系統又會生成更多成果,這跟平常的人際互動方式不太一樣。

-----廣告,請繼續往下閱讀-----
ChatGPT 能讓使用者分辨不出訊息來自 AI 或真人,但事實上 AI 只是接受外在環境(人類)刺激,依指令生成最佳內容,並以獲得正向回饋、提升準確率為目標。
圖|iStock

資工人員可能會用這個理由說明,生成式 AI 只是一種工具,透過學習大量資料的模式和結構,從而生成與原始資料有相似特徵的新資料。

上述想法可能會降低人們對「資料」(Data)的敏感性。由於在做 AI 訓練、測試與調整的過程中,都必須餵給 AI 大量資料,如果不知道資料的生產過程和內部結構,後續可能會產生爭議。

另一個關於資料的疑慮是,生成式 AI 的研發與使用涉及很多權力不對等問題。例如現在主流的人工智慧系統都是由私人公司推出,並往商業或使用者付費的方向發展,代表許多資料都掌握在這些私人公司手中。

資料有一種特性,它可以萃取出「資訊」(Information),誰有管道可以從一大群資料中分析出有價值的資訊,誰就有權力影響資源分配。換句話說,多數人透過輸入資料換取生成式 AI 的服務,可是從資料萃取出的資訊可能在我們不知情的狀況下對我們造成影響。

問

面對勢不可擋的生成式 AI 浪潮,人文社會學者可以做些什麼?

國外對於 AI 的運用開始提出很多法律規範,雖然國外關於價值課題的討論比臺灣多,但並不代表那些討論都很細緻深入,因為目前人類跟 AI 的相遇還沒有很久,大家還在探索哪些議題應該被提出,或賦予這些議題重新認識的架構。

這當中有一個重要課題值得思考:

我們需不需要訓練 AI 學會人類的價值判斷?

我認為訓練 AI 理解人類的價值判斷很可能是未來趨勢,因為 AI 的發展會朝人機互動模式邁進,唯有讓 AI 逐漸理解人類的價值為何,以及人類價值在 AI 運作中的局限,我們才有辦法呈現 AI 所涉及的價值課題。

當前的討論多數還停留在把 AI 當成一項技術,我認為這種觀點將來會出問題,強大的技術如果沒有明確的價值目標,是一件非常危險的事情。實際上,AI 的發展必定有很多價值課題涉入其中,或者在設計上有一些價值導向會隱而不顯,這將影響 AI 的運作與輸出成果。

思考怎麼讓 AI 理解人類價值判斷的同時,也等於在問我們人類:對我們來說哪一些價值是重要的?而這些重要價值的基本內容與歧異為何?

我目前的研究有幾個方向,一個是研究法律推理的計算機模型(Computational models of legal reasoning);另一個是從規範性的層面去探討,怎麼把價值理論、政治道德(Political morality)、政治哲學等想法跟科技界交流。未來也會透過新的視野省視公民不服從議題。

這將有助科技界得知,有很多價值課題需要事先想清楚,影響將擴及工程師怎麼設計人工智慧系統?設計過程面臨哪些局限?哪些局限不應該碰,或怎麼把某些局限展現出來?我覺得這些認識都非常重要!

鐵面無私的 ALI ?人類與人工智慧執法最大的分野是什麼?

陳弘儒的研究室有許多公仔,包括多尊金斯伯格(Ginsburg)公仔,她是美國首位猶太裔女性大法官,畢生為女權進步與性別平權奮鬥。
圖|之有物

陳弘儒是臺灣少數以法哲學理論研究法律人工智慧系統(ALI)的學者,他結合各種現實情境,與我們談論 ALI、生成式 AI 與當代法治價值的緊張關係。

由於 ALI 擅長的資料分類與演算,與人類判斷過程中涉及的世界觀與敏感性思辨,有著根本上的差異;以處罰為主、缺乏理由陳述的判斷方式,也容易影響民眾對公權力的信任。因此陳弘儒認為,目前 ALI 應該以「輔助人類執法」為發展目標,讓人類保有最終的判斷權限

至於現正快速發展的生成式 AI ,根據陳弘儒的觀察,目前仍有待各方專家探索其中的價值課題,包括資料提供與使用的權力不對等、哪些人類價值在訓練 AI 的過程中值得關注等。

在過去多是由人文社會學者提出警告,現在連 AI 領域的權威專家也簽署公開信並呼籲:AI 具有與人類競爭的智慧,這可能給社會和人類帶來巨大風險,應該以相應的關注和資源進行規劃和管理

在訪談過程中,有一件令人印象深刻的小插曲,陳弘儒希望我們不要稱呼他「老師」,因為他從小就畏懼老師、警察等有權威身分的人,希望以更平等的方式進行對話。

假如今天以 AI 進行採訪,整個談話過程或許能不受倫理輩分影響,但這也讓我們意識到,在 AI 的世界裡,許多人際互動特有的敏感性、同理反思都可能不復存在。

陳弘儒的研究讓我們體會,AI 在法治領域的應用不僅是法律問題,背後更包含深刻的哲學、道德與權力課題,也讓我們更了解法治的核心價值:

法律要做的不只是規範人們的行為,而是透過理由陳述與溝通展現對每個人道德自主性的尊重。

-----廣告,請繼續往下閱讀-----
所有討論 1
研之有物│中央研究院_96
296 篇文章 ・ 3640 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook