Loading [MathJax]/extensions/tex2jax.js

0

0
0

文字

分享

0
0
0

鋼鐵人-東尼的夢幻3D電腦工作室

活躍星系核_96
・2014/04/24 ・2977字 ・閱讀時間約 6 分鐘 ・SR值 486 ・五年級

-----廣告,請繼續往下閱讀-----

作者:Dark Duck(醫事檢驗師)

《鋼鐵人3》可是3D電影呢!回想起第一次看3D版《神鬼奇航》第四集的經驗太令我沮喪,透過3D眼鏡望出去還是有點模糊,居然只有字幕最清楚。不是3D電影不好,實在是現今的3D電影技術還不夠進步,不能讓人更舒適地享受3D立體電影的樂趣。好在《鋼鐵人3》有2D版本可看,不過我的程度不足以解讀其中的科幻設定,還望高手指點解惑啊。

這次換換應用科學的口味吧!東尼常在自宅地下室裡打造新的鋼鐵衣(Iron suit),竟也建造了42台馬克套組。他所使用的3D立體電腦系統太令人羨慕了,徒手操控漂浮在空中的機械藍圖與圖像資料,《Star wars》裡C3PO展示莉亞公主的求救立體影像已經不夠看啦。這麼夢幻的3D電腦工作室,將來有沒有可能成真呢?就現在已知的科技發展來想像一下吧!

為了符合東尼的3D電腦工作室運作方式,科技可分成兩部分來探討,一個是造成我內心陰影的3D影像投射技術,另一個是遊戲機使用的體感控制裝置。

-----廣告,請繼續往下閱讀-----

IronMan

3D立體影像

在討論3D立體影像之前,還是得先了解雙眼視覺的生理學。雙眼視覺是指在雙眼視野範圍相互重疊之下,所產生的視覺。光線通過眼睛的瞳孔,經由水晶體折射,在視網膜上聚焦成像。光在視網膜轉化為脈衝訊號,經由視神經傳導到大腦皮質的視覺中樞。由於雙眼因為瞳孔距離而產生視差,在視網膜聚焦的圖像有差異但又十分相似,大腦會將雙眼的圖像差異進行整合,融合成單一的整體感覺,因此產生具有「深度」的距離感,也就是「立體視覺」。一個成功的3D立體影像,要能讓大腦解讀光線進入眼睛的視覺訊號,產生立體視覺才行。最直接的做法就是操縱進入眼睛的光線。

「擴增實境」是個不錯的選擇,這個技術發展得很早,早期發明的外觀就像是一個頭盔、頭戴式的螢幕,影像投射到眼睛產生影像,平面影像或立體影像皆可。有些3D電視的眼鏡也是這種裝置,現在最新穎的產品應該就是Google眼鏡了吧,但是這類裝置目前尚未普及。

現在看到立體影片的機會愈來愈多了,不管是3D電影還是3D電視,都需要戴一個很笨重的3D眼鏡。早期3D電影原本只在一些遊樂園中放映,還記得小時候拿到的還是紙做的3D眼鏡呢!需要戴眼鏡的3D電影原理,就是讓左右眼看到不同的影像,想辦法產生「視差」,讓大腦融合左右眼有差異的圖像,產生「立體視覺」。小時候的紙眼鏡是紅藍眼鏡,讓左右眼分別看到紅色或藍色的影像,再讓大腦將影像疊合起來,因為顏色差異產生立體視覺,我們看到的立體影像比較像是浮在螢幕前方的平面圖層。現在電影院的3D眼鏡是偏振光眼鏡,讓左右眼只能分別看到垂直偏振光或水平偏振光,利用光的偏振性而產生立體視覺,是現在應用最廣的立體顯示技術。

不過戴眼鏡太麻煩了,裸視3D影像變成另一種選擇。最普遍的裸視3D原理,是將不同角度的影像投射在空間中的不同位置,再讓左右眼接收不同角度的影像。更簡單地說,可以把裸視是3D想像成「把3D眼鏡直接戴在電視上」的情形。裸視3D的限制是必須待在特定位置觀看,才看得到3D影像,所以適合用在手機、掌上型遊樂器等近距離觀看的裝置。

-----廣告,請繼續往下閱讀-----

另一方面,還有真實3D投影技術,可以不用戴眼鏡直接觀看。它也發展得很早,像是在博物館可見到的水晶球裝置,中央的圓型螢幕高速旋轉,利用視覺暫留的生理現象讓眼睛看到立體影像;後來還有正金字塔型或倒金字塔型的投射玻璃裝置,讓影像在金字塔型玻璃中成像;水蒸氣投影、雷射解離空氣投影等等也是利用不同的投射介質,形成真實的3D立體影像。熟悉AGC族群的朋友,應該最知道的真實3D投影就是初音未來的演唱會啦!這種投影只能算是半個3D,2.5D的投影技術,初音的影像還是需要投射到一面玻璃螢幕上,台下觀眾看到的影像才有立體感。

https://www.youtube.com/watch?v=qolPNGAQzEE

 

目前的商用3D投影技術(2013年在美國德州舉辦的Trade Show Holograms全像展),已經能夠達到的8呎(2.4公尺)高、20呎(6.1公尺)長的大小嘍!

(請參考Giant 3D Hologram projector wows crowd at Real Estate Conference in Dallas

-----廣告,請繼續往下閱讀-----

時代在進步,2012年日本fVisiOn研發的Tabletop 3D Display技術有了突破性的創新,不用投射螢幕的真實3D立體影像。Tabletop 3D Display是一套桌上型立體裸視系統,光源在桌面下方,數道光線投射在特製的漏斗中,光線被特製的玻璃集中成像,立體影像就浮現在桌面上。這個影像其實還是平面影像,只是由上往下俯視造成3D的錯覺。由於投射出來的影像很小(高5公分),且可視角只有120度而已,fVisiOn也會持續改良至影像更大、更細緻、視角360度的3D影像。

另一個真實3D技術是利用很強的脈衝雷射把空氣擊穿打成電漿,電漿就可以發光或散射光,只要動態控制雷射的聚焦位置,就可以把任意的空間都當作是雷射的螢幕(見參考資料)。這個技術就符合史塔克不用投射螢幕的需求啦!缺點是需要用更強大的脈衝雷射(不知道會不會曬傷或損害視力),目前能呈現的顏色也很少。

(請參考〈脈衝雷射的電漿舞台〉

在史塔克的夢幻3D電腦工作室裡,3D立體投影技術還有很大的發展空間,想像以現在最新的Tabletop 3D Display技術加大版本來設置,還需要克服使用者站在立體影像中間,能不能看得到3D影像的問題,還是只能俯視才看得到?這都是業界研發部門需要考慮的問題。

-----廣告,請繼續往下閱讀-----

體感控制

科技的進步常在意想不到的地方展開,電視遊樂器的發展,讓在空氣中揮揮手就能控制電腦螢幕的技術已經不是夢想嘍!
說到體感控制一定要提電視遊樂器始祖任天堂,任天堂 Wii遊樂器大開體感控制的先河,手持的體感搖桿和Wii Fit平衡板橫掃遊戲界,後來的平板電腦和智慧型手機也都內建了體感控制裝置,雖然現在看來已經是落後的技術,但它將體感控制技術帶進人類的生活中,實在功不可沒。

同樣是電視遊樂器的微軟Xbox,後來推出了「身體就是遊戲控制器」的Kinect,所以在空氣揮揮手就能遙控的技術已經在真實世界中實現了。Kinect所使用的不是Time of Flight技術,而是Light coding技術(見參考資料)。Kinect的紅外線攝影機發出人眼看不見的Class 1雷射光,透過鏡頭前的光柵將雷射光均勻分佈投射在測量空間中,再透過紅外線攝影機記錄下空間中的每個散斑,擷取原始資料後,再透過晶片計算成具有3D深度的圖像。Kinect將擷取到的3D影像透過骨架追蹤系統,轉換成動作指令。全身體感的優勢也使這種體感控制方式將來能夠應用到電腦、家電、手機上。

Kinect需要大量運算,所以會讓使用者有延遲的感受,而且動作判斷精準度較差,但我想東尼的AI電腦賈維斯一定能克服這些問題,史塔克3D電腦工作室的體感操作系統絕對是可行的。

  1. 維基百科
  2. 《科學人雜誌》[科學easy learn]擴增實境︰虛擬與實境的無限延伸
  3. 《科學人雜誌》[科學easy learn]戴上眼鏡 看進立體世界
  4. 《科學人雜誌》[科學easy learn]丟掉眼鏡 當機不「立」斷
  5. 《科學人雜誌》[科學easy learn]電視節目變立體 裸視3D即將走入家庭
  6. [創新趨勢] 未來嶄新「視」界:3D立體投影技術
  7. [知識分享]立體觀影時代來臨,破解3D電視原理
  8. [癮科技]3d投影技術更進化,初音未來離你更近了!3D-投影技術 Tabletop 3D Display
  9. 《無線電技術月刊》從體感遊戲看動作感應技術
  10. [ T客邦]身體就是控制器,微軟Kinect是怎麼做到的? 
  11. Giant 3D Hologram projector wows crowd at Real Estate Conference in Dallas
  12. 真正的3D顯示技術: 脈衝雷射的電漿舞台!

原發表於Dark Duck’s Lab,作者投稿。

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
文章難易度
活躍星系核_96
778 篇文章 ・ 128 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

1
0

文字

分享

0
1
0
拆解邊緣AI熱潮:伺服器如何提供穩固的運算基石?
鳥苷三磷酸 (PanSci Promo)_96
・2025/05/21 ・5071字 ・閱讀時間約 10 分鐘

-----廣告,請繼續往下閱讀-----

本文與 研華科技 合作,泛科學企劃執行。

每次 NVIDIA 執行長黃仁勳公開發言,總能牽動整個 AI 產業的神經。然而,我們不妨設想一個更深層的問題——如今的 AI 幾乎都倚賴網路連線,那如果哪天「網路斷了」,會發生什麼事?

想像你正在自駕車打個盹,系統突然警示:「網路連線中斷」,車輛開始偏離路線,而前方竟是萬丈深谷。又或者家庭機器人被駭,開始暴走跳舞,甚至舉起刀具向你走來。

這會是黃仁勳期待的未來嗎?當然不是!也因為如此,「邊緣 AI」成為業界關注重點。不靠雲端,AI 就能在現場即時反應,不只更安全、低延遲,還能讓數據當場變現,不再淪為沉沒成本。

什麼是邊緣 AI ?

邊緣 AI,乍聽之下,好像是「孤單站在角落的人工智慧」,但事實上,它正是我們身邊最可靠、最即時的親密數位夥伴呀。

當前,像是企業、醫院、學校內部的伺服器,個人電腦,甚至手機等裝置,都可以成為「邊緣節點」。當數據在這些邊緣節點進行運算,稱為邊緣運算;而在邊緣節點上運行 AI ,就被稱為邊緣 AI。簡單來說,就是將原本集中在遠端資料中心的運算能力,「搬家」到更靠近數據源頭的地方。

-----廣告,請繼續往下閱讀-----

那麼,為什麼需要這樣做?資料放在雲端,集中管理不是更方便嗎?對,就是不好。

當數據在這些邊緣節點進行運算,稱為邊緣運算;而在邊緣節點上運行 AI ,就被稱為邊緣 AI。/ 圖片來源:MotionArray

第一個不好是物理限制:「延遲」。
即使光速已經非常快,數據從你家旁邊的路口傳到幾千公里外的雲端機房,再把分析結果傳回來,中間還要經過各種網路節點轉來轉去…這樣一來一回,就算只是幾十毫秒的延遲,對於需要「即刻反應」的 AI 應用,比如說工廠裡要精密控制的機械手臂、或者自駕車要判斷路況時,每一毫秒都攸關安全與精度,這點延遲都是無法接受的!這是物理距離與網路架構先天上的限制,無法繞過去。

第二個挑戰,是資訊科學跟工程上的考量:「頻寬」與「成本」。
你可以想像網路頻寬就像水管的粗細。隨著高解析影像與感測器數據不斷來回傳送,湧入的資料數據量就像超級大的水流,一下子就把水管塞爆!要避免流量爆炸,你就要一直擴充水管,也就是擴增頻寬,然而這樣的基礎建設成本是很驚人的。如果能在邊緣就先處理,把重要資訊「濃縮」過後再傳回雲端,是不是就能減輕頻寬負擔,也能節省大量費用呢?

第三個挑戰:系統「可靠性」與「韌性」。
如果所有運算都仰賴遠端的雲端時,一旦網路不穩、甚至斷線,那怎麼辦?很多關鍵應用,像是公共安全監控或是重要設備的預警系統,可不能這樣「看天吃飯」啊!邊緣處理讓系統更獨立,就算暫時斷線,本地的 AI 還是能繼續運作與即時反應,這在工程上是非常重要的考量。

所以你看,邊緣運算不是科學家們沒事找事做,它是順應數據特性和實際應用需求,一個非常合理的科學與工程上的最佳化選擇,是我們想要抓住即時數據價值,非走不可的一條路!

邊緣 AI 的實戰魅力:從工廠到倉儲,再到你的工作桌

知道要把 AI 算力搬到邊緣了,接下來的問題就是─邊緣 AI 究竟強在哪裡呢?它強就強在能夠做到「深度感知(Deep Perception)」!

-----廣告,請繼續往下閱讀-----

所謂深度感知,並非僅僅是對數據進行簡單的加加減減,而是透過如深度神經網路這類複雜的 AI 模型,從原始數據裡面,去「理解」出更高層次、更具意義的資訊。

研華科技為例,旗下已有多項邊緣 AI 的實戰應用。以工業瑕疵檢測為例,利用物件偵測模型,快速將工業產品中的瑕疵挑出來,而且由於 AI 模型可以使用同一套參數去檢測,因此品管上能達到一致性,減少人為疏漏。尤其在高產能工廠中,檢測速度必須快、狠、準。研華這套 AI 系統每分鐘最高可處理 8,000 件產品,替工廠節省大量人力,同時確保品質穩定。這樣的效能來自於一台僅有膠囊咖啡機大小的邊緣設備—IPC-240。

這樣的效能來自於一台僅有膠囊咖啡機大小的邊緣設備—IPC-240。/ 圖片提供:研華科技

此外,在智慧倉儲場域,研華與威剛合作,研華與威剛聯手合作,在 MIC-732AO 伺服器上搭載輝達的 Nova Orin 開發平台,打造倉儲系統的 AMR(Autonomous Mobile Robot) 自走車。這跟過去在倉儲系統中使用的自動導引車 AGV 技術不一樣,AMR 不需要事先規劃好路線,靠著感測器偵測,就能輕鬆避開障礙物,識別路線,並且將貨物載到指定地點存放。

當然,還有語言模型的應用。例如結合檢索增強生成 ( RAG ) 跟上下文學習 ( in-context learning ),除了可以做備忘錄跟排程規劃以外,還能將實務上碰到的問題記錄下來,等到之後碰到類似的問題時,就能詢問 AI 並得到解答。

你或許會問,那為什麼不直接使用 ChatGPT 就好了?其實,對許多企業來說,內部資料往往具有高度機密性與商業價值,有些場域甚至連手機都禁止員工帶入,自然無法將資料上傳雲端。對於重視資安,又希望運用 AI 提升效率的企業與工廠而言,自行部署大型語言模型(self-hosted LLM)才是理想選擇。而這樣的應用,並不需要龐大的設備。研華的 SKY-602E3 塔式 GPU 伺服器,體積僅如後背包大小,卻能輕鬆支援語言模型的運作,實現高效又安全的 AI 解決方案。

但問題也接著浮現:要在這麼小的設備上跑大型 AI 模型,會不會太吃資源?這正是目前 AI 領域最前沿、最火熱的研究方向之一:如何幫 AI 模型進行「科學瘦身」,又不減智慧。接下來,我們就來看看科學家是怎麼幫 AI 減重的。

-----廣告,請繼續往下閱讀-----

語言模型瘦身術之一:量化(Quantization)—用更精簡的數位方式來表示知識

當硬體資源有限,大模型卻越來越龐大,「幫模型減肥」就成了邊緣 AI 的重要課題。這其實跟圖片壓縮有點像:有些畫面細節我們肉眼根本看不出來,刪掉也不影響整體感覺,卻能大幅減少檔案大小。

模型量化的原理也是如此,只不過對象是模型裡面的參數。這些參數原先通常都是以「浮點數」表示,什麼是浮點數?其實就是你我都熟知的小數。舉例來說,圓周率是個無窮不循環小數,唸下去就會是3.141592653…但實際運算時,我們常常用 3.14 或甚至直接用 3,也能得到夠用的結果。降低模型參數中浮點數的精度就是這個意思! 

然而,量化並不是那麼容易的事情。而且實際上,降低精度多少還是會影響到模型表現的。因此在設計時,工程師會精密調整,確保效能在可接受範圍內,達成「瘦身不減智」的目標。

當硬體資源有限,大模型卻越來越龐大,「幫模型減肥」就成了邊緣 AI 的重要課題。/ 圖片來源:MotionArray

模型剪枝(Model Pruning)—基於重要性的結構精簡

建立一個 AI 模型,其實就是在搭建一整套類神經網路系統,並訓練類神經元中彼此關聯的參數。然而,在這麼多參數中,總會有一些參數明明佔了一個位置,卻對整體模型沒有貢獻。既然如此,不如果斷將這些「冗餘」移除。

這就像種植作物的時候,總會雜草叢生,但這些雜草並不是我們想要的作物,這時候我們就會動手清理雜草。在語言模型中也會有這樣的雜草存在,而動手去清理這些不需要的連結參數或神經元的技術,就稱為 AI 模型的模型剪枝(Model Pruning)。

-----廣告,請繼續往下閱讀-----

模型剪枝的效果,大概能把100變成70這樣的程度,說多也不是太多。雖然這樣的縮減對於提升效率已具幫助,但若我們要的是一個更小幾個數量級的模型,僅靠剪枝仍不足以應對。最後還是需要從源頭著手,採取更治本的方法:一開始就打造一個很小的模型,並讓它去學習大模型的知識。這項技術被稱為「知識蒸餾」,是目前 AI 模型壓縮領域中最具潛力的方法之一。

知識蒸餾(Knowledge Distillation)—讓小模型學習大師的「精髓」

想像一下,一位經驗豐富、見多識廣的老師傅,就是那個龐大而強悍的 AI 模型。現在,他要培養一位年輕學徒—小型 AI 模型。與其只是告訴小型模型正確答案,老師傅 (大模型) 會更直接傳授他做判斷時的「思考過程」跟「眉角」,例如「為什麼我會這樣想?」、「其他選項的可能性有多少?」。這樣一來,小小的學徒模型,用它有限的「腦容量」,也能學到老師傅的「智慧精髓」,表現就能大幅提升!這是一種很高級的訓練技巧,跟遷移學習有關。

舉個例子,當大型語言模型在收到「晚餐:鳳梨」這組輸入時,它下一個會接的詞語跟機率分別為「炒飯:50%,蝦球:30%,披薩:15%,汁:5%」。在知識蒸餾的過程中,它可以把這套機率表一起教給小語言模型,讓小語言模型不必透過自己訓練,也能輕鬆得到這個推理過程。如今,許多高效的小型語言模型正是透過這項技術訓練而成,讓我們得以在資源有限的邊緣設備上,也能部署愈來愈強大的小模型 AI。

但是!即使模型經過了這些科學方法的優化,變得比較「苗條」了,要真正在邊緣環境中處理如潮水般湧現的資料,並且高速、即時、穩定地運作,仍然需要一個夠強的「引擎」來驅動它們。也就是說,要把這些經過科學千錘百鍊、但依然需要大量計算的 AI 模型,真正放到邊緣的現場去發揮作用,就需要一個強大的「硬體平台」來承載。

-----廣告,請繼續往下閱讀-----

邊緣 AI 的強心臟:SKY-602E3 的三大關鍵

像研華的 SKY-602E3 塔式 GPU 伺服器,就是扮演「邊緣 AI 引擎」的關鍵角色!那麼,它到底厲害在哪?

一、核心算力
它最多可安裝 4 張雙寬度 GPU 顯示卡。為什麼 GPU 這麼重要?因為 GPU 的設計,天生就擅長做「平行計算」,這正好就是 AI 模型裡面那種海量數學運算最需要的!

你想想看,那麼多數據要同時處理,就像要請一大堆人同時算數學一樣,GPU 就是那個最有效率的工具人!而且,有多張 GPU,代表可以同時跑更多不同的 AI 任務,或者處理更大流量的數據。這是確保那些科學研究成果,在邊緣能真正「跑起來」、「跑得快」、而且「能同時做更多事」的物理基礎!

二、工程適應性——塔式設計。
邊緣環境通常不是那種恆溫恆濕的標準機房,有時是在工廠角落、辦公室一隅、或某個研究實驗室。這種塔式的機箱設計,體積相對緊湊,散熱空間也比較好(這對高功耗的 GPU 很重要!),部署起來比傳統機架式伺服器更有彈性。這就是把高性能計算,進行「工程化」,讓它能適應台灣多樣化的邊緣應用場景。

三、可靠性
SKY-602E3 用的是伺服器等級的主機板、ECC 糾錯記憶體、還有備援電源供應器等等。這些聽起來很硬的規格,背後代表的是嚴謹的工程可靠性設計。畢竟在邊緣現場,系統穩定壓倒一切!你總不希望 AI 分析跑到一半就掛掉吧?這些設計確保了部署在現場的 AI 系統,能夠長時間、穩定地運作,把實驗室裡的科學成果,可靠地轉化成實際的應用價值。

-----廣告,請繼續往下閱讀-----
研華的 SKY-602E3 塔式 GPU 伺服器,體積僅如後背包大小,卻能輕鬆支援語言模型的運作,實現高效又安全的 AI 解決方案。/ 圖片提供:研華科技

台灣製造 × 在地智慧:打造專屬的邊緣 AI 解決方案

研華科技攜手八維智能,能幫助企業或機構提供客製化的AI解決方案。他們的技術能力涵蓋了自然語言處理、電腦視覺、預測性大數據分析、全端軟體開發與部署,及AI軟硬體整合。

無論是大小型語言模型的微調、工業瑕疵檢測的模型訓練、大數據分析,還是其他 AI 相關的服務,都能交給研華與八維智能來協助完成。他們甚至提供 GPU 與伺服器的租借服務,讓企業在啟動 AI 專案前,大幅降低前期投入門檻,靈活又實用。

台灣有著獨特的產業結構,從精密製造、城市交通管理,到因應高齡化社會的智慧醫療與公共安全,都是邊緣 AI 的理想應用場域。更重要的是,這些情境中許多關鍵資訊都具有高度的「時效性」。像是產線上的一處異常、道路上的突發狀況、醫療設備的即刻警示,這些都需要分秒必爭的即時回應。

如果我們還需要將數據送上雲端分析、再等待回傳結果,往往已經錯失最佳反應時機。這也是為什麼邊緣 AI,不只是一項技術創新,更是一條把尖端 AI 科學落地、真正發揮產業生產力與社會價值的關鍵路徑。讓數據在生成的那一刻、在事件發生的現場,就能被有效的「理解」與「利用」,是將數據垃圾變成數據黃金的賢者之石!

👉 更多研華Edge AI解決方案
👉 立即申請Server租借

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
文章難易度

討論功能關閉中。

1

2
2

文字

分享

1
2
2
音樂不只仰賴感性,理性的科學知識是認知的基礎。——新銳節目《音樂關鍵字》
鳥苷三磷酸 (PanSci Promo)_96
・2022/08/01 ・2689字 ・閱讀時間約 5 分鐘

  • 文/陳彥諺

我們的生活中充滿了音樂。走在大街上,路邊潮流服飾店家放著節奏明快的流行樂,轉個彎,進入咖啡廳,裏頭播放著的是變化豐富的爵士樂,再戴上耳機,接續手機中上次播放的樂曲,忍不住就跟著旋律搖頭哼唱。

你喜歡音樂嗎?高三的阿辰很喜歡。作為一個喜愛音樂的青少年,他並不滿足於單純的欣賞而已,為了進一步靠近音樂,他還加入搖滾樂社,擔任貝斯手,並且,當談到音樂的相關現象,阿辰總能侃侃說出背後的原理從何而來。

阿辰不僅僅是熱愛音樂的高中生,他的另一個重要身份是——《音樂關鍵字》的男主角。

阿辰不僅僅是熱愛音樂的高中生,他的另一個重要身份是——《音樂關鍵字》的男主角。圖/音樂關鍵字

做音樂的關鍵——理性

《音樂關鍵字》是由客家電視台花費長達三年的時間製作而成,一共八集,每集皆為 10 到 20 分鐘左右,是結合 3D 動畫及原創音樂的科普動畫。

-----廣告,請繼續往下閱讀-----

篇幅雖短,但兼具理性與感性,作為自然科學與人文藝術的對話與結合,《音樂關鍵字》內容一點都不馬虎。除了透過角色之間的有趣互動,傳達有歡笑、有淚水、有世代溝通等橋段的溫暖故事外,更藉由故事為引子,每集說明 2 至 3 個音樂相關的科學知識。

許多人談到「音樂」,便認為那是「感性的產物」,言下之意是,音樂似乎是由抽象的情感所主宰,不過如果要能掌握聲音、有效率的做出自己想要的音樂,背後牽涉的其實是理性的科學原理——理性,是建立認知的基礎。

《音樂關鍵字》藉由故事為引子,每集說明2至3個音樂相關的科學知識。圖/音樂關鍵字

試想,當我們心中有著豐沛情感,想藉由音樂表達出來,該怎麼做呢?首先必須正確了解聲音本身的性質,包含了響度、頻譜、直達聲音、殘響、泛音、共振等聲學知識,也須掌握人體的前庭系統、酬賞系統等生理層面的認知後,才能正確地欣賞、理解且運用,讓音樂順利成為表達情感的媒介。若不能正確掌握音樂知識,便容易發生「怎麼好像怪怪的?」卻說不出所以然,也無從改善的窘況。

科學知識不複雜,《音樂關鍵字》用故事解答

音樂的科學知識聽起來很複雜嗎?一點也不。在《音樂關鍵字》的動畫裡,生硬的聲學知識、艱深的人體系統概念等,透過專業物理教師、音樂顧問提供的知識概念,再經劇組人員以生活事件及場景串連,音樂的科學知識便能在短短十分鐘內,讓人看著影片就已輕鬆掌握。

-----廣告,請繼續往下閱讀-----

比如,EP06〈你好,我叫江東平〉中,藉由青少年阿辰與患有自閉症的江東平,兩人攜手協作共創一曲的故事,讓大眾看見自閉症學童的狀況,以及「音樂」可以如何有效治療,協助自閉症患者逐漸融入常人生活。

在 EP06〈你好,我叫江東平〉中能看見自閉症學童的狀況,以及「音樂」可以如何有效治療,協助自閉症患者逐漸融入常人生活。圖/音樂關鍵字

江東平是高功能自閉症,智商其實和一般人無異,不過由於大腦內的聽覺區附近、額葉、邊緣系統的結構或功能異常,導致自閉症患者出現了社交溝通及語言使用的障礙。腦科學研究進一步指出,在音樂治療的過程,可增強聽覺區附近、額葉、邊緣系統三者的連結,因而增強社交能力、共享式注意力、語言能力等。

青春總是充滿騷動與不安,也因此許多青年朋友們很著迷於重金屬音樂,不過,要如何發出如同野獸般的嘶吼聲同時不傷及喉嚨呢?為什麼當主唱用吼音唱歌,就會聽不清楚歌詞呢?EP03〈吼〉這一集中,從發聲原理切入,給了觀眾十分詳盡的解答。

由於人類有真聲帶與假聲帶,假聲帶位於真聲帶之上。當肺部空氣受到擠壓,從氣管上衝,通過聲帶之間的夾縫造成振動,便會發出聲音。振動真聲帶所發出的聲音,因為振動頻率固定,有清晰的音高,不過吼音特別會用到假聲帶,而假聲帶的振動往往不規律,發出的聲音不具清晰的音高,在音階與聲調不明顯的情況下,就難以聽懂吼音所唱出的歌詞了。

-----廣告,請繼續往下閱讀-----
要如何發出如同野獸般的嘶吼聲同時不傷及喉嚨呢?答案就在 EP03〈吼〉這一集中。圖/音樂關鍵字

《音樂關鍵字》的開篇 EP01〈尋聲〉則是一個在具有科學教育性同時,格外感人的故事。

阿辰喜歡捕捉聲音,自己存錢買了一套錄音設備錄製動物的聲音。某次,在他潛入森林,偶然遇到了一座廢墟,裡頭的鬼魂央求阿辰在陽光出來前,替他們錄製作品。

由於鬼魂不能移駕到專業錄音室,阿辰只能以簡易設備錄音,他注意到了「場域」的限制。由於聲波在遇到障礙物時會反射,當聲波在封閉且無吸音物品的空間裡,便會快速地從四面八方反彈,當反射的時間間隔少於 0.1 秒,就會產生混合餘音,造成「殘響」。不過,阿辰利用他的音樂知識解決問題,順利替鬼魂們錄音,也是在錄音同時,阿辰才發現自己已經遺忘許久的秘密。

最終章 EP08〈搖滾夢想〉,阿辰與高中社團夥伴們站上了搖滾舞台,他們用充滿破壞性與雜質的音樂榮獲第一名,而出生醫生世家的阿棋是他們的重要音樂夥伴。

-----廣告,請繼續往下閱讀-----
最終章 EP08〈搖滾夢想〉,阿辰與高中社團夥伴們站上了搖滾舞台,他們用充滿破壞性與雜質的音樂榮獲第一名。圖/音樂關鍵字

不打算考醫學系的阿棋,家裡的人並不了解他喜愛的搖滾樂,卻願意支持他走一條不同的路,因為阿棋就像是搖滾樂中不能沒有的「雜質」,特殊而豐富的雜質,會使得搖滾樂聽起來格外有渲染力。一個乾淨清楚的樂音,在頻譜軟體上看來是一系列頻率成整數比的泛音,但搖滾樂中為了追求聽覺的刺激,會以特殊演奏技法、效果器等,讓相鄰泛音之間出現雜質,以表現音樂張力。

各大平台皆可收看《音樂關鍵字》

《音樂關鍵字》除了科學知識內容豐富扎實外,3D 動畫也別具風格,視覺也是享受,此外,節目中選用的音樂類型多元,貼合現代人的閱聽喜好,更由專業音樂人譜曲、填詞、配唱,內容好看又好聽。

目前《音樂關鍵字》已上架到客家電視台、Youtube 頻道囉,只要搜尋節目名稱,即可找到收看連結!

此外,精心製作的節目原曲,也可上 StreetVoice節目官網 收聽喔!

-----廣告,請繼續往下閱讀-----
所有討論 1

2

7
0

文字

分享

2
7
0
用 coding 寫出《鋼鐵人》的 AI 助理 Jarvis 有多難?——專訪臺大資工系陳縕儂副教授
科技大觀園_96
・2022/01/04 ・3527字 ・閱讀時間約 7 分鐘

近年來因為人工智慧、大數據、區塊鏈等應用科技快速發展,以及 Google 等科技公司大舉來到臺灣進駐並招聘大量軟體工程師,臺灣頂大的資工科系成為超熱門志願。不過大家對資工系的印象就是要學寫程式,也就是俗稱的 coding,但 coding 在解決什麼問題?今天我們訪問了臺大資工系的陳縕儂副教授,從老師的專業「自然語言處理」(Natural Language Processing,縮寫 NLP)做切入,來帶大家了解資工系究竟在解決什麼問題。

讓 AI 聽得懂人話,就是「自然語言處理」

陳縕儂老師的機器智慧與理解實驗室,主要是針對語言處理及對話系統相關技術進行研發,藉由機器學習技術,透過資料讓機器自動學習,理解人類語言並且進行適當的互動,目標是希望能讓機器的智能比肩人類,甚至超越人類。

陳縕儂教授與實驗室今年參加 Amazon Alexa Prize Taskbot 競賽的研究生們合影。(圖/陳縕儂提供)

「自然語言處理」是資工領域中的一個分支,名字聽起來很抽象,但其實這項學門的目標就是讓電腦可以「聽懂」人類說的話、「理解」語意並給予「回應」,就像鋼鐵人電影中的 AI 助理 Jarvis,鋼鐵人只要說如常說話就可以下達指令,讓 Jarvis 協助生活中各種大小事。

不過理想很飽滿現實卻很骨感,要做到像 Jarvis 這樣有求必應的 AI 助理並不容易,目前市面上的智慧助理如 Apple Siri、Google Assistant 及 Amazon Alexa 都已經隨著 3C 產品普及化了,但很多時候它們仍會說:「很抱歉,我聽不懂你的意思。」可見,從 Siri 到到 Jarvis 仍有很長的一段路要走,但為什麼這是條漫漫長路?——歡迎來到「自然語言處理」的思考領域。

-----廣告,請繼續往下閱讀-----

從「聽懂」到「回應」,AI 必須克服多項關卡

大家可以想像一下,今天要跟一個 AI 互動,通常是透過語音或者文字來下達指令,接著 AI 就會協助我們完成特定的任務,並解決特定的問題。

在這個過程中,有四個主要的環節必須克服,分別是語音辨識 (Automatic Speech Recognition; ASR)、語意理解 (Natural Language Understanding; NLU)、對話決策 (Dialogue Management)、以及語言生成 (Natural Language Generation; NLG),說的白話一點,就是接收你講的話、翻譯成 AI 能理解的指令、要如何處理指令,以及怎麼把回應翻譯成人類能聽懂的聲音或文字。

在這四個環節裡都有相當複雜的問題需要去解決,譬如語音辨識,在技術上通常是將語音訊號直接轉換成文字,讓 AI 去理解,但在將音訊輸入的過程中,就必須要排除掉我們口語中會用的「嗯」、「啊」、「喔」等贅字或不自然的停頓,又或者是新創的流行語、方言、口音……等等的問題必須先解決,才能讓 AI 真的能聽懂人類的自然語言。

在「語意理解」上,要讓 AI 去分析語言或文字的脈絡、理解關鍵字,再找出對應的資料(搜尋資料庫);而「對話決策」更是困難,前面理解了人類的語言或文字表意後,AI 應該要如何回應?可能使用者給的資訊不完整,AI 要追問使用者以釐清問題?又或者在語意理解上有聽不懂的字,得要再次詢問並確認?

-----廣告,請繼續往下閱讀-----

這還只是 AI 面對人類自然語言時,其中幾個回應的選項,真實的對話情境可能更加複雜,而且整個對話過程只要有一個環節正確度不夠高,那 AI 後續也很難準確的回應,只要有一步錯了,就會對後續對話體驗造成負面影響。

不過好消息是,現在的深度學習技術已經相當成熟,只要餵資料給電腦時,告訴他怎麼樣是對、怎麼樣是錯,基本上電腦都可以不斷修正(餵的資料也要夠多),再加上現行語言代表模型的優化,智慧 AI 在特定領域的應用上都有蠻不錯的成果。

AI 處理語音指令的過程。圖/陳縕儂提供

Jarvis 仍遙遠,AI 的新突破是精準翻譯

聊到這幾年 AI 的重要突破,老師提到三年前 Google 所開發的語言代表模型 BERT(Bidirectional Encoder Representations from Transformers),當時 BERT 一出現市面上所有自然語言處理的模型都改採用了它的運作邏輯。相較於過去的語言模型,通常都是餵指定任務的文字來訓練電腦,BERT 是在給電腦任務前,先餵它吃很多的文章或書,接著再提供任務給它。

以翻譯為例,這就好像讓一般人翻譯,跟讀過很多書的人來翻譯一樣,讀過很多書的人懂得字彙跟用法,自然翻譯出來的成品更流暢。

-----廣告,請繼續往下閱讀-----

而 BERT 的技術確實也得到相當好的成效,所以擊敗了當時許多正在開發的語言模型,成為了當前語言模型的基礎。有趣的是,BERT 的前身是一個名為 ELMo(Embeddings from Language Models,與芝麻街角色名字相同)的語言模型,所以 BERT 的開發者們就用芝麻街的角色,來為他們開發出來的語言模型命名。

當前 AI 發展的目標,為它建立「人的常識」

雖然說 NLP 領域在商業與學術上都有相當大的發展空間,但陳老師認為,目前要達到人的「common sense(常識)」對 AI 來說還是非常困難,舉例來說,今天我們跟智慧助理說我今天要跟某某人吃晚餐,這個時候如果是人類的助理,我們可能會聯想到「吃什麼」、「要不要聯絡某某人」、「交通方式是?」……等等與飯局相關的問題,但 AI 目前並沒有辦法執行這麼複雜的互動,還得必須跟 AI 說「幫我訂位」、「幫我叫車」,仍在一個指令一個動作的狀態,這種 AI「common sense」的建立,可說是目前非常有挑戰性的項目。

AI 的開發方向——人類的工作輔具

身為 AI 的設計者,陳縕儂老師認為 AI 會成為輔助人類的一部分,雖然說現階段許多人對於 AI 可以執行我們的工作感到彆扭,但實際上 AI 正在減輕我們的工作量,舉例來說,像是目前醫院已經有在使用協助診斷的 AI,但這樣的 AI 並不會取代醫生的工作,因為 AI 只是提供醫生診斷的相關依據,實務上對於病患的判斷最終還是得由醫生來做。

雖然 AI 已在產業中被廣泛利用,但基本上仍以「人機協作」為大宗,雖然能取代部分人力,但像是創造類型的工作 AI 就幾乎無法獨自完成。至於大家想像中,AI 恐對人類造成威脅的情節,基本上不會發生,因為 AI 是不會憑空出現意識的,AI 威脅人類的可能,比較會是人類不當利用造成的風險,所以在未來 AI 的開發上,基本上會往輔助人類的方向去做應用。

-----廣告,請繼續往下閱讀-----
身為 AI 的設計者,陳縕儂老師認為 AI 會成為輔助人類的一部分。圖/Pixabay

資工領域瞬息萬變,「喜歡新知」很關鍵

談到什麼特質適合來讀資工系,陳縕儂老師認為,數學或是邏輯只是基礎,重要的是「喜歡接受新知」的特質,因為在資工領域瞬息萬變,資訊更新的相當快速,隨時都會有新東西出來,如果不喜歡吸收新知識,讀資工系可能會比較痛苦一點。另外,資工在應用上時常會和不同領域的人做合作,你必須了解對方的需求跟他們的條件,才能設計出能夠幫別人解決問題的方法,而這也是資工有趣的地方。

陳縕儂老師也和我們分享了在他眼中臺灣學生和外國學生的差異,他認為臺灣學生應用網路資源自學的能力非常強,而外國學生則是勇於在課堂上和老師提問並討論,各有各的優點,不過教授也認為由於臺灣學生擅長自己找答案,所以在協作與表達上的可能相較於外國會比較弱一些,但如果這一塊能做到加強,臺灣的學生其實是非常有競爭力的。

陳縕儂副教授認為,臺灣學生在協作與表達上相較於外國學生較弱一些,但若能加強這一塊能力,臺灣學生非常有競爭力。圖/呂元弘攝

最後老師還告訴我們,當初大學時機器學習與 NLP 領域並不是資工領域的主流,一開始只是選擇了自己有興趣的領域,也沒想到近幾年 NLP 會變成現在的顯學,他認為自己真的非常幸運,可以一路延續自己熱愛的主題。

最後的最後,陳縕儂老師建議有意投入資工領域的學員們,可以先了解這個領域需要的先備知識,像是 coding 要用到的程式語言、跟 AI 相關的內容則會牽涉到數學,最後當然就是對知識的熱情和態度,了解之後才比較能判斷這個領域適不適合你,千萬不要因為從眾而選擇。

-----廣告,請繼續往下閱讀-----
-----廣告,請繼續往下閱讀-----
所有討論 2
科技大觀園_96
82 篇文章 ・ 1126 位粉絲
為妥善保存多年來此類科普活動產出的成果,並使一般大眾能透過網際網路分享科普資源,科技部於2007年完成「科技大觀園」科普網站的建置,並於2008年1月正式上線營運。 「科技大觀園」網站為一數位整合平台,累積了大量的科普影音、科技新知、科普文章、科普演講及各類科普活動訊息,期使科學能扎根於每個人的生活與文化中。