0

11
1

文字

分享

0
11
1

泛知識節紀實:Mouse 編和他愉快的小夥伴──泛科學動畫是如何誕生的?

泛知識節
・2019/03/14 ・1639字 ・閱讀時間約 3 分鐘 ・SR值 577 ・九年級

  • 文/林立芸

科普社群泛科學以科普文章起家,並在 2015 年推出系列動畫,以生動而簡單的畫面帶大家窺探背後的科學知識。這次,2016 泛・知識節便邀請到泛科學的動畫團隊,分享動畫製作過程。

本場講座以「Mouse 編和他的愉快小夥伴」為主題,主編雷雅淇一開始先問大家有沒有看過泛科學動畫、或是有從事動畫相關工作的夥伴,現場有不少人舉手。

雷雅淇介紹,泛科學的動畫系列以「科學大爆炸」為名,不同主題的動畫會在社群上接觸到不同的受眾,例如《咖啡迷思與提神攻略》動畫便有美容 SPA 粉絲專頁分享。目前,泛科動畫團隊已經製作將近 40 支動畫,榮登目前最多人次觀看的是《小強!你怎麼了小強》系列影片,加上臉書分享總共有 500 多萬次觀看。

 

左起為主編雷雅淇、動畫師 Tino、繪師林梳雲。

從零到一:泛科動畫製作大解析

接著,雷雅淇舉《 夏日大作戰:防蚊攻略 & 迷思 》動畫為例,說明泛科動畫團隊製作「從無到有」製作動畫的流程。

「每隻動畫大約需要 6 週的時間製作,包括從腳本發想、分鏡繪製、動畫繪製、動畫製作、後製音效到音效合成,音效較專業的部分還需另外和外部團隊合作。而多數人大多會問,為什麼要選定這個主題?」

-----廣告,請繼續往下閱讀-----

她說,主題的發想可分類為:時事(聖誕節)、生活科學(負離子吹風機)、冷科學(相對論)、編輯私心熱愛領域(青蛙)或宅科學(搞笑諾貝爾獎)、甚至是聚焦台灣土地(土壤液化)等等,通常從這些大方向開始,再經由編輯們開會討論限縮題目,最後擬定出具體製作主題。

以《夏日大作戰:防蚊攻略&迷思 》為例,當時為 5 月,原本想聚焦 2016 里約奧運帶來的茲卡病毒議題,加上剛好台灣開始關心南部的登革熱疫情,因此想做些結合時事又兼具生活教育的內容,最後發想出《夏日大作戰:防蚊攻略&迷思 》題目。「泛科學背後有上百位專業的作者擔任顧問群,寫好腳本後,我們也會找具備該領域的專業顧問審查。」

 

自創角色:Mouse 編

動畫繪製者 ─ 林梳雲負責的是整部動畫的視覺呈現,包含場景、物件、角色設計。「動畫繪製是繪製、也是設計,可以說是在顧及自身作畫的質與量。必須正確掌握分鏡的內容,才能在忠實描繪畫風的同時,也使整部作品從單純的意念,轉化為展現給他人看的畫面。」

她也提到設計 Mouse 編的趣事,「主角 Mouse 編,其實代表著『白老鼠』默默為科學界貢獻,這些實驗室小白鼠是奠定科學家很多理論和來源的重要功臣。我們的角色也不適合畫人類,因為人會與現實生活中的人有所對應。」

-----廣告,請繼續往下閱讀-----

 

Mouse 編以實驗室小白鼠為原型

動畫師的浪漫:動態的準確與細緻

動畫師 Tino 說:「能在泛科團隊中做原創動畫,是很幸福的一件事情。台灣的動畫師常因為商業需求或各種考量,無法隨心所欲做自己想做的事情;迎合時事做的內容也會有時間限制。泛科學的知識內容不會因時間改變,而且對社會有意義價值存在。」

他認為,動畫師最重要的技能可以歸納成一個重點:將平面的動畫繪製圖,轉化成連續動作,因此,動畫師需要拿捏動態的準確性與細緻性。

Tino 說自己曾為了畫出穿高跟鞋的動態感,在辦公室穿高跟鞋模擬;在畫《新世紀福音戰士》的角色使徒時,也不斷在辦公室模擬丟標槍,嘗試呈現動作的準確性。

「雖然,一般人並不會看見這些細節,大家通常關心動畫好不好看,喜不喜歡;但是將觀眾喜歡的、投射的做出來,便是動畫師的價值所在。」

浪漫後的現實:做動畫的美麗與艱辛

當然,身為科普社群,泛科動畫最常遇到的問題還是資料的正確性。三人笑說,泛科學動畫總能引出該領域中的民間高手,在臉書留言串討論「這個結論正確嗎?」、「數字正確嗎?」而對團隊來說,引起正反兩方的討論是常見的,或者換個角度想:影片下方長長的留言串,對團隊來說正是最大的動力來源之一。

-----廣告,請繼續往下閱讀-----

聊到之後想嘗試的泛科動畫主題,生物、太空、經濟、地科、料理、心理…「只能說有太多想做,永遠沒辦法做到滿足啊。」主編雷雅淇說。

文章難易度
泛知識節
24 篇文章 ・ 4 位粉絲
從「科學太重要了,所以不能只交給科學家」,到「科學家太重要了,所以不能只懂科學」,再到「知識太重要了,所以不能讓它關在牆裡」,「泛知識節」為泛科知識召集之年度大型活動,承繼 PanSci 泛科學年會的精神與架構,邀請「科學」「科技」「娛樂」「旅行」四個領域的專家與耕耘者,一同談說、分享、攻錯。 這是一個大型的舞台,我們在此治茶拂席,虛位以待,請你上座。

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

0

3
0

文字

分享

0
3
0
OpenAI 新突破!為什麼 Sora 可以產出這麼流暢的動畫?你不可錯過的技術文件大解密!
泛科學院_96
・2024/02/26 ・2968字 ・閱讀時間約 6 分鐘

什麼?不需要拍攝團隊與剪輯師,一句話就可以生成短片?!

OpenAI 近來發布的短影片生成器——Sora,能依據各種「咒語」生成難分真偽的流暢影片。

是什麼技術讓它如此強大?讓我們來一探究竟吧!

你被 Sora 了嗎?這幾天 Sora 佔據了各大版面,大家都在說 OpenAI 放大絕,不止 YouTuber,連好萊塢都要崩潰啊啊啊!

但真有這麼神嗎?我認真看了下 Sora 的官方說明以及參考資料,發現這東西,還真的挺神的!這東西根本不是 AI 取代人或單一產業,而是 AI 變成人,根本是通用型人工智慧 AGI 發展的里程碑啊!

別怕,要讓 Sora 為你所用,就先來搞懂到底是什麼神奇的訓練方法讓 Sora 變得那麼神,這就要從官網說明中唯一的斜體字——diffusion transformer 說起了。

這集我們要來回答三個問題,第一,Sora 跟過去我們產圖的 Midjourney、Dall-E,有什麼不同?第二,Diffusion transformer 是啥?第三,為什麼 Diffusion transformer 可以做出這麼絲滑的動畫?

-----廣告,請繼續往下閱讀-----

最後,我想說說我的感想,為什麼我會覺得 Sora 很神,不只是取代坐在我旁邊的剪接師,而是 AI 變人的里程碑。

我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了,從 logo 到寫真集都能代勞,他的原理我們在泛科學的這裡,有深入的解說,簡單來說就像是逐格放大後,補上圖面細節的過程。不過如果你要讓 Diffusion 產影片,那後果往往是慘不忍睹,就像這個威爾史密斯吃麵的影片,每一格影格的連續性不見得相符,看起來就超級惡趣味。

要影格連續性看來合理……咦?像是 GPT-4 這種 tranformer 模型,不是就很擅長文字接龍,找關聯性嗎?要是讓 transformer 模型來監督 Diffusion 做影片,撒尿蝦加上牛丸,一切不就迎刃而解了嗎?

沒錯,OpenAI 也是這樣想的,因此才把 Sora 模型稱為「Diffusion transformer」,還在網站上用斜體字特別標示起來。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

但說是這樣說啦,但 transformer 就只會讀文本,做文字接龍,看不懂影片啊,看不懂是要怎麼給建議?於是,一個能讓 transformer 看懂圖片的方式——patch 就誕生啦!

ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token 玩文字接龍,產生有連續性且有意義句子和文章。

那 Patch 呢?其實就是圖片版的 token,讓 ChatGPT 可以用圖片玩接龍,玩出有連貫性的圖片。

Sora 官方提供的訓練說明圖上,最後所形成的那些方塊就是 patch,這些 patch 是包含時間在內的 4D 立體拼圖,可以針對畫面與時間的連續性進行計算。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

那這個 patch 要怎麼做呢?以 Sora 提供的參考文獻 15 來說明會比較容易懂,patch 是將影像切成一樣等大的區塊後,進行編碼、壓縮,產生類似 ChatGPT 能分析的文字語意 token。

有了這些 patch 後,Transformer 就可以計算 patch 之間的關聯性形成序列,例如論文中被分割在中上與右上的兩塊藍天,就會被分類在天空,之後算圖的時候,就會知道這兩塊 patch 是一組的,必須一起算才行。

也就是說,畫面上的這塊天空已經被鎖定,必須一起動。

雖然這篇論文只提圖片,但影片的處理只要再加上 patch 間的先後順序,這樣就能讓 transformer 理解隨時間改變的演化。

-----廣告,請繼續往下閱讀-----

同樣是上面被鎖定的天空,多了先後順序,就相當於是增加了前一個影格與後一個影格限制條件,讓這塊天空在畫面中移動時,被限縮在一定範圍內,運動軌跡看起來更加合理。

而他的成果,就是在 Sora 官網上看到的驚人影片,那種絲滑的高畫質、毫無遲滯且高度合理、具有空間與時間一致性的動作與運鏡,甚至可以輕易合成跟分割影片。

不過啊,能把 Sora 模型訓練到這個程度,依舊是符合 OpenAI 大力出奇跡的硬道理,肯定是用了非常驚人的訓練量,要是我是 Runway 或 Pika 這兩家小公司的人,現在應該還在咬著牙流著血淚吧。別哭,我相信很多人還是想要看威爾史密斯繼續吃義大利麵的。

在訓練過程中,Sora 從提取影像特徵,到形成有意義的 patch,到最後串聯成序列,如果你接觸過認知心理學,你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列,可以說 Sora 已經接近複製人類認知過程的程度。

-----廣告,請繼續往下閱讀-----

這邊是我的推測,影片中那些逼真的物理效果,不是有特定的物理模型或遊戲引擎在輔助,而是在 patch 的訓練與序列推理中,就讓 Sora 理解到要讓物體這樣動,看起來才會是真實的,這跟 GPT-4 並不需要文法引擎是一樣的,只要玩文字接龍,就能生成流暢又有邏輯的文字跟代碼。但這也是為什麼,GPT 依舊很會胡說八道,產生幻覺。如果不是這樣,我很難想像 Sora 會算出這種影片。

Sora 能理解並產生人類眼睛能接收的視覺影片,同樣的技術若能做出聽覺、觸覺等其他人類感官,這樣我們被 AI 豢養的時刻是不是就越來越近了呢?

後 Sora 時代到底會發生什麼事,老實講我不知道,上面提到的 diffusion transformer 或 patch,都是近一年,甚至是幾個月前才有研究成果的東西。

臉書母公司 Meta 的首席人工智慧科學家 Yann Lecun 也在他自己的臉書公開抨擊 Sora 這種基於像素預測的技術註定失敗,但這篇感覺比較像是對自己的老闆 Zuckerberg 喊話:「欸這沒戲,不要叫我學 Sora,拿寶貴的運算資源去搞你的元宇宙。」是說今年初就有新聞說祖老闆 2024 年預計買超過 35 萬顆 H100 處理器,這明顯就是要搞一波大的吧,這就是我想要的血流成河。

-----廣告,請繼續往下閱讀-----

而且,從去年 ChatGPT 出來開始,我感覺就已經不是討論 AI 會怎麼發展,而是要接受 AI 必定會發展得越來越快,我們要怎麼面對 AI 帶來的機會與衝擊。

我們去年成立泛科學院,就是希望跟大家一起,透過簡單易懂的教學影片,把對 AI 的陌生跟恐慌,變成好奇與駕馭自如。Sora 或類似的模型應該可以協助我把這件事做得更好,可惜的的是目前 OpenAI 僅開放 Sora 給內部的 AI 安全團隊評估工具可能帶來的危害與風險,另外就是與少數外部特定的藝術家、設計師跟電影製片人確保模型用於創意專業領域的實際應用,若有新消息,我會再即時更新。

最後也想問問你,若能用上 Sora,你最想拿來幹嘛呢?歡迎留言跟我們分享。喜歡這支影片的話,也別忘了按讚、訂閱,加入會員,下集再見~掰!

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

討論功能關閉中。

泛科學院_96
44 篇文章 ・ 51 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

0

1
0

文字

分享

0
1
0
激盪全民對科普的想像!Open Call 成果展 5 月 26 日盛大登場
PanSci_96
・2023/05/10 ・1712字 ・閱讀時間約 3 分鐘

國科會首度向全國高中職及大專院校廣下英雄帖,舉辦「Open Call 科普 創意松」,得獎名單已揭曉,並將於今(112)年 5 月 26 日在臺北松山文創園區一號倉庫進行頒獎及展示得獎作品,當日將結合國科會科普活動計畫及科普產品製播計畫成果一同展出,讓各界能藉此機會相互激盪對科普的想像!

兼顧科普傳播與社會需求,將學生科普創意轉換為未來社會影響力

聚焦校園年輕世代所舉辦的「Open Call 科普創意松」徵件活動,分「科普創意提案」及「科普短片徵件」兩類,鼓勵高職中職及大專院校學生,透過多元科普傳播模式和影音創作發揮社會影響力。

自去(111)年 8 月底啟動徵件,有將近 90 所學校、400 多隊報名、超過 1200 人次的師生參與。在學子創意孵化的過程中,國科會也邀請業界各領域執牛耳的輔導業師,透過業師陪伴及前後世代的交流互動,優化學子的提案創意並強化其作品未來之可行性。

「科普創意提案」獲獎案例展現出青年學子對於科學教育、環境永續、生 態保育、偏鄉孩童心理輔導等議題的關注與熱情,並嘗試透過創新的科普傳播手法為在地社會議題尋求新解方。

-----廣告,請繼續往下閱讀-----

大專組金獎由來自臺北醫學大學及中國醫藥大學合組團隊「醫線教育」獲得,該團隊跨區域、跨校號召志同道合夥伴,針對疾病診斷邏輯,設計互動式教具與課程,幫助國內外大學生模擬情境以銜 接基礎知識在臨床的應用,獲評審們一致認同是難能可貴的社會實踐行動。

高中職組金獎,由彰化二林工商的「哇哈哈科學服務團」團隊獲獎,該團隊以在地高中職學生為出發點,率先成立科學服務社團,學習科技教育知識,再教導鄰近國中小學童,達到自助人助,進一步儲備種子志願團,由受助者變成助人者,形成良善循環機制,不僅將科學教育資源帶入偏鄉,培養在地科學人才, 且結合科學教育與地方文化,對地方經濟和社會發展有正面且積極的影響。

科普短片類大專組金獎作品為清華大學「清大天文社」之〈進擊的黑洞:類星體〉,該創作短片從熱門的科學新聞切入,呼應天文迷對於黑洞的好奇心, 片中穿插許多令人會心一笑的譬喻與橋段,風趣又不失其意涵。

高中職組金獎作品,是由虎尾高中「動感光波」團隊所創作之短片〈光通訊〉,主要講述以 發射器(燈泡)產生之光訊號,經由接收、轉換成電訊號,進而發出特定音階, 透過生動活潑的表演和拍攝手法,故事情節可愛清新,搭配簡易動畫和資訊圖卡,讓影片具知識性及趣味性。

-----廣告,請繼續往下閱讀-----

當日除了展示 21 個來自校園學子的獲獎科普創意,下午在舞台區會放映獲獎的 11 支科普短片及科普產品製播計畫影片,內容生動更兼具知識性與教育性,讓民眾沉浸於深入淺出的科學知識寶庫與科普視聽饗宴。

精選年度科普活動計畫作品及科普產品製播影片成果同步展出

國科會為持續推動全民科普,使科學教育不僅走入校園、更深入大眾生活,今年首度集結科普相關計畫 45 個團隊共同展出成果,國內長期推動科普、第一線面對學子的科普推手,為本次展覽設計豐富多元的科學演示,將深奧的科研成果轉化為各年齡層易懂的手作互動實驗等,包括循環材料與物件微展覽、 原住民文化數學數位教材、科普桌遊、AI 自駕車模擬行駛、植物染手作體驗、 蝴蝶科普解謎遊戲等有趣又豐富的科普體驗;此外,「數感盃中英文數學詩創作競賽」的創作成果,也將在展場中幻化為 24 公尺長的「數學詩牆」,當縝密精準的數學與柔軟詩意的文學交會,迸發出跨域創作的科普新火花!歡迎大小朋友帶著好奇心一同共襄盛舉!

活動官網

Open Call 頒獎典禮暨科普成果展」活動資訊

  • 時間:2023 年 5 月 26 日(星期五)上午 10:00 ~ 下午 5:00
  • 地點:臺北松山文創園區一號倉庫(信義區光復南路 133 號)
  • 展覽活動詳情請上活動官網:www.opencall-nstc.org.tw
PanSci_96
1226 篇文章 ・ 2337 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。