1

112
0

文字

分享

1
112
0

遲來的十月新番盤點!藍色時期、古見同學是溝通魯蛇、陰陽眼見子…(上集)

PanSci_96
・2021/11/26 ・2866字 ・閱讀時間約 5 分鐘


泛泛泛科學Podcast這裡聽:

遲來的十月新番終於登場!本集 y 編、A 編聯手出擊,暢聊令人遙想起求學時光的《藍色時期》,劇中描述追夢的掙扎與不甘,讓兩位編輯都頗有感觸;同時,更盤點 《大正處女御伽話》、《古見同學是溝通魯蛇》、《前輩很煩》等「狗糧番」新作讓人小鹿亂撞的看點。

十月的兩部「陰陽眼」題材新作《陰陽眼見子》、《三角窗外是黑夜》,有哪些「男性向福利」讓人大飽眼福?《特斯拉筆記》、《進化果實》等乍看科學題材的作品,又有哪些點值得吐槽?忙於年末工作、期中考的你,也來不及追上月新番的話,這集一次讓你趕上進度!

  • 03:17 獻給藝術追夢者的《藍色時期》

本次的「十月新番」推薦,y 編、A 編主推改編自講談社漫畫的動畫《藍色時期》,描述主角矢口八虎外表雖如不良少年,但實際上是品學兼優的高校生,卻為空乏的校園生活感到焦慮。一日,卻在看見森學姊的美麗油畫後,動念想執起畫筆,考取國立東京藝術大學。原作漫畫作者山口飛翔即是該校畢業生,因此漫畫畫風十分精緻,y 編、A 編也讚許動畫的還原度很高,尤其劇中啟發主角轉變人生方向的油畫畫作,也表現得十分擬真而精細。

-----廣告,請繼續往下閱讀-----
  • 07:48 兩位編輯也做過「美術夢」

如同《藍色時期》主角八虎,兩位編輯也都在求學時有過「美術夢」。A 編高中熱愛畫漫畫,曾在班上連載班刊,曾思索想考取藝術相關大學,但因家裡不支持,最終轉而就讀物理系;y 編則受愛畫畫的父親影響,國中考取美術班卻失利。她也提及曾為泛科學創作「泛科娘」的好友,也因對畫畫有高度熱情,從生技公司離職成為全職的創作者。如今已是「大叔年齡」的兩位編輯,更對劇中台詞:「把喜歡的事物當成興趣是大人考慮的事。」心有戚戚焉。

  • 13:14 難以投射「人生勝利組」主角的心境?

兩位編輯在觀賞《藍色時期》,也回想起許多求學時經歷的糾結,與對未來的恐慌不安。y 編亦表示,主角八虎有時太像「人生勝利組」,其餘角色反而比較好理解,例如:八虎的同學高橋世田介,極有美術天份卻認為自己僅是凡人,但又礙於才華過於耀眼,而無法成為真正的自己;又或者喜愛男扮女裝的美術社成員鮎川龍二,呈現在社會壓迫下,創作者努力表現自我、追逐自由的面向。

  • 16:48 《大正處女御伽話》廢物也能獲得真愛

十月有多部討論熱度高的「狗糧番」新作,包含 《大正處女御伽話》。劇情設定於大正時期,少爺珠彥歷劫車禍,不僅失去母親、右手癱瘓,更被父親拋棄於深山別墅,同時也邂逅父親「買」來讓他作為未婚妻的少女夕月,兩人日久生情,令珠彥重拾對人生的希望。編輯們把此動畫,推薦給有少女心、對大正時期文化感興趣的聽眾,A 編也將主角形容如《文豪野犬》的主角太宰治,有該時代人物內心空虛、對時局絕望的特性。

  • 21:00《古見同學是溝通魯蛇》與「鄧巴數」的關聯性

《古見同學是溝通魯蛇》描繪美少女古見硝子外冷內熱,有溝通障礙而難以與他人社交,希望結交到 100 位朋友,藉以破除心魔。y 編聯想到由英國學者 Robin Dunbar 提出的「鄧巴數」(Dunbar’s number),指出人類社會由層層人際網絡構成,每層網絡代表不同程度的友誼,彼此環環相扣。Dunbar也假設,每人皆會有 1、2 個最交心的朋友或伴侶、5 個較為親密的朋友、15 個好的朋友、50 個朋友、150 個點頭之交,並認定 150 段關係即是人際關係的上限。

-----廣告,請繼續往下閱讀-----

延伸閱讀:阿宅哪有這麼懂 social!開始由科學切入人際吧 ——《人類使用說明書》推薦序

  • 28:30 最萌身高差的職場浪漫作《前輩很煩》

 《前輩很煩》描述個頭嬌小的主角五十嵐進入職場,卻被性格粗獷的前輩武田誤認為是中學生,導致五十嵐對前輩印象不佳,兩人卻也在日後密切互動下,展開職場之戀。A 編開玩笑形容兩角色的配對,就外型上猶如「猩猩配上松鼠」,劇情中規中矩,推薦給喜歡身高差、反差萌的聽眾,可作為生活中的精神糧食。

  • 30:13 《陰陽眼見子》動畫多了「男性向福利」

上月難得有兩部「陰陽眼題材」動畫同時登場,其中一部為《陰陽眼見子》。劇情敘述女高中生見子,有天突然開「陰陽眼」看見鬼怪,面對一夕之間改變的人生,她選擇佯裝「視而不見」,繼續維持其日常生活。A 編意外表示,漫畫原作並無太多「男性向福利」,但動畫裡卻是滿滿的福利。

延伸閱讀:靈魂有多重?如何研究鬼魂?鬧鬼又是怎麼一回事?──《活見鬼》從科學角度討論超自然研究

  • 32:33 《三角窗外是黑夜》的「偽BL」共感接觸

另一部陰陽眼新作則是 《三角窗外是黑夜》,描述能看見靈體的書店店員三角,意外發覺自己的特殊體質,便加入除靈師冷川理人的事務所成為助手,協助調查連續殺人事件。兩位編輯認為,劇中除靈師、靈媒感知靈體的方式各有不同十分有趣,不過當兩位主角聯合「共感」接觸靈體時,會有許多「偽 BL 」的對話與動作,令毫無防備的 A 編觀賞時,不免感到一陣驚慌。

  • 38:23 根據《空之境界》能寫出小論文?

過去,y 編也曾根據動畫《空之境界》內容,寫過「陰陽眼」題材的小論文。主角橙子具有「直死之魔眼」,動畫中曾形容此技能就像「切換到不同頻道」,因此看到的事物與一般人不同。y 編也形容《陰陽眼見子》、 《三角窗外是黑夜》具陰陽眼的主角,更像「無法轉換頻道」,才會持續看到靈體。雖然科學界目前能證實陰陽眼存在與否,相關研究也甚少,但仍不妨礙我們觀賞相關作品。

-----廣告,請繼續往下閱讀-----
  • 42:12 《特斯拉筆記》&《進化果實》的吐槽時間

十月亦有兩部科學題材動畫,讓編輯們忍不住「吐槽」其設定。《特斯拉筆記》描繪主角們組隊,試圖回收天才發明家特斯拉的遺產,藉此影響時空,但 A 編對突兀的忍者主角設定頗感困惑。《進化果實》則描繪外型其貌不揚、具有體臭的主角,吃下「進化果實」變為帥哥,而愛上主角的母猩猩吃下果實,亦「進化」為人類。 y 編則對此糾正,猩猩與人類的連結在於有共同祖先,經長年演化變為兩種相異物種,因此「猩猩並不會進化為人類」。

延伸閱讀:人與黑猩猩究竟有什麼差異?

下集節目,y 編與 A 編會再傾囊相授,介紹他們這一季還看了哪些動漫,也會回應各位聽眾們熱情的回覆!

文章難易度
所有討論 1
PanSci_96
1226 篇文章 ・ 2337 位粉絲
PanSci的編輯部帳號,會發自產內容跟各種消息喔。

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

0

3
0

文字

分享

0
3
0
OpenAI 新突破!為什麼 Sora 可以產出這麼流暢的動畫?你不可錯過的技術文件大解密!
泛科學院_96
・2024/02/26 ・2968字 ・閱讀時間約 6 分鐘

什麼?不需要拍攝團隊與剪輯師,一句話就可以生成短片?!

OpenAI 近來發布的短影片生成器——Sora,能依據各種「咒語」生成難分真偽的流暢影片。

是什麼技術讓它如此強大?讓我們來一探究竟吧!

你被 Sora 了嗎?這幾天 Sora 佔據了各大版面,大家都在說 OpenAI 放大絕,不止 YouTuber,連好萊塢都要崩潰啊啊啊!

但真有這麼神嗎?我認真看了下 Sora 的官方說明以及參考資料,發現這東西,還真的挺神的!這東西根本不是 AI 取代人或單一產業,而是 AI 變成人,根本是通用型人工智慧 AGI 發展的里程碑啊!

別怕,要讓 Sora 為你所用,就先來搞懂到底是什麼神奇的訓練方法讓 Sora 變得那麼神,這就要從官網說明中唯一的斜體字——diffusion transformer 說起了。

這集我們要來回答三個問題,第一,Sora 跟過去我們產圖的 Midjourney、Dall-E,有什麼不同?第二,Diffusion transformer 是啥?第三,為什麼 Diffusion transformer 可以做出這麼絲滑的動畫?

-----廣告,請繼續往下閱讀-----

最後,我想說說我的感想,為什麼我會覺得 Sora 很神,不只是取代坐在我旁邊的剪接師,而是 AI 變人的里程碑。

我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了,從 logo 到寫真集都能代勞,他的原理我們在泛科學的這裡,有深入的解說,簡單來說就像是逐格放大後,補上圖面細節的過程。不過如果你要讓 Diffusion 產影片,那後果往往是慘不忍睹,就像這個威爾史密斯吃麵的影片,每一格影格的連續性不見得相符,看起來就超級惡趣味。

要影格連續性看來合理……咦?像是 GPT-4 這種 tranformer 模型,不是就很擅長文字接龍,找關聯性嗎?要是讓 transformer 模型來監督 Diffusion 做影片,撒尿蝦加上牛丸,一切不就迎刃而解了嗎?

沒錯,OpenAI 也是這樣想的,因此才把 Sora 模型稱為「Diffusion transformer」,還在網站上用斜體字特別標示起來。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

但說是這樣說啦,但 transformer 就只會讀文本,做文字接龍,看不懂影片啊,看不懂是要怎麼給建議?於是,一個能讓 transformer 看懂圖片的方式——patch 就誕生啦!

ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token 玩文字接龍,產生有連續性且有意義句子和文章。

那 Patch 呢?其實就是圖片版的 token,讓 ChatGPT 可以用圖片玩接龍,玩出有連貫性的圖片。

Sora 官方提供的訓練說明圖上,最後所形成的那些方塊就是 patch,這些 patch 是包含時間在內的 4D 立體拼圖,可以針對畫面與時間的連續性進行計算。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

那這個 patch 要怎麼做呢?以 Sora 提供的參考文獻 15 來說明會比較容易懂,patch 是將影像切成一樣等大的區塊後,進行編碼、壓縮,產生類似 ChatGPT 能分析的文字語意 token。

有了這些 patch 後,Transformer 就可以計算 patch 之間的關聯性形成序列,例如論文中被分割在中上與右上的兩塊藍天,就會被分類在天空,之後算圖的時候,就會知道這兩塊 patch 是一組的,必須一起算才行。

也就是說,畫面上的這塊天空已經被鎖定,必須一起動。

雖然這篇論文只提圖片,但影片的處理只要再加上 patch 間的先後順序,這樣就能讓 transformer 理解隨時間改變的演化。

-----廣告,請繼續往下閱讀-----

同樣是上面被鎖定的天空,多了先後順序,就相當於是增加了前一個影格與後一個影格限制條件,讓這塊天空在畫面中移動時,被限縮在一定範圍內,運動軌跡看起來更加合理。

而他的成果,就是在 Sora 官網上看到的驚人影片,那種絲滑的高畫質、毫無遲滯且高度合理、具有空間與時間一致性的動作與運鏡,甚至可以輕易合成跟分割影片。

不過啊,能把 Sora 模型訓練到這個程度,依舊是符合 OpenAI 大力出奇跡的硬道理,肯定是用了非常驚人的訓練量,要是我是 Runway 或 Pika 這兩家小公司的人,現在應該還在咬著牙流著血淚吧。別哭,我相信很多人還是想要看威爾史密斯繼續吃義大利麵的。

在訓練過程中,Sora 從提取影像特徵,到形成有意義的 patch,到最後串聯成序列,如果你接觸過認知心理學,你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列,可以說 Sora 已經接近複製人類認知過程的程度。

-----廣告,請繼續往下閱讀-----

這邊是我的推測,影片中那些逼真的物理效果,不是有特定的物理模型或遊戲引擎在輔助,而是在 patch 的訓練與序列推理中,就讓 Sora 理解到要讓物體這樣動,看起來才會是真實的,這跟 GPT-4 並不需要文法引擎是一樣的,只要玩文字接龍,就能生成流暢又有邏輯的文字跟代碼。但這也是為什麼,GPT 依舊很會胡說八道,產生幻覺。如果不是這樣,我很難想像 Sora 會算出這種影片。

Sora 能理解並產生人類眼睛能接收的視覺影片,同樣的技術若能做出聽覺、觸覺等其他人類感官,這樣我們被 AI 豢養的時刻是不是就越來越近了呢?

後 Sora 時代到底會發生什麼事,老實講我不知道,上面提到的 diffusion transformer 或 patch,都是近一年,甚至是幾個月前才有研究成果的東西。

臉書母公司 Meta 的首席人工智慧科學家 Yann Lecun 也在他自己的臉書公開抨擊 Sora 這種基於像素預測的技術註定失敗,但這篇感覺比較像是對自己的老闆 Zuckerberg 喊話:「欸這沒戲,不要叫我學 Sora,拿寶貴的運算資源去搞你的元宇宙。」是說今年初就有新聞說祖老闆 2024 年預計買超過 35 萬顆 H100 處理器,這明顯就是要搞一波大的吧,這就是我想要的血流成河。

-----廣告,請繼續往下閱讀-----

而且,從去年 ChatGPT 出來開始,我感覺就已經不是討論 AI 會怎麼發展,而是要接受 AI 必定會發展得越來越快,我們要怎麼面對 AI 帶來的機會與衝擊。

我們去年成立泛科學院,就是希望跟大家一起,透過簡單易懂的教學影片,把對 AI 的陌生跟恐慌,變成好奇與駕馭自如。Sora 或類似的模型應該可以協助我把這件事做得更好,可惜的的是目前 OpenAI 僅開放 Sora 給內部的 AI 安全團隊評估工具可能帶來的危害與風險,另外就是與少數外部特定的藝術家、設計師跟電影製片人確保模型用於創意專業領域的實際應用,若有新消息,我會再即時更新。

最後也想問問你,若能用上 Sora,你最想拿來幹嘛呢?歡迎留言跟我們分享。喜歡這支影片的話,也別忘了按讚、訂閱,加入會員,下集再見~掰!

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

討論功能關閉中。

泛科學院_96
44 篇文章 ・ 51 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

0

2
0

文字

分享

0
2
0
鑑識故事系列:用立體動畫呈現分屍遺骸
胡中行_96
・2022/09/19 ・1956字 ・閱讀時間約 4 分鐘

一名英國女子失蹤了,警方展開搜索。事件發生前,曾與該女子一同出現的男人,不僅在她失蹤隔天購買地毯,新地毯的下面還殘留血跡。經 DNA 鑑定,是她的血液無誤。於是這個男人和他的夥伴,被以綁架及謀殺的罪嫌逮捕。[1]

接著,警方從兩個相互間隔 25 公尺的棄屍處,找到用黑色塑膠袋包裹的人類遺骸。屍體看起來曾遭火燒,而且可能被動物碰過。當地的醫院初步驗屍,發現缺少胸部、左腿與左腳掌。所幸這些部位於二週後,在上述棄屍地點附近被尋獲。警方將所有屍塊蒐集起來,委託給英國 Warwick 大學的數位掃描與 3D 列印鑑識中心(Forensic Centre for Digital Scanning and 3D Printing),希望他們深入研究。[1]

碎屍萬段的遺骸,該如何拼湊回來?圖/Viktor Forgacs on Unsplash

女子的屍體被兇手碎屍萬段,其中 12 塊帶有骨頭,警方與醫院把後者裝進密封的塑膠盒中,送去大學的鑑識中心。鑑識團隊決定以顯微電腦斷層掃描(micro-computed tomography,簡稱 micro-CT),錄存其未受侵入性檢驗的原貌。[1]一般電腦斷層掃描(簡稱 CT是用不同角度的平面X光攝影,來產出立體的影像;而 micro-CT,則是特別設計來研究直徑 1 mm 到 20 cm 物件的高畫質 CT。[2]

辨識各屍塊的骨骼部位,並逐一編號。圖/參考資料1,Figure 1(CC BY 4.0)

鑑識團隊辨別各屍塊的骨骼部位,例如:顱骨或是頸椎第幾節等;將它們逐一編號;記錄掃描所使用的機器型號、影像處理軟體以及立體像素;並以視覺呈現的方式,描述屍體創傷的位置、尺寸和類型,好比:刮痕或切割等。[1]特別是被害人骨骸的幾個支解點附近,共有 14 處被反覆割傷的痕跡,[1]正是兇手分屍決心的展現。[3]這些都被納入鑑識報告。[1]

標示出創傷的位置。圖/參考資料1,Figure 3(CC BY 4.0)
紅色箭頭處,為反覆切割的痕跡。圖/參考資料1,Figure 2(CC BY 4.0)

Micro-CT 有許多優點:

-----廣告,請繼續往下閱讀-----
  1. 在數位檢驗的過程中,能有效率地排除與謀殺、分屍等無關的傷害。[1]比方說,如果有個人在被殺害前,曾經自己意外摔斷腿,骨折的舊傷不應被判讀為兇案證據。
  2. 以 X 光為基礎,包含 micro-CT 在內的技術,能夠分別物質密度。因此,可以用來過濾骨頭上軟組織的影像。檢驗人員沒必要花數週,用物理浸漬法(physical maceration),[1]戴乳膠手套,拿鑷子、手術刀和絲瓜布等工具,剝除骨頭上的組織,並用水清洗。[4]這回團隊僅佔用遺體4天,然後就把它送去殯儀館,明顯減少家屬等候領屍的時間。[1]此外,物理浸漬法有不小心破壞證據的風險,[4]能避免絕對是好事。
  3. 雖然此案屍體的身份是經由 DNA 鑑定,但將來若有其他屍體的 DNA 已遭破壞,依然能經由 micro-CT 的影像比對,拼湊形狀吻合的遺骸碎片。[1]
  4. 在家屬同意下,可將未經侵入性檢驗的屍骨影像完整保存,集中建立資料庫,以便未來研究時搜尋。[1]

不過,沒有一種科技是完美的,micro-CT 仍有其限制:

  1. 從掃描、分析到製作法庭上要用的簡報,團隊還是耗費了大約 10 個小時,而且要訓練過的專業人員才有辦法操作。[1]
  2. 龐大的數據、專業的軟體,以及安全的資料儲存,都得要高階的電腦設備配合。這次的案子之所以有此機會,是基於警方和學術圈緊密的合作關係。換句話說,其他行政區的警政單位,未必能複製此經驗。[1]
在法庭上,以動畫呈現被害人顱骨的各個角度。圖/參考資料1,Figure 5(CC BY 4.0)

這份報告若僅是警方辦案的根據也罷,然而要定二名兇嫌的罪,還必須讓沒有鑑識背景的陪審團理解證據。鑑識團隊為此準備了一組能從各個角度觀看創傷,而且不被其他身體部位遮蔽的 micro-CT 動畫,安插在投影片裡,方便檢方在法庭上,搭配鑑識病理學家的證詞做簡報。相較於直接展示原始的碎屍照片,這種方法既可減輕陪審團的心理負擔,又不至於犧牲關鍵資訊。[1]

最後,在檢警與鑑識團隊合作無間的努力下,二名加害人被以謀殺罪名,判處終身監禁。[1]

  

-----廣告,請繼續往下閱讀-----

參考資料

  1. MSc KA, Norman DG, Baier W, et al. (2022) ‘Advantages of micro-CT in the case of a complex dismemberment’. Journal of Forensic Sciences, 67, 3, pp. 1258-1266.
  2. Jay Black. ‘Micro-Computed Tomography’. University of Melbourne. (Accessed on 13 SEP 2022)
  3. Symes SA, Chapman EN, Rainwater CW, et al. (DEC 2010) ‘Knife and Saw Toolmark Analysis in Bone: A Manual Designed for the Examination of Criminal Mutilation and Dismemberment’. The U.S. Department of Justice.
  4. Couse T & Connor M. (2015) ‘A Comparison of Maceration Techniques for Use in Forensic Skeletal Preparations’. Journal of Forensic Investigation, 3 (1): 6.
胡中行_96
169 篇文章 ・ 65 位粉絲
曾任澳洲臨床試驗研究護理師,以及臺、澳劇場工作者。 西澳大學護理碩士、國立台北藝術大學戲劇學士(主修編劇)。邀稿請洽臉書「荒誕遊牧」,謝謝。