2

0
0

文字

分享

2
0
0

玩三滴記

timd_huang
・2011/05/18 ・2940字 ・閱讀時間約 6 分鐘 ・SR值 533 ・七年級

有人這麼說,大人和小孩的差異在哪裡?答案是「玩具的不同」,比方說,大人玩大車,小人玩小車,都還是車;對我來說,此說真是受用,人生嘛!如果從腦神經的結構來說,會玩的人,人生才會過得有趣,活得愉快,微笑過人生,沒有浪費在世走一趟。

不過,我們老中,卻有很(太)多扳著面孔太嚴肅過人生的,他們對於「玩」這個字很過敏,想是被一個成語所害,人生苦短,怎可「玩物喪志」呢?聖賢書不是教導我們要:「勤有功、戲無益」嗎?所以整天從早到晚,神經緊繃得兮兮的,還沒有幾歲,身體就開始討債,各種毛病接二連三,蒙主恩報到去,唯恐不及。

其實,科學家們研究小狗狗發現,如果小狗狗從小就不讓牠們好好的玩,整天玩,這種小狗學習不了謀生的伎倆,長不大,也會很快夭折;我們人類,不也只是千萬生物的一種?難道我們可以逃得開大自然生物的宿命嗎?自從體會到這一點之後,我的人生態度有了很大的轉變,雖然不見得別人能理解、肯理解,我都以「玩」的心情來面對人生,「玩」中文電腦、「玩」催眠、「玩」石頭,好家在,在這三個不是我大學本行的領域,我這烏手老「玩」童,都還出「玩」了一點點名堂來,看來人生沒有虛度。

最近從亦生亦友借到了一台桌上型三滴(3D)雷射掃描機,當然非常的興奮,也宣佈了「桌上三維數位化(Desktop 3Digitizing)革命」時代的來臨,從今之後,想將某個物件,透過雷射三維掃描,變成數位化的模型,甚至利用三維列印技術,製作出各種放大縮小的複製品出來,已經不是高不可攀的學術象牙塔科目,你我小老百姓,只要有興趣,都可好好地「玩」「玩」。

-----廣告,請繼續往下閱讀-----

所以,當借到了這個設備之後,雖然需要使用那個被我罵得臭頭非人用的視窗,我還是花了好多天,好好地「玩」它一「玩」,把手邊的一些化石,從大的到小的,都拿出來「玩」它一「玩」,看到這些實體的化石,在自己的桌上「蛻變」成虛擬的三滴模型,在電腦上任我把玩,放大縮小、左轉右旋、切片貼皮、…,太爽了,比做愛還爽。

從學習製作桌上三滴模型的過程中發現,對於雞蛋大小以上的化石物件,這台桌上型三滴掃描機的操作,只要照著所附軟體的指示一步步做,就可以得到所要的虛擬三維模型,我所得到的成果,已經放到網路我的「臉書(FaceBook)」和「你管(YouTube)」,歡迎大家也去「玩」,過過乾癮;在此,我也把它們列出來。

不過,我是個鐵齒的「玩」家,從小就很調皮,讓親友大人們非常頭痛,既然要「玩」,我總要(會)「玩」出一點名堂來,總像頑童那樣,想測試一下這套系統的極限,試試看它最小能掃描到什麼程度;哈!在到目前為止所做的十多個學習製作當中,就以這個長度只有5.12 mm、中央直徑只有2.1 mm的恐龍胚胎脊椎骨(以下第14個視訊檔案),花了最多的時間,超過兩個禮拜,老是得不到可以接受的成績單來,真是苦惱;不過,經過這家公司的工程人員不停地討論和指導,加上自己不停地摸索,終於得到雖不絕對滿意、但可以拿出來給人看的成品;在這過程中,當然學習到了一兩招祕招,如該怎麼樣把樣本放在掃描架子上,如何防止轉盤所引發的震動、…等等,也得到一個很有用的參考資料:這台三滴掃描機的最小掃描物件極限,也就是所謂的邊界條件(Boundary Condition),大約在5 mm左右,若比此更小,就有可能無法完成。

1. 檔案名稱:Ediacaran3D.m4v
這個樣本是我第一個取得的埃迪卡拉紀巨型實體化石,其上的生物,我紀念媽媽特別命名為「黃楊清蓮體」;化石物件長度:15.7 cm,寬度8 cm,厚度4.7 cm;影片展示X, Y, 和Z軸的旋轉。

-----廣告,請繼續往下閱讀-----

2. 檔案名稱:Ediacaran 2.mov
這個樣本是我第二次到現場取得的埃迪卡拉紀巨型實體化石,其上的生物也是「黃楊清蓮體」的一部份;化石物件長度:8 cm,寬度7 cm,厚度4.3 cm。

3. 檔案名稱:Ediacaran3.mov
這個樣本是我第一次到現場取得的埃迪卡拉紀巨型實體化石,其上的生物也是「黃楊清蓮體」的一部份;化石物件長度:10.7 cm,寬度6.7 cm,厚度4.2 cm。

4. 檔案名稱:Ediacaran4.mov
這個樣本是最早期老鄉給的埃迪卡拉紀巨型實體化石,其上有「朵西繩蟲(Funisia dorthea)」的小片段,約2 cm 長,整塊上面還很多種有待鑑定命名的生物,這塊化石和下面那塊,原本連在一起;化石物件長度:16.2 cm,寬度11.4 cm,厚度4 cm。

5. 檔案名稱:Ediacaran5.mov
這個樣本是最早期老鄉給的埃迪卡拉紀巨型實體化石,其上有很多種有待鑑定命名的生物,這塊化石和上面那塊,原本連在一起;化石物件長度:25.2 cm,寬度17.2 cm,厚度4.5 cm。

-----廣告,請繼續往下閱讀-----

6. 檔案名稱:Ediacaran6.mov
這個樣本是最早期老鄉給的埃迪卡拉紀巨型實體化石,也是到目前為止所採集最大塊的樣本,其上有「黃楊清蓮體」的一部份,也有很多種有待鑑定命名的生物;化石物件長度:26.4 cm,寬度20 cm,厚度6.5 cm。

7. 檔案名稱:Ediacaran – 7 DoubleTubes.mov
這個樣本是第二次到現場取得的埃迪卡拉紀巨型實體化石,兩個管狀生物直徑一大(3.6 cm)一小(1.9 cm)並排在一起,也有一些有待鑑定命名的生物;化石物件長度:15.5 cm,寬度7.6 cm,厚度4.4 cm。

8. 檔案名稱:Ediacaran – 8 BigTube.mov
這個樣本是最早期老鄉給的埃迪卡拉紀巨型實體化石,也是到目前為止所採集最大的管狀生物樣本,該管的直徑有6 cm,也有些有待鑑定命名的生物;化石物件長度:18.2 cm,寬度10.3 cm,厚度9.6 cm。

9. 檔案名稱:Chinglian_huangyangMockUp.mov
這是完整「黃楊清蓮體」的重建模型,透過研究多次到現場考察採集到的眾多片段,推論出此生物可能的整體形狀;模型物件長度:17.1 cm,寬度9.5 cm,厚度1.4 cm。

-----廣告,請繼續往下閱讀-----

10. 檔案名稱:Phalange.mov
這個樣本採集於2006年「黃大一生日點」,其形狀顯示骨頭病變,可以看出這個趾骨的恐龍,當時是活得痛苦的頗腳恐龍,它和下一個爪子在一起;化石物件長度:7.9 cm,寬度6.5 cm,厚度4.6 cm。

11. 檔案名稱:Claw2.mov
這個樣本採集於2006年「黃大一生日點」,它和上一個病變趾骨的在一起,可以看出這個趾骨的恐龍,當時是活得痛苦的頗腳恐龍;化石物件長度:10.7 cm,寬度4.6 cm,厚度4 cm。

12. 檔案名稱:UpperJaw.mov
這個樣本是2005年我帶著喜願兒阿德到雲南祿豐大洼、完成他短暫人生中與恐龍面對面的願望過程中,我和他一起挖到的,特別感心有意義;牠是原蜥腳類恐龍(很可能是祿豐龍)的上頜骨,裡面還有兩根沒有長出來的牙齒;化石物件長度:16.3 cm,寬度6.2 cm,厚度3 cm。

13. 檔案名稱:EmbryoCast.mov
這是我2003年撿到、2009年鑑定出來,我所發現世界上最古老恐龍胚胎樣本的複製品,(原樣本研究中,暫時不在我手中,先以複製品做三滴掃描);此恐龍胚胎化石,與南非所發現大椎龍的胚胎化石,同屬於晚三疊紀早侏羅紀地層,意義非常重大;化石物件長度:7.1 cm,寬度6 cm,厚度2.2 cm。

-----廣告,請繼續往下閱讀-----

14. 檔案名稱:Embryonic Vertebrae.mov
這個世界最古老恐龍胚胎的脊椎骨,長度 5.12 mm,中央部份直徑 2.1 mm;在骨頭旁邊的紅塊為 0.5 mm的參考標誌;用NextEngine 3D Scanner HD掃描很(太)小,花了大約兩個禮拜;樣本採集於2010年3月,發現該化石點是個世界最古老恐龍孵育場所;正在進行國際兩岸合作科研計畫;本視訊短片,也以X, Y, 和Z軸的旋轉展示。

15. 檔案名稱:Bauculite.mov
這個樣本是2008年暑假帶著台灣小朋友和家長到美國蒙大拿挖恐龍行程中撿到的,回來之後清理拋光,六千五百萬年前桿菊石的紋路非常漂亮;化石物件長度:9 cm,寬度4.7 cm,厚度2.6 cm。

16. 檔案名稱:echino.mov
這個樣本是十多年前在台年玉井採集到的「台灣林西海膽(Linthia taiwanensis)」,記得當時發現的時候,它就如此的乾淨溜溜躺在大塊石頭上,不用任何工具,只用手把它撿起來;化石物件長度:6.2 cm,寬度5 cm,厚度3.4 cm。

本文原發表於催眠恐龍[2010-11-08]

-----廣告,請繼續往下閱讀-----
文章難易度
所有討論 2
timd_huang
24 篇文章 ・ 0 位粉絲
跟我玩恐龍去!

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

0

3
0

文字

分享

0
3
0
OpenAI 新突破!為什麼 Sora 可以產出這麼流暢的動畫?你不可錯過的技術文件大解密!
泛科學院_96
・2024/02/26 ・2968字 ・閱讀時間約 6 分鐘

什麼?不需要拍攝團隊與剪輯師,一句話就可以生成短片?!

OpenAI 近來發布的短影片生成器——Sora,能依據各種「咒語」生成難分真偽的流暢影片。

是什麼技術讓它如此強大?讓我們來一探究竟吧!

你被 Sora 了嗎?這幾天 Sora 佔據了各大版面,大家都在說 OpenAI 放大絕,不止 YouTuber,連好萊塢都要崩潰啊啊啊!

但真有這麼神嗎?我認真看了下 Sora 的官方說明以及參考資料,發現這東西,還真的挺神的!這東西根本不是 AI 取代人或單一產業,而是 AI 變成人,根本是通用型人工智慧 AGI 發展的里程碑啊!

別怕,要讓 Sora 為你所用,就先來搞懂到底是什麼神奇的訓練方法讓 Sora 變得那麼神,這就要從官網說明中唯一的斜體字——diffusion transformer 說起了。

這集我們要來回答三個問題,第一,Sora 跟過去我們產圖的 Midjourney、Dall-E,有什麼不同?第二,Diffusion transformer 是啥?第三,為什麼 Diffusion transformer 可以做出這麼絲滑的動畫?

-----廣告,請繼續往下閱讀-----

最後,我想說說我的感想,為什麼我會覺得 Sora 很神,不只是取代坐在我旁邊的剪接師,而是 AI 變人的里程碑。

我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了,從 logo 到寫真集都能代勞,他的原理我們在泛科學的這裡,有深入的解說,簡單來說就像是逐格放大後,補上圖面細節的過程。不過如果你要讓 Diffusion 產影片,那後果往往是慘不忍睹,就像這個威爾史密斯吃麵的影片,每一格影格的連續性不見得相符,看起來就超級惡趣味。

要影格連續性看來合理……咦?像是 GPT-4 這種 tranformer 模型,不是就很擅長文字接龍,找關聯性嗎?要是讓 transformer 模型來監督 Diffusion 做影片,撒尿蝦加上牛丸,一切不就迎刃而解了嗎?

沒錯,OpenAI 也是這樣想的,因此才把 Sora 模型稱為「Diffusion transformer」,還在網站上用斜體字特別標示起來。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

但說是這樣說啦,但 transformer 就只會讀文本,做文字接龍,看不懂影片啊,看不懂是要怎麼給建議?於是,一個能讓 transformer 看懂圖片的方式——patch 就誕生啦!

ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token 玩文字接龍,產生有連續性且有意義句子和文章。

那 Patch 呢?其實就是圖片版的 token,讓 ChatGPT 可以用圖片玩接龍,玩出有連貫性的圖片。

Sora 官方提供的訓練說明圖上,最後所形成的那些方塊就是 patch,這些 patch 是包含時間在內的 4D 立體拼圖,可以針對畫面與時間的連續性進行計算。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

那這個 patch 要怎麼做呢?以 Sora 提供的參考文獻 15 來說明會比較容易懂,patch 是將影像切成一樣等大的區塊後,進行編碼、壓縮,產生類似 ChatGPT 能分析的文字語意 token。

有了這些 patch 後,Transformer 就可以計算 patch 之間的關聯性形成序列,例如論文中被分割在中上與右上的兩塊藍天,就會被分類在天空,之後算圖的時候,就會知道這兩塊 patch 是一組的,必須一起算才行。

也就是說,畫面上的這塊天空已經被鎖定,必須一起動。

雖然這篇論文只提圖片,但影片的處理只要再加上 patch 間的先後順序,這樣就能讓 transformer 理解隨時間改變的演化。

-----廣告,請繼續往下閱讀-----

同樣是上面被鎖定的天空,多了先後順序,就相當於是增加了前一個影格與後一個影格限制條件,讓這塊天空在畫面中移動時,被限縮在一定範圍內,運動軌跡看起來更加合理。

而他的成果,就是在 Sora 官網上看到的驚人影片,那種絲滑的高畫質、毫無遲滯且高度合理、具有空間與時間一致性的動作與運鏡,甚至可以輕易合成跟分割影片。

不過啊,能把 Sora 模型訓練到這個程度,依舊是符合 OpenAI 大力出奇跡的硬道理,肯定是用了非常驚人的訓練量,要是我是 Runway 或 Pika 這兩家小公司的人,現在應該還在咬著牙流著血淚吧。別哭,我相信很多人還是想要看威爾史密斯繼續吃義大利麵的。

在訓練過程中,Sora 從提取影像特徵,到形成有意義的 patch,到最後串聯成序列,如果你接觸過認知心理學,你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列,可以說 Sora 已經接近複製人類認知過程的程度。

-----廣告,請繼續往下閱讀-----

這邊是我的推測,影片中那些逼真的物理效果,不是有特定的物理模型或遊戲引擎在輔助,而是在 patch 的訓練與序列推理中,就讓 Sora 理解到要讓物體這樣動,看起來才會是真實的,這跟 GPT-4 並不需要文法引擎是一樣的,只要玩文字接龍,就能生成流暢又有邏輯的文字跟代碼。但這也是為什麼,GPT 依舊很會胡說八道,產生幻覺。如果不是這樣,我很難想像 Sora 會算出這種影片。

Sora 能理解並產生人類眼睛能接收的視覺影片,同樣的技術若能做出聽覺、觸覺等其他人類感官,這樣我們被 AI 豢養的時刻是不是就越來越近了呢?

後 Sora 時代到底會發生什麼事,老實講我不知道,上面提到的 diffusion transformer 或 patch,都是近一年,甚至是幾個月前才有研究成果的東西。

臉書母公司 Meta 的首席人工智慧科學家 Yann Lecun 也在他自己的臉書公開抨擊 Sora 這種基於像素預測的技術註定失敗,但這篇感覺比較像是對自己的老闆 Zuckerberg 喊話:「欸這沒戲,不要叫我學 Sora,拿寶貴的運算資源去搞你的元宇宙。」是說今年初就有新聞說祖老闆 2024 年預計買超過 35 萬顆 H100 處理器,這明顯就是要搞一波大的吧,這就是我想要的血流成河。

-----廣告,請繼續往下閱讀-----

而且,從去年 ChatGPT 出來開始,我感覺就已經不是討論 AI 會怎麼發展,而是要接受 AI 必定會發展得越來越快,我們要怎麼面對 AI 帶來的機會與衝擊。

我們去年成立泛科學院,就是希望跟大家一起,透過簡單易懂的教學影片,把對 AI 的陌生跟恐慌,變成好奇與駕馭自如。Sora 或類似的模型應該可以協助我把這件事做得更好,可惜的的是目前 OpenAI 僅開放 Sora 給內部的 AI 安全團隊評估工具可能帶來的危害與風險,另外就是與少數外部特定的藝術家、設計師跟電影製片人確保模型用於創意專業領域的實際應用,若有新消息,我會再即時更新。

最後也想問問你,若能用上 Sora,你最想拿來幹嘛呢?歡迎留言跟我們分享。喜歡這支影片的話,也別忘了按讚、訂閱,加入會員,下集再見~掰!

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

討論功能關閉中。

泛科學院_96
44 篇文章 ・ 51 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

2

2
0

文字

分享

2
2
0
【2023 年搞笑諾貝爾化學與地質獎】舔石頭以外,猛獁象竟是海龜湯?
寒波_96
・2023/10/20 ・2211字 ・閱讀時間約 4 分鐘

-----廣告,請繼續往下閱讀-----

搞笑諾貝爾獎每年都是新的開始,2023 年也不例外。今年「第 33 次第一屆搞笑諾貝爾獎」頒發十個獎項,「化學與地質獎」以看似獵奇的舔石頭博取不少眼球,不過得主揚.扎拉謝維奇( Jan Zalasiewicz)的文章中,其實還提到另一件知名的歷史公案。

1951 年晚宴真相,竟然是海龜湯?!圖/americanoceans

1951 年晚宴真相,竟然是海龜湯?!圖/americanoceans

文學史上用味覺帶出情節,最知名的案例之一是普魯斯特的小說《追憶似水年華》開頭,由瑪德蓮的味道切入,接著進入意識的海洋游泳。扎拉謝維奇的文章開頭,也從品嚐岩石的味道切入,自由切換不同的題材。

地質學家為什麼要舔石頭?《舌頭、石頭,迸出新滋味?科學家為什麼要舔石頭?——2023 搞笑諾貝爾獎》一文有精簡介紹。最主要的理由是,缺乏現代儀器之際,舌頭可謂方便的化學感應器,能提供有用的資訊。

-----廣告,請繼續往下閱讀-----

當然,即使有了現代儀器,舌頭還是很方便的工具。

處於意識流科學史中,扎拉謝維奇的文章從舌頭感應器,十分合理地切換到一場宴會。那場 1951 年的晚宴中,據說提供猛獁象肉製作的餐點。

這場晚宴由美國的「探險俱樂部(The Explorers Club)」舉行,主辦方宣稱當天有道菜,來自已經滅絕的動物大地懶(Megatherium)。但是幾天後有報紙披露,宴會中的奇珍異獸不是大地懶,而是來自阿留申群島,25 萬年久遠的猛獁象!

1951 年保存至今的晚餐。圖/取自 參考資料3

-----廣告,請繼續往下閱讀-----

奇妙的是,當天的餐點竟然有少量樣本被保留至今。當時沒有參加的豪威斯(Paul Griswold Howes)寫信要到一份樣本,一直保存到他去世為止。後來樣本輾轉來到耶魯大學的皮博迪自然史博物館(Yale Peabody Museum)。

那一餐到底是大地懶,還是猛獁象呢?2014 年,耶魯大學的研究生葛拉斯(Jessica Glass)等人成功由樣本中取得 DNA,結果在 2016 年發表。比對之下相當明顯,答案是綠蠵龜。

現今綠蠵龜是保育類動物,合法的狀況下沒有機會吃到。然而 1951 年那個時候,綠蠵龜尚未面臨滅團威脅,仍然是普遍的食材。

區區綠蠵龜製成的海龜湯,當然無法彰顯晚宴的尊絕不凡。不過俱樂部宣稱的大地懶,怎麼又會變成猛獁象?

-----廣告,請繼續往下閱讀-----

最可疑的是當天在場的俱樂部成員尼可斯(Herbert Bishop Nichols),他也是基督科學箴言報(The Christian Science Monitor)的科學編輯。可考的記錄中,他第一個對外提出相關描述,後來被視為吃猛獁象的證據。

海龜湯的幾位相關人猿。(A) 據說將食材從北極帶回的極區探險家 Father Bernard Rosecrans Hubbard。(B) 極區探險家 George Francis Kosco。(C) 晚宴主辦人 Wendell Phillips Dodge。(D) 保存樣本的 Paul Griswold Howes。圖/取自 參考資料3

如果真的是那道菜的材料,那麼狀況就是:俱樂部用綠蠵龜做菜,宣稱是大地懶,報紙以訛傳訛寫成猛獁象。

「吃猛獁象」之類的傳聞,雖然不是嚴謹的科學,卻因為有噱頭而容易引人注目。作為沒多少負面影響的玩笑,也沒有人想要特別澄清。使得這類事件的真相,往往不了了之。

-----廣告,請繼續往下閱讀-----

儘管沒有特別獲得搞笑諾貝爾獎關注,對於這道海龜湯的追根究底,倒是相當符合搞笑諾貝爾獎的精神。

海龜湯以後,扎拉謝維奇的文章意識又跳躍到另一種已經滅團的生物:貨幣蟲(Nummulites)。許多古生物,當初也是其他古生物的食物。儘管擁有堅硬的外殼保護,貨幣蟲這種生物依然有機會成為美食。

1912 年的時候,英國古生物學家庫克派崔克(Randolph Kirkpatrick)提出一個觀點:地球有一段時間存在非常大量的貨幣蟲,後來它們變成稱為「貨幣球(Nummulosphere)」的地層,是地殼岩石的源頭。

看起來很搞笑,可是庫克派崔克是認真的。所以他即使生在現代,應該也沒有獲得搞笑諾貝爾獎的機會。

-----廣告,請繼續往下閱讀-----

2023 年搞笑諾貝爾獎頒獎典禮影片(化學與地質獎從 10:18 開始):

延伸閱讀

參考資料

  1. The 33rd First Annual Ig Nobel Prizes
  2. Eating fossils
  3. Was Frozen Mammoth or Giant Ground Sloth Served for Dinner at The Explorers Club?
  4. Mammoth meat was never served at 1950s New York dinner, says researcher

本文亦刊載於作者部落格《盲眼的尼安德塔石匠》暨其 facebook 同名專頁

所有討論 2
寒波_96
193 篇文章 ・ 1066 位粉絲
生命科學碩士、文學與電影愛好者、戳樂黨員,主要興趣為演化,希望把好東西介紹給大家。部落格《盲眼的尼安德塔石器匠》、同名粉絲團《盲眼的尼安德塔石器匠》。