0

1
2

文字

分享

0
1
2

量子電腦到底有多霸氣?終極「密碼戰」即將引爆?

研之有物│中央研究院_96
・2020/01/13 ・5169字 ・閱讀時間約 10 分鐘 ・SR值 521 ・七年級

國民法官生存指南:用足夠的智識面對法庭裡的一切。

本文轉載自中央研究院研之有物,泛科學為宣傳推廣執行單位

  • 採訪編輯|郭雅欣、美術編輯|林洵安

量子電腦與密碼學

2019 年 10 月 Google 宣布實現「量子霸權」,全世界都驚呆了!量子電腦已經無所不能了嗎?其實量子霸權的意義在於:人類已經讓量子電腦做到一件古典電腦很難達成的事。不過,量子電腦的進度條的確正快速更新,未來可能帶給人類巨大的福祉,但也會顛覆現今保護我們隱私的加密系統。

中研院資訊科學研究所鐘楷閔副研究員,形容密碼學就像一場好人與壞人的戰爭,站在量子密碼學研究前緣的他,將為研之有物的讀者揭密這場沒有煙硝的資安保衛戰。

中研院資訊科學研究所鐘楷閔副研究員,專長為理論計算機科學、量子密碼學、量子複雜度理論……換成白話,就是一位在資訊科學所用理論 / 數學研究方法研究資訊科學的科學家,專攻量子計算如何影響密碼學,及其潛力與極限。
攝影│林洵安

量子電腦跟傳統電腦差在哪?

量子電腦和傳統電腦的不同,在於它利用了各種神奇的量子特性,也就是當我們以微觀的角度觀察這個世界時,那些與巨觀世界不同的特性,像是讓薛丁格的貓介於死和沒死之間的「疊加態」,或是兩個量子即使相距很遠,仍舊會依據對方狀態而決定自己當下狀態的「纏結效應」。(有關量子效應可參考「研之有物」相關文章 量子電子元件 hen 夯,但如何掌握像情人心難測的量子位元?) 當電腦擁用這些比科幻還科幻的量子特性,將克服古典電腦無法解決的難題。

不過,鐘楷閔立刻猛劃重點強調:

量子電腦不是無所不能,或是每秒鐘能做的事情比較多,它只在某些「特定(但很重要)問題」上,有比古典電腦更快的解法,只需要更少的空間和步驟。

舉例來說,未來量子電腦可能用於模擬細菌的固氮作用,將大大提升農業上製造氮肥的效率。因為細菌進行固氮作用時,有些關鍵步驟具有量子效應,模擬這些效應的複雜度將超越了古典電腦的極限。而量子電腦「剛剛好」是以量子效應運作,當然較有希望成功。

不幸的是,量子電腦可攻克的「特定問題」,也包括時刻保護我們交易安全和隱私的加密系統……

堅不可摧的加密系統

登入網購平台,輸入帳號密碼,選好商品放入購物車(又剁了好幾根手指)之後,再填好地址及電話,按下結帳,輸入信用卡卡號,接下來只要等商品來到家門口,啊~多美好的日常……等等,你算過在剛剛那五分鐘裡,親手傳出多少個人資訊嗎?這個問題細思極恐,事實上不必太擔心,因為密碼學正默默保護著我們。

早在兩千年前凱撒大帝打仗時,就懂得使用「暗號」來保護軍事書信。只有知道暗號的人可以「解讀」信件內容,對於不知道暗號的敵人來說,就算拿到書信也只是一堆亂碼。

但這套方式有個致命傷,那就是「如何一開始讓所有合法的使用者拿到一樣的暗號,又不會讓暗號外洩呢?」當代的密碼學家想出一套稱為「非對稱加密 」的方式,利用成對的公鑰和私鑰來加密暗號,公鑰就像是一個蓋上就鎖住的盒子,私鑰是可以打開這個盒子的鑰匙。如此一來,就能讓素昧平生的合法使用者,先利用比較安全的非對稱加密傳遞暗號,接下來就能靠暗號祕密通訊了。當你登入網購平台買東西,你的電腦和平台之間的通訊,就是透過類似的方式保護你的個資。

舉例來說,當顧客登入網路書店,申請刷卡購買「研之有物」的新書。網路書店會立刻製造一對公鑰和私鑰,把公鑰傳給客戶的電腦。客戶端的電腦再將自己的暗號,以公鑰加密後傳回網路書店。壞人沒有私鑰,就算中途攔截了信息也無法破解。最後,網路書店用私鑰解密,得到客戶的暗號,接下來就可以靠暗號傳送信用卡卡號等個資了。

細心的讀者可能會有疑問:那為什麼不直接把所有訊息透過非對稱加密傳遞,還需要先傳暗號,再用暗號保護訊息呢?原因在於,非對稱加密的效率非常低,而透過暗號加密(稱為對稱式加密)的效率很高。因此,目前網路架構中,僅利用非對稱加密傳遞短短的暗號,接下來主要的通訊就使用高效率的對稱式加密。
圖說設計│ 林洵安、黃曉君

當然,網路上並不是真的有一個盒子在傳輸!目前的加密系統能如此安全,關鍵是它的核心有一個難以解開的數學難題,需要公鑰加上私鑰才能解開。所以即使壞人拿到加了密的訊息,沒有私鑰還是解不了密碼。

這類數學難題很多,像是超大數字的質因數分解。隨機找兩個很大的質數相乘 ,比如 97 乘上 113 ,就會得到一個超大數字 10961 ,很簡單吧?但是,如果一開始給你 10961,你算得出它是哪兩個質數相乘嗎?

這不是國小老師偷懶沒教,而是人類還沒找到有效率的方法(多項式時間的演算法)來計算質因數分解這類問題。所以理論上,只要數字夠大,即使是全世界性能最強大的超級電腦,也可能花費上萬年才能破解。

簡言之,加密系統核心的數學難題愈困難,古典電腦就需要花愈長的時間破解,加密系統也就愈安全。

破解古典密碼,量子電腦 hen 會

然而,現今密碼學看似堅不可破的數學難題,在量子電腦的面前變得不堪一擊。因為這些問題的答案都可以轉化成週期性的結構,剛好量子電腦擅長破解。(哭哭)

什麼是週期性結構?再以質因數分解問題舉例:想要找出 N 這個數字是由哪兩個質數 (P 與 Q) 相乘所得,可以先任意選擇一個數字 A ,用 A 去除 N ,得到一個餘數 a1 ,接下來依序用 A2 、 A3 、 A4 ……不斷地除 N ,就會得到餘數 a1 、 a2 、 a3 、 a4 ……最後某一次的操作,餘數會回到 a1 ,形成週期性的結構。一旦能找到週期,就能「比較有效率」的分解 N。

不過,對於古典電腦來說,當數字相當巨大時,尋找餘數的週期仍是十分困難的任務,但對於具有疊加作用的量子電腦,卻是小事一樁。

總之,目前我們所仰賴的加密系統,在量子電腦出現之後將變得不再安全……可是 IBM 、 Google 不斷更新量子電腦發展的進度條,我們已經暴露在資訊外洩的風險之下了嗎?

別擔心!小亞瑟還沒長成惡魔小丑

其實,量子電腦目前還只是個嬰孩階段。以 Google 用來實現量子霸權的量子電腦來說,只有 53 個位元。

相較古典電腦,早在 1970 年即已發布 Intel 1103 ,為容量 1 kb (1024 位元) 的記憶體。「古典電腦如果只有 53 個位元的記憶體,連程式都沒辦法寫,英文字母只能存 7 個,可以想像現在的量子電腦 Size 有多迷你。」鐘楷閔笑著繼續解釋:「而且如果把 Google 做的事情畫成一個量子電路,這台電腦能執行的電路深度最多只有 20 層。」翻譯成大白話,意思是:每個位元只能運算 20 次!

「20 次?!這麼少?」你發現重點了!量子位元操作時很容易受到環境影響而壞掉, 20 次的操作已是目前的極限。

Google 公布的 53 個位元量子電腦。上圖每個灰色 X 皆是一個量子位元,白色的 X 是壞掉的量子位元,下圖為幾公分大的量子電腦晶片,量子位元統統擠在這小小的晶片中。
圖片來源│《Nature》

不只如此, Google 這次霸氣外漏的宣告,他們讓量子電腦做的事情,其實是……模擬量子電腦自己!「哈哈,這題目有點作弊嫌疑啦!不過,這依然是一個很重要的結果,證明了即使現在量子電腦這麼小,已經可以做到一件古典電腦做不到的事了。」鐘楷閔笑著解釋。

這個任務有多難?如果古典電腦試圖模擬同樣的量子系統,必須先將量子態用 0 與 1 記錄下來,再計算這些 0 與 1 經過 20 次量子運算會有什麼改變,最後才能得到結果。可是古典電腦光是要把這 53 個量子位元的狀態寫下來,就需要 253 個位元的空間,更別提運算和模擬了! 根據 Google 論文宣稱,古典電腦要完成這件事得花一萬年,但這臺小小的量子電腦只需花 200 秒。

Google 實驗的意義在於:我們已經可以控制 53 個量子位元完成 20 次的操作,這是一件目前古典電腦做不到的事。

但是,這距離真正「有用」的量子電腦還有很遠的路!拿量子電腦模擬細菌固氮效應來說,量子電腦得擁有 100 個左右的量子位元,並且可以運算操作 1014 次……。 想想,Google 的量子電腦只有 53 個位元不說,而且只能操作 20 次,簡直天壤之別!至於量子電腦破解現在的加密系統,根據專家預測,嗯……至少還要 30 年的時間。

終極密碼戰,現在就開打!

雖然如此,但密碼學已深入現代生活的層層面面,不早點找出應對之策,屆時可就來不及了。想想全世界在千禧年危機的手忙腳亂、損失慘重……

從 2017 年起,美國國家標準暨技術研究院 (NIST) 開始著手「後量子密碼標準化計畫」,募集全世界密碼學家研發、可對抗量子電腦的密碼系統。這些密碼系統的核心同樣有個數學難題,但這個難題無法轉化成量子電腦擅長的週期性問題,中研院資訊所楊柏因研究員團隊也參與這個計畫,並通過第二輪選拔。

「整個過程就像選秀節目一樣,」鍾楷閔笑著形容:「主辦單位先海選出合適的密碼系統,然後經過兩輪篩選,訂定標準化的各項參數,預計在 2022 ~ 2024 年間公布最終標準。」

簡言之,在 3-5 年後,我們很可能就會開始逐步更新密碼系統,正式進入「後量子時代」。

這場密碼學的競賽,就像好人與壞人的戰爭。究竟是壞人會先利用量子電腦破解加密系統,擊潰目前的資訊安全網,還是好人會先做出安全的後量子時代加密系統,築起更安全的防禦牆,關鍵就在這幾十年量子電腦的發展。

科技進步不會停止,在量子電腦發展過程中,密碼學家正努力追趕進度,為人類預先設下資訊安全網。下次在網路上輸入個人資料時,不妨感謝一下在螢幕後頭默默努力著的密碼學家們(合十)。

 

原來量子電腦還在嬰兒階段,只能運算 20 次啊……想要它的運算次數快速成長,有沒有什麼好辦法?

其實,不太可能期待一個量子態經過多次的運算操作還不會壞掉,所以我們應該換一個概念:當做了一定的計算,量子態開始有一點點壞掉時,立刻修復它。換句話說,如果能成功幫量子位元隨時除錯,那它的計算次數就可以無限多。

為此,科學家正在研發如何替量子位元編碼,變成「邏輯量子位元」。所以有人認為,量子電腦的下一個目標,應該是先實現邏輯量子位元。

另一種有趣的想法是,如果把操作有限的小型量子電腦,配上古典電腦,也許可以相當於大型量子電腦……

小型量子電腦 + 古典電腦 = 大型量子電腦,這個點子感覺有戲!

可惜的是,沒有這麼便宜的事!我的團隊最新的研究,在某個模型下,反駁了英國密碼學家喬茲薩 (Richard Jozsa) 提出的類似想法「喬茲薩猜想」。

喬茲薩猜想的意思是:所有可以被大型量子電腦解決的問題,運算步驟都可被拆解,然後由小型量子電腦(只能進行少數次數操作)搭配上古典電腦解決。如果這樣的猜想為真,意味著不需要強大的量子電腦(能夠進行很多次操作),只要小型量子電腦和古典電腦合作,也能解決所有大型量子電腦可以做的事。

資料提供│鐘楷閔
圖片重製│林洵安

我的團隊則在密碼學的一個「預言機模型」 (oracle model) 下提出一個問題,證明量子操作次數不夠多的時候,這個問題無法解開,為這個猜想找到了一個反例。

真可惜……除了量子電腦本身,鐘老師對於量子密碼學還在進行什麼研究呢?

我另一項研究重點,與密碼學的安全性證明有關。前面說過,密碼系統的核心是一個數學難題,換句話說,一個密碼系統的安全性必須仰賴這個數學難題是無法被破解。

我們可以用數學來證明這些密碼系統的構造有多安全,但對應的量子版本我們還在研究中。

因為愈好的證明,愈能確保加密系統的安全性。尤其在 NIST 正如火如荼找出後量子時代加密系統的現在,我們能做到多好的證明,也會影響標準化的參數要怎麼設定,才能滿足運算速度夠快,但又非常安全的需求。這是現代密碼學家非常重要的任務。

延伸閱讀

本文轉載自中央研究院研之有物,原文為量子電腦到底有多霸氣?即將引爆終極密碼戰?!,泛科學為宣傳推廣執行單位

文章難易度
研之有物│中央研究院_96
255 篇文章 ・ 2332 位粉絲
研之有物,取諧音自「言之有物」,出處為《周易·家人》:「君子以言有物而行有恆」。探索具體研究案例、直擊研究員生活,成為串聯您與中研院的橋梁,通往博大精深的知識世界。 網頁:研之有物 臉書:研之有物@Facebook

1

1
2

文字

分享

1
1
2
「量子狀態」聽起來好難?其實就是機率與疊加——《阿宅聯盟:量子危機》
未來親子學習平台
・2023/01/19 ・1256字 ・閱讀時間約 2 分鐘

國民法官生存指南:用足夠的智識面對法庭裡的一切。

想像我們往水池內丟兩顆石頭,以石頭的落點為中心,會個別產生漣漪,在水面上擴散開來。

而當兩個漣漪互相接觸時,交會之處的水面其實同時反應了兩個漣漪的影響;可以說,兩個漣漪疊加在一起了。漣漪是靠水傳遞的一種波,稱為水波;而「疊加」的現象,就是屬於波的一種特性

當兩個漣漪相互接觸時,會疊加在一起。圖/Envato Elements

物質的波,也就是物質波,同樣存在疊加的特性。只不過,物質波跟水波不同的地方在於,它不需要依賴「水」這種實際的東西來傳遞,而是一種「機率波」。機率波的數學形式長得像波,而它代表的,是量子系統處於不同狀態的機率分布

量子系統的狀態:機率波

當我們在描述量子系統的狀態時,就會用到「機率波」的概念。舉例來說,在電玩遊戲中要是打怪成功,死掉的怪物會留下寶物。怪物可能有 50% 的機率掉落寶物 A,也有 50% 的機率掉落寶物 B,但我們不會在事前就知道怪物會留下哪種寶物。

所以,怪物可以說是同時擁有「掉落寶物 A」和「掉落寶物 B」這兩種狀況,直到我們成功打完怪,才能確定牠究竟帶哪一種寶物。類似地,機率波告訴我們的,就是量子系統「有多少機率處於狀態 A、又有多少機率處於狀態 B」的資訊;如同兩個水波在水面上疊加,A 和 B 這兩個狀態同時存在這個量子系統上。所以,我們把量子系統「同時處於不同狀態疊加」的狀況,稱為「疊加態」

直到我們打怪成功,才能確定究竟掉哪一種寶物。圖/GIPHY

另一方面,也跟打完怪物才知道掉什麼寶物類似,在我們實際觀測量子系統前,並無法知道會看到狀態 A 還是狀態 B,要觀測完才會知道。因為量子疊加的特殊性質,科學家想到,或許可以拿來做一些實際的運用。

例如,在現代的電腦運算中,「位元」是資訊的最小單位,可以用 0 或 1 這兩個數值來表示。那麼,我們也許能夠把「同時存在兩種不同狀態的量子系統」當作位元使用,讓它的兩種狀態分別代表 0 跟 1 來儲存資訊,而這就被稱為量子位元

由於物理性質的不同,量子位元在某些狀況下,可以運算得比傳統位元更有效率;利用量子位元建構的電腦,就稱為量子電腦。雖然目前已經有少數量子電腦問世,能以最多一百多個量子位元進行運算,但要能大規模運用在日常生活中,除了要再想辦法增加量子位元之外,還有許多難題要克服,所以,現在就先讓漫畫的想像來代替很可能成真的未來吧。

——本文摘自《阿宅聯盟:量子危機》,2022 年 11 月,未來出版,未經同意請勿轉載

所有討論 1
未來親子學習平台
3 篇文章 ・ 1 位粉絲

0

2
3

文字

分享

0
2
3
超級電腦爭霸戰的新一頁開始了:Exascale(10 的 18 次方)之戰
Y.-S. Lu
・2022/09/10 ・5230字 ・閱讀時間約 10 分鐘

2023 即將上線的超級電腦(Supercomputer)

歐洲最大的超級電腦(Supercomputer),將要在 2023 年上線啦!今年六月中時,德國于利希研究中心(Forschungszentrum Jülich GmbH)的超級計算中心(Jülich Supercomputing Centre, JSC)發佈新聞稿[1],表示歐盟的歐洲超級電腦中心聯合承辦組織(EuroHPC Joint Undertaking)選定該研究中心的超級計算中心,做為歐洲第一個設立 Exascale 超級電腦 Jupiter 的地點[2],歐盟出資一半,而另一半的資金將由德國教育部(BMBF)以及北萊茵威斯特法倫州(Nordrhein-Westfalen)文化部共同出資,其意昧著這台超級電腦也將優先提供給德國的科學家,以及北威州的研究單位使用[註一]。表示現今的超級電腦軍備競賽,已打到了 Exascale 了,Jupiter 將是繼美國設立世界第一台 Exascale[註二]的超級電腦 Frontier 後[3],即將出現的次世代超級電腦(如果德國的施工期有好好的踩點)

位於阿貢國家實驗室的 IBM Blue Gene/P 超級計算機。圖/wikipedia

Exascale 的超級電腦具有「每秒百億億次(1018)」(也就是 100 京)的每秒浮點運算(FLOP)能力,實際規模也將具有國家高速運算中心台灣杉二號[4]的 111 倍以上的運算能力,也就是要建立超過百台規模的台灣杉二號才具有 Exascale 的規模,但也同時考驗硬體的處理能力、主機間節點的連線架構、資料讀寫能力,更甚者,則是軟體是否具有 Exascale 的使用能力,也就是硬體與軟體都必須要能夠良好的契合才行。

什麼是超級電腦?可以幫助都市成為超級都市嗎?

「這些顯示器太舊了」雷迪亞茲說。

「但它們後面是世界最強大的電腦,每秒可以進行五百萬億次浮點運算。」

~ 劉欣慈《三體:黑暗森林》

劉欣慈《三體:黑暗森林》(2007)提到人類「當時」最強的電腦,為五百萬億的運算能力「而已」,沒想到 15 年後的今天,地表最強的超級電腦 Frontier 是出現在美國的橡樹嶺國家實驗室(Oak Ridge National Laboratory),而不是小說裡說的,在洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory),而且 Frontier 的效能還是小說裡超級電腦的五千多倍,可說是現實終於有超過小說的時候了(但我們依就沒有飛天滑板可以借東京都的死神小學生)

超級電腦是科學家進行高速/高效計算(High Performance Computing)的主要設備。超級電腦的架構,可以說是非常的簡單:用網路線連結各台主機,讓主機間互相溝通,才能夠進行平行運算。

一般超級電腦的架構大致上如下:一機板上可能會有一個到數個 CPU,而一個或是數個機板會組成一個節點(Node),有時數個結點會組成一個機櫃(Rack/Cabinet)。節點與節點間的連結,就是依靠網路線在進行 CPU 之間的溝通,因此網路變成非常重要的元件。

節點與節點間的連結,就是依靠網路線在進行 CPU 之間的溝通,因此網路變成非常重要的元件。圖/pixabay

在此架構下,如何讓結點間有效溝通,也是一門學問了[5]。這些 CPU 可以想象是每個拿著工程計算機的研究生,正等著教授指派任務給他們算,而一個節點就是一個房間,在同一個房間內的溝通一定是比較快的,當不同房間需要溝通時,就會需要走出房間去給資料,如果所有的人一起拿資料回報給教授,那這教授可能就會崩潰,所以如何讓研究生(CPU)互相溝通,又不至於塞車,就是電腦工程專家們的專業了。

現在超級電腦的架構也與過往的超級電腦不同了。除了採用巨量 Arm 晶片的日本富岳(具 158,976 節點)、自主研發晶片的中國神威太湖之光(具 40,960 節點)外,前十大超級電腦[3]都是採用 CPU 加上 GPU 的混合架構(如在機板上插上 GPU 增加運算效率),才達到 100 Peta-Flop(1Peta = 1015) 以上的計算量,也意味著未來要在超級電腦上進行高效計算,GPU 運算也成為很重要的應用,因此也有許多計畫正在將軟體朝 GPU 運算的方向前進與推動。

軟體是否能配合平行化,也是非常是否能進行高效運算的重點之一。所謂的高效計算,也是利用許許多多的運算元件(CPU 或是 GPU),採平行運算的方法,將一個問題切成許多碎片,以螞蟻雄兵的方法一一解決,所以不要再怪為什麼你家的電腦 CPU 無論幾核心都只用了一核心,那是因為你的軟體沒有進行平行處理。早期土木界在進行坡面的圓弧破壞面計算時,據說就是用人力一人算一片圓弧的切片,也算是(人力)平行運算的先驅之一了。一般電腦中使用平行運算最多的,應該就是你手上那張 GPU 顯卡,在 GPU 的加持下,電腦螢幕中每個點、每個邊、每個平面上的顏色與光影,才能完美的呈現在使用者的眼前,所以與其用顯卡挖礦,還不如投身虛幻而真實的遊戲世界

不過有了地表最強的超級電腦,並不代表我們今天就能夠像小說形容的一樣,能幾秒內預測核子彈的破壞能力,或是在一天內算出地球百年後的氣候狀況,因為平行計算加快了計算的速度,但有其極限。

有了地表最強的超級電腦,並不代表我們能夠像小說一樣,在一天內算出地球百年後的氣候狀況,因為平行計算加快了計算的速度,但有其極限。圖/pixabay

資料的讀入或是寫出,也是瓶頸之一,電路板與網路速度,以及資料存取方式都會造成資料讀寫的延遲,更不用說,若是打算模擬地球,其將耗盡 80 exabyte 等級的儲存空間,其為 CERN 的 ATLAS 與 CMS 計畫所產生的資料量的十倍[6]

為什麼氣候模擬要用到 Exascale?

Exascale 的超級電腦除了可以提供更多的運算能力,給更多的使用者進行模擬與計算外,也是挑戰超大型計算的開始。不過為什麼要 Exascale?到底為什麼一個模擬要用到上千甚至是上萬顆的 CPU 在運算?氣象氣候模擬已經將 Exascale 喻為下一階段應使用的救星[7],在氣象上除了要能做到一小時內達成氣象預測外,也希望能夠進行叢集式運算(像是利用隨機方法產生上百個因亂度而有不同結果的預測),進而進行機率式預測分析,或是提高水平距離至 2.5 公里以下的網格精度,此精度也為可進行對流模擬 (Convection-Permit)[8] 的精度。氣候模擬也需要高效能的運算,除了高精度的全球模型外,也需要進行長程的氣候模擬,幾十年到幾百萬年的模擬時間,也將需要 Exascale 等級的超級電腦來加速模擬,縮短實驗時間。越多的計算核心以及有效的平行運算,才能讓最真實的模擬結果讓人類使用,畢竟,誰都希望出遊不要遇上下大雨,也會希望能夠提前幾天知道颱風的路徑。

地球系統模擬中,其中一個挑戰便是進行模擬時程:挑戰一日(24 小時)的超級電腦計算可以得到多少年的模擬結果(simulated years per wall-clock day, SYPD)[6]還真的是「度日如年」,而此地球系統的精度為水平方向僅一公里的超高解析度,用來進行最終極的地球系統模擬:數位攣生(Digital Twins)[9]。數位攣生計畫主要是要建立地球的複製體,以方便人們對地球進行各種「實驗」,了解到經濟或政策面對地球生態或是氣候的影響,因此要達成此目的,強大具 Exascale 能力的電腦,便成為了目標。

目前已經有部份超級電腦都在進行 SYPD 的挑戰,如中國的神威太湖之光,其已完成了每日 3.4 年的地球系統模擬[10],只不過其地面僅有 25 公里的水平精度,海面僅 10 公里的水平精度,還有非常多的進步空間。只可惜,這個實驗並沒有進行進行資料輸出,無法得到正確的效能結果(資料的寫入與輸出也是非常費時的),以及真正的運算結果:因為沒有資料,就沒有辦法分析。

從高速電腦看量子電腦:量子電腦會是傳統的救星嗎?

量子電腦目前也成為了熱門名詞,從 2019 年開始,IBM 與 MIT 共同開始了量子計算課程,各學術單位也在搶攻量子電腦領域,但對地球模擬領域而言,量子電腦還太遙遠,對「傳統物理」的地球科學來說,我們解偏微分、解多項式,用的是傳統的數值方法,跟量子電腦界在進行的運算,也差了十萬八千里。

編按:這邊所說的數值方法,簡單講就是「暴力解」。例如要求圓周率,就先設定一個半徑為 1 的圓面積公式,然後問電腦答案是多少,電腦的第一步會把所有正整數代入公式中從一個初始數字(nitial State)開始,先找到答案會在 3 到 4 之間,之後又把 3 到 4 之間的所有數,帶回一開始的公式,得知答案在 3.1 到 3.2 之間,之後又將這個區間的所有數帶回一開始的公式,如此重複很多次後,就會得到相對接近的正確答案。

量子電腦就比較詭異了,量子態的平行運算與邏輯閘,使得兩者的運算邏輯完全不同,以上面的圓周率問題為例,量子電腦會直接給出在 3.1415925 至 3.1415927 之間,存在正確答案的可能性是最高的,但是這個範圍也有可能是錯的,而且就算是錯的,以我們現在的能力也很難說明它錯在哪裡。

從表面上來看,傳統電腦用暴力解,以排除錯誤答案的方式逼近正確答案,而量子電腦不排除錯誤答案,直接找到最有可能的答案會在哪個區域,但不保證運算過程中的正確性。

因為這個區別,若將現在成熟的模擬方法直接導入量子電腦中,最有可能出現的就是不知道怎麼解讀得到的數據,這包含了答案的正確程度,以及改動特定變數後所產生的答案變動是從何而來?

IBM 與 GOOGLE 正在爭奪追逐量子霸權(Quantum Supremacy)的同時[11],(不過 Google 號稱的量子霸權,也就是一萬倍的計算速度,在 2021 年被中國科學院理論物理所的 Feng 等人用了 15 個 NVIDIA V100 GPU 給追上[12][註五]),其離傳統電腦計算的距離,也有十萬八千里遠,離應用於地球科學計算上還有一定的距離,但只要哪一天能夠應用在普通的大氣循環模式(GCM),就可以算是第一步吧。但是在量子力學進入大氣科學前,我們氣候與氣象模擬還是只能使用傳統的電腦主機,靠著 2 位元的方法進行大氣模擬,所以目前傳統超級電腦還沒有被取代的機會。

結語:超大主機與超大計算

依摩爾定律,每十八個月,CPU 晶片的製成就會進步一倍,同時,超級電腦中心卻是一直受益於摩爾定律帶來的好處,也就是 CPU 的能力越來越強,而價格也越來越親民,也讓氣候氣象模擬的空間精度也隨之升高。

Neumann 等人也預計在 2030 年代後,進行 1 公里等級的超高精度計算也將不是夢想[7],而在 Exascale 主機降臨前的這個年代,有些超級計算中心已經以節點(Node)做為計算資源耗費的單位(Node per hour),而非 CPU per hour,顯示出大型主機對計算資源消耗的想法以從 CPU 規模上升到了 Node 規模。

一方面使用者受益於更多的 CPU 資源,但同時這些主機也要求更新更大量的計算能力,如瑞士的 Piz Daint 與瑞典的 LUMI,皆要求使用者的計算必須是含有 GPU 運算能力,而純粹靠 CPU 運算的軟體,將無法享受到同等的巨量資源。

IBM為橡樹嶺國家實驗室開發的Summit超級計算機(或 OLCF-4)。圖/flickr

而相應的挑戰也隨之而生,除了硬體將進入 Exascale 的時代,軟體也將一同進入這場大戰,才能享受同等的資源。另外一個挑戰則是綠色挑戰,1 公里精度的氣象模擬,每一模擬年將耗盡 191.7 百萬瓦時[6],相當於台灣一個家庭可以用上 43 年的電量[註三],也可以讓特斯拉的 Model 3LR 從地球開到月球來回開 1.5 次[註四],其耗能之巨,也是我們計算或是模擬界科學家應該要注意到的問題,也是為何除了 HPC Top500 外,亦有 Green 500[13]的原因吧,而具有超高效能的 Frontier,也同時奪下了 Green 500 之冠,也算是 Exascale 的好處吧。

註解與文獻

  • [註一] 若需使用 JSC 的超級電腦,必須透過不同的計畫項目進行申請,其計畫主持人(PI)為歐洲或是德國的研究者[14]
  • [註二] 日本的富岳其實也可以進行到 Exscale 的運算,只是要超頻而已,想當然爾是非常規設定。
  • [註三] 根據台電 2021 年新聞稿中,家庭離峰平均用電為 339 度以及 6-9 月為 434 度推估。
  • [註四] 根據 Tesla M3 LR 為 25kWh per 100 Miles,月球至地球為 384400 公里推估
  • [註五] Feng 也公開了他的程式碼
  • [1] Forschungszentrum Jülich 新聞稿
  • [2] EUROPE HPC 新聞稿
  • [3] 2022 年六月 HPC Top 500 名單
  • [4] 國家高速網路中心台灣杉二號介紹
  • [5] 司徒加特超級電腦中心:HAWK 主機之連線架構
  • [6] T. C. Schulthess, P. Bauer, N. Wedi, O. Fuhrer, T. Hoefler and C. Schär, “Reflecting on the Goal and Baseline for Exascale Computing: A Roadmap Based on Weather and Climate Simulations,” in Computing in Science & Engineering, vol. 21, no. 1, pp. 30-41, 1 Jan.-Feb. 2019, doi: 10.1109/MCSE.2018.2888788.
  • [7] Neumann P et al. 2019, Assessing the scales in numerical weather and climate predictions: will exascale be the rescue?. Phil. Trans. R. Soc. A 377: 20180148. http://dx.doi.org/10.1098/rsta.2018.0148
  • [8] Kendon, E. J., Ban, N., Roberts, N. M., Fowler, H. J., Roberts, M. J., Chan, S. C., Evans, J. P., Fosser, G., & Wilkinson, J. M. (2017). Do Convection-Permitting Regional Climate Models Improve Projections of Future Precipitation Change?, Bulletin of the American Meteorological Society, 98(1), 79-93
  • [9] Bauer, P., Dueben, P.D., Hoefler, T. et al. The digital revolution of Earth-system science. Nat Comput Sci 1, 104–113 (2021). https://doi.org/10.1038/s43588-021-00023-0
  • [10] Zhang, S., Fu, H., Wu, L., Li, Y., Wang, H., Zeng, Y., Duan, X., Wan, W., Wang, L., Zhuang, Y., Meng, H., Xu, K., Xu, P., Gan, L., Liu, Z., Wu, S., Chen, Y., Yu, H., Shi, S., Wang, L., Xu, S., Xue, W., Liu, W., Guo, Q., Zhang, J., Zhu, G., Tu, Y., Edwards, J., Baker, A., Yong, J., Yuan, M., Yu, Y., Zhang, Q., Liu, Z., Li, M., Jia, D., Yang, G., Wei, Z., Pan, J., Chang, P., Danabasoglu, G., Yeager, S., Rosenbloom, N., and Guo, Y.: Optimizing high-resolution Community Earth System Model on a heterogeneous many-core supercomputing platform, Geosci. Model Dev., 13, 4809–4829, https://doi.org/10.5194/gmd-13-4809-2020, 2020. https://gmd.copernicus.org/articles/13/4809/2020/
  • [11] 「嗨量子世界!」~ Nature Newsletter
  • [12] Feng Pan, Keyang Chen, and Pan Zhang, Solving the sampling problem of the Sycamore quantum circuits, accepted by Phys. Rev. Lett.
  • [13] 2022 年六月 HPC Green 500 名單
  • [14] JSC 系統申請辦法

Y.-S. Lu
4 篇文章 ・ 6 位粉絲
自從來到學界後,便展開了一段從土木人到氣象人的水文之旅。主要專業是地球系統數值模擬,地下水與地表模式的耦合系統,以及大氣氣象模擬。目前是于利希研究中心(Forschungszentrum Jülich GmbH)超級電腦中心的博士後研究員。

1

3
3

文字

分享

1
3
3
研究資料亂到不行?你需要的是「資料管理方案」——淺談什麼是「開放科學」
研究資料寄存所 (depositar)_96
・2021/12/22 ・3081字 ・閱讀時間約 6 分鐘

什麼是「開放科學」?

大體而言,開放科學是關於「有品質、完整、平等與利益共享的科學環境」的一套構想 [1],它希望能移除知識藩籬,激發研究創意。為了達成這些核心價值,不同的科學社群衍生了不同實務作法,也造就了過往「開放科學」紛雜的內涵。

儘管如此,一般在討論「開放科學」時,仍認為其有幾個核心的關注面向,如開放近用科學成果(如論文)、開放研究資料、研究過程中使用科技工具進行開放協作等。歐盟OECD聯合國等國際組織在近年來亦紛紛制定相關政策、白皮書,並投入經費致力於開放科學的推展。

脈絡不同,資料管理方式也不同

「我知道開放科學很好,我也有滿手的資料,但是……」,在資料科學盛行的時代,幾乎所有研究者在處理資料時,都會遭遇各種「但是」的問題:但是資料很亂不知從何著手、但是不曉得要釋出哪些資料、但是沒有心力…。

在這樣的脈落下,中央研究院資訊科學研究所等 5 個單位,在今年 10 月 7 日舉辦了 2021 研究資料管理工作坊。工作坊共概分成 5 個資料管理的主題,分別涉及「生物多樣性」、「多面向資料管理」、「氣候、海洋及空氣資料」、「研究團隊經驗分享」、「個人資料管理」等面向,邀請近 20 位來自不同領域、單位的講者,分享他們在研究資料管理 (Research Data Management, RDM)上的經驗。

在資料管理實務上,各研究單位因資源配置、研究領域、研究方法、研究文化等差異,所遭遇的問題及可能的解方亦各不相同。聆聽彼此經驗,了解對方解決問題的脈絡,是找尋自身合適的資料管理方式的有效途徑之一。

以本次工作坊為例,我們即觀察到,同是為了提昇資料的利用價值,有的單位選擇將資源優先配置在蒐集更多資料;有的則是積極建立、宣導資料處理的 SOP;另外也有強調個別資料集的品質控管與說明。

圖為「台灣生物多樣性網絡」在回應資料價值時,將重點放置於增加資料量的成果圖。
圖/柯智仁 - 讓資料的價值被看見能否鼓勵資料的管理與開放?

我們也發現,有關資料即時利用的需求,時常不在研究團隊最初的預期中,且需求亦可能來自團隊內部或外部。而為了回應需求,有的研究單位選擇投入心力在軟硬體上,打造自動化流程,以應付外部大量的資料索取要求;有的研究單位,則優先建立單位內部的即時資料分享環境,再適度滿足外部需求。

以上各種應對方式間的差異,多半是因各單位在處理同一問題時,身處不同的脈絡所致。

逐漸上軌道的研究工具:資料管理方案

在本次工作坊中,亦有關於「資料管理方案」(Data Management Plan, DMP)的場次。DMP 是一份描述研究資料如何被蒐集、使用、管理、保存、分享等歷程的文件。通常是在研究開始前撰寫,在研究中隨時修正,藉此研究者能更有效地管理資料。

近年來,DMP 已逐漸成為計畫申請者被要求檢附的文件。目前在網路上也能找到各式的 DMP 範本,協助研究者撰寫 DMP。例如研究資料寄存所(depositar)翻譯的 Science Europe 研究資料管理指南,就提供了一份 DMP 的範本。

在工作坊中,科技部永續學門指出,資料管理是開放科學的一部分,因此永續學門自 2020 年 8 月開始推動資料管理方案試辦計畫,透過經費補助的方式,鼓勵整合型計畫提出 DMP。本次工作坊亦有兩個參與試辦計畫的研究團隊,分享他們在撰寫及執行 DMP 的歷程。在研究資料管理概論這個場次,亦仔細介紹了 DMP 可能包含的內容。

科技部永續學門自 2020 年 8 月開始試辦資料管理方案。
圖/李明旭 - 永續學門DMP試辦計畫

但鑒於 DMP 在國際上逐漸成為「要求」,亦不乏質疑認為,撰寫 DMP 可能僅是加重研究者行政負擔;對此,一份 2021 年 4 月有關歐盟推行 DMP 的實證研究指出,超過 80% 的研究者認為 DMP 對他們的研究有幫助,這或可有效緩解相關的疑慮。

超過八成的研究者認為 DMP 帶來了比行政負擔更多的正面效益。
圖/Open Research Europe

研究資料管理與開放科學

2021 研究資料管理工作坊的簡報及錄影,已在 11 月中悉數公開在工作坊網站。而工作坊後不久,在 2021 年 11 月底,我們見到聯合國教科文組織(UNESCO)通過了一份開放科學建議書(UNESCO Recommendation on Open Science)。這份文件共獲得 193 個與會國支持。UNESCO 表示,與會國們的共同支持,使向來意義紛雜的「開放科學」首次取得了全球性的定義。

聯合國教科文組織於 2021 年 11 月底通過的開放科學建議書。圖/UNESCO

UNESCO 針對開放科學的定義與說明很長(參見建議書第 7 頁至第 16 頁),我們無意在最後的篇幅中細說。但很清楚的一點是,「開放研究資料」(open research data)是構成 UNESCO「開放科學」定義的一部分。

身為國際社群的一員,台灣有許多的跨國研究計畫,過去兩年的防疫,亦受益於國際的開放研究資料許多(如使用 GISAID 資料庫進行研究)。

國內研究社群與開放研究資料或開放科學的國際標準接軌,既是必須,亦是互惠,而研究資料管理將是達成此目標不可免的基本功。在「開放科學」取得重大國際進展的此時,再次回顧本次工作坊的內容,應是一件更饒富意義的事。

開放科學建議書:開放科學的定義 – 包含「開放研究資料」。
圖/ UNESCO

註釋:

  1. Why the world needs to embrace open science? https://www.weforum.org/agenda/2021/10/why-open-science-is-the-cornerstone-of-sustainable-development/

參考文獻:

所有討論 1
研究資料寄存所 (depositar)_96
2 篇文章 ・ 2 位粉絲
研究資料寄存所 (depositar) 是由研究人員建立的線上資料儲存庫。所有人都能使用這個平台,自由地儲存、尋找、再次使用研究資料。