好看的電影應該要存在哪裡?CD、隨身碟、還是你的電腦 D 槽?科學家對此有些不一樣的想法。既然是科學家,存影片的方式當然也要很科學,最近,由美國國家衛生研究院(National Institutes of Health)資助的科學團隊首度將原始電影編碼於活的大腸桿菌 DNA 中,並且成功回放影片!
為什麼想用基因紀錄影像?因為它們可以存超多!
科學家在 7 月 12 日將實驗結果線上發表於《自然》(Nature)期刊,將這個前瞻的「分子錄影帶」(molecular ticker tape)想法公諸於世。在過去的研究中,科學家們已經能用 CRISPR 儲存細菌中的 DNA 序列;而這次的研究則證明了 DNA 不只可以用來編碼遺傳訊息,更可以將任意順序的訊息編碼進基因組中。
不過,為什麼研究者一開始會將腦筋動到 DNA 儲存上呢?那是因為 DNA 是我們目前已知最佳的儲存空間之一,在理論上,僅僅一公克的單鏈 DNA 就可以存下 455 艾位元組(Exabyte,EB)的內容,也就是大約「一千億」張 DVD的容量。這麼看起來,也就不難理解科學家們為何要努力地將大量的書籍資料、數位影像塞進小小的生物原料中。(也可能只是因為他們的 D 槽不夠存……)
在了解科學家是如何「拍電影」前,我們不妨回顧一下神奇的 CRISPR 究竟是何方神聖:CRISPR 在細菌裡扮演著免疫系統的角色,當細菌受到病毒感染時,CRISPR 就會切除部分外來的 DNA 並將之儲存於自己的基因組,方便細菌在往後利用這些儲存的資料去辨識病毒、防禦未來的攻擊。而現在為科學家所青睞的 CRISPR/Cas9 技術就是利用這樣的原理,將特定的訊息編進基因之中。(詳見此文)
你有看過這隻可愛小馬嗎?圖/by Eadweard MuybridgeAnimation, public domain, wikimedia commons
那麼,研究團隊究竟要如何將馬兒的影片儲存於核苷酸中呢?
每個核苷酸都有一個含氮鹼基作為核心,而 DNA 裡會出現的含氮鹼基有 A(腺嘌呤)、G(鳥嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)四種,科學家便以此作為編碼依據,使用三元組表格去定義不同的像素顏色。他們將四個核苷酸定義為一個像素集(研究團隊將之標示為 pixet),而每個像素集中的像素(pixel)則分散於圖像上。
每個像素都要仔細編碼,才能再度建出小馬。圖/研究圖片
而後科學家把賽馬動畫中的五幀圖畫以上述方式編碼,再將匯集過的寡核苷酸利用電穿孔技術植入大腸桿菌(os:好痛)。在五天的過程中,他們用轉譯過的 DNA 順序去處理細菌,接著,他們便能用定序細菌 DNA 的方式來「撥放」電影,重建的精準度高達 90%。聽起來很厲害吧?恩……這部神奇的生物電影看起來是這樣子的:
還記得美劇《The Big Bang Theory》嗎?劇中常常出現的物理名詞「弦論」,是描述物理世界基本結構的理論。中央研究院「研之有物」專訪院內數學研究所程之寧研究員,她正是研究弦論的科學家,也是熱愛音樂的搖滾樂團鼓手,這種跨領域身份並不衝突,兩邊都需要創造力與紀律。由於天生斜槓的性格,讓程之寧在數學和物理領域大展身手,透過數學的深入探討,她試圖將弦論更往前推進。最近程之寧更跨足到人工智慧領域,為學界提供理論物理上的貢獻。
我有兩個動機。一個就是我真的想深入了解人工智慧。我也可以像普羅大眾,看看 AI 下圍棋,讚嘆「哇!好厲害!」這樣就好,可是我覺得我一定可以真的去理解它,這可能就是數學家的自大吧!
另一方面,我知道對科學研究來說,未來 AI 將會是一個非常重要的工具。這是「在職訓練」的概念,我可能會用到這個新工具,或以後我可能會需要教這樣的課,因為學生是下一代的科學家。因為這些原因,我覺得我需要去訓練自己使用新的工具。在我的領域裡,也有一些有趣的、還沒被解答的科學問題,是 AI 有可能幫得上忙的,我看到了一些潛力。
弦論和 AI 感覺差距很大,AI 也可以應用到弦論的研究嗎?
乍看之下,弦論的確比較抽象,也不像其他許多實驗會產生大量數據。但其實弦論有大量的可能性,我認為使用 AI 來在這些巨量的可能性當中搜尋特別有趣的理論,是一個有潛力能夠加深我們對弦論理解的新的研究方法。
而且 AI 的應用絕不僅限於巨量資料。如果是面對一些比較新的挑戰,在沒有現成的演算法可以用的情形之下,可以自己做出需要的功能嗎?這過程我覺得也非常很有趣,而且應該是會有成果的一條路。這種不是那麼顯而易見的事情,我覺得很有挑戰性,也蠻好玩的。
除了用 AI 來幫助物理跟數學的研究之外,我也試著物理研究當做靈感來源,找出新的 AI 的可能性,我覺得這也是一個很有趣的研究方向。我現在有和 AI 的學者合作,嘗試做出一些創新的演算法,真的還蠻有趣的。