0

1
0

文字

分享

0
1
0

定序間的釘孤枝!–淺談次世代基因定序技術

活躍星系核_96
・2015/05/26 ・2696字 ・閱讀時間約 5 分鐘 ・SR值 535 ・七年級

圖片來源:illumina blog
圖片來源:illumina blog

文/板橋笑笑生包博

次世代基因定序技術已然發展10年,而為什麼叫做次世代(Next-Generation)呢?那第一代去哪裡了?我為何要關心次世代定序技術?乾我何事?要回答到你懂這些問題以前,你必須必備大一生物學;不難拉,大概有點概念就可以。再來要有基礎的統計學概念以及數理概念,一樣不難拉,高中程度就可以。可是你問我,我高中都在談戀愛怎辦?沒關係,就讓我娓娓道來。

華生與克利克在1953年發表於Nature雜誌,確定了DNA的雙股螺旋結構;這個發現就好像神眉老師拿下手套解除封印一樣,從此開始分子生物技術時代來臨,我們不再是以巨觀的方式去探討遺傳、疾病的發生、生物演化等等的一切生物學上難解的問題。

DNA(去氧核糖核酸)是什麼?沒看過DNA你也吃過DNA吧?男孩最喜歡餵女孩吃DNA了,別想歪,我是說任何有機食物的成分裡面都有DNA因為DNA是構成有機體最基本的物質。DNA由碳氫磷所構成分別有4種形式有A(腺嘌呤),C(胞嘧啶),G(鳥嘌呤),T(胸腺嘧啶)。這四種碳氫磷糖類很有趣的只有AT會在一起GC會在一起。所以依造這種特性構成的DNA雙股螺旋就會呈現互補的狀況也就是比方說你拿到一股是ATGGGCCAT你的互補股就會是TACCCGGTA。而在DNA進行複製時會有許多酶的參與其中,包括DNA聚合酵素(polymerase ),這傢伙就是負責生出互補股就對了。

-----廣告,請繼續往下閱讀-----

所以根據這個酵素的特性,天才大師桑格發明了人類史上第一個定序法此稱桑格法。桑格也因此獲得諾貝爾獎。桑格法的開發讓我們得以從基本面去看生物體表現,也就是說從微觀的DNA序列開始了解起生物體的化學表現。桑格法的原理其實說穿了就是應用聚合酶的特性,但是桑格在反應劑裡加上了ddNTP也就是ATGC的dd版,而這dd版就像個停止訊號,就像帶著婚戒的辣妹一樣,你想跟他聚合聚合卻不行,所以聚合酶就在ddNTP前面停住了。而桑格在這些dd版的ATGC上面標上放射元素但後期改良成螢光,所以不同顏色會代表不同的ATGC。如果不了解,這裏有youtube 動畫:

而桑格法開發完之後大家開始想,這方法會不會太慢啊,定一次序列只有幾十個ATGC有沒有更快的方法?霰彈槍定序法Shotgun sequencing)的出現除了奠基於桑格法,還要拜電腦科技進步所賜。你可以想像成它會收集鋪滿在一張大桌子上的桑格反應的終止短序列,並同時邊用電腦的演算法把序列像拼圖一樣一片片拼湊起來。人類基因組計畫就是在此狀況下達成的而當時的主力技術就是霰彈槍定序法

圖片來源:wikimedia; open source
圖片來源:wikimedia; open source

在當時火紅的霰彈槍定序法推出來後,各國聯手定出人類的基因序,這些龐大的資金與經濟力量促進此科技更長足的進步也就是次世代定序(Next Generation Sequencing, NGS)的到來。次世代定序已經發展十年餘,這十年內群雄並立,各有各的長處與劣勢但是illumina這間公司在十來年的發展之下幾乎佔滿90%的NGS市場,可以稱NGS界的英代爾。

illumina的原理基本上就是把shotgun縮小在一個小小盤子上,上面有著幾億個小小短片段訊號。然後根據這些短片段訊號再藉由一些演算法,把它拼成一個完整序列。illumina雖然能換來相當於95%準確的基因序列,但伴隨著的大量短片段在統計上就算是用大型運算電腦也需要花掉不少的時間。

-----廣告,請繼續往下閱讀-----

當大家覺得illumina即將一統江山時,有個挑戰者Pacific Bioscience帶著新的科技挑戰市場也代表著挑戰illumna的領域。Pacific Bioscience也簡稱PacBio,PacBio剛宣布上市時,股價可以用火箭升天來形容為什麼?因為他跨時代的科技概念。

PacBio創造的片段是illumina的十倍甚至是百倍長,所以可以更快速的把基因體定序完成。聽起來PacBio像是統一中原的最佳人選,但是事與願違PacBio的火雲神功裡面有幾招破綻:也就是他們創造的超長片段裡有著將近13%的錯誤率。在這消息被揭露之後,PacBio的股價瞬間跌落,雖然PacBio不斷的加長他們的片段到現在幾乎可以一次讀出20000個ATGC。這是一個很了不起的成就,但是因為高錯誤率,所以普遍業界並不採用。

illumina已經虎視眈眈要吞併PacBio讓他們再也沒有立足之地,從此傲笑江湖!但是……..illumina緩慢的拼圖速度讓很多研究人員送出檢體後只能乾等。開始慢慢有人開始研究將兩種科技合併使用的可能:比如Koren at el. 在2012年投稿Nature Biotechnology所提出的混合法也就是先用illumina短片段去糾正PacBio的長片段。

此方法獲得廣大迴響。而PacBio在2013年也提出了一套解決非混合法,意即PacBio only的解法刊登於Nature Method 。這稍稍為PacBio帶來曙光,但卻失去PacBio 該有的速度。因為此解法就是藉由製造更多拼圖重複的貼到同一個區域,好比提升照相機在夜晚中照相的功能你得提升曝光時間,也就是因此犧牲了火雲神功的速度。

-----廣告,請繼續往下閱讀-----

天下武功唯快不破,當PacBio失去速度,就再也不是火雲神功了。連帶的要提升解析度,客戶相對要付出更多人力物力財力才能達到普遍的準確度要求。這場NGS在科技,思想與商業模式上的競爭,illumina佔了大上風,但對於科學家與企業家來說,大衛挑戰哥利亞的故事卻是我們引頸期待的,但不管如何NGS公司間的競爭帶給我們更多機會與更便宜的科技去探討生物體的過去與未來,並且對於藥物以及疫苗的研發帶來更大的幫助。

參考資料:

  1. 腺嘌呤胞嘧啶鳥嘌呤胸腺嘧啶, wiki
  2. Polymorase, wiki
  1. Sanger method
  2. WGS 
  3. 人類基因體計畫, wiki
  4. shotgun sequencing , wiki
  5. illumina
  6. pacbio
  7. Hybrid Method , 01 July 2012 [Nature Biotechnology]
  8. HPWG

_____________________________________

作者簡介
dfwef姓名:簡榮廷  筆名:板橋笑笑生包博
email: jtchien0925@gmail.com 以及 jchien2@emory.edu
美國艾默里大學(Emory University)電腦科學-生物醫學資訊組博士候選人。費德智庫共同創辦人。Sequegenic 生技公司共同創辦人。專長次世代定序科技,機器學習與數據探勘,生物醫學技術,系統生物學。目前於National Yerkes Primate Research Center 之 Malaria Host-Pathogen Interaction Center 團隊下進行瘧疾研究,從基因體學,系統生物學到流行病學全方位更深入的研究瘧疾以期瞭解其機轉並帶動疫苗以及藥物之研發。
文章難易度
活躍星系核_96
752 篇文章 ・ 126 位粉絲
活躍星系核(active galactic nucleus, AGN)是一類中央核區活動性很強的河外星系。這些星系比普通星系活躍,在從無線電波到伽瑪射線的全波段裡都發出很強的電磁輻射。 本帳號發表來自各方的投稿。附有資料出處的科學好文,都歡迎你來投稿喔。 Email: contact@pansci.asia

0

3
3

文字

分享

0
3
3
圖形處理單元與人工智慧
賴昭正_96
・2024/06/24 ・6944字 ・閱讀時間約 14 分鐘

-----廣告,請繼續往下閱讀-----

  • 作者/賴昭正|前清大化學系教授、系主任、所長;合創科學月刊

我擔心人工智慧可能會完全取代人類。如果人們能設計電腦病毒,那麼就會有人設計出能夠自我改進和複製的人工智慧。 這將是一種超越人類的新生命形式。

——史蒂芬.霍金(Stephen Hawking) 英國理論物理學家

大約在八十年前,當第一台數位計算機出現時,一些電腦科學家便一直致力於讓機器具有像人類一樣的智慧;但七十年後,還是沒有機器能夠可靠地提供人類程度的語言或影像辨識功能。誰又想到「人工智慧」(Artificial Intelligent,簡稱 AI)的能力最近十年突然起飛,在許多(所有?)領域的測試中擊敗了人類,正在改變各個領域——包括假新聞的製造與散佈——的生態。

圖形處理單元(graphic process unit,簡稱 GPU)是這場「人工智慧」革命中的最大助手。它的興起使得九年前還是個小公司的 Nvidia(英偉達)股票從每股不到 $5,上升到今天(5 月 24 日)每股超過 $1000(註一)的全世界第三大公司,其創辦人(之一)兼首席執行官、出生於台南的黃仁勳(Jenson Huang)也一躍成為全世界排名 20 內的大富豪、台灣家喻戶曉的名人!可是多少人了解圖形處理單元是什麼嗎?到底是時勢造英雄,還是英雄造時勢?

黃仁勳出席2016年台北國際電腦展
Nvidia 的崛起究竟是時勢造英雄,還是英雄造時勢?圖/wikimedia

在回答這問題之前,筆者得先聲明筆者不是學電腦的,因此在這裡所能談的只是與電腦設計細節無關的基本原理。筆者認為將原理轉成實用工具是專家的事,不是我們外行人需要了解的;但作為一位現在的知識分子或公民,了解基本原理則是必備的條件:例如了解「能量不滅定律」就可以不用仔細分析,即可判斷永動機是騙人的;又如現在可攜帶型冷氣機充斥市面上,它們不用往室外排廢熱氣,就可以提供屋內冷氣,讀者買嗎?

CPU 與 GPU

不管是大型電腦或個人電腦都需具有「中央處理單元」(central process unit,簡稱 CPU)。CPU 是電腦的「腦」,其電子電路負責處理所有軟體正確運作所需的所有任務,如算術、邏輯、控制、輸入和輸出操作等等。雖然早期的設計即可以讓一個指令同時做兩、三件不同的工作;但為了簡單化,我們在這裡所談的工作將只是執行算術和邏輯運算的工作(arithmetic and logic unit,簡稱 ALU),如將兩個數加在一起。在這一簡化的定義下,CPU 在任何一個時刻均只能執行一件工作而已。

-----廣告,請繼續往下閱讀-----

在個人電腦剛出現只能用於一般事物的處理時,CPU 均能非常勝任地完成任務。但電腦圖形和動畫的出現帶來了第一批運算密集型工作負載後,CPU 開始顯示心有餘而力不足:例如電玩動畫需要應用程式處理數以萬計的像素(pixel),每個像素都有自己的顏色、光強度、和運動等, 使得 CPU 根本沒辦法在短時間內完成這些工作。於是出現了主機板上之「顯示插卡」來支援補助 CPU。

1999 年,英偉達將其一「具有集成變換、照明、三角形設定/裁剪、和透過應用程式從模型產生二維或三維影像的單晶片處理器」(註二)定位為「世界上第一款 GPU」,「GPU」這一名詞於焉誕生。不像 CPU,GPU 可以在同一個時刻執行許多算術和邏輯運算的工作,快速地完成圖形和動畫的變化。

依序計算和平行計算

一部電腦 CPU 如何計算 7×5+6/3 呢?因每一時刻只能做一件事,所以其步驟為:

  • 計算 7×5;
  • 計算 6/3;
  • 將結果相加。

總共需要 3 個運算時間。但如果我們有兩個 CPU 呢?很多工作便可以同時(平行)進行:

-----廣告,請繼續往下閱讀-----
  • 同時計算 7×5 及 6/3;
  • 將結果相加。

只需要 2 個運算時間,比單獨的 CPU 減少了一個。這看起來好像沒節省多少時間,但如果我們有 16 對 a×b 要相加呢?單獨的 CPU 需要 31 個運算的時間(16 個 × 的運算時間及 15 個 + 的運算時間),而有 16 個小 CPU 的 GPU 則只需要 5 個運算的時間(1 個 × 的運算時間及 4 個 + 的運算時間)!

現在就讓我們來看看為什麼稱 GPU 為「圖形」處理單元。圖一左圖《我愛科學》一書擺斜了,如何將它擺正成右圖呢? 一句話:「將整個圖逆時針方向旋轉 θ 即可」。但因為左圖是由上百萬個像素點(座標 x, y)組成的,所以這句簡單的話可讓 CPU 忙得不亦樂乎了:每一點的座標都必須做如下的轉換

x’ = x cosθ + y sinθ

y’ = -x sinθ+ y cosθ

-----廣告,請繼續往下閱讀-----

即每一點均需要做四個 × 及兩個 + 的運算!如果每一運算需要 10-6 秒,那麼讓《我愛科學》一書做個簡單的角度旋轉,便需要 6 秒,這豈是電動玩具畫面變化所能接受的?

圖形處理的例子

人類的許多發明都是基於需要的關係,因此電腦硬件設計家便開始思考:這些點轉換都是獨立的,為什麼我們不讓它們同時進行(平行運算,parallel processing)呢?於是專門用來處理「圖形」的處理單元出現了——就是我們現在所知的 GPU。如果一個 GPU 可以同時處理 106 運算,那上圖的轉換只需 10-6 秒鐘!

GPU 的興起

GPU 可分成兩種:

  • 整合式圖形「卡」(integrated graphics)是內建於 CPU 中的 GPU,所以不是插卡,它與 CPU 共享系統記憶體,沒有單獨的記憶體組來儲存圖形/視訊,主要用於大部分的個人電腦及筆記型電腦上;早期英特爾(Intel)因為不讓插卡 GPU 侵蝕主機的地盤,在這方面的研發佔領先的地位,約佔 68% 的市場。
  • 獨立顯示卡(discrete graphics)有不與 CPU 共享的自己專用內存;由於與處理器晶片分離,它會消耗更多電量並產生大量熱量;然而,也正是因為有自己的記憶體來源和電源,它可以比整合式顯示卡提供更高的效能。

2007 年,英偉達發布了可以在獨立 GPU 上進行平行處理的軟體層後,科學家發現獨立 GPU 不但能夠快速處理圖形變化,在需要大量計算才能實現特定結果的任務上也非常有效,因此開啟了為計算密集型的實用題目編寫 GPU 程式的領域。如今獨立 GPU 的應用範圍已遠遠超出當初圖形處理,不但擴大到醫學影像和地震成像等之複雜圖像和影片編輯及視覺化,也應用於駕駛、導航、天氣預報、大資料庫分析、機器學習、人工智慧、加密貨幣挖礦、及分子動力學模擬(註三)等其它領域。獨立 GPU 已成為人工智慧生態系統中不可或缺的一部分,正在改變我們的生活方式及許多行業的遊戲規則。英特爾在這方面發展較遲,遠遠落在英偉達(80%)及超微半導體公司(Advance Micro Devices Inc.,19%,註四)之後,大約只有 1% 的市場。

-----廣告,請繼續往下閱讀-----
典型的CPU與GPU架構

事實上現在的中央處理單元也不再是真正的「單元」,而是如圖二可含有多個可以同時處理運算的核心(core)單元。GPU 犧牲大量快取和控制單元以獲得更多的處理核心,因此其核心功能不如 CPU 核心強大,但它們能同時高速執行大量相同的指令,在平行運算中發揮強大作用。現在電腦通常具有 2 到 64 個核心;GPU 則具有上千、甚至上萬的核心。

結論

我們一看到《我愛科學》這本書,不需要一點一點地從左上到右下慢慢掃描,即可瞬間知道它上面有書名、出版社等,也知道它擺斜了。這種「平行運作」的能力不僅限於視覺,它也延伸到其它感官和認知功能。例如筆者在清華大學授課時常犯的一個毛病是:嘴巴在講,腦筋思考已經不知往前跑了多少公里,常常為了追趕而越講越快,將不少學生拋到腦後!這不表示筆者聰明,因為研究人員發現我們的大腦具有同時處理和解釋大量感官輸入的能力。

人工智慧是一種讓電腦或機器能夠模擬人類智慧和解決問題能力的科技,因此必須如人腦一樣能同時並行地處理許多資料。學過矩陣(matrix)的讀者應該知道,如果用矩陣和向量(vector)表達,上面所談到之座標轉換將是非常簡潔的(註五)。而矩陣和向量計算正是機器學習(machine learning)演算法的基礎!也正是獨立圖形處理單元最強大的功能所在!因此我們可以了解為什麼 GPU 會成為人工智慧開發的基石:它們的架構就是充分利用並行處理,來快速執行多個操作,進行訓練電腦或機器以人腦之思考與學習的方式處理資料——稱為「深度學習」(deep learning)。

黃仁勳在 5 月 22 日的發布業績新聞上謂:「下一次工業革命已經開始了:企業界和各國正與英偉達合作,將價值數萬億美元的傳統資料中心轉變為加速運算及新型資料中心——人工智慧工廠——以生產新商品『人工智慧』。人工智慧將為每個產業帶來顯著的生產力提升,幫助企業降低成本和提高能源效率,同時擴大收入機會。」

附錄

人工智慧的實用例子:下面一段是微軟的「copilot」代書、谷歌的「translate」代譯之「one paragraph summary of GPU and AI」。讀完後,讀者是不是認為筆者該退休了?

-----廣告,請繼續往下閱讀-----

GPU(圖形處理單元)和 AI(人工智慧)之間的協同作用徹底改變了高效能運算領域。GPU 具有平行處理能力,特別適合人工智慧和機器學習所需的複雜資料密集運算。這導致了影像和視訊處理等領域的重大進步,使自動駕駛和臉部辨識等技術變得更加高效和可靠。NVIDIA 開發的平行運算平台 CUDA 進一步提高了 GPU 的效率,使開發人員能夠透過將人工智慧問題分解為更小的、可管理的、可同時處理的任務來解決這些問題。這不僅加快了人工智慧研究的步伐,而且使其更具成本效益,因為 GPU 可以在很短的時間內執行與多個 CPU 相同的任務。隨著人工智慧的不斷發展,GPU 的角色可能會變得更加不可或缺,推動各產業的創新和新的可能性。大腦透過神經元網路實現這一目標,這些神經元網路可以獨立但有凝聚力地工作,使我們能夠執行複雜的任務,例如駕駛、導航、觀察交通信號、聽音樂並同時規劃我們的路線。此外,研究表明,與非人類動物相比,人類大腦具有更多平行通路,這表明我們的神經處理具有更高的複雜性。這個複雜的系統證明了我們認知功能的卓越適應性和效率。我們可以一邊和朋友聊天一邊走在街上,一邊聽音樂一邊做飯,或一邊聽講座一邊做筆記。人工智慧是模擬人類腦神經網路的科技,因此必須能同時並行地來處理許多資料。研究人員發現了人腦通訊網路具有一個在獼猴或小鼠中未觀察獨特特徵:透過多個並行路徑傳輸訊息,因此具有令人難以置信的多任務處理能力。

註解

(註一)當讀者看到此篇文章時,其股票已一股換十股,現在每一股約在 $100 左右。

(註二)組裝或升級過個人電腦的讀者或許還記得「英偉達精視 256」(GeForce 256)插卡吧?

(註三)筆者於 1984 年離開清華大學到 IBM 時,就是參加了被認為全世界使用電腦時間最多的量子化學家、IBM「院士(fellow)」Enrico Clementi 的團隊:因為當時英偉達還未有可以在 GPU 上進行平行處理的軟體層,我們只能自己寫軟體將 8 台中型電腦(非 IBM 品牌!)與一大型電腦連接來做平行運算,進行分子動力學模擬等的科學研究。如果晚生 30 年或許就不會那麼辛苦了?

-----廣告,請繼續往下閱讀-----

(註四)補助個人電腦用的 GPU 品牌到 2000 年時只剩下兩大主導廠商:英偉達及 ATI(Array Technology Inc.)。後者是出生於香港之四位中國人於 1985 年在加拿大安大略省成立,2006 年被超微半導體公司收購,品牌於 2010 年被淘汰。超微半導體公司於 2014 年 10 月提升台南出生之蘇姿豐(Lisa Tzwu-Fang Su)博士為執行長後,股票從每股 $4 左右,上升到今天每股超過 $160,其市值已經是英特爾的兩倍,完全擺脫了在後者陰影下求生存的小眾玩家角色,正在挑戰英偉達的 GPU 市場。順便一題:超微半導體公司現任總裁(兼 AI 策略負責人)為出生於台北的彭明博(Victor Peng);與黃仁勳及蘇姿豐一樣,也是小時候就隨父母親移居到美國。

(註五)

延伸閱讀

  • 熱力學與能源利用」,《科學月刊》,1982 年 3 月號;收集於《我愛科學》(華騰文化有限公司,2017 年 12 月出版),轉載於「嘉義市政府全球資訊網」。
  • 網路安全技術與比特幣」,《科學月刊》,2020 年 11 月號;轉載於「善科教育基金會」的《科技大補帖》專欄。
文章難易度

討論功能關閉中。

賴昭正_96
43 篇文章 ・ 56 位粉絲
成功大學化學工程系學士,芝加哥大學化學物理博士。在芝大時與一群留學生合創「科學月刊」。一直想回國貢獻所學,因此畢業後不久即回清大化學系任教。自認平易近人,但教學嚴謹,因此穫有「賴大刀」之惡名!於1982年時當選爲 清大化學系新一代的年青首任系主任兼所長;但壯志難酬,兩年後即辭職到美留浪。晚期曾回台蓋工廠及創業,均應「水土不服」而鎩羽而歸。正式退休後,除了開始又爲科學月刊寫文章外,全職帶小孫女(半歲起);現已成七歲之小孫女的BFF(2015)。首先接觸到泛科學是因爲科學月刊將我的一篇文章「愛因斯坦的最大的錯誤一宇宙論常數」推薦到泛科學重登。

1

28
4

文字

分享

1
28
4
【2022 年諾貝爾生理或醫學奬】復現尼安德塔人消逝的 DNA,也映襯我們何以為人
寒波_96
・2022/10/06 ・8169字 ・閱讀時間約 17 分鐘

人對自身歷史的好奇歷久彌新。最近十年古代 DNA 研究大行其道,光是發表於 Cell、Nature、Science 的論文就多到要辛苦讀完,加上其他期刊更是眼花撩亂。「古代遺傳學」的衝擊毋庸置疑,開創者帕波(Svante Pääbo)足以名列歷史偉人;然而,得知 2022 年諾貝爾生理或醫學獎由他一人獨得 ,還是令人吃驚——諾貝爾獎竟然會頒給人類演化學家?

諾貝爾獎有物理獎、有化學獎,但是沒有生物學獎,而是「生理或醫學獎」。帕波獲獎的理由是:「發現滅絕人類的基因組以及研究人類演化」。乍看和生理或醫學沒有關係,深入思考……好像還真的沒有什麼關係。

偷用強者我朋友的感想:「應該就是選厲害的。第一個和生理或醫學無關的生理或醫學獎得主,聽起來滿屌的」。

帕波直接的貢獻非常明確,在他的努力下,重現消失數萬年的尼安德塔人(Neanderthal)基因組。他為什麼想要這樣做,過程中經歷什麼困難,發現又有什麼意義呢?

-----廣告,請繼續往下閱讀-----

喜愛古埃及的演化遺傳學家

帕波公元 1955 年在瑞典出生,獲獎時 67 歲。他從小對古埃及有興趣,大學時選擇醫學仍不忘古埃及,但是一生都在追求新奇的帕波,嫌埃及研究的步調太慢,後來走上科學研究之路。1980 年代初博士班時期,他使用當時最高端的分子生物學手段探討免疫學,成果發表於 Cell 等頂尖期刊,可謂免疫學界的頂級新秀。

然而,他始終無法忘情逝去的世界。1984 年美國的科學家獲得斑驢的 DNA 片段,轟動一時。斑驢已經滅絕一百年,能夠由其遺骸取得古代 DNA,令博士生帕波大為震撼。他很快決定結合自己的專業與興趣,嘗試由古埃及木乃伊取得 DNA,並且獨立將結果發表於 Nature 期刊。

古代 DNA。圖/取自 參考資料 1

博士畢業後,帕波義無反顧地轉換領域,遠渡美國追隨加州柏克萊大學的威爾森(Allan Wilson)。威爾森在 1970 年代便開始探討分子演化,後來又根據不同人類族群間粒線體 DNA 的差異,估計非洲以外的人群,分家只有幾萬年,支持智人出非洲說。

帕波正式投入相關研究後意識到,從古代樣本取樣 DNA 的汙染問題相當嚴重。這邊「汙染」的意思是,並非抓到樣本內真正的古代 DNA 目標,而是周圍環境、實驗操作者等來源的 DNA;包括他自己之前的木乃伊 DNA,很可能也不是真正的古代 DNA。另一大問題是,生物去世後 DNA 便會開始崩潰,經歷成千上萬年後,樣本中即使仍有少量遺傳物質殘存,含量也相當有限。

-----廣告,請繼續往下閱讀-----

帕波投入不少心血改善問題。例如那時新發明的 PCR 能精確並大量複製 DNA,他馬上用於自己的題目(更早前是利用細菌,細菌繁殖時順便生產 DNA)。多年嘗試後,他決定放棄埃及木乃伊(埃及木乃伊的基因組在 2017 年成功),改以遺傳與智人差異較大的尼安德塔人為研究對象。

取得數萬年前尼安德塔人的 DNA

根據現有的證據,尼安德塔人是距今約 4 萬到 40 多萬年前的古人類。確認為尼安德塔人的第一件化石,於 1856 年在德國的尼安德谷發現,並以此得名(之前 2 次更早出土化石卻都沒有意識到)。這是我們所知第一種,不是智人的古代人類(hominin)。

對於古人類化石,一百多年來都是由考古與型態分析。帕波帶著遺傳學工具投入,不但增進考古和古人類學的知識,也拓展了遺傳學的領域。他後來前往德國的慕尼黑大學,幾年後又被挖角到馬克斯普朗克研究所,領導萊比錫新成立的人類演化部門,多年來培養出整個世代的科學家,也改變我們對人類演化的認知。

不同個體的粒線體 DNA 之間差異,智人與黑猩猩最多,智人與智人最少,智人與尼安德塔人介於期間。圖/取自 參考資料 2

帕波在 1996 年首度取得尼安德塔人的 DNA 片段,來自粒線體。他為了確認結果,邀請一位美國小女生重複實驗,驗證無誤,她就是後來也成為一方之霸的史東(Anne Stone)。比較這段長度 105 個核苷酸的片段,尼安德塔人與智人間的差異,明顯超過智人與智人。

-----廣告,請繼續往下閱讀-----

然而,粒線體只有 16500 個核苷酸,絕大部分遺傳訊息其實藏在細胞核的染色體中。想認識尼安德塔人的遺傳全貌,非得重現細胞核的基因組。

可是一個細胞內有數百套粒線體,只有 2 套基因組,因此粒線體 DNA 的含量為細胞核數百倍;而且染色體合計超過 30 億個核苷酸,數量無比龐大。可以說,細胞核基因組可供取材的 DNA 量少,需要復原的訊息又多,比粒線體更難好幾個次元。

方法學與時俱進:從 PCR 到次世代定序

一開始,帕波與合作者使用 PCR,但是帕波知道這是死路一條。取樣 DNA 會破壞材料,尼安德塔人的化石有限;PCR 一次又只能復原幾百核苷酸,要完成 30 億的目標遙遙無期。

帕波持續努力克服難關。2000 年人類基因組首度問世,採取「霰彈槍」定序法,大幅提升效率;也就是將 DNA 序列都打碎,一次定序一大堆片段,再由電腦程式拼湊。帕波因此和 454 生命科學公司合作,改用新的次世代定序法,偵測化石中的古代 DNA。2006 年發表的論文可謂里程碑,報告次世代定序得知的 100 萬個尼安德塔人核苷酸,足以進行一些基因體學的分析。

-----廣告,請繼續往下閱讀-----

帕波當時在美國的合作者魯賓(Edward Rubin)持續使用 PCR,雙方分歧愈來愈大,終於分道揚鑣。所以很可惜地,2010 年尼安德塔人基因組論文發表時,魯賓沒有參與到最後。這是人類史上第一次,取得滅絕生物大致完整的基因組,也是帕波獲頒諾貝爾獎的直接理由。

帕波戰隊。圖/取自 The Neandertal Genome Project

鐵證:尼安德塔人與智人有過遺傳交流

這份拼湊多位尼安德塔人的基因組,儘管品質不佳,卻足以解答一個問題:尼安德塔人與智人有過混血嗎?答案是有,卻和本來想的不一樣。尼安德塔人沒有長居非洲,主要住在歐洲、西南亞、中亞,也就是歐亞大陸的西部。假如與智人有過混血,歐洲人應該最明顯。結果並非如此。

帕波的組隊能力無與倫比,他廣邀各領域的菁英參與計畫,不只取得 DNA 資料,也陸續研發許多分析資料的手法,其中以哈佛大學的瑞克(David Reich)最出名。

分析得知,非洲以外,歐洲、東亞、大洋洲的人,基因組都有 1% 到 4% 能追溯到尼安德塔人(後來修正為 2% 左右)。所以雙方傳承至今的混血,發生在智人離開非洲以後,又向各地分家以前;並非尼安德塔人主要活動的歐洲。

-----廣告,請繼續往下閱讀-----

首度由 DNA 定義古代新人類:丹尼索瓦人

復原古代基因組的工作相當困難,不過引進次世代定序後,從不可能的任務降級為難題,尼安德塔人重出江湖變成時間問題。出乎意料,同樣在 2010 年,帕波戰隊又發表另外 2 篇論文,描述一種前所未知的古人類:丹尼索瓦人(Denisovan)。不是藉由化石,而是首度由 DNA 得知新的古代人種。

根據細胞核基因組,尼安德塔人、丹尼索瓦人的親戚關係最近,智人比較遠,三群人類間有過多次遺傳交流。圖/取自 參考資料 1

丹尼索瓦人得名於出土化石的遺址(地名來自古時候當地隱士的名字),位於西伯利亞南部的阿爾泰地區,算是中亞。帕波對這兒並不陌生,之前俄羅斯科學家在這裡發現過尼安德塔人化石,而且由於乾燥與寒冷,預計化石中的古代 DNA 保存狀況應該不錯。

帕波戰隊對丹尼索瓦洞穴中的一件小指碎骨定序,首先拼裝出粒線體,驚訝地察覺到這不是智人,卻也不是尼安德塔人,接下來的細胞核基因組重複證實此事。它們變成前後 2 篇論文,帕波出名的不喜歡物種爭論,不使用學名,所以直稱其為「丹尼索瓦人」。

還有幾顆丹尼索瓦洞穴出土的牙齒也尋獲粒線體,而且這些臼齒特別大,型態前所未見。奇妙的是,丹尼索瓦人粒線體、基因組的遺傳史不一樣;和智人、尼安德塔人相比,尼安德塔人的粒線體比較接近智人,細胞核基因組卻比較接近丹尼索瓦人。

-----廣告,請繼續往下閱讀-----

這反映古代人類群體間的遺傳交流相當複雜,不只是智人、尼安德塔人,也不只有過一次。後來又在丹尼索瓦洞穴發現一位爸爸是丹尼索瓦人、媽媽是尼安德塔人的混血少女,更是支持不同人群遺傳交流的直接證據。

遠觀丹尼索瓦洞穴。圖/取自論文〈Age estimates for hominin fossils and the onset of the Upper Palaeolithic at Denisova Cave〉的 Supplementary information

回溯分歧又交織的人類演化史

重現第一個尼安德塔人基因組後,帕波戰隊持續改進定序與分析的技術,也獲得更多樣本,深入不同族群的分家年代、彼此間的混血比例等問題,新知識不斷推陳出新。

丹尼索瓦人方面,如今仍無法確認他們的活動範圍,不過很可能是歐亞大陸偏東部的廣大地區。一如尼安德塔人,丹尼索瓦人也與智人有過遺傳交流。

最初估計某些大洋洲人配備 4% 到 6% 的丹尼索瓦人血緣,後來修正為 2% 左右(不同方法估計的結果不一樣,總之和尼安德塔血緣差不多)。不同智人具備丹尼索瓦 DNA 的比例差異頗大,某些大洋洲人之外,東亞族群也具備些許,歐亞大陸西部的人卻幾乎沒有。

-----廣告,請繼續往下閱讀-----
到帕波獲得諾貝爾獎為止,古代 DNA 最早的紀錄是超過一百萬年的西伯利亞古代象。圖/最早古代 DNA,超過一百萬年的西伯利亞象

至今年代最古早的人類 DNA,來自西班牙的胡瑟裂谷(Sima de los Huesos),距今 43 萬年左右(最早的是超過一百萬年的古代象,由受到帕波啟發的其餘團隊發表)。根據 DNA 特徵,胡瑟裂谷人的細胞核基因組更接近尼安德塔人,可以視作初期的尼安德塔人族群。然而,他們的粒線體卻更像丹尼索瓦人。

帕波開發的研究方法,不只針對消逝的智人近親,也能用於古代智人與其他生物,累積一批數萬年前智人的基因組。釐清近期的混血事件外,還能探討不同人群當初分家的時期。估計尼安德塔人、丹尼索瓦人約在 40 多萬年前分家,他們和智人的共同祖先,又能追溯到距今 50 到 80 萬年的範圍。

智人何以為智人?遠古血脈的傳承,磨合,新適應

消逝幾萬年的尼安德塔人、丹尼索瓦人,皆為智人的極近親。由於數萬年前的遺傳交流,仍有一部分近親血脈流傳於智人的體內。這些血脈經過數萬年,早已融入成為我們的一部分。

人,人,人,人呀。圖/取自 參考資料 2

智人的某些基因與基因調控,受到遠古混血影響。最出名的案例,莫過於青藏高原族群(圖博人或藏人)的 EPAS1 基因繼承自丹尼索瓦人,比智人版本的基因更有利於適應缺氧。另外也觀察到許多案例,與免疫、代謝等功能有關。

近年 COVID-19(武漢肺炎、新冠肺炎)席捲世界,觀察到感染者的症狀輕重受到遺傳差異影響;其中至少兩處 DNA 片段,一處會增加、另一處降低住院的機率,都可以追溯到尼安德塔人的遠古混血。

非洲外每個人都有 1% 到 2% 血緣來自尼安德塔人,不同人遺傳到的片段不一樣。將不同智人個體的片段拼起來,大概能湊出 40% 尼安德塔人基因組(不同算法有不同結果),也就是說,當初進入智人族群的尼安德塔 DNA 變異,不少已經失傳。

失傳可能是機率問題,某一段 DNA 剛好沒有智人繼承。但是也可能是由於尼安德塔 DNA 變異,對智人有害或是遺傳不相容,而被天擇淘汰。遺傳重組之故,智人基因組上每個位置,繼承到尼安德塔變異的機率應該差不多;可是相比於體染色體,X 染色體的比例卻明顯偏低;這意謂智人的 X 染色體,不適合換上尼安德塔版本。

例如 2022 年發表的論文,比較 TKTL1 基因上的差異對智人、尼安德塔人神經發育的影響。圖/取自〈Human TKTL1 implies greater neurogenesis in frontal neocortex of modern humans than Neanderthals

智人之所以異於非人者幾希?藉由比較智人的極近親尼安德塔人,能深入思考這個大哉問。是哪些遺傳改變讓智人誕生,後來又衍生出什麼不可取代的遺傳特色?另一方面也能反思,某些我們以為專屬智人的特色,其實並非智人的專利。

分析遺傳序列,畢竟只是鍵盤辦案,一向雄心壯志的帕波,當然想要更進一步解答疑惑。比方說,尼安德塔人、智人間某處 DNA 差異對神經發育有什麼影響?體外培養細胞、模擬器官發育的新穎技術,如今也被帕波引進人類演化學的領域。

瑞典與愛沙尼亞之子,德國製造,替人類做出卓越貢獻的人

回顧完帕波到得獎時的精彩成就,他的工作與生理或醫學有哪些關係,各位讀者可以自行判斷。我還是覺得沒什麼直接關係,如遠古混血影響病毒感染的重症機率這種事,那些 DNA 變異最初是否源自尼安德塔人,其實無關緊要。不過多少還是有些影響,像是為了研究古代基因組而研發出的基因體學分析方法,應該也能用於生醫領域。

《尋找失落的基因組》台灣翻譯本。

帕波 2014 年時發表回憶錄《尋找失落的基因組》,自爆許多內幕。台灣的翻譯出過兩版,可惜目前絕版了。我在 2015 年、2019 年各寫過一篇介紹。書中有許多值得玩味之處,不同讀者會看到不同重點,有興趣可以找來閱讀,看看有什麼啟發。

主題是諾貝爾獎就不能不提,帕波得獎也讓諾貝爾新添一組父子檔,他的爸爸伯格斯特龍(Sune Karl Bergström)是 1982 年生理或醫學獎得主。為什麼父子不同姓?因為他是隨母姓的私生子,父子間非常不熟。

他的媽媽卡琳.帕波(Karin Pääbo)是愛沙尼亞移民瑞典的化學家,2007 年去世前曾在訪問提及,她兒子在 13、14 歲時從埃及旅遊回來,對科學產生興趣。帕波獲頒諾貝爾獎後受訪提到,可惜媽媽已經去世,無法與她分享榮耀。移民異國討生活的單親媽媽,能夠養育出得到諾貝爾獎的兒子,也可謂偉大成就。

人類演化的議題弘大淵博,但是究其根本,依然要回歸到一代一代的傳承。每個人都無比渺小,卻也是全人類中的一份子,親身參與其中。諾貝爾生理或醫學獎 2022 年的頒獎選擇,乍看突兀,仔細思索卻頗有深意。帕波的研究也許很不生理或醫學,卻再度強化諾貝爾奬設立的精神:「獎勵替人類做出卓越貢獻的人」。

  • 帕波得獎後接受電話訪問:

延伸閱讀

參考資料

  1. Press release: The Nobel Prize in Physiology or Medicine 2022. NobelPrize.org. Nobel Prize Outreach AB 2022. Wed. 5 Oct 2022.
  2. Advanced information. NobelPrize.org. Nobel Prize Outreach AB 2022. Wed. 5 Oct 2022.
  3. Geneticist who unmasked lives of ancient humans wins medicine Nobel
  4. Ancient DNA pioneer Svante Pääbo wins Nobel Prize in Physiology or Medicine
  5. Nature 論文蒐集「Nobel Prize in Physiology or Medicine 2022
  6. Estonian descendant Svante Pääbo awarded Nobel prize

本文亦刊載於作者部落格《盲眼的尼安德塔石匠》暨其 facebook 同名專頁

所有討論 1
寒波_96
193 篇文章 ・ 1066 位粉絲
生命科學碩士、文學與電影愛好者、戳樂黨員,主要興趣為演化,希望把好東西介紹給大家。部落格《盲眼的尼安德塔石器匠》、同名粉絲團《盲眼的尼安德塔石器匠》。

1

31
3

文字

分享

1
31
3
反正都是確診,為什麼還要定序病毒基因組?
寒波_96
・2021/05/21 ・2878字 ・閱讀時間約 5 分鐘

-----廣告,請繼續往下閱讀-----

最近 COVID-19(武漢肺炎、新冠肺炎)成功入侵台灣,造成不少社區傳播,大家必需做好長期抗戰的準備,妥善安排資源,不論生理、心理狀態都要注意,不該太過輕忽,也不可過度緊張,否則過早崩潰,豈不前功盡棄?

圖/ENVATO ELEMENTS

瘟疫蔓延之下,遺傳定序是掌握情報的重要手段。這回台灣便透過定序得知,所有在外廣傳的病毒,遺傳上皆可追溯到華航、諾富特飯店最初的感染。

掌握此一關鍵情報以後,台灣當局暫時決定節省資源,短期內除非特殊案例,否則不再全部定序確診者。

幾項定序的功能:認識病毒起源、親戚關係、發展動態、遺傳適應。圖/取自 Insights from SARS-CoV-2 sequences

由病毒與病毒的連結,判斷人與人的連結

藉由比對遺傳序列,確認病毒與病毒之間的連結,進而判斷人與人之間的連結,是定序最直接的功能。

SARS 二世冠狀病毒(SARS-CoV-2)是 RNA 病毒,由大約 3 萬個 RNA 組成基因組。過去一年來的追蹤發現,除了極少數例外,病毒突變累積的速度一般不快,平均一個月只有 2 到 3 處改變,也就是平均 11 到 15 天新增一處。

根據追蹤,新冠病毒突變累積的速度不快,平均一個月只有 2 到 3 處改變。圖/ENVATO ELEMENTS

病毒從感染到傳染給下一個人,大部分人的潛伏期未滿 14 天。絕大多數時候,再傳染給下一個人,以及下下一位,甚至是再傳好幾次之內,病毒的遺傳組成都沒有任何改變,或是只有一兩處變化。

兩位有接觸過的感染者之間,病毒的差異在一兩處以下,便有機會是直接傳染,由此便能追蹤人與人的連結。不過在廣傳的情況下,可能許多感染者都帶有一樣的病毒,即使病毒遺傳序列完全一樣,也未必是源自特定哪一個傳染源。

-----廣告,請繼續往下閱讀-----
圖/中央社

追蹤傳染的源頭與發展

台灣 5 月過後的社區傳播,幾乎可以確認源自一個月前,華航與諾富特飯店的傳染源。那群確診者中多數有定序,皆為最初源自英國的總加速師病毒「B.1.1.7」衍生改版,根據細微差異又可以區分為 3 款。

而隨後的獅子會、萬華、宜蘭、基隆各地確診者的病毒序列,彼此間似乎略有差異,卻依然和華航相關的那 3 款中,其中一款非常類似。

由此推論,即使各地本土感染最初的源頭不清楚,應該還是來自當初航空業者不小心引進的病毒,沒有額外的不明來源。

掌握此一重要訊息後,短期內定序就不再是第一優先的任務。但是這不意謂台灣之後不再需要定序,除了偵測其他可能的境外入侵,我們仍然必需追蹤病毒在本土的演化。

-----廣告,請繼續往下閱讀-----
圖/中央流行疫情指揮中心

病毒入侵台灣,傳播到各地以後,有各自的發展方向,也會累積不同的突變。定期在各地取樣定序,可以追溯病毒在台灣傳播的過程,有沒有發生變化。

比對不同樣本間的遺傳差異,可以獲知許多情報。如果發現許多人的病毒配備不同變異,便能推論感染規模不小,不同傳染鏈的病毒獨自產生不ㄧ樣的突變,分別傳染給不同人。假如各地病毒沒什麼差異,可能意謂傳播鏈其實不廣,只有少數傳染源,短期內造成相對高比例的傳染。

SARS 二世冠狀病毒的結構,S 蛋白質是位於病毒外面的凸起。圖/取自 acebiolab

偵測「適應」:更強的病毒來襲,注意!

病毒的定序,也能即時追蹤是否有適應發生。這方面最明確的實例,是去年初誕生的 D614G 突變。

病毒以表面的 S 蛋白質(spike protein)接觸、感染宿主細胞,而上頭的 D614G 突變能增強傳染力,相比同類之下更有優勢;D614G 誕生後的存在感一路攀升,最後幾乎徹底取代源自武漢的原版同類。

在 D614G 的基礎上,各地病毒們又各顯神通,獨立累積新的變異,適應新的情境。激烈競爭下,英國誕生的 B.1.1.7、南非的 B.1.351、巴西的 P.1,以及更多新型號病毒陸續脫穎而出。

-----廣告,請繼續往下閱讀-----
兩款病毒在全世界的相對比例變化,橘色是原本的 D,藍色是衍生的 G。圖/取自 Tracking changes in SARS-CoV-2 Spike: evidence that D614G increases infectivity of the COVID-19 virus

病毒突變是正常的,多數突變反而不利生存,容易被淘汰,但是某些特定位置的突變卻可能帶來優勢,有些能增強傳染,有些能抵制抗體,這些都會令病毒更難對付。

例如當下在台灣廣傳的總加速師「B.1.1.7」,便擁有更強的傳染力。(殺傷力則不是那麼確定,不同研究結論不同,反正沒有降低就是。)

假如某些突變具備優勢,存在感上升的機率更大。

定序病毒基因組除了能追蹤動向,倘若見到如存在感迅速上升之類的狀況,便能及早警覺,也許有新的敵人降臨惹!

當下台灣定序的用處,主要是追蹤病毒發展動態,以及偵測潛在的遺傳適應。

瘟疫蔓延時,檢驗找到確診者,阻止新的傳播是當務之急,定序不見得要馬上進行,不過仍然可以先保留樣本,之後慢慢補進度。

-----廣告,請繼續往下閱讀-----

了解我們「正處於疫情的什麼階段」是非常重要的一件事,對過去一段時間的認識愈多,愈能掌握目前的狀況,以及預先規劃未來的走向。定序就是一種獲得情報的方法。

延伸閱讀

參考資料

本文亦刊載於作者部落格《盲眼的尼安德塔石匠》暨其 facebook 同名專頁

所有討論 1
寒波_96
193 篇文章 ・ 1066 位粉絲
生命科學碩士、文學與電影愛好者、戳樂黨員,主要興趣為演化,希望把好東西介紹給大家。部落格《盲眼的尼安德塔石器匠》、同名粉絲團《盲眼的尼安德塔石器匠》。