文/板橋笑笑生包博
次世代基因定序技術已然發展10年,而為什麼叫做次世代(Next-Generation)呢?那第一代去哪裡了?我為何要關心次世代定序技術?乾我何事?要回答到你懂這些問題以前,你必須必備大一生物學;不難拉,大概有點概念就可以。再來要有基礎的統計學概念以及數理概念,一樣不難拉,高中程度就可以。可是你問我,我高中都在談戀愛怎辦?沒關係,就讓我娓娓道來。
華生與克利克在1953年發表於Nature雜誌,確定了DNA的雙股螺旋結構;這個發現就好像神眉老師拿下手套解除封印一樣,從此開始分子生物技術時代來臨,我們不再是以巨觀的方式去探討遺傳、疾病的發生、生物演化等等的一切生物學上難解的問題。
DNA(去氧核糖核酸)是什麼?沒看過DNA你也吃過DNA吧?男孩最喜歡餵女孩吃DNA了,別想歪,我是說任何有機食物的成分裡面都有DNA因為DNA是構成有機體最基本的物質。DNA由碳氫磷所構成分別有4種形式有A(腺嘌呤),C(胞嘧啶),G(鳥嘌呤),T(胸腺嘧啶)。這四種碳氫磷糖類很有趣的只有AT會在一起GC會在一起。所以依造這種特性構成的DNA雙股螺旋就會呈現互補的狀況也就是比方說你拿到一股是ATGGGCCAT你的互補股就會是TACCCGGTA。而在DNA進行複製時會有許多酶的參與其中,包括DNA聚合酵素(polymerase ),這傢伙就是負責生出互補股就對了。
所以根據這個酵素的特性,天才大師桑格發明了人類史上第一個定序法此稱桑格法。桑格也因此獲得諾貝爾獎。桑格法的開發讓我們得以從基本面去看生物體表現,也就是說從微觀的DNA序列開始了解起生物體的化學表現。桑格法的原理其實說穿了就是應用聚合酶的特性,但是桑格在反應劑裡加上了ddNTP也就是ATGC的dd版,而這dd版就像個停止訊號,就像帶著婚戒的辣妹一樣,你想跟他聚合聚合卻不行,所以聚合酶就在ddNTP前面停住了。而桑格在這些dd版的ATGC上面標上放射元素但後期改良成螢光,所以不同顏色會代表不同的ATGC。如果不了解,這裏有youtube 動畫:
https://www.youtube.com/watch?v=nudG0r9zL2M
而桑格法開發完之後大家開始想,這方法會不會太慢啊,定一次序列只有幾十個ATGC有沒有更快的方法?霰彈槍定序法(Shotgun sequencing)的出現除了奠基於桑格法,還要拜電腦科技進步所賜。你可以想像成它會收集鋪滿在一張大桌子上的桑格反應的終止短序列,並同時邊用電腦的演算法把序列像拼圖一樣一片片拼湊起來。人類基因組計畫就是在此狀況下達成的而當時的主力技術就是霰彈槍定序法。
在當時火紅的霰彈槍定序法推出來後,各國聯手定出人類的基因序,這些龐大的資金與經濟力量促進此科技更長足的進步也就是次世代定序(Next Generation Sequencing, NGS)的到來。次世代定序已經發展十年餘,這十年內群雄並立,各有各的長處與劣勢但是illumina這間公司在十來年的發展之下幾乎佔滿90%的NGS市場,可以稱NGS界的英代爾。
illumina的原理基本上就是把shotgun縮小在一個小小盤子上,上面有著幾億個小小短片段訊號。然後根據這些短片段訊號再藉由一些演算法,把它拼成一個完整序列。illumina雖然能換來相當於95%準確的基因序列,但伴隨著的大量短片段在統計上就算是用大型運算電腦也需要花掉不少的時間。
當大家覺得illumina即將一統江山時,有個挑戰者Pacific Bioscience帶著新的科技挑戰市場也代表著挑戰illumna的領域。Pacific Bioscience也簡稱PacBio,PacBio剛宣布上市時,股價可以用火箭升天來形容為什麼?因為他跨時代的科技概念。
PacBio創造的片段是illumina的十倍甚至是百倍長,所以可以更快速的把基因體定序完成。聽起來PacBio像是統一中原的最佳人選,但是事與願違PacBio的火雲神功裡面有幾招破綻:也就是他們創造的超長片段裡有著將近13%的錯誤率。在這消息被揭露之後,PacBio的股價瞬間跌落,雖然PacBio不斷的加長他們的片段到現在幾乎可以一次讀出20000個ATGC。這是一個很了不起的成就,但是因為高錯誤率,所以普遍業界並不採用。
illumina已經虎視眈眈要吞併PacBio讓他們再也沒有立足之地,從此傲笑江湖!但是……..illumina緩慢的拼圖速度讓很多研究人員送出檢體後只能乾等。開始慢慢有人開始研究將兩種科技合併使用的可能:比如Koren at el. 在2012年投稿Nature Biotechnology所提出的混合法也就是先用illumina短片段去糾正PacBio的長片段。
此方法獲得廣大迴響。而PacBio在2013年也提出了一套解決非混合法,意即PacBio only的解法刊登於Nature Method 。這稍稍為PacBio帶來曙光,但卻失去PacBio 該有的速度。因為此解法就是藉由製造更多拼圖重複的貼到同一個區域,好比提升照相機在夜晚中照相的功能你得提升曝光時間,也就是因此犧牲了火雲神功的速度。
天下武功唯快不破,當PacBio失去速度,就再也不是火雲神功了。連帶的要提升解析度,客戶相對要付出更多人力物力財力才能達到普遍的準確度要求。這場NGS在科技,思想與商業模式上的競爭,illumina佔了大上風,但對於科學家與企業家來說,大衛挑戰哥利亞的故事卻是我們引頸期待的,但不管如何NGS公司間的競爭帶給我們更多機會與更便宜的科技去探討生物體的過去與未來,並且對於藥物以及疫苗的研發帶來更大的幫助。
參考資料:
- 腺嘌呤,胞嘧啶,鳥嘌呤,胸腺嘧啶, wiki
- Polymorase, wiki
- Sanger method
- WGS
- 人類基因體計畫, wiki
- shotgun sequencing , wiki
- illumina
- pacbio
- Hybrid Method , 01 July 2012 [Nature Biotechnology]
- HPWG
_____________________________________
作者簡介 姓名:簡榮廷 筆名:板橋笑笑生包博 email: jtchien0925@gmail.com 以及 jchien2@emory.edu 美國艾默里大學(Emory University)電腦科學-生物醫學資訊組博士候選人。費德智庫共同創辦人。Sequegenic 生技公司共同創辦人。專長次世代定序科技,機器學習與數據探勘,生物醫學技術,系統生物學。目前於National Yerkes Primate Research Center 之 Malaria Host-Pathogen Interaction Center 團隊下進行瘧疾研究,從基因體學,系統生物學到流行病學全方位更深入的研究瘧疾以期瞭解其機轉並帶動疫苗以及藥物之研發。