- 作者/Eric Topol,本文摘自《AI 醫療》,旗標出版,2020 年 11 月 20 日
成功辨識並驗證新的候選藥物 (drug candidate),是生物醫學最大、絕對也是最昂貴的挑戰。由於耗資甚鉅,失敗風險也高,因此任何有望減少藥物研發費用或難度的技術,業界都樂於迅速採用。十年前,他們將大量資源投入硬體,採用自動化機器來執行分子的高通量 (high-throughput)1 大規模篩選。現在,他們則將重點轉移到能自動化的演算法上。2018 年時,就已經有超過 60 家的新創公司與 16 家製藥公司使用 AI 進行藥物開發。這些團隊同樣運用了許多 AI 工具來協助這項如同大海撈針的任務,包含搜尋生物醫學文獻、以電腦挖掘數百萬個分子結構、預測脫靶效應與毒性,以及大規模的細胞檢測分析等。而其他能夠更快研發出更多有效分子的方法(自動化分子設計)也正在開發當中。甚至有初步資料顯示,AI 的化學篩檢有望大幅減少臨床前動物試驗 (preclinical animal testing) 的需求。這些公司在運用 AI 時採用的策略差異很大,因此我將簡單扼要地介紹一些案例,讓各位能夠了解 AI 可能帶來的影響(見表 10.1)。
利用自然語言處理擷取生醫文獻和化學物質資料庫中的藥物及分子資訊
首先要介紹的類型是利用自然語言處理,從生物醫學文獻和化學物質資料庫 (chemical database) 中擷取目前所有關於藥物及分子的資訊。這樣做的另一個好處是可以不受既有理論及偏見束縛,以無特定假設的方式分析完所有資料。
小分子的世界,其實就如銀河般地浩瀚,這些小分子的數量遠遠超越了太陽系所有原子數量的總和(圖 10.1),其中具類藥性且可被製備的化合物約有 1060 種。這對 AI 而言,簡直就是完美的發揮空間。因此,目前 Exscientia 公司正在為這些化合物建立完整目錄,而 Epiodyne 公司則已整理出 1 億種尚未製備但易於合成的化合物。不過並不是只有新創公司在做這些工作。加州大學舊金山分校的 Brian Shoichet 便曾主導一個止痛藥物開發計畫,將 300 萬種化合物篩選到僅剩 23 種。德國明斯特大學 (University of Münster) 的有機化學家們則一直在運用深度學習,使化合物的合成更具預測性、更快速與簡便。劍橋大學的夏娃 (Eve) 機器人,具有 AI 資料庫篩選的功能,能夠為一款抗瘧疾藥物找到多種藥效證據。瑞士伯恩大學 (University of Bern) 的 Jean-Louis Reymond 則建構了一個名為 GDB-17 的資料庫,包含了 1,660 億種化合物,呈現出所有由 17 個以下的原子構成,且從化學角度來看是合理的分子。只要利用近鄰分析演算法,便能在短短幾分鐘內篩選過整個資料庫,找出與已知藥物具有相似作用的新分子。不過事實上,Reymond 的資料庫中有許多化合物都難以合成,因此他又將其精選成一份只有 1,000 萬個易於合成的化合物「候選名單」。沒錯,「只有」1,000 萬個而已!
藉由機器學習進行化學反應預測
藉由機器學習進行的化學反應預測也有了一些進展,普林斯頓大學的 Abigail Doyle 與其同事於 2018 年發表的研究就是其中一例。他們讓事情變得好像很簡單:「你只需要描述結構,輸入起始材料、催化劑與鹼基2,軟體就能找出它們之間的相關化學特徵,並輸出化學反應的產率 (yield)。機器學習會將所有的化學特徵與產率配對,目標是做到無論你放入任何結構,它都能告訴你反應的結果!」
使用對抗式生成網路 (GAN)3 協助開發藥物
英科智能公司 (Insilico Medicine) 目前致力於癌症藥物開發,已從公共資料庫中篩選出超過 7,200 萬種化合物。他們的做法很有創意,使用了一對對抗式生成網路 (GAN)。第一套用來辨識潛在的治療分子 (therapeutic molecule),第二套則刪除那些使用到已有專利化合物的分子。
BenevolentAI 為歐洲最大私人 AI 司之一,他們建立了可篩選生物醫學文獻與化學物質資料庫的自然語言處理。目前為止,在 AI 藥物開發方面令人印象最深刻的論文之一,便是來自 BenevolentAI 的有機化學家 Marwin Segler。他和明斯特大學的同事設計了一套深度學習演算法,可以自行從數百萬個例子當中學習反應的進行方式。該演算法已根據超過 1,200 萬個已知的單步 (single-step) 有機化學反應,製造出了一些有機小分子。研究人員甚至從兩間享有盛譽的研究所請來一群化學家進行雙盲測試,看看是否能夠辨別出 AI 與人類設計的合成反應路徑,結果他們無法分辨。同樣地,格拉斯哥大學 (University of Glasgow) 的 Leroy Cronin 與他的團隊設計了一個有機合成機器人,可利用機器學習搜尋新的化學反應。該機器人每天能夠進行 36 次反應,而化學家每天只能進行 3 到 4 次。除此之外,機器人也進行了一些無法事先預測結果的反應。Derek Lowe 對這樣的進展提出了反思:「當我們談到智能性任務 (intellectual task) 其實可以被歸類為能夠自動化完成的乏味苦差事時,許多化學家可能會覺得受到侮辱,甚至覺得這是一種威脅。但事實上,使用 AI 反而將讓他們有更多的時間去思考更多高層次的問題,像是該合成哪些分子以及為什麼,而不是將重心都擺在該如何製備出分子的方法及細節上!」
註解
- 高通量篩選技術 (high-throughput screening) 可以在短時間內對大量候選化合物完成篩選,找出有效的先導藥物 (lead compoud)。以分生或細胞實驗方法為基礎、微孔盤為載體,自動化系統操作、高靈敏快速判讀儀測量實驗數據,最後針對數據分析處理,達到大量快速篩選出有效先導藥物之目的。此技術結合了分子生物學、醫學、藥學、計算科學以及自動化技術等學科知識和先進技術,成為藥物開發的主要方式。
- 核鹼基 (Nucleobase) 是指一類含氮鹼基 (nitrogenous base),在生物學上通常簡單地稱為鹼基 (base)。鹼基在 DNA 和 RNA 中負責配對作用。
- 關於對抗式生成網路 (GAN),請參考旗標出版之《GAN 對抗式生成網路》一書。