AI能否運用到承擔著人類健康使命的新藥研發行業中去?
編者按:本文來自微信公眾號GGV紀源資本(GGVCapital),編輯:張穎,創業邦經授權發布。
藥企花十幾年圍繞著一個靶點研發出一款藥,盡管面世后救人無數,但面對下一個靶點依然要從頭做起。為什么幾十年過去了,新藥研發仍然如此低效?這曾經是傳統新藥研發行業大家普遍的觀感。
(資料圖片)
另一方面,人們注意到AI不僅能識別內容,還能夠創造內容,AIGC(AI Generate Content,利用人工智能技術來生成內容)行業近幾年的蓬勃發展已經帶來太多驚喜,那么,AI能否運用到承擔著人類健康使命的新藥研發行業中去?
圖:藥物研發的Eroom’s Law,即制藥公司正花費越來越多的錢開發更少的藥物。(來源:research gate)
這兩個問題匯集到一起,就能夠清晰地看到“生物計算”(Bio-Computing)的價值:通過生物計算引擎,藥物研發者能夠利用大量的生物數據,將人類細胞常見的7000個目標蛋白所對應的蛋白質藥物彈頭都挖掘出來,并且針對每一個彈頭做出上千種藥物干預的方案,而這意味著藥物研發這件曾經如大海撈針的事情有望變成“按圖索驥”——毫無疑問,這將為行業帶來極大的沖擊。
藥物研發的新探索幾十年來,藥物研發行業的發展趨勢可以以“精準化”幾個字概括。最早的化療藥物進入人體,由于識別能力有限,形成“殺敵一千、自損八百”的效應,于是專家們研發出更加精細化的小分子藥物,針對某一類的蛋白具有結合能力,形成更精準的治療效果。再之后,靶向藥物的面世,使得一款藥物能夠精準地去靶向具體的某一個蛋白。
而新一代的精準藥物,不僅能夠在遇到一個靶點蛋白的時候才會引起觸發,還能夠識別出在這個靶點蛋白所處的微環境里是否有對應的、合適的酶。這類藥物甚至能夠精準到,在含有A、B、C 三個目標蛋白的時候才需要發揮作用,而只有某一個目標蛋白的情況下則不會發生觸發。
不過,如今的藥物研發行業出現了更新的進展。
以往的藥物發現大多以真實物理世界篩選為主,以動物實驗作為驗證主體。例如中國古人“神農嘗百草”,古代蘇美爾人通過吃柳樹的樹皮來獲取其中的阿司匹林,再例如科學家從治愈的病人血液中去試圖發現疾病治愈的相關元素,通過給小白鼠去打上具有目標靶點的蛋白,去篩選能夠治療疾病的藥物構成。
而新藥研發行業的專家們正在探索的生物計算,則更像是將蛋白質構成視作一個巨大的模型,去探索人類進化過程中,蛋白質組合的各種可能性。這種通過理性設計,而非僅僅依賴于對自然界觀測的研發手段,再經由高通量的驗證實驗去判斷它針對目標的效果之后,便帶來了更精細的新藥發現范式。
不過,生物計算至今仍然是一個剛剛興起的領域。在這條賽道上探索的科學家試圖將原有手段發現的靶點,依靠生物計算重新做一輪預測。而他們衡量成功與否的指標是“親和力”,即通過生物計算所設計的藥物蛋白與目標蛋白之間的親和程度是否足夠高,或者至少高于原有手段。目前他們的結論是,生物計算可以在人類已經充分研究過的靶點上將親和力提高了1- 2個數量級。
而經過數據計算,生物計算所設計的蛋白質親和力還有極大的提升空間。對科學家來說,即使能夠做到更高的親和力,藥物本身也會避免與目標蛋白過于緊密,因為過于緊密容易引發更多的副作用。通過生物技術,藥物的親和力可以被調整為中等量級,而這種調節能力,將直接讓這些藥物更安全、更有效。
歸根結底,生物計算能夠提高藥物研發的特異性。一家藥企在設計出一款藥物之后,就需要走完從篩選到臨床再到藥物上世的全過程,但當他們發現了下一個未被人類征服的靶點時,此前的研發經驗卻用處不大。沒有任何一家藥企能夠去“窮舉”人體內的蛋白結合,這使得整個行業的關鍵進展緩慢,每款藥物都需要十幾年甚至二十年的研發周期。
但是,生物計算的神奇之處恰恰在于,任何一個蛋白都可以被計算出來,也都可以控制其與靶點的結合。
或許我們可以將生物計算與近期火爆的Chat GPT相類比。它們的發展同樣依賴于AI,后者經歷了從GPT-1到GPT-4的一輪輪研發,才達到今日令人驚艷的水準。而生物計算也將經歷對不同靶點結合效果的一輪輪試驗。前路漫長,但這項探索意義重大,一旦解決了目前所有的研發問題,新藥研發者便堪稱進入了研發的“自由王國”,他們將在更短的時間內,借用更靈活的手段去研發更有效的藥物。
(圖片來源:百圖生科實驗室真實拍攝)
生物計算能帶來什么臨床效果?進入藥物研發的“自由王國”,對藥企來說,曾經是一個可望而不可及的夢。這些企業往往花十幾年時間圍繞著一個靶點來研發一款藥物,藥品上市后皆大歡喜,但同時也可能發現,其他藥企使用類似的技術路徑,研發了同一個靶點上的藥物。這種行業格局使得大家同樣都需要在研發的苦行僧之路上長期前行,再以零積累的狀態,將目標遷移到另一個靶點上。藥物研發只能夠針對單個靶點,這是整個行業低效的源頭問題。
而生物計算所帶來的最大價值是,科學界可以將人類的細胞常見的7000個目標蛋白模擬出來,并做好相關的彈頭,并針對每一個彈頭做出 100 種甚至1000 種選擇。由于研發者全程相當于在虛擬空間內進行設計,因此100 種或1000 種藥物構成的研究與抉擇,并不會耗費更多資源。
致力于生物計算的百圖生科(BioMap)CEO劉維提到,生物計算將創造出創新藥物研發的平臺型機會,就像隨著汽車的復雜度提高,必然會進化出幾家變速箱廠商,隨著飛機的普及,也會有專業的發動機廠商誕生一樣,藥物研發行業完全有理由出現幾家關鍵部件的平臺級公司。
那么,對于整個行業來說,生物計算將帶來怎樣的臨床收益,它又將如何落地?
首先,它將使藥物本身的功能更加精準。藥物研發的“老辦法”是基于生物篩選,大多數針對單一靶點或者簡單地將幾個靶點拼到一起,在病人體內碰到 A 靶點可以發揮作用,碰到B 靶點也可以發揮作用,但也因此無法提高安全性,更難以降低副作用。由于安全性有限,藥物的濃度也不會太高,藥效因此無法保證。
而更加精準與更高的親和力恰恰是生物計算所追求的目標。此外,在針對靶點的精細化研究之后,便是每一個“彈頭”觸發機制的改變,人體的細胞擁有自己的運作規律,新一代藥物可以做到在針對A靶點激活后間隔5毫秒,再在B靶點釋放。
這帶來的直接臨床收益是,藥物的安全性大大提高,而安全性也恰恰是當今藥物研發的最大桎梏之一;此外,藥物的有效性與長期效果提高,降低患者耐藥性。
第三便是藥物的適用范圍,人們可以去預期能解決的疾病領域,例如此前很多實體瘤難以治療,就是因為藥物沒有足夠濃度,穿透力不足以形成治愈,而生物計算能夠大幅度提高藥物的實用性。
實際上,人類對疾病的機理已經形成了很多有效的初步判斷。例如大量疾病,包括腫瘤、衰老、感染都與免疫系統有關,根本在于免疫細胞被過度激活或者沒有被激活。
因此,怎樣激活免疫細胞的蛋白,怎樣在細胞表面或者細胞里找到合適的蛋白,像“推開關”一樣激活一些蛋白,抑制另一些蛋白,便是治療的根本。而以往的研發方式無法設計出精準控制這些蛋白的藥物。換句話說,藥物研發這門科學,受制于傳統的動物發現原理,但今天這一切似乎有望改善。
生物計算的臨界點,會在哪?百圖生科將其為生命科學問題提供解決方案的AI平臺命名為AIGP(AI Generatived Protein),而這與AIGC(AI Generate Content,利用人工智能技術來生成內容)確實有些異曲同工之妙。劉維概括,如果說AIGC所使用的語言是人類的自然語言,那么Protein 更像是造物主的生命語言。自然語言是由字詞章句組成的,AIGP所研究的則是蛋白質里的氨基酸序列,包括蛋白質之間的互相作用。只不過AIGP與AIGC的研發進展不太一樣,前者目前還停留在類似于GPT-1的階段。
那么,生物計算的臨界點,或者關鍵條件會在哪里?
圖: AIGP3大功能模塊+12項核心能力示意圖。來源:百圖生科
與AIGC相似,AIGP所發展的首要基礎是數據。如果數據足夠多,科學家甚至不需要建立大模型就能獲取到想要的答案,但如果數據太少,大模型則沒有用武之地,無法蒸餾出能對新藥研發有所指導意義的東西。
單細胞組學的進展是生物計算領域科學家的研發動機之一,單細胞CRISPR的細胞擾動以及對擾動的觀測等一系列技術在過去的5年內快速走向成熟,使得每一個細胞的基因組和轉錄組都可以被翻譯為這個細胞內的蛋白表達。
因此,每一個細胞能夠被解讀的數據是原來的幾千萬倍,而且這些數據都可以被映射到蛋白之中。在此之前,諸如蛋白是如何在一個細胞內被組合的,細胞之間蛋白質是如何互相作用的,這些大量的信息都像是在黑盒子里,無法被任務模型分析出來。
除了數據的快速增長之外,另一個推動行業進入臨界點的關鍵點是大模型的框架,即通過大模型來表征蛋白質相關的信息。對AIGC來說,自然語言的大模型也是靠人類的字詞章句組成,同時完成文字、圖片、視頻等跨模態描述。而到了AIGP這里,把氨基酸、蛋白、細胞、免疫系統等打通成一套表征的體系之后,人類便可以通過蛋白質的“開關”來調控細胞的功能。
第三個關鍵條件便是算力的快速發展,生物計算這個領域的大模型對算力有一些獨特的要求,這些大模型往往會和物理模型有更多的融合,如今算力的需求也正在與大模型進行融合。
第四個條件,是在生物領域非常重要的高通量驗證體系的成熟。GPT-1模型就已經解決了自然語言識別的關鍵問題,即依靠互聯網形成的信息快速閉環就能夠形成一套驗證與反饋體系。然而,生物計算需要有一套自己的驗證體系,而這個體系的建立并不容易。以百圖生科為例,經過計算而發現的蛋白應當如何被“讀”“寫”出來?人們無法利用公開數據做驗證,因為預測或設計出的往往都是全新蛋白。能否找CRO來輔助模擬呢?由于CRO的主要業務是面向當前主流的蛋白去做優化,因此這些廠商對新發現的蛋白普遍并不感冒。
從AI大模型的角度來講,無論是Positive結果的數據還是Negative結果的數據,甚至多維數據,一切數據皆有意義。因此,百圖生科的實驗室整合了目前CRISPR的技術與高速蛋白表達的技術,形成一個能高速閉環驗證的系統來驗證對蛋白的預測。一旦百圖生科獲得高價值的藥物研發項目,這套閉環就將支持它探索新的蛋白結構。
圖:百圖生科的大模型xTrimo如何實現閉環迭代。來源:百圖生科
平臺研發者該如何構建模式?在生物計算這條嶄新的路上探索,僅有技術積淀似乎不夠。對于以百圖生科為代表的平臺研發者,如何構建自己的模式,才能最快地讓這件事落地并持續發展?
百圖生科將自己定位為AIGP平臺驅動的co-development合作模式,一方面研發平臺,另一方面也會做一些較為前沿的藥物管線,進行直接的藥物開發。
涉及到具體的藥物研發,往往需要廠商擁有全鏈條的能力,因此百圖生科目前近300名員工中,很大一部分比例的人才儲備都涉及到具體的藥物研發,而且一些自研藥物已經進入臨床前的后期。不過,百圖生科更多地會將新藥推進到IND(Investigational New Drug )狀態,即獲得臨床批件或更早的階段,暫時不會在后面的臨床階段去做更大的投入。
實際上,百圖生科的優勢是發現創新的分子。因此更希望能夠獲得大型藥企的青睞,將創新成果及時地轉讓出去。例如一些大型藥企在免疫細胞的調控能力方面很強,在過往的靶點上也擁有成功上市的藥物,如果與百圖生科進行合作,就免去了重復研發,可以獲得雙贏效果。傳統CRO服務企業的項目收益較低,而通過百圖生科的co-development模式,更傾向于讓合作伙伴通過創新與深度介入項目,獲得每個項目少則 1 億美金,多則 10 億美金甚至更多的收益。
基于生物計算平臺,自研藥物+共同開發,這兩方面業務構成了百圖生科的主要模式。為了支撐這樣的創新模式,百圖生科也在開拓各類技術合作,例如近期與穆罕默德·本·扎耶德人工智能大學MBZUAI宣布建立聯合實驗室,其中的重要課題便是在中東聯合去做與石油產量、環保有關的酶的聯合設計和優化。酶是一類關鍵的蛋白質,因此這類研究將充分受益于百圖生科的生物計算大模型上。
在生物計算領域,合作甚至是全球性合作是大勢所趨。由于全球科學家與醫學工作者的目標都是擊退疾病與病毒,每個人肩上的使命與責任相同,因此生物醫藥是一個最不能形成“零和游戲”的領域。縱觀全球,美國市場由于擁有較多大藥廠,底層開發技術進展較快,臨床資源也比較豐富;歐洲擁有很多優秀的藥企,在疾病科學領域有非常深度的研究和長時間的積累,唯一的不足在于歐洲本土轉化的市場不夠大。
圖:百圖生科與MBZUAI共建的中東地區首個生物計算創新研究實驗室。來源:MBZUAI 校網
在亞洲,中國與日本均有較高的研發水平,百圖生科在中國蘇州擁有的大型高通量實驗室是世界上現在最大的生物計算行業的蛋白質生產實施。背靠各家高校,中國的生物計算前沿能力不容小視;同時,中東的醫藥行業也在快速崛起中,百圖生科與MBZUAI共建的中東地區首個生物計算創新研究實驗室,也致力于吸引全球的AI 人才加入,而這些人才的主要方向便與AIGP緊密相關。
扎根于中國的百圖生科也在國內進行更多合作。例如,百圖生科正在與2022未來科學大獎生命科學獎得主李文輝共同探索一個由華人科學家里找到的、目前公認最有前景的靶點。這個靶點本身極為復雜,而且在人體內有很重要的功能,因此無法被簡單地阻斷。李文輝所帶來了對于靶點生物學機理的深度理解,百圖生科也正在用獨特的研發平臺去探索針對這個靶點的解決方案。此外,百圖生科也在積極幫助以漸凍癥抗爭者、前京東副總裁蔡磊為代表的漸凍癥患者在相關的靶點上尋找解決方案。


