AI帶來生物數(shù)字化
首先是內(nèi)容數(shù)字化,后來到企業(yè)數(shù)字化,現(xiàn)在進入物理世界的數(shù)字化和生物世界的數(shù)字化, 我們的身體、大腦、器官、細胞、蛋白質(zhì)和基因等都在數(shù)字化。另一方面人工智能、算法和算力系統(tǒng)快速進展使得大量的數(shù)據(jù)有使用的場景。
同時人工智能也推動生物實驗的自動化。
正如剛才量子位創(chuàng)始人李根先生所說,目前人工智能算法取得很多進展,我們有巨量的模型,在國內(nèi)比如鵬城的盤古、智源的悟道、浪潮的源1.0,國際有GPT-3、微軟和AMD聯(lián)合推出的Megatron-Turing,包括馬上將會出現(xiàn)的GBT-4,整個量越來越大。
同時,AI也在極大加速生命健康和生物醫(yī)藥領(lǐng)域的快速發(fā)展。
以新藥研發(fā)為例,目前要開發(fā)一種新藥需要投入超過十幾年的周期,花費數(shù)十億美元,周期很長、費用極高。這樣巨大的投入顯然會對醫(yī)藥行業(yè)帶來巨大瓶頸,AI正在改變這種狀況。
首先在基因編輯方面,AI+CRISPR可以更精準,更快的找到靶點。
另外,在大分子、抗體,以及TCR個性化疫苗和藥物,還有最近AlphaFold在蛋白質(zhì)三維結(jié)構(gòu)解析方面的新進展,從序列到結(jié)構(gòu)到功能,AI技術(shù)功不可沒。
我們最近在研究的課題之一,就是怎樣使高通量的生物實驗自動化,把干實驗和濕實驗無縫連接起來,形成閉環(huán),真正地加速整個制藥和生命科學的發(fā)展。
在這點上一個非常形象的例子就是新冠疫苗的開發(fā)周期大幅度縮減。中國科學家在新冠病毒出現(xiàn)之后的第一時間,2020年1月份就找到了病毒基因的序列,三個月之后,蛋白質(zhì)的結(jié)構(gòu)就被解析出來了,此后一個月,病毒和人的交互的方式也解析出來了,去年底疫苗進入臨床實驗,今年開始大規(guī)模使用,不管是滅活疫苗,還是mRNA疫苗,這可能是人類歷史上最快的一次用人工智能加速疫苗開發(fā)的例子。
另外,AIR彭健教授將遷移學習模型用做藥物臨床前的評估,和精準臨床實驗的設(shè)計。我們知道人類很多疾病樣本數(shù)據(jù)很少,但卻積累了很多動物數(shù)據(jù),用動物數(shù)據(jù)模型加上目前已有的人類腫瘤細胞系上的藥物數(shù)據(jù),運用可解釋型的機器學習能很快遷移到人體內(nèi)的藥效預(yù)測任務(wù)上。從結(jié)果可以看到,彭健教授這種遷移學習方式對于三陰型乳腺癌患者設(shè)計的藥物醫(yī)藥可信度提高5倍左右。
另外,彭健教授團隊還把幾何深度學習用到AI抗體的開發(fā)。目前雖然蛋白質(zhì)序列大幅度被解析出來了,但是其本身的形狀幾何結(jié)構(gòu)還有很多的變化,他們想做的就是把蛋白質(zhì)表面的幾何表征用深度學習方法去表示出來,然后做抗體親和力預(yù)測。
彭健教授最近也取得了一些新的進展,他創(chuàng)建的Helixon公司與清華大學醫(yī)學院一起合作研發(fā)出全球首個AI設(shè)計的新冠抗體,這其實是一種新范式。病毒本身是一直在變化的,但通過綜合分析抗體與抗原的相互作用,有效設(shè)計抗體可變區(qū)氨基酸序列,這樣的抗體本身也是相對比較穩(wěn)定,且對德爾塔、阿爾法、伽瑪?shù)韧蛔冎昃哂懈咝Ш蛷V譜的病毒中和效果。
另外,AIR蘭艷艷教授也帶領(lǐng)的學生在基因測序方面做了很多新的工作,并在今年的創(chuàng)新工場Deecamp競賽中獲得了冠軍。我們已知基因10%是編碼的,90%是未編碼的,他們利用基因里的未編碼部分,將這些數(shù)據(jù)用前沿的預(yù)訓練技術(shù)構(gòu)造了一個全新的模態(tài)。
人工智能和生命科學領(lǐng)域盡管有很多可以合作的地方,但是也有很多壁壘,兩個行業(yè)是兩類不同的語言體系,兩類不同的科學家,如何把這兩個行業(yè)無縫連接起來很關(guān)鍵。AIR提出的AI+生命科學破壁計劃就是希望能跨越兩個學科的鴻溝。 同一張圖AI科學家看到的是各種不同的神經(jīng)網(wǎng)絡(luò)、算法模型;生命科學家看到則是蛋白質(zhì)、細胞,以及各種生物結(jié)構(gòu)功能。所以怎樣抽象出哪些問題,以及如何利用這些數(shù)據(jù),是一個亟待解決的問題。
AI賦能生命健康領(lǐng)域包括三個層次:AI基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)平臺搭建,以及AI算法引擎設(shè)計。
最好的人工智能賦能生命科學的例子就是蛋白質(zhì)預(yù)測模型AlphaFold2。AlphaFold2能夠成功滿足幾個條件:
第一點,它是一個well-defined problem,從蛋白質(zhì)的氨基酸的序列到三維的結(jié)構(gòu)的mapping;
第二點,30年前就開始的CASP競賽,每次競賽有標準的數(shù)據(jù)集,每次解析出的蛋白質(zhì)序列,大家都可以公開上傳;
第三點,數(shù)據(jù)本身是well-structured,AI新算法可以直接使用。
第一位把深度學習用于蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的是芝加哥大學豐田研究院許錦波教授,他現(xiàn)在也是清華大學智能產(chǎn)業(yè)研究院(AIR)的卓越訪問教授。當時在CASP,他把ResNet用到蛋白質(zhì)三維結(jié)構(gòu)解析,獲得巨大成功。
現(xiàn)在AlphaFold用的是evolutioned Transformer,以后新的算法都可以用上,所以我覺得這是一個非常經(jīng)典的案例。
我們希望在這個后AlphaFold時代,特別是在大分子制藥方面會有更多進展。
打造AI生命科學干濕閉環(huán)實驗的新的范式。現(xiàn)在AI算法還是輔助,主要還是靠生物的濕實驗。未來會有一種新的模式是AI驅(qū)動的,完全自動化所有環(huán)節(jié)的濕實驗,里面沒有任何人的參與,這個是比較困難的,也是一種新的嘗試。
最后做一個總結(jié), 現(xiàn)在整個生物世界在走向數(shù)字化、自動化,也包括智能科學計算,像分子動力學,薛定諤方程等,都會和AI相輔相成。另外計算的方式,包括AI、數(shù)字驅(qū)動、第一性原理等,也將快速地幫助我們解決生命健康的一些問題。
由于這些進展,我們整個生命科學的生物制藥會更加快速精準、更安全、更經(jīng)濟、更加普惠。但很多的挑戰(zhàn)我們沒有講,比如算法的透明性、可解釋性、隱私安全、倫理等,這些事情都需要我們關(guān)注。我相信未來十年是整個生物制藥和人工智能融合的大好時機,也是行業(yè)發(fā)展的最大的機遇。
以上信息摘自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除,謝謝!