8月6日,《細(xì)胞報告》(Cell Reports)發(fā)表了廣東工業(yè)大學(xué)生物醫(yī)藥學(xué)院教授林章凜團(tuán)隊(duì)與華南理工大學(xué)生物學(xué)院副教授楊曉鋒團(tuán)隊(duì)合作的最新研究成果。他們在人工智能的生物學(xué)應(yīng)用方面取得重要進(jìn)展,成功構(gòu)建一種新型的人工智能框架——DeepMineLys,并發(fā)現(xiàn)迄今為止在人類微生物組中最有效的溶菌酶。

DeepMineLys的示意圖。研究團(tuán)隊(duì)供圖
論文第一作者、華南理工大學(xué)生物科學(xué)與工程學(xué)院2018級博士生付一然表示,作為概念驗(yàn)證,該研究使用了人類微生物宏基因組數(shù)據(jù),從中識別和挖掘有治療耐藥菌潛力的溶菌酶,它標(biāo)志著人工智能在生物學(xué)領(lǐng)域應(yīng)用的一個重要突破。
“DeepMineLys不僅能夠挖掘溶菌酶,它具備蛋白質(zhì)挖掘的廣泛應(yīng)用潛力,為未來的生物學(xué)研究提供了一個有力的工具。”論文共同通訊作者林章凜表示,DeepMineLys的成功得益于構(gòu)建了涵蓋廣泛噬菌體溶菌酶的全面訓(xùn)練數(shù)據(jù)集,集成了TAPE等先進(jìn)算法和編碼技術(shù),采用了三層卷積神經(jīng)網(wǎng)絡(luò)和雙軌架構(gòu)等幾個關(guān)鍵因素,極大地提升了模型的預(yù)測性能。
在性能評估方面,研究團(tuán)隊(duì)使用了精確度、召回率和F1分?jǐn)?shù)等多種指標(biāo),在獨(dú)立數(shù)據(jù)集的驗(yàn)證中,DeepMineLys的F1分?jǐn)?shù)達(dá)到84.00%,相比現(xiàn)有方法提升了20.84%。他們成功從三個不同的人類微生物宏基因組數(shù)據(jù)集中識別出一千多種新的溶菌酶(相似度小于60%)。
研究團(tuán)隊(duì)還從前100個候選溶菌酶隨機(jī)選擇了16個進(jìn)行了實(shí)驗(yàn)驗(yàn)證,其中11個被證實(shí)具有活性,最強(qiáng)的一個溶菌酶的活性甚至比傳統(tǒng)溶菌酶高出6.2倍,成為迄今為止在人類微生物組中發(fā)現(xiàn)的最有效的溶菌酶。同等重要的是,研究團(tuán)隊(duì)指出了人工智能用于生物學(xué)問題的若干限制和擬待解決的關(guān)鍵問題。
一是,生物問題涉及的可能數(shù)據(jù)庫要遠(yuǎn)大于物理問題的數(shù)據(jù)庫。比如,人口目前的總數(shù)只有80億左右,所以人臉識別是相對容易的;但單個蛋白質(zhì)的三突變株數(shù)就高達(dá)千億。二是,目前人工智能技術(shù)的驗(yàn)證基本局限于內(nèi)推,而生物學(xué)問題更需要外推能力,因此使用獨(dú)立數(shù)據(jù)集驗(yàn)證更顯重要。三是,大部分人工智能的生物學(xué)研究目前缺乏實(shí)驗(yàn)驗(yàn)證。
“這些問題的解決,將極大推動人工智能在生物學(xué)領(lǐng)域的應(yīng)用。”林章凜說。