基因是生命的“源代碼”,其中不僅蘊藏著自然演化的奧秘,也囊括了數(shù)之不盡的生物工程資源。如何獲取、分析和應用基因數(shù)據(jù),是現(xiàn)代生物學的核心議題之一。
近日,一支研究團隊對目前已公開的海洋微生物宏基因組數(shù)據(jù)進行分析和深度挖掘,構建了迄今為止最為完整的海洋微生物基因數(shù)據(jù)庫,并從其中發(fā)現(xiàn)了數(shù)種具有應用潛力的基因資源,包括新型基因編輯工具、抗菌肽和PET塑料降解酶等。該研究于2024年9月4日發(fā)表在《自然》(Nature)雜志上,團隊成員來自華大生命科學研究院、山東大學、英國東安格利亞大學、中國海洋大學、廈門大學、丹麥哥本哈根大學等機構。
海洋覆蓋了地球表面約71%的面積,據(jù)估計,其中超90%的物種還未被發(fā)現(xiàn)。細菌、古菌、病毒等微生物是海洋世界中數(shù)量最多的“居民”,1毫升海水就有約100萬個,是海洋生態(tài)的重要組成部分。
從海水中取樣并對其中的遺傳物質進行測序,所得到的所有不加區(qū)分的基因就是“宏基因組”(Metagenomics)。從這些龐大的基因數(shù)據(jù)中提取有用的信息對于研究人員來說是很大的挑戰(zhàn)。
在該研究中,研究團隊歷時五年,通過對目前已公開的接近240 Tb海洋微生物宏基因組數(shù)據(jù)進行重分析,構建了擁有超4.31萬個海洋微生物基因組和24.58億個基因序列的海洋微生物組數(shù)據(jù)庫The Global Ocean Microbiome Catalogue(GOMC),包含從南極到北極、從近海到深遠海、從表層海洋到萬米超深淵等多樣化的海洋生態(tài)系統(tǒng)。其中,2萬多個微生物是潛在新發(fā)現(xiàn)物種,近1萬個微生物為在深海等獨特生境中首次發(fā)現(xiàn)。

GOMC數(shù)據(jù)集概覽。圖a為樣本地理分布;圖b是樣本污染與完成度情況;圖c是各大數(shù)據(jù)庫與新恢復物種的重疊情況;圖d是各種微生物基因組數(shù)量分布。圖片來源:《自然》雜志
通過數(shù)據(jù)挖掘,研究團隊發(fā)現(xiàn)了海洋微生物基因組大小變化、遺傳免疫機制演化等生態(tài)規(guī)律,以及大量能夠應用在基因編輯、抗生素以及塑料降解等領域的基因資源。
科學家如何從基因碎片中還原完整基因序列?從基因層面觀察,海洋生態(tài)有什么神奇的規(guī)律?在基因數(shù)據(jù)中能找到哪些對醫(yī)療、環(huán)境有用的資源?為回答這些問題,近日,澎湃科技采訪了該研究的通訊作者、華大生命科學研究院青島分院院長范廣益博士。
化零為整:宏基因組組裝技術
微生物群落非常復雜,由于大部分微生物無法在實驗室中培養(yǎng),獲取環(huán)境樣本中所有基因信息的宏基因組技術變得十分有效。該技術的難點之一在于,如何從這些混合的基因信息中還原單個物種的基因組。
范廣益告訴澎湃科技,該研究中使用了宏基因組組裝分箱技術,將環(huán)境樣本測序得到的大量基因短序列進行拼接、分箱聚類,從而獲得完整的基因組。這些基因組被稱為“宏基因組組裝基因組”(Metagenome-assembled genomes, MAGs)。
宏基因組組裝涉及到大量的對比和計算。基因是DNA或RNA大分子內一段核苷酸序列,經(jīng)過測序儀測序后,科學家們能得到序列的一段“碎片”,被稱為“讀長”(reads)。通過對這些“碎片”之間重疊部分的比較進而將它們連接起來,又能得到更長的一段連續(xù)序列,被稱為“重疊群”(contigs)。
接下來,科學家們需要通過分拆比對等方式,通過重疊群序列中表現(xiàn)出的模式來判斷這些序列是否屬于一個基因組,這個過程被形象地稱為“分箱”(binning)。同樣的序列被歸到一個“箱子”中,對應一個MAG。
近年來隨著高通量測序技術的發(fā)展,宏基因組數(shù)據(jù)迅速增加,該組裝技術成為了探索新物種、挖掘基因數(shù)據(jù)的有力工具。范廣益提到,在該研究中,研究團隊整合目前已經(jīng)公開的大量海洋微生物宏基因組數(shù)據(jù)庫,涵蓋了從極地到赤道、從海洋表層到深海的廣泛海洋環(huán)境,極大地拓寬了對海洋微生物多樣性的理解。
盡管宏基因組組裝技術已經(jīng)帶來了很多新發(fā)現(xiàn),其產(chǎn)物的生物學真實性仍然有所爭議。MAGs的真實性不僅受到樣本被其它物質污染的影響,也會因為難以驗證而受到質疑,尤其是在對應物種尚未被發(fā)現(xiàn)的情況下。
對此,范廣益認為,隨著測序技術的進步和生物信息分析方法的完善,MAGs的準確性和生物學真實性得到了顯著提高。在該研究構建的數(shù)據(jù)庫中,研究團隊對宏基因組數(shù)據(jù)進行了質量控制,并通過物種系統(tǒng)發(fā)育分析等方法提高分箱的準確性。他說,這樣得來的MAGs能夠代表海洋微生物的真實基因組,為理解微生物群落結構和功能提供了重要信息。
基因組大小和免疫分布:基因視角下的海洋微生物群落
通過對重構的基因組數(shù)據(jù)進行分析,該研究發(fā)現(xiàn)了一些有趣且重要的海洋微生物生態(tài)規(guī)律。
在生物世界中,生物的復雜度并不與基因組大小顯著相關,如無恒變形蟲是一種單細胞原生動物,它的基因組由6700億對堿基對組成,而人類僅有30億對。基因組大小到底受哪些因素影響,又有什么功能,是一個重要的問題。
范廣益說,基因組大小是微生物適應環(huán)境變化的重要指標之一,它與微生物的代謝復雜性、生存策略和進化歷史緊密相關。該研究發(fā)現(xiàn),在海洋環(huán)境中,大基因組細菌通常存在于環(huán)境條件復雜且資源豐富的生境中。
研究者們推測,這些細菌的基因組中可能包含更多的基因,賦予它們更多樣化的代謝途徑和生理功能,從而能夠適應多變的海洋環(huán)境。然而,大基因組也給細菌帶來了復制和維持上的挑戰(zhàn)。
除了基因大小之外,研究還發(fā)現(xiàn)海洋微生物免疫系統(tǒng)中的不同免疫策略的分布存在一種微妙的平衡關系。
跟人類一樣,一些細菌和古菌等海洋微生物也受到病毒的威脅,能殺滅細菌的抗生素也是它們的“宿敵”。針對病毒,很多微生物體內有一種CRISPR-Cas系統(tǒng),其中CRISPR(規(guī)律間隔成簇短回文重復序列)是一段重復的基因,能夠包含并識別曾經(jīng)攻擊過該細菌的病毒DNA并將其摧毀,Cas則是與這些基因相關的負責剪切與摧毀的蛋白質。而面對“劇毒”的抗生素,微生物們則演化出抗生素抗性基因(ARGs),賦予微生物對一種或多種抗生素的抗性。
該研究發(fā)現(xiàn),不同生態(tài)環(huán)境中,微生物對這兩種免疫策略的選擇具有特定的傾向性,如熱液噴口(海底的一種特殊地質結構)等高溫環(huán)境中的微生物中傾向有更多的CRISPR-Cas系統(tǒng);同時,兩種策略的分布似乎相互制約,微生物體內CRISPR-Cas系統(tǒng)增多時,ARGs的數(shù)量就會相對較少,二者在整體分布中保持某種平衡。
范廣益提到,這種平衡可能反映了微生物在維持其遺傳穩(wěn)定性與適應環(huán)境壓力(如抗生素選擇壓力)之間的復雜相互作用。CRISPR-Cas系統(tǒng)可能在一定程度上限制了ARGs的水平傳播,但同時為微生物提供外源核酸入侵的保護。此外,CRISPR-Cas系統(tǒng)本身也可能受到微生物基因組結構、環(huán)境條件、宿主-病原體相互作用等多種因素的影響。
“這一發(fā)現(xiàn)強調了在理解微生物遺傳系統(tǒng)如何適應和抵抗環(huán)境中的挑戰(zhàn)時,需要考慮多種因素和復雜的生態(tài)動態(tài)。這也為進一步研究微生物抗性基因的傳播機制、開發(fā)新型抗菌策略以及保護微生物資源提供了重要的科學依據(jù)。”他說。
基因編輯、抗生素、塑料分解:發(fā)掘基因“寶藏”
基因是生命的“中心”:DNA所攜帶的遺傳信息經(jīng)RNA轉錄、翻譯合成蛋白質,最終構成各種組織結構來實現(xiàn)生命的機能。基因中蘊藏著無數(shù)能夠被應用到醫(yī)療、環(huán)境、工業(yè)等領域的資源。在該研究中,研究者們通過對GOMC數(shù)據(jù)庫進行挖掘,發(fā)現(xiàn)了多個“寶藏”基因。
研究團隊首先識別出多個新型CRISPR-Cas9系統(tǒng)。作為微生物體內的一種能夠切割外源入侵DNA的免疫機制,科學家發(fā)現(xiàn)這套系統(tǒng)能夠被用來進行基因編輯,在藥物開發(fā)、基因治療等領域有巨大價值,相關研究更是在2020年獲得了諾貝爾化學獎。
范廣益提到,這次發(fā)現(xiàn)的新型CRISPR-Cas9系統(tǒng)具備不同的識別特異性、靶向效率和編輯精準度,能夠幫助優(yōu)化和定制現(xiàn)有的基因編輯工具,以提高在特定生物體系中的編輯效率和精度。另外,海洋微生物在特殊環(huán)境中的適應性可能賦予了其CRISPR-Cas系統(tǒng)獨特的穩(wěn)定性和活性,這些特性對于開發(fā)能夠在特定環(huán)境條件下工作的基因編輯工具尤為重要。
該研究還通過對生物合成基因簇(BGCs,基因組中相鄰且參與化合物合成的一組基因)進行預測,鑒定出了數(shù)種抗菌肽(AMPs)。抗菌肽是一類小分子肽,它們通過破壞細菌細胞膜或干擾細胞內關鍵生物過程來抑制或殺死病原微生物。范廣益說,GOMC中鑒定出的新抗菌肽在序列和結構上與已知的抗菌肽存在顯著差異,這表明它們可能具有獨特的作用機制或針對特定微生物群體的活性。
隨著人類對抗生素的廣泛使用,細菌的耐藥性已經(jīng)成為新的威脅,新型抗生素亟待開發(fā)。范廣益告訴澎湃科技,新發(fā)現(xiàn)的抗菌肽顯示出對多種細菌的抑制效果,包括一些對傳統(tǒng)抗生素具有抗性的菌株,為開發(fā)新的廣譜抗生素提供了可能。
這項研究還發(fā)現(xiàn)了多種對PET塑料具有顯著活性的水解酶。PET塑料全稱“聚對苯二甲酸乙二醇酯”,是應用最廣泛的塑料材料之一,常被用在飲料瓶、食品包裝上。PET水解酶是一類能夠催化PET塑料降解的生物催化劑,能夠特異性地識別并催化PET塑料中的酯鍵水解,將塑料分解成較小的分子,從而啟動塑料的生物降解過程,對于解決全球塑料污染問題具有重要的意義。
范廣益表示,從數(shù)據(jù)庫中發(fā)現(xiàn)的這些水解酶展現(xiàn)出了嗜鹽和熱穩(wěn)定性,這些獨特的生物學特性極有可能是它們在深海等惡劣生境中生存和發(fā)揮活性的關鍵因素。這也意味著它們在面對工業(yè)應用中常見的苛刻條件時仍可能保持高效催化活性。
“我們對篩選出的PETases進行了詳細的生化特性分析。結果顯示,它們在特定條件下對PET薄膜的降解效率非常高。例如,研究中提到的dsPETase05水解酶在3天內可以將PET膜大部分降解,降解率達到83%,這比已知的IsPETase活性高出了44倍。”范廣益說。
“GOMC數(shù)據(jù)庫為未來的研究提供了豐富的資源,包括開發(fā)新型生物技術產(chǎn)品、探索微生物的生態(tài)功能、研究微生物與環(huán)境變化的關系、開發(fā)新的疾病治療方法等。”范廣益說道。