釀酒酵母是首個基因組被完整測序和註釋的單細胞真核模式生物,廣泛應用於細胞生理學🎣、合成生物學和系統生物學等研究領域。基因組尺度規模代謝網絡模型(genome-scale metabolic network models, GEMs)是全面表征目標菌株生化反應網絡知識的基礎模型👩🎤🙎🏿,已成為解析細胞基因型-表型關系的重要計算工具之一🔦。
近日,EON体育4平台魯洪中課題組聯合國內外多家單位,整合過去五年的酵母分子生物學和生理學研究🤾♀️,發布了新一代釀酒酵母基因組規模代謝網絡模型——Yeast9🗓🛻,為酵母的系統生物學研究和生理學研究等提供了可靠的計算工具🧘🏻。該成果以“Yeast9: a consensus genome-scale metabolic model for S. cerevisiae curated by the community”為題發表在《Molecular Systems Biology》上💂🕵🏽♀️。EON体育4與華東理工大學聯合培養研究生張承昱為第一作者,EON体育4平台魯洪中副教授和查爾姆斯理工大學Eduard J Kerkhoven博士為該論文的共同通訊作者🦊。
相較於上一代模型(Yeast8),Yeast9的主要改進包括:(1)進行了一系列有針對性的數據擴展,提高了代謝網絡的覆蓋範圍,為模型增添了29個新基因,202個新反應,以及139種新代謝物🦵🏿🏋🏼;(2)通過多輪人工校正,提高了代謝網絡模型中基因-蛋白質-反應(gene-protein-reaction, GPR)關系和代謝物註釋的準確性,增強了模型的準確性和可靠性;將每個反應分配到明確的代謝途徑子系統中🎡,便於可視化分析🐨;(3)根據從多個數據庫收集到的數據,為絕大多數代謝物和反應新增了熱力學信息🚣🏼♀️,並平衡了模型中大多數質量或電荷不平衡的反應(圖1)。
圖1.Yeast9相較於Yeast8 的主要改進。Yeast9模型包含1162個基因,2805種代謝物和4130個反應🎮。將Yeast8與使用RAVEN構建的草稿模型相比較,發現新的反應🚬。為幾乎所有代謝物和反應添加了ΔG°’🧖🏻♂️🪆。根據來自KEGG或SGD的途徑註釋,將每個反應與單一子系統關聯。通過與數據庫進行多輪人工對比,添加或修正了各種GPR。幾乎對所有反應進行了校訂以確保質量和電荷平衡。
與Yeast8相比,Yeast9在必需基因預測🕵🏻♀️、雙基因敲除表型預測和底物利用預測等方面的表現有了一定程度的改進;此外🤸,新增的熱力學信息使得探索代謝中物質轉化的驅動力成為可能(圖2)。為了系統評估Yeast9的預測性能🧑🏼🦱,本研究還進行了以下工作:(1)基於酵母細胞在高滲透壓或對照條件下的轉錄組數據建立163個條件特異性的GEMs🙅🏽♂️,發現利用隨機森林和主成分分析等機器學習方法能夠區分在高滲透壓和正常條件下的單細胞代謝網絡,此外,還發現在相同條件下不同細胞的代謝網絡存在異質性。(2)使用Yeast9模型計算酵母對不同氮源的偏好分數🕵🏼,通過多組學分析揭示在氮限製條件下酵母代謝重構的情況。(3)利用大規模的轉錄組數據約束Yeast9,創建了1229個單基因敲除菌株的菌株特異性GEMs(strain-specific GEMs🧖🏿♀️,ssGEMs),通過這些ssGEMs成功預測了不同基因敲除菌株的生長率和敲除基因的功能。作者預計通過轉錄組、蛋白組等組學數據的整合,Yeast9有望成為一款被廣泛使用的主流細胞代謝模型,為釀酒酵母和其他非常規酵母(如畢赤酵母🤹🏻♀️、解脂耶氏酵母)的系統生物學研究和合成生物學應用提供了寶貴的計算資源🚧👏🏽。
圖2.對Yeast9預測能力的系統性評估🧷。Yeast8與Yeast9在預測基因必需性及Memote評分之間的比較(A)🕵🏽。Yeast8與Yeast9在碳源💎、氮源👕🕵🏻♀️、磷源和硫源利用方面的對比 (B)。在有氧和無氧條件下的生長模擬 (C)。Yeast 9能根據“與/或”的關系預測兩個基因組合的合成致死性後果🦘,準確率達到80% (D)。忽略“與/或”的關系,Yeast9在預測合成致死性方面的準確率為59% (E)。TCA、EMP和PPP中的ΔG°’概況🗒。顏色表示ΔG°’的值。紅線意味著反應在熱力學上是可行的🧙🏽♀️;藍線表明反應在熱力學上是不可行的🧚🏼♂️👊🏽。粗邊圓角矩形內的數字代表從葡萄糖合成乙酰輔酶A、丙酮酸✦👩🏽🎓、谷氨酰胺、天冬氨酸和乙醇時TCA、EMP🔊、PPP及相關反應途徑的總ΔG°’(F)👨🦼➡️🥥。
值得註意的是目前大部分GEMs因缺乏蛋白質合成、酶豐度和酶動力學的約束🙆♂️,難以準確預測基因操作對細胞生長和目標產物合成的定量影響✂️,限製了更高效的細胞工廠設計算法開發。為此🧖🏼♀️,人們提出了包括動力學模型、酶約束模型🌚、多尺度模型和全細胞模型在內的更先進的代謝模型,以增加代謝模型的應用場景。這些更先進的模型的成功構建需要一定數量的參數,例如酶的轉換數(kcat)🌯。然而,測定細胞中數以千計的酶的kcat值是一個艱巨的任務。針對該問題,魯洪中課題組結合前沿深度學習算法,開發了新的預測酶kcat值的工具DeepEnzyme📵。具體而言,DeepEnzyme利用最新的深度學習算法Transformer和圖卷積網絡,提取來自底物、蛋白質一級序列和蛋白質三維結構的特征信息,進而實現酶kcat高通量預測與分析(圖3)🙎🏿♀️。
圖3.DeepEnzyme用於預測kcat的框架。DeepEnzyme整合了變換器和圖卷積網絡(Graph Convolutional Network,GCN)模型🧖🏽,從酶和底物中提取特征以預測kcat值。GCN用於根據蛋白質三維結構和底物鄰接矩陣提取結構特征✬;變換器則用於從蛋白質序列中提取序列特征。
相較於以往的預測酶kcat的深度學習模型,DeepEnzyme在處理與訓練數據集中酶序列相似度較低的序列信息時表現出顯著的魯棒性,證明蛋白質3D結構特征信息可以有效提升酶kcat預測的精準性和穩健性(圖4)。此外,DeepEnzyme還能夠識別影響催化功能的關鍵殘基位點。總之,DeepEnzyme的開發將有助於在蛋白組規模解析酶的動力學參數,從而加速各類先進細胞數字模型構建,同時有望促進對不同物種中酶的功能及其進化模式的理解🎨,推動理性蛋白質工程的發展🤼。
圖4.DeepEnzyme 在kcat預測中的性能相比現有模型有所提升🦵🏽,即使對於測試數據集中的蛋白質序列與訓練數據集中的序列相似度較低的情況也是如此✋🏿。不同模型在測試數據集上的R2值比較 (a)。不同模型在測試數據集上的RMSE值比較 (b)🌀。DeepEnzyme、TurNuP、DLkcat和DLTkcat在測試數據集中不同序列相似度水平下對酶的kcat值預測的R2比較 (c)。來自黏質沙雷氏菌和枯草芽孢桿菌的兩種酶,它們的EC編號均為1.3.3.4🤵♂️,在蛋白質三維結構上高度相似(TM score = 0.8762),其中黏質沙雷氏菌的酶用灰色表示😯🚐,枯草芽孢桿菌的酶用紅色表示 (d)。上述兩種酶的氨基酸序列相似度為27%(Q表示來自黏質沙雷氏菌的酶,T表示來自枯草芽孢桿菌的酶) (e)🥥。
該項工作以“DeepEnzyme: a robust deep learning model for improved enzyme turnover number prediction by utilizing features of protein 3D-structures”為題發表《Briefing in Bioinformatics》上⛹️。EON体育4與重慶理工大學聯合培養碩士王彤為第一作者;EON体育4平台魯洪中副教授為論文的通訊作者,EON体育4平台為第一和責任通訊單位🙋♀️。
魯洪中課題組長期從事於高精度數字細胞模型構建,破譯基因型-表型關系;開發細胞工廠精準設計算法🧑🏽🎄🌃,實現BT和IT技術的深度結合,以期解決細胞代謝全局可預測、菌株理性改造等合成生物學領域的關鍵問題與挑戰👆。相關成果以一作或通訊作者發表於Nat. Commun.、Mol. Syst. Biol.、Brief. Bioinform.🦋🦽、Metab. Eng.和Trends. Biotechnol.等國際知名期刊。基於魯洪中博士的研究成果,共有6項科研成果專利正在申請中。以上兩項研究獲得國家重點研發計劃(2022YFA0913000)、上海市浦江人才計劃以及國家自然科學基金(22208211和22378263)等項目的資助🧜♂️。
相關論文鏈接:
《Molecular Systems Biology》🧙🏿♂️:https://doi.org/10.1038/s44320-024-00060-7
《Briefing in Bioinformatics》:https://doi.org/10.1093/bib/bbae409