由清华大学智能产业研究院(AIR)兰艳艳教授团队研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛CAMEO上连续四周夺得全球第一。
AIRFold在最近一个月(7.23-8.20)的评估中连续四周夺得全球第一名成绩,并在系统响应时间上远远领先其他团队
蛋白质结构对于理解蛋白质功能以及诸多重要的生命活动有重要意义,它的结构也在一定程度上约束了蛋白质序列的突变。所幸蛋白质的同源序列中包含了丰富的结构信息,这为数据驱动的解决方案提供了可能性。目前半参数化的深度学习解决方案,如AlphaFold2等充分利用数据驱动的端到端深度学习模型,在结构预测上已取得与冷冻电子显微镜等实验技术相当的精度。但是,这些模型极度依赖输入的同源序列信息,在实际的很多场景中还有不小的局限性:比如在缺少同源序列的蛋白质上预测结果不理想,以及对同源输入的冗余噪声较为敏感等。
AIRFold在AlphaFold2的基础上,致力于为蛋白质结构预测这一生命科学领域的关键性问题提供可拓展的系统化解决方案。AIRFold独有的同源挖掘(Homology Miner)模块,聚焦于共进化信息的挖掘和提取,对蛋白质同源序列(MSA)中的协同进化信息进行智能化、自动化地提取、分析和处理。例如,Homology Miner中引入了同源蛋白的语义检索和生成两个模块:检索模块利用结构和序列的共同表征学习,通过稠密检索从现有数据库中补充和完善同源蛋白信息;生成模块则基于深度生成模型,对蛋白质的接触矩阵(Contact Matrix)以及多序列比对数据进行生成式建模,从而通过生成同源蛋白序列对共进化信息进行补充。
此外,Homology Miner的同源表征信息优化模块,还能从信息论的角度对同源序列数据中的共进化信息进行量化,多角度地利用共进化信息量作为优化的目标,如序列级的信息最大化,基于位置的信息约束等。结果显示,经过优化校正的同源蛋白表征信息在结构预测中表现更加稳定、有效。
Homology Miner模块通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案,并取得了不俗的表现:在最近一周(8.14-8.20)“hard”分类的序列上,AIRFold是唯一lDDT均分高于80分的模型;在最近一个月(7.23-8.20)以及三个月(5.21-8.20)的“hard”序列上,AIRFold均表现优异,并遥遥领先于第二名。
团队的模型在“hard”分类上表现优异,从左到右分别是最近1周、1个月和3个月在“hard”分类序列上的表现
在诸多CAMEO比赛的蛋白质序列中,7TVI是一个重要但较难预测结构的蛋白,该蛋白展示的是Cas13bt3-crRNA复合物的结构。其中Cas13是一类重要的RNA引导的RNA编辑工具,有望成为下一代更安全更高效的基因治疗手段。与AlphaFold2相比,AIRFold预测的结构在Helical-1和Helical-2两个主要识别crRNA(下图中粉色部分)的结构域上都显著优于AlphaFold2的结果;AIRFold预测的结构形成了正确的crRNA结合位点,而AlphaFold2预测的结构产生了较大的偏离不能正确结合crRNA。AIRFold实现了对这类高难度蛋白的高精度结构预测,使得我们能够高效便捷地研究大量来自不同物种或宏基因组测序结果的Cas13同源蛋白。高精度的结构可以启发研究人员设计出更小、更准、更高效的RNA编辑工具。因此,AIRFold 未来将极大地加速CRISPR/Cas相关分子工具的挖掘与设计,助力下一代基因编辑疗法的研发。
CAMEO: 2022-08-20_00000216_1 | PDB: 7TVI_A ;Predicted,GroundTruth,crRNA
中国工程院院士、清华大学讲席教授、智能产业研究院(AIR)院长张亚勤表示:“AIRFold是AIR自研的一款自动化蛋白质结构预测平台,针对复杂同源序列分布的蛋白质结构预测提供了全新的解决方案。AIRFold的成功,标志着中国在蛋白质结构预测方面的前沿技术达到了世界领先水平,也将对未来AI赋能智能新药研发提供良好的基础和助力。我也期待未来有更多的优秀研究人员加入到这个新兴交叉科学领域,进一步发挥AI的价值。”
目前,AIRFold的相关技术还在蛋白单点突变,多构象评估等关键问题上取得初步进展。未来,清华大学智能产业研究院(AIR)AI+生命科学研究团队将与海内外领先的科研及产业机构合作,持续推进结构预测以及蛋白设计等大分子药物开发的核心问题的研究,为AIR赋能生命科学作出努力和贡献。
CAMEO(Continous Automated Model Evaluation)是瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛,是蛋白质结构预测领域最重要的比赛之一。CAMEO竞赛会持续收集最新即将公开的蛋白质序列,并每周从中挑选部分序列作为赛题。在赛题公开到评测的四天窗口期中,参赛团队需要对每一个蛋白序列进行三维结构预测,最终不同团队的提交结果通过标准评价指标lDDT(local Distance Different Test)进行排名。
供稿:智能产业研究院
【免责申明】本专题图片均来源于学校官网或互联网,若有侵权请联系400-0815-589删除。