国产AI蛋白质结构预测再现突破用单条序列解决3D结构

也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。

达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。

研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。

据华深智药披露,其最新开发的OmegaFold算法,实现了用单一蛋白质序列预测蛋白质3D结构的能力。

研究团队分别对CASP和CAMEO的蛋白质数据集进行了测试,其中CASP数据集有29个蛋白质,CAMEO数据集有146个单链蛋白质。

(PS:这里的CASP和CAMEO,是蛋白质结构预测领域最重要的两项比赛)

作为对比,在测试中,研究团队在上OmegaFold仅输入单一蛋白质序列,对 AlphaFold2和RoseTTAFold,则是在默认模式下输入多重序列(MSA)。

最终,CAMEO数据集测试,OmegaFold预测的蛋白质3D结构,平均局部距离差异测试(LDDT:全球结构预测领域主要评价指标)得分为0.82。

CASP数据集的测试结果,OmegaFold的平均TM分值*(评估蛋白质结构拓扑学相似性的常用指标)为0.79,与AlphaFold2不相上下,不过略低于RoseTTAFold 0.81的分数。

研究团队表示,从结果来看,采用单序列进行预测的OmegaFold,已经整体达到或超越了采用多序列预测的AlphaFold2和RoseTTAFold。

而且,研究团队还发现,因为只采用单一序列预测蛋白质的3D结构,因此在AI算法的训练和预测速度上,也有很大提升,蛋白质结构预测时间,可以被压缩到数秒内。

Helixon团队还同时发现,仅通过氨基酸序列来预测三维结构,不仅减少了同源序列所带来的噪音,还能够提高训练和预测的计算速度,使得蛋白质结构可以在数秒内被预测完毕。

基于此,研究团队用OmegaFold,对两类缺乏蛋白质同源进化信息的蛋白质,抗体蛋白质和孤儿蛋白质进行结构预测。

结果发现,OmegaFold在这两类蛋白质,尤其是抗体的关键功能区结构预测,有突破性的进展。

而这类缺乏蛋白质同源进化信息的蛋白质,恰好是AlphaFold2和RoseTTAFold无法到达的盲区。

具体来看,OmegaFold能够用单一序列取代多重同源序列,是因为研究团队采用了一种,基于几何信息的深度学习模型——OmegaPLM。

该学习模型可以根据蛋白质的序列信息,预测原子坐标,同时经过训练学习,预测原子在三维空间的距离。

在不断的迭代之后,可以让这些预测出来的原子坐标和距离,满足基本的几何定律,最终形成蛋白质结构。

OmegaFold的能力,和背后的技术原理整明白了,最后还剩下一个问题:

公开信息显示,华深智药是一家AI创新药物研发商,成立于2021年6月,总部位于北京,最早是由张亚勤旗下的清华大学智能产业研究院孵化而来。

早在去年12月份,华深智药开发的HeliXonAI算法,就在全球持续蛋白质结构预测竞赛CAMEO上,实现对AlphaFold2的反超,以84.0的lDDT预测精确度得分,刷新了CAMEO竞赛得分记录。

彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,计算生物领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。

他在博士期间设计的著名算法 RaptorX,以及在UIUC任教期间设计的DeepContact算法,多次在CASP比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。

彭健也因此在2016年获得有“诺奖风向标”之称的斯隆研究奖,并于2020年获得计算生物领域最高奖奥弗顿奖(Overton Prize),成为该奖项20年来首位华人得主。

去年6月,彭健看到AI在生物制药领域的应用前景,于是就在清华大学智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。

同时在今年6月,成立一周年之际,华深智药又完成由五源资本领投,高榕资本、Neumann Capital以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投的A轮融资,融资金额近5亿元人民币。

标签:

发表回复

您的电子邮箱地址不会被公开。