Nature:生命科学的变革:DeepMind人工智能可以预测大量蛋白质的结构

2021-07-25 MedSci原创 MedSci原创

AlphaFold神经网络产生了一个“完全变革性”的数据库,包含了来自智人和20个模式生物的超过35万个结构。

蛋白质是生命所必需的,了解其结构可以促进对其功能的机械理解。通过巨大的实验努力,已经确定了约100000种独特蛋白质的结构,但这只是数十亿已知蛋白质序列的一小部分。确定单个蛋白质结构所需的数月到数年的艰苦努力使结构覆盖率受到了限制。精确的计算方法需要解决这一差距,并使大规模的结构生物信息学。仅仅根据蛋白质的氨基酸序列预测蛋白质将采用的三维结构是“蛋白质折叠问题”的结构预测部分,多年来一直是一个重要的开放研究问题。尽管最近取得了一些进展,但现有的方法远远达不到原子的准确度,尤其是在没有同源结构的情况下。

Kathryn Tunyasuvunakool等进行了研究开发,提供了一种计算方法,可以定期预测蛋白质结构与原子的准确性,即使没有已知的类似的结构。

在具有挑战性的蛋白质结构预测关键评估(CASP14)中,验证了基于神经网络的模型AlphaFold的完全重新设计版本,证明在大多数情况下精度与实验相当,并且大大优于其他方法。AlphaFold最新版本的基础是一种新的机器学习方法,它将蛋白质结构的物理和生物学知识,利用多序列比对,整合到深度学习算法的设计中。

人类基因组拥有超过20000种蛋白质的指令。但只有大约三分之一的人通过实验确定了他们的三维结构。在许多情况下,这些结构只是部分已知。这款由谷歌在伦敦的姐妹公司DeepMind开发的一个名为AlphaFold的人工智能(AI)转化工具,已经预测了几乎整个人类蛋白质组的结构(生物体表达的蛋白质的完整补体)。此外,该工具还预测了各种其他生物体的几乎完整的蛋白质组,从小鼠和玉米(玉米)到疟原虫(见“折叠选项”)。通过一个公共数据库可以获得的35万多个蛋白质结构,其准确性各不相同。但是研究人员说,这种资源将在今年年底增长到1.3亿个结构,它有可能彻底改变生命科学。

这完全是一场变革。这是迄今为止人工智能系统对提高科学知识做出的最大贡献。在准备公开发布AlphaFold代码的过程中,DeepMind对其进行了改进,使代码运行更高效。一些CASP预测需要几天时间,但是AlphaFold的更新版本现在可以在几分钟到几小时内计算出来。凭借这一更高的效率,DeepMind团队着手预测人类基因组编码的几乎所有已知蛋白质的结构,以及20种模式生物的结构。这些结构可在英国欣斯顿的EMBL-EBI(欧洲分子生物学实验室欧洲生物信息学研究所)维护的数据库中获得。AlphaFold预测的结构覆盖了98.5%的已知人类蛋白质,与其他生物的结构相似,此外,AlphaFold还对其预测的可信度进行了测量。

对于人类蛋白质组来说,58%的对单个氨基酸位置的预测足以确定蛋白质折叠的形状。这些预测中的一个子集——占总数的36%——可能足够精确,可以详细描述对药物设计有用的原子特征,比如酶的活性位点。即使是不太准确的预测也可能提供一些见解。生物学家认为,人类和其他真核生物(细胞有核的生物)的蛋白质中,有很大一部分含有固有无序的区域,只有在与其他分子协同作用的情况下才具有特定的结构。许多蛋白质只是在溶液中摆动,它们没有固定的结构。

AlphaFold预测的一些区域可信度较低,与生物学家怀疑的那些区域相符。确定单个蛋白质如何与其他细胞参与者相互作用是对AlphaFold预测的最大挑战之一。对于CASP竞争,它的大多数预测都是蛋白质的独立折叠单元,称为结构域。但是,人类和其他生物的蛋白质组中含有多个半独立折叠结构域的蛋白质。人类细胞也含有由多条相互作用的蛋白质链组成的分子,例如细胞膜上的受体。

随着新蛋白质的鉴定和预测的改进,数据库将会更新。研究人员已经在使用AlphaFold和相关工具来帮助理解X射线晶体学和低温电子显微镜产生的实验数据。有研究人员使用AlpHAFT从细菌的X射线数据中制作模型,用以躲避被称为粘菌素的抗生素。实验模型中与AlphaFold预测不同的部分通常是软件指定的置信度较低的区域,这表明AlphaFold正在准确预测其极限。

原文出处

Tunyasuvunakool, K., Adler, J., Wu, Z. et al. Highly accurate protein structure prediction for the human proteome. Nature (2021). https://doi.org/10.1038/s41586-021-03828-1



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言

相关资讯

前默认网络和听觉网络间连接可预测特发性耳鸣患者预后

aDMN和AUN中的FC可用于预测特发性耳鸣患者的预后,并可用于声音治疗前的筛查,未来的声音治疗或相关干预应针对这些区域。

NeuroImage:fMRI连接的深度学习模型预测近期创伤幸存者的PTSD症状轨迹

与现有的方法相比,该预测对所有三个时间点都具有很高的准确性,并且受益于使用单一模型一次性学习所有这些时间点。进一步显示了对PTSD症状群和障碍持久性的高预测能力。

Eur Urol Focus:影像组学在预测肌层浸润性膀胱癌中的作用

膀胱癌(BCa)是男性第四大常见癌症,也是第八大致死性癌症。膀胱癌患者的正确分期对治疗决策至关重要。在发达国家,大约75%的BCa患者在诊断时表现为非肌层浸润性BCa(NMIBC),而其余大多数病例表

BJU Int:PSMA PET和MRI预测中度和高度风险前列腺癌患者的早期结果

尽管大多数前列腺癌(PCa)患者在接受机器人辅助腹腔镜前列腺根治术(RARP)后将摆脱疾病的困扰,但相当比例的患者(20-40%)在首次检测不到前列腺特异性抗原(PSA)水平后会出现疾病的生化复发(B

Eur J Nucl Med Mol Imaging:一种可预测COVID-19患者肺部病变进展的新型CT通气显像技术

该研究采用基于两次胸部CT扫描的肺通气图来预测COVID-19患者早期肺部病变的进展。由通气图生成的预测图可以根据区域功能和组织变化将肺体素分为三种类型,进而预测潜在病变。