去年年末,人工智能研究实验室DeepMind的AlphaFold在国际蛋白质构造预测竞赛(CASP)上一骑绝尘,首次将蛋白三维构造预测的分数提升至90分。不到8个月后,DeepMind又为生物学界带来了两个重磅。7月15日,他们在《自然》杂志上发布了关于AlphaFold算法的新论文,实现了原子层面上的蛋白质构造精确预测。仅仅一周之后,他们又和欧洲生物信息学研究所(EMBL-EBI)互助揭橥了一篇《自然》论文。这次,他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维构造。
氨基酸,蛋白质从人类首次解析出构成蛋白质的氨基酸序列,到如今可以仿照和解析人体蛋白组中绝大多数蛋白的三维结果,科学家已努力了超过70年。1949年,英国生归天学家弗雷德里克·桑格(Frederick Sanger)通过水解胰岛素,首次确定了组成牛胰岛素的氨基酸序列,这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级构造,如果我们只按照这个序列合成胰岛素,得到的产物不会有活性。氨基酸序列须要通过数步折叠过程,形成繁芜的3级构造后,才能成为具有功能的蛋白质。
1965年,中国科学家首次解析出胰岛素的精确构造,人工合成出了具有活性的胰岛素。在人类的蛋白组中,胰岛素是一种构造大略的小型蛋白质,它含有两条肽链,有51个氨基酸。对人类等真核生物来说,一个蛋白质中均匀含有400多个氨基酸残基,个中绝大部分蛋白质的空间构造远比胰岛素繁芜。
人类基因组草图公布后,科学界对蛋白质的研究进入了快车道。经由数十年的努力,研究职员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质,再加上冷冻电子显微镜的运用,至今已经解析出了超过5万个人源蛋白质的三维构造。无疑,我们得到蛋白三维构造的速率正在不断变快。
不过,实验解析蛋白质也受到诸多限定。由于这一过程过于繁琐,且稍有不慎就无法得到较好的蛋白质空间构造,因此仍有大量人源蛋白质构造有待破解。与此同时,一些科学家开始考试测验另一种工具——借助人工智能(AI)技能来预测蛋白的空间构造。
1994年,打算生物学家约翰·莫尔特(John Moult)等人创立了CASP比赛,让AI加入到蛋白质三维构造的研究中。不过在此之后的20多年中,各个AI实验室在这项比赛中的始终缺少本色性打破。直到DeepMind的加入,彻底改变了这一局势。
2020年,DeepMind开拓的一款蛋白质三维构造预测算法“AlphaFold”一举夺得了当年CASP比赛的最高分(GDT分数为90分),比第二名的分数赶过了15%。GDT分数紧张用来评估算法预测三维构造中氨基酸的位置与实际空间构造的差距,分数越高,预测越准。当时AlphaFold就像是一枚投在生物学界的炸弹,当时《自然》《科学》等相继发文,强调了这是人工智能的一次重大胜利。
从实验解析到AI预测在细胞中,蛋白质的折叠过程须要分子蛋白或赞助蛋白的帮助。而我们能看到的是,一些氨基酸序列通过一系列变革,形成了一个具有三维构造和活性的蛋白质。在蛋白质中,具有相同特性的氨基酸通过分外的共价键(例如二硫键)聚拢到一起,形成一些特定的螺旋构造,比化学键更加微弱的分子间浸染力维系着蛋白质的三维构造。
但是,依赖这些理论还远远不敷以准确预测蛋白质的三维构造,这也是很多参与CASP比赛的算法分数不高的缘故原由。在今年7月15日一项公布于《自然》的论文中,DeepMind的研究团队详细先容了AlphaFold成功的缘故原由。这一算法采纳了多序列比对和一种新型的神经网络架构,将重点放在一些关键的氨基酸上。此外,这一算法还纳入了却构模块(Structure Module),用于评估预测的蛋白质构造的每个氨基酸残基与其真实位点的差异。DeepMind的研究团队还强调,AlphaFold是首个在不知道相似蛋白的构造时,也可以在原子层面上精确预测蛋白质构造的算法。
昨日,在揭橥于《自然》期刊的一项研究中,他们和EMBL-EBI互助利用AlphaFold做出了一项更有打破性和实用性的研究——直接对人类蛋白组中98.5%的蛋白质完全三维的构造进行了预测。根据他们的估计,虽然蛋白质资料库(PDB)中公布的人源蛋白质三维构造占到了目前人类蛋白组的35%,但是很多蛋白质的空间构造并不完全。实际上,完全的三维蛋白质构造只占17%。
类似于CASP比赛中的GDT分数,研究职员也为AlphaFold设置了一个可以评估预测可信度的数值——pLDDT(每个残基位点的可信度测评,per-residue confidence metric)。当pLDDT值大于90,表示对蛋白质中某个氨基酸残基位置的预测具有很高的可信度;当pLDDT值大于70,表明预测结果是基本准确的。
在对人体蛋白质组三维构造的预测中,AlphaFold精确预测了35.7%的氨基酸残基的位点,基本准确地预测了58.0%的氨基酸的位点。在蛋白质水平上,这一算法也能较为准确地预测人类蛋白组中43.8%的蛋白质至少3/4序列的空间构造。在1290个没有没有参考构造的蛋白质中,AlphaFold能较为准确预测每个蛋白中近200个氨基酸残基的空间构造(pLDDT≥70)。
一种由WFS1基因编码的蛋白,突变会导致WFS综合征。(图片来源于论文)
在这次实验中,AlphaFold还准确预测出由于许多和药物靶点干系的酶和膜蛋白的三维构造。由于膜蛋白的构造繁芜,一贯以来,通过实验方法来解析这类蛋白的构造都极具寻衅性。除此之外,AlphaFold还能较为准确地预测出此前没有接管过演习或不熟习的蛋白质的三维构造。
除了人源的蛋白质,他们还利用AlphaFold对其他20种模式生物(包括小鼠、玉米和疟原虫)蛋白组中的蛋白进行了预测。根据《自然》官网的,这些预测的蛋白质三维构造数据已通过EMBL-EBI托管的公用数据库免费向公众年夜众开放,目前有近36.5万个蛋白质构造已在该数据库中发布,而到今年年底,这一数值有望增长到1.3亿。DeepMind和EMBL-EBI的研究职员强调,目前这部分事情还只是一个开始。他们想要进一步验证这些预测的结果,更主要的是,将它们运用到迄今为止不可能实现的实验中。
蛋白Q8I3H7,可以保护疟原虫免受人体免疫系统的攻击。(图片来源:AlphaFold Protein Structure Database)
重大意义近70年来,解析蛋白质的空间构造一贯是一项极具科学意义的难题。如果基因组是一个“指令官”,那么蛋白质便是基因功能的“实行者”,可以说蛋白质险些参与人体内所有的生理过程和疾病过程。如果我们能节制蛋白质的精确构造,就像解析了一把精密的锁的内部构造。对付人类来说,也更随意马虎开拓出一把乃至多把能打开这些“锁”的钥匙,而这将会改变我们在分子水平上对自身的认知,治疗现今绝大多数的人类疾病。
DeepMind联合创始人兼首席实行官杰米斯·哈萨比斯(Demis Hassabis)认为,这是人工智能系统迄今为止对推进科学发展作出的最大贡献。此外,对付一些AlphaFold无法准确预测的蛋白构造,一些科学家也揭橥了自己的见地。一部分人认为,在人类等真核生物中,相称一部分蛋白质区域本身便是无序的,这或许是为了与其他的蛋白分子相互浸染,也可能还有一些我们还不知道的浸染。
值得一提的是,在《自然》于上周揭橥AlphaFold论文的越日,《科学》杂志也公布了另一项蛋白质预测算法——RoseTTAFold。这个算法由华盛顿大学医学院蛋白质设计研究所和哈佛大学、剑桥大学等机构联合开拓。它采取和AlphaFold2不同的深度学习算法,但具有AlphaFold2可媲美的超高准确率,而且速率更快、对打算机处理能力的需求也较少,能在短短的10分钟内打算出一个蛋白的构造。目前,研究职员正在用这一算法研究一些和人类康健直接干系的蛋白质的构造。
这两项算法的涌现无疑标志着在构造生物学领域,AI的时期已经到来。
撰文 | 石云雷
审校 | 吴非
参考链接:
https://www.nature.com/articles/s41586-021-03828-1
https://www.nature.com/articles/d41586-021-02025-4
https://www.nature.com/articles/s41586-021-03819-2