我们都知道,蛋白质是坚持我们生命所必需的弘大而繁芜的物质。我们身体的险些所有功能,例如紧缩肌肉、感知光芒或将食品转化成能量等,都须要一种或多种蛋白质来完成。而蛋白质详细能做什么就要取决于它独特的3D构造了。
然而,纯粹从其基因序列中找出蛋白质的3D构造是一项非常具有寻衅性的繁芜任务。由于我们的DNA常日只包含蛋白质中氨基酸残基的序列信息,而这些氨基酸残基形成的长链将会折叠成错综繁芜的3D构造。这便是所谓的“蛋白质折叠”问题。而蛋白质越大,须要考虑的氨基酸之间相互浸染就越多,对其构造的建模过程就会更加繁芜和困难。
每一个蛋白质都拥有错综繁芜的3D构造丨DeepMind blog
缺点折叠的蛋白质有可能引发阿兹海默病、帕金森病、亨廷顿舞蹈病和囊性纤维化等疾病的发生。因此,准确预测蛋白质的构造,对付理解其在人体内的浸染,以及对上述疾病进行诊断和治疗是非常主要的。
在过去的五十年中,科学家们已经能够利用冷冻电子显微镜、核磁共振或X射线晶体学等实验技能在实验室中确定蛋白质的形状,但每种方法都依赖于大量的试错,这可能须要花上好几年韶光,而预测每个构造也要花费数万美元。幸运的是,得益于基因测序本钱的快速降落,基因组学领域的数据变得丰富。因此,科学家们开始利用AI技能开拓深度学习算法,在基因组学数据的根本上对蛋白质构造进行预测。在此根本上,AlphaFold出身了。和以往方法不一样的是,AlphaFold并未利用已经明确构造的蛋白质3D模型作为模板,而是从头开始探索预测方法。
DeepMind团队利用的方法都以深度神经网络为根本,来从基因序列中预测蛋白质的两种物理性子:氨基酸对之间的间隔及连接这些氨基酸的化学键之间的角度。首先,研究小组演习了一个深度神经网络,来预测蛋白质中每对氨基酸残基之间间隔的分布情形。然后,研究职员将这些数值转化为评分,来对蛋白质构造的精确程度进行评估。同时,研究职员还其余演习了一个神经网络,利用这些间隔数值来评估预测构造与真实构造的靠近程度。
AlphaFold的模型示意图丨DeepMind blog
如果你以为这便是AlphaFold能做的全部事情,那可就大错特错了。事实上,DeepMind的研究职员在这些评分函数的根本上,还利用了两种全新的办法来优化蛋白质构造评分:他们利用了一个天生神经网络,不断天生新的蛋白质片段来反复更换一段旧的蛋白质构造,这样一来,蛋白质构造的评分就被不断提高了。其余,研究职员还利用了一种名为梯度低落的办法来让AlphaFold预测的构造变得高度精确。梯度低落是一种机器学习中常用的数学技能,用来实现渐进式的细微改进。研究职员将这项技能用于全体蛋白质链,而不是构造中组装前必须分开折叠的片段,降落了预测过程的繁芜性
图中绿色为蛋白质的真实构造,蓝色为AlphaFold预测得出的构造丨DeepMind blog
AlphaFold的实际表现也非常强劲:在比赛中,AlphaFold在98名参赛者中名列榜首,预测了43种蛋白质中的25种最准确构造,而同一类别的第二名参赛军队只预测出了43种中的3种。
研究职员表示,AlphaFold的成功表明了机器学习系统能够整合多种信息来源,从而帮助科学家们快速为繁芜问题提动身明性的办理方案。他们在博客中写道:“正如AI通过AlphaGo和AlphaZero这样的系统,能够帮助人们节制繁芜的游戏一样,我们同样希望有一天,AI取得的打破也能帮助我们节制基本的科学问题。”
研究职员还表示,这项研究能够帮助科学家们更有效地设计出治疗疾病的新方法,能够在药物创造的过程中开拓出新的潜力,同时也降落了实验干系的本钱,有望改进全天下数百万患者的生活质量。
参考资料:
[1] AlphaFold: Using AI for scientific discovery. Retrieved December 3, 2018, from https://deepmind.com/blog/alphafold/
[2] Google's DeepMind predicts 3D shapes of proteins. Retrieved December 3, 2018, from https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins
本文来自药明康德微信团队,欢迎转发到朋友圈,回绝转载到其它平台。
如有其它互助需求,请联系wuxi_media@wuxiapptec.com。
本文经授权转载自公众年夜众号:
学术经纬(id:Global_Academia)
果壳
ID:Guokr42
果壳整天都在科普些啥啊!
吓得我二维码都歪了!
为啥这样的二维码也能扫?
扫码发送【二维码】见告你事理~