7月28日,DeepMind公布的这个蛋白质数据库已经席卷了险些所有地球生物物种,包括动物、植物、细菌、真菌等等,据《自然》官网宣布,DeepMind的互助方、欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI)称,在超过2.14亿个预测构造中,约35%与实验确定的蛋白质构造一样高度准确,其余45%的预测构造也到达了很高的可信度,能用于后续多种研究和运用。
从建立之初,这个数据库便是免费开放的,如今已成为科学家的必备工具。据EMBL-EBI数据,迄今已有超过1000篇科学论文引用了AlphaFold数据库,来自190个国家的50多万名研究职员访问过该数据库,查看了超过200万个蛋白质构造。目前,DeepMind测定的这些蛋白质构造也被整合到其他的公共数据库中,将为数百万研究职员的日常事情供应参考。
比较于1年前,AlphaFold数据库中的蛋白质构造数据量增加了600多倍,涵盖了物种也达到了100万种
AlphaFold数据库便是蛋白质构造的“谷歌搜索”,要认识某个蛋白质构造只需在数据库搜索可立即得到结果,这可以让科学家能够集中精力加快实验研究。按照DeepMind创始人、首席实行官德米斯·哈萨比斯(Demis Hassabis)的意见,这是迄今为止人工智能系统在推进科学发展中做出的最大贡献。他在DeepMind的官方博客中称,从抗击疾病到开拓疫苗,AlphaFold已经取得了令人难以置信的进展,而这只是开始。
从科研职员对该数据库的激情亲切就可以想见其对科学研究的代价,仅DeepMind在《自然》杂志上揭橥的2篇论文已被引用超过4000次。可以说,AlphaFold实现了AI在生命科学领域的年夜志。斯克利普斯研究所创始人埃里克·托普(Eric Topol)的意见是,AlphaFold是AI在生命科学领域取得的唯一的重大进展,以前确定一个蛋白质的三维构造须要数月或数年,现在只须要几秒钟。
托普说,AlphaFold已经加速并匆匆成大规模的蛋白质构造被破解,包括核孔复合体的构造,“我们可以期待每天都有更多的生物之谜被揭示”。事实上,按照哈萨比斯的说法,这个数据库的代价可以覆盖从理解疾病到保护蜜蜂,从办理生物学难题到深入研究生命起源本身,对办理一些主要的问题,例如可持续发展、燃料问题、粮食不屈安和被忽略的疾病等,都将产生重大的影响。
该数据库已经在疟疾的治疗中发力了。今年5月,牛津大学的生归天学教授马修·希金斯(Matthew Higgins,从事疟疾研究)领导的研究团队宣告,他们已经利用AlphaFold帮助确定了一种来自疟原虫的关键蛋白质的构造,并找出能阻挡疟原虫传播的抗体可能结合的位置。
希金斯在接管《卫报》采访时称,他们之前采取蛋白质晶体学技能来打算这种分子构造,但多年来一贯没有取得打破,因这种蛋白质的构造动态性强并且会到处移动,而在将AlphaFold预测的构造模型与实验数据结合后,他们顺利地办理了这一难题。他们准备将最新的研究成功用于设计优化的疫苗,以勾引传染者产生最有效的、能阻断疟疾传播的抗体。
目前借助于AlphaFold,已经揭橥的蛋白质构造(图片来源:DeepMind)
而环境研究,也会由于这一数据库而受益。据《卫报》,英国朴茨茅斯大学的构造生物学教授兼酶创新中央(CEI)的主任约翰·麦吉汉(John McGeehan)正在利用AlphaFold来识别自然界中的酶的构造,以期找到能消化和回收塑料的酶。他们已经创造了从未见过的三维的蛋白质构造具有分解塑料的功能。
DeepMind表示,该公司在与其他机构和组织互助时,会优先考虑最富社会效益的项目。他们与被忽略疾病药物研发组织(DNDI)互助,帮助推进利什曼原虫病(Leishmaniasis)、南美锥虫病等严重影响穷苦地区的疾病的治疗,以及对天下卫生组织(WHO)列为优先研究项目中的关键蛋白质构造进行预测,包括麻风病和血吸虫病等。
从量变到质变如果把AlphaFold看作一个人,它大概会是发展飞速的天才少年。
DeepMind从属于谷歌的母公司Alphabet,击败了传奇围棋选手李世石的AlphaGo亦为其旗下产品。2016年,击败李世石后不久,DeepMind成立了针对“蛋白质折叠问题”的研究团队。到2018年,DeepMind首次公开了AlphaFold的预测结果,其成果揭橥在《自然》上。
2020年11月30日,AlphaFold2以巨大上风在国际蛋白质构造预测竞赛(CASP)中一举夺魁,其预测的蛋白质构造已达到原子精度,可与实验测得的构造相媲美。要知道,多年来,科学家只能通过核磁共振、X射线和冷冻电镜技能来确定蛋白质的构造。他们须要为了一个蛋白质构造反复试验,其间花费了数年韶光和巨额用度。2005年,《科学》杂志在创刊125周年之际将预测蛋白质构造列为125个最具寻衅性的科学问题之一。因此,AlphaFold的这次胜利被视为办理了50年来生物学领域的一个重大寻衅。
在中等难度的蛋白构造预测中,AlphaFold连续两年夺冠,今年更是取得了将近90分的GDT成绩。来源:DeepMind
到了2021年,DeepMind决定把AlphaFold的力量交到天下手中,于是在当年的7月15日在《自然》上开源了AlphaFold的代码以及60页的详细补充信息。
就在1周后,DeepMind在《自然》上又揭橥了对全体人类蛋白质组的构造预测结果,且使当时已知的高置信度蛋白质构造的数量增加了一倍。与此同时,DeepMind还联合EMBL-EBI推出了AlphaFold数据库,个中席卷了人类蛋白质组以及其余20种模式生物体内超过35万个蛋白质构造。
而又于11月,DeepMind又更新了AlphaFold2的源代码,以解读多链蛋白质复合物,这显著提高了预测蛋白质之间相互浸染的准确性。2022年,AlphaFold数据库迎来了库容的数量级增长。这个“蛋白质宇宙”就拥有了独一无二的强大力量。
更高的期待当然这个数据库并非万能,科学家有更高的期待。
伦敦帝国理工学院教授基思·威尔逊(Keith Willison)称,AlphaFold在蛋白质折叠方面仍有问题须要办理。AlphaFold只能基于已知实验数据进行预测,但对付无法折叠成稳定3D构造的蛋白质就无能为力了,这些蛋白质常日具有不稳定和不可预测的折叠模式。
伊利诺伊大学厄巴纳-喷鼻香槟分校打算生物学家彭健称,AlphaFold可以帮助科学家重新评估以前的研究,以更好地理解疾病是如何发生的。不过他提示说,对付具有干系信息但认识不敷的罕见蛋白质,AlphaFold的预测质量也可能不那么高了。
哥伦比亚大学系统生物学家穆罕默德·库莱希(Mohammed AlQuraishi)在接管据《麻省理工科技评论》采访时称,许多蛋白质会受基因突变和自然等位基因的影响,但它们的构造会如何改变,这个数据库不会办理。他说,“希望能准确仿照蛋白质突变体的工具很快会涌现”。
库莱希等人参与创办了非营利性人工智能研究同盟OpenFold,他们在AlphaFold数据库根本上做了进一步改造。2022年6月28日,OpenFold发布了其开拓的第一个能预测蛋白质构造的AI模型,该模型是基于谷歌DeepMind和华盛顿大学蛋白质设计研究所的事情而开拓的。OpenFold内部评价是,该模型比AlphaFold2均匀精度更高,运行韶光更快。
不过,山东大学数学与交叉科学研究中央教授杨建益(从事蛋白质构造预测)见告《环球科学》,AlphaFold2已经很好用了,支配也很大略,对硬件哀求并不高,有图形处理器(GPU)就够,很多公司和高校都在用,速率还很快。他说,“我个人并不太看好OpenFold,复现AlphaFold2的演习过程意义并不大,我自己也测试过OpenFold,它的性能并不如AlphaFold2。”
:孙滔、审校:clefable
参考链接:
https://www.nature.com/articles/d41586-022-02083-2
https://www.ebi.ac.uk/about/news/technology-and-innovation/alphafold-200-million/
https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
https://www.theguardian.com/technology/2022/jul/28/deepmind-uncovers-structure-of-200m-proteins-in-scientific-leap-forward
https://www.newscientist.com/article/2330866-deepminds-protein-folding-ai-cracks-biologys-biggest-problem/
https://www.technologyreview.com/2022/07/28/1056510/deepmind-predicted-the-structure-of-almost-every-protein-known-to-science/