鲜为人知的是,这些项目背后的技能,同样也能运用在生物技能实验室中,而且潜力巨大。
这种技能被称为扩散模型(diffusion model),许多实验室已经开始利用这种天生式人工智能技能,考试测验设计自然界中从未涌现过的新型蛋白质。
(来源:STEPHANIE ARNETT/MITTR; ENVATO, ALPHAFOLD)
近日,有两个实验室先后宣告了各自的新项目,都是利用扩散模型来设计精确程度比以往任何时候都高的新蛋白质。
总部位于波士顿的初创公司 Generate Biomedicines 公布了一个名为 Chroma 的项目,该公司称其为“生物学领域的 DALL-E 2 模型”。
与此同时,由生物学家大卫·贝克(David Baker)领导的华盛顿大学团队也成立了一个类似的项目,叫做 RoseTTAFold Diffusion。
在最近发布的一篇预印本论文中,贝克和他的同事们表明,他们的模型可以为新的蛋白质天生精确的设计,然后在实验室中实现。
RoseTTAFold 的联合开拓者之一布莱恩·特里佩(Brian Trippe)说:“我们天生的蛋白质与现有的蛋白质险些没有相似之处。”
这些蛋白质天生器可以直接用于设计具有特定特性的蛋白质,譬如指定的形状、大小或功能。
实际上,这使得根据特定的任务来制作新的蛋白质成为可能。研究职员希望,这将终极帮助开拓新的、更有效的药物。
“用数百万年进化得到的东西,我们可以在几分钟内创造,” Generate Biomedicines 的首席技能官盖沃格·格里戈里扬(Gevorg Grigoryan)说道。
位于美国马萨诸塞州的微软研究院的生物物理学家艾娃·阿米尼(Ava Amini)认为,这项事情最值得把稳的一点是,可以根据“想要的限定条件来天生蛋白质”。
(来源:GENERATE BIOMEDICINES)
蛋白质是生命系统的基石。在动物身上,它们掌握着消化食品、紧缩肌肉、探测光芒、驱动免疫系统等等。当人们生病时,蛋白质也会起到一定的浸染。
因此,蛋白质是药物开拓的重点关注工具。本日的许多最新药物,本身都是基于蛋白质的。
“大自然里的各种东西都在利用蛋白质,”格里戈里扬说,“用它供应治疗干预的前景真的很巨大。”
但药物设计者目前只能利用由天然蛋白质组成的“设计列表”,而用打算机模型天生更多蛋白质的目标是,将这个列表扩展到险些无限大。
设计蛋白质的打算技能并不新鲜,但是以前的方法在设计大型蛋白质或蛋白质复合物方面进展缓慢。蛋白质复合物可以被理解成,由多个蛋白质偶联在一起组成的分子机器,而这些蛋白质常日对治疗疾病至关主要。
(来源:IAN C HAYDON / UW INSTITUTE FOR PROTEIN DESIGN)
最近宣告的这两个项目,并非人们第一次考试测验利用扩散模型来天生蛋白质。
在过去的几个月里,由 Amini 等人开展的一系列研究表明,扩散模型是一种很有出息的技能,但他们都属于观点验证的原型。
Chroma 和 RoseTTAFold Diffusion 则是建立在这些研究成果的根本上,他们是第一个成熟的、可以产生各种精确设计的蛋白质的程序。
南拉塔·阿南德(Namrata Anand)在 2022 年 5 月共同开拓了蛋白质天生的第一个扩散模型,他认为 Chroma 和 RoseTTAFold Diffusion 的主要意义在于他们采取了这项技能并扩大了它,使其能在更多的数据和打算机上进行演习。
她说:“这开始越来越像 DALL-E,由于他们已经扩大了规模。”扩散模型是经由演习的神经网络,可以从输入中去除数据中的随机滋扰,也便是所谓的“噪声”。给定随机的像素点,扩散模型可以将其变成可识别的图像。
在 Chroma 中,噪声是通过解开由蛋白质组成的氨基酸链而添加的。给定这些链的随机簇,Chroma 会试图将它们放在一起形成一种蛋白质。
在对结果的特定约束的辅导下,Chroma 可以天生具有特定特性的新蛋白质。
贝克的团队则采取了一种不同的方法,只管终极的结果是相似的。该团队的扩散模型从一个更混乱的构造开始。
另一个关键的差异是,RoseTTAFold Diffusion 利用了关于蛋白质片段如何结合的信息,该信息由一个单独的、被演习来预测蛋白质构造的神经网络供应(就像是 DeepMind的AlphaFold所做的那样)、它辅导了全体蛋白质天生过程。
Generate Biomedicines 和贝克的团队都展示了一系列令人印象深刻的成果。他们能够产生具有多种对称性的蛋白质,包括圆形、三角形、六边形的蛋白质。
为了证明其程序的多功能性,Generate Biomedicines 天生了形状像 26 个拉丁字母和数字 0 到 10 的蛋白质。这两个团队还可以天生蛋白质片段,将新的部分与现有的构造相匹配。
这些演示中展示的蛋白质构造在实践中没有任何浸染。但是,由于蛋白质的功能是由其形状决定的,以是能够根据须要产生不同的构造是至关主要的。
在电脑上产生奇怪的设计是一回事,而把这些设计变成真正的蛋白质则是另一回事,后者才是终极目标。
Generate Biomedicines 提取了一些设计的序列,去组成蛋白质的氨基酸串,并通过另一个人工智能程序实行。
他们创造,个中 55% 的蛋白质被预测会折叠成由 Chroma 产生的构造,这表明这些蛋白质设计是可行的。
贝克的团队也进行了类似的测试,他们在评估其模型方面比 Generate Biomedicines 做得更多。
他们在实验室里制造了一些 RoseTTAFold Diffusion 的设计。对此,Generate Biomedicines 公司表示,它也在进行实验室测试,但还没有准备好公开结果。
“这不仅仅是观点的证明,”特里普说,“我们实际上是在用它来制造非常好的蛋白质。”
对贝克来说,最主要的结果之一是产生了一种新的蛋白质,它可以附着在甲状旁腺激素上,这种激素掌握着血液中的钙水平。
他说:“我们基本上只将甲状旁腺激素作为了模型的输入,而没有其他东西,然后见告它制造一种可以与该激素结合的蛋白质。”
当在实验室里测试这种新蛋白质时,他们创造它与激素的结合比利用其他打算方法产生的任何蛋白质都更紧密,而且也比现有的药物更紧密。贝克说:“我们的模型是凭空想出这种蛋白质设计的。”
格里戈里扬承认,发明新蛋白质只能算是第一步。“我们是一家制药公司,”他说,“实质上,我们最关心的是能否制造出有效的药物。”
以蛋白质为根本的药物首先须要通过量产这一关,然后在实验室中进行测试,末了才能在人体上进行测试。这可能须要数年韶光。但他认为,他的公司和其他人会找到加快这些步骤的办法。
贝克说:“虽然科学的进步是断断续续的,但现在的我们正处于一场所谓的‘技能革命’之中。”
支持:Ren
原文:
https://www.technologyreview.com/2022/12/01/1064023/biotech-labs-are-using-ai-inspired-by-dall-e-to-invent-new-drugs/