编辑 | 凯霞

天生式 AI 可以对话、写诗、画图、做视频、作曲、写代码......

那么,AI 可以改写人类基因组吗?

现在,新的 AI 技能正在为可编辑 DNA 的微不雅观生物机制绘制蓝图,这预示着未来科学家将以更高的精度和速率对抗疾病。

AI可以改写基因组吗首次由AI从头设计的基因编辑器成功编辑DNA

近日,美国 AI 蛋白质设计初创公司 Profluence 推出了 OpenCRISPRTM 操持,发布了天下上第一个开源的 AI 天生的基因编辑器。

Profluence 展示了通过 AI 从头开始设计的可定制基因编辑器,对人类基因组的首次成功精确编辑。

该技能基于驱动 ChatGPT 的相同方法。
正如 ChatGPT 通过剖析维基百科文章、书本和谈天记录来学习天生措辞一样,Profluent 的技能在剖析大量生物数据,包括科学家已经用来编辑人类 DNA 的微不雅观机制,然后创建了新的基因编辑器。

干系研究以「Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences」为题,于 2024 年 4 月 22 日发布在预印平台 bioRxiv 上。

论文链接:https://doi.org/10.1101/2024.04.22.590591

OpenCRISPR-1 是一款 AI 创建的基因编辑器,由类似 Cas9 的蛋白质和勾引 RNA 组成,完备利用 Profluence 的大措辞模型 (LLM) 开拓。

通过 OpenCRISPR 的演习过程,该公司的 AI 从大规模序列和生物背景中学习,天生数百万种自然界中不存在的多种 CRISPR 类蛋白质,从而以指数办法扩展了险些所有已知的 CRISPR 家族。

OpenCRISPR-1 的构造剖析。

为了实现技能民主化,Profluence 推出了 OpenCRISPR-1 作为初始开源版本,使 AI 设计的基因编辑器可以免费得到伦理研究和商业用场的容许。

Profluence 联合创始人兼首席实行官 Ali Madani 表示:

「考试测验用 AI 设计的生物系统编辑人类 DNA 是一项科学登月操持。
我们的成功预示着未来,AI 可以精确设计所需的内容,来创造一系列定制的疾病疗法。
为了刺激基因编辑领域的创新和民主化,以推动未来向前发展,我们正在开源该操持的产品。

探索全部蛋白序列变异,AI 只需几小时

到目前为止,蛋白质工程界常日依赖基于创造的方法来从自然界复制功能性蛋白质,或通过称为定向进化的过程进行迭代修正。
许多转化蛋白都是有时创造的。

CRISPR-Cas9 基因编辑系统的核心组成部分是 Cas9 蛋白,它是一种 RNA 勾引的核酸酶,可以搜索人类基因组中的全部 30 亿个核苷酸,并仅在一个特定位点进行切割。

这种核酸酶与单引导 RNA(sgRNA)结合在一起,sgRNA 由一个支架组成,它在构造上与蛋白质相互浸染,间隔序列可以被编程为靶向基因组中的任何位置。

CRISPR-Cas 图谱的形成。

鉴于大多数 Cas9 蛋白的长度超过 1000 个氨基酸,总体设计空间包含 20^1000 个可能的序列,这比可不雅观测宇宙中的原子数量多几个数量级。
然而,由于这些蛋白质必须以精确的顺序折衷许多相互浸染才能实现精确切割,因此纵然是单个缺点的突变也可以完备毁坏蛋白质功能。

通过实验探索所有可能的序列变异须要很多很多的韶光,但在几个小时内,AI 系统就可以在这个搜索空间中导航从而创造功能性基因编辑器。

措辞模型天生多种 CRISPR-Cas 蛋白

天生蛋白质措辞模型常日是在涵盖广泛功能的大型、多样化的天然蛋白质序列数据集上进行预演习的。
它们可以天生反响天然蛋白质特性的真实蛋白质序列。
然而,对付特定的运用,例如新型基因编辑器的天生,我们须要勾引天生特定的感兴趣的蛋白质家族。

为此,Profluence 的研究团队进行了详尽的数据挖掘,来构建迄今为止最广泛的 CRISPR 系统数据集。
将此资源称为 CRISPR-Cas Atlas。

总而言之,研究创造了 510 万个 CRISPR-Cas 蛋白,将这些系统的已知自然多样性总体扩展了 2.7 倍,特殊是 Cas9 扩展了 4.1 倍。

为了天生新型 CRISPR-Cas 蛋白质,研究职员在 CRISPR-Cas Atlas 上演习了蛋白质措辞模型。
从这个模型中天生了 400 万个序列,并利用生物信息学技能去除简并序列并鉴定每个天生的蛋白质属于哪个 CRISPR-Cas 家族。
与 CRISPR-Cas Atlas 中创造的天然蛋白质比较,这组过滤后的天生序列的多样性扩大了 4.8 倍。

通过蛋白质簇的数量来衡量,天生的序列极大地扩展了 CRISPR 干系蛋白质家族的多样性。

天生的基因编辑器在人类细胞中发挥浸染

研究职员进一步将把稳力集中在 CRISPR-Cas9 系统上,并根据 CRISPR-Cas 图谱中的 238,917 个 Cas9 蛋白演习了蛋白质措辞模型。

鉴于 SpCas9 的广泛采取和临床成功,利用模型来天生可与 SpCas9 互操作的 Cas9 类蛋白。
换句话说,它们结合基因组的相同部分(PAM)并与相同的 sgRNA 兼容;因此,它们可用于相同的运用程序。

然后,从这些天生的序列中选择了 48 个,用于对人类细胞进行严格的功能表征。
OpenCRISPR-1 在靶标位点上的活性与 SpCas9 相称(OpenCRISPR-1 的编辑为 55.7%,SpCas9 的编辑为 48.3%),但令人惊异的是,脱靶位点的编辑减少了 95%(OpenCRISPR-1 的编辑率为 0.32%,而 SpCas9 的编辑率为 6.1%)。

此外,OpenCRISPR-1 是一种高度新颖的蛋白质:它间隔 SpCas9 有 403 个突变,间隔 CRISPR-Cas 图谱中的任何天然蛋白质有 182 个突变。

多种天生的核酸酶(绿色),包括 OpenCRISPR-1(深绿色),具有与 SpCas9(蓝色)相称或更高的在靶活性,但脱靶活性低得多。

接下来,研究证明,当与脱氨酶配对时,OpenCRISPR-1 和 SpCas9 在精确编辑靶标基因组中的单个碱基时具有相似的活性和特异性。
此外,能够通过利用另一个经由 Profluence 演习的蛋白质措辞模型天生的脱氨酶来保持碱基编辑活性,同时提高特异性。

当利用 ABE8.20(一种高活性工程脱氨酶)以及研究天生的脱氨酶 PF-DEAM-1 和 PF-DEAM-2 进行碱基编辑时,OpenCRISPR-1 的功能与 SpCas9 非常相似。

末了,为了进一步优化天生的核酸酶的活性,研究职员还演习了一个模型来为任何给定的 Cas9 类蛋白天生兼容的 sgRNA。
与 SpCas9 的 sgRNA 比较,这些天生的 sgRNA 可以提高所测试的 5 种蛋白质中的 4 种天生的核酸酶的活性。

对付测试的 5 种天生的核酸酶中的 4 种,利用模型天生的 sgRNA 提高了编辑效率。

OpenCRISPR-1 只是冰山一角

研究展示了天下上首次利用基因编辑系统成功编辑人类基因组,个中每个组件都完备由 AI 设计。

此外,平台能够随意天生更多的基因编辑系统;OpenCRISPR-1 只是冰山一角。

团队公开拓布了 OpenCRISPR-1,促进在研究和商业运用中广泛、合乎道德的利用。
在向更广泛的社区供应这种分子的过程中,研究职员希望降落基于 CRISPR 的技能的治疗、农业和科学运用的本钱和进入门槛。

Profluence 副总裁兼基因编辑主管 Peter Cameron 表示:「这是一个分水岭,也是我们希望在动手构建下一代基因药物时迭代过程的开始。
我们鼓励基因编辑社区对 OpenCRISPR-1 进行压力测试。
如果有可以针对特定运用进行改进的特定功能,我们想知道,并可以互助优化这些特性。

参考内容:

https://twitter.com/thisismadani/status/1782510590839406904

https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html

https://www.profluent.bio/blog/editing-the-human-genome-with-ai

https://www.businesswire.com/news/home/20240422399482/en/Profluent-Successfully-Edits-Human-Genome-with-OpenCRISPR-1-the-World%E2%80%99s-First-AI-Created-and-Open-Source-Gene-EditorProfluence