2023量子位 | "大众年夜众号 QbitAI

AI制药,一个被称作明星赛道的行业。

不仅融资隔三差五传出,更被认为是打算生物最有希望落地的领域。

据量子位智库预测,AI制药行业海内市场守旧估计将达到2040亿元规模。

腾讯刘伟AI药物创造存在一个核心问题即模型是否具备泛化能力

在这样的前景下,不仅国内外高校博士生和教授纷纭投身创业,就连互联网大厂们也争相入资竞赛。

如今AI制药步入热度高峰后的瓶颈打破期,各玩家的差异性也逐步显现。

作为海内互联网巨子的腾讯,比较间接投资,三年前选择直接成立AI制药平台,成为赛道上竞赛玩家之一。

现在,腾讯AI制药平台成果进展如何?比较同赛道玩家,其竞争上风是否得以表示?

在MEET 2023大会上,腾讯医疗康健AIDD技能卖力人刘伟,从腾讯制药AI算法实践的角度磋商了这一行业当前的现状。

为了完全表示刘伟的分享及思考,在不改变原意的根本上,量子位对他的演讲内容进行了编辑整理。

关于MEET智能未来大会:MEET大会是由量子位主理的智能科技领域顶级商业峰会,致力于磋商前沿科技技能的落地与行业运用。
今年共有数十家主流媒体及直播平台宣布直播了MEET2023大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。

演讲要点在AlphaFold和AlphaFold2驱动下,AI药物行业发展速率非常快,而腾讯在蛋白质构造预测上的事情从2019年初就开始了。
骨架跃迁分子天生算法能在担保原有化合物活性的根本上,打破原有分子专利的保护,或者优化分子的ADMET性子。
只靠数据驱动的AI缺少可阐明性,要与领域知识相结合;药物AI是AI算法和领域知识相互创造,相互提升的过程。
AI赞助药物创造存在一个难题便是泛化性,即在A靶点中演习的AI模型,常日难以运用到B靶点上做预测。
这个问题的办理对技能的打破至关主要。

(以下为刘伟演讲分享全文)

腾讯云深智药是一个若何的平台?

我分享的题目为“腾讯制药AI算法实践”,会对腾讯过去3年积累的AI制药技能进行一个展示。

我叫刘伟,是腾讯AI药物创造这一块的技能卖力人。
本日我要讲的内容,紧张包括三个部分:

第一部分是腾讯云深平台先容,它实际上是沉淀了腾讯AI制药技能的一个平台;第二部分是平台的案例分享;第三部分总结平台的技能上风。

我们先先容一下腾讯云深平台的两大功能模块,一个是小分子药物创造,另一个是大分子药物创造,这里紧张指抗体药物创造。

个中,小分子模块包括蛋白质构造预测、分子天生等6个模块,大分子模块则由抗体构造预测、抗体亲和力、以及抗体人源化改造等几大模块组成。

韶光有限,我们不会详细先容每一个模块,紧张会讲案例以及部分底层技能的实现。

腾讯云深平台四大案例分享

第一个案例是蛋白质构造预测,这块腾讯在海内可能是做得最早的。

最近在AlphaFold和AlphaFold2的驱动下,行业发展速率非常快,而腾讯从2019年初就开始做干系技能事情。

大家该当比较清楚,蛋白质是生命及其活动中非常主要的组成部分,蛋白质构造预测则是指给定一个氨基酸序列,来预测蛋白质的三维构造。

我们在2019年打造的一个预测pipeline,当时是基于分子动力学仿照和AI预测相结合的方法,构建了一个叫tFold的蛋白质构造预测平台。

在2020年比赛的时候,这个pipeline连续八周在评测平台排名第一。

随后我们还参加了CASP竞赛,在海内得到了第一名,颜宁教授在她的论文中还引用了tFold平台,这是对我们在蛋白质构造预测上的成果的主要肯定。

第二个案例是结合物理学特色和本地数据演习,我们做了ADMET性子预测系列模型。

也是从2019年开始的事情,想跟大家分享两点:第一点是效果提升,以水溶性模块为例,我们做的ADMET比较头部商业软件效果均匀会有20%的提升;第二点是ADMET预测成熟度,在与某药企互助上,我们会供应一个可以说是非常根本的模型,在药企拿到这样的模型之后,会基于详细项目的管线天生的很多内部数据,即项目和靶点干系的特天命据。

用这些数据对根本模型进行重新演习(retrain)、或者说做微调(finetune)后,它会有一个更好的提升。

比如我们与某个药企互助剖析某系列化合物的心脏毒性,创造在项目中后期阶段,基本上与实验结果干系性达95%以上,后来药企就不太须要去做实验了,而是直策应用模型预测结果去做剖析了。

以是我们在ADMET预测这块已经做到非常成熟,目前模型包含60多个属性预测模块,在腾讯云深平台上可以直策应用。

第三个案例是骨架跃迁分子天生算法,这也是针对海内药企或者海内科研机构的一些实际需求打造的,目前同样已经做得比较成熟。

通过骨架跃迁分子天生算法,就能在担保原有化合物活性的根本上,打破原有分子专利的保护,或者优化分子的ADMET性子。

我们自研了骨架跃迁算法,与药企做了一些互助,这些互助不仅帮助到药企创造了纳摩尔级别的多个化合物系列,也很好地验证了我们这个流程的健壮性,在不同的靶点、不同的复合物上都实现了比较好的效果,目前部分研究成果已经揭橥在期刊上。

第四个案例是将强化学习引入药物小分子的天生。

在天生分子的时候,我们不仅要考虑分子活性,还要考虑ADMET的属性,以是我们把这些流程做了一个打通,你可以定制这些ADMET属性的哀求。

在天生过程当中,我们用上强化学习,使得天生出来的分子符合定制的属性哀求,两个不同的模块能够相互提升和强化,终极培植一个非常完全的pipeline,这可以用在各种分子天生的场景中。

例如这个例子中,天生有两个哀求,包括不能通过血脑樊篱、以及logP的属性:

可以看到,在没有经由强化学习时,它的分布是比较弥散的,天生出来的化合物不太知足实际运用需求。
但经由几轮强化迭代后,97%的分子都会知足天生的哀求。

这一平台具备哪些技能上风?

接下来,我们总结一下腾讯云深经由两三年景长后,积累出的一些技能上风。

第一块是在AI算法方面。
大家知道,在药物研发这一块最主流的技能便是深度图神经网络,腾讯在做药物AI之前,在这方面做了非常永劫光的研发,也有非常深厚的技能积累。

由于腾讯是一个社交网络公司,以是在深度图神经网络方面有深厚的研发积累,包括在一些AI顶会如NeurIPS上面,我们腾讯AI Lab在上面揭橥了非常多的论文,包括大规模图随机采样、以及图自监督学习等,个中一些论文的引用量非常高。

第二块和第三块,便是大算力、大数据方面的能力。

我们知道化学空间非常大,以10的n次方为计数,在这么大的化学空间中创造药物分子非常不随意马虎。

常日的做法是借鉴自然措辞处理或者图像视觉技能发展而来的大模型预演习,使得模型本身能够理解化学空间的措辞,比如像理解SMILES、3D分子构造,乃至是理解蛋白质构造。

以是这方面会面临针对大模型、大算力的强劲需求,我们在这一块也做了非常多的事情,后面会详细先容。

末了一块,我们基于腾讯在算法算力上的能力,将AI与物理、化学做了一个结合,这是团队新成长出来的能力。

我们认为,AI纯粹只靠数据驱动是不敷够的、缺少可阐明性的,做出来模型之后,它有时也会由于数据稀疏、漂移产生一些问题。
如果能够结合物理、化学知识进入AI算法模型,就能够非常好地反响在化学、或是底层物理方面的一些特色和规律。
这样做出来的AI模型,不仅过拟合风险更低,实际运用中也有非常好的可阐明性,这也是我们最近几年重点发展的一个能力。

我们再展开给大家分享一下这几块内容。

第一块是AI+量子化学方面的算法能力。

我们开拓了一系列用AI方法做量子化学打算的算法。
量子化学是一个非常广泛而深刻的技能领域,它从比较低精度的履历性打算到非常高精度的多体打算,都已经开拓出了很多方法。

对付现存最高准确度的,例如全组态量子化学打算,它须要非常大的打算量,这对像药物分子、或者说drug-like这样的分子是不太可行的,只能被迫利用比较低精度的方法。

针对这样的痛点,我们做了一个叫DeepQC的框架,可以在以秒为量级的韶光单位下,达到高精度大基组DFT的打算结果。

我们还把DeepQC用在像晶体、催化体系上,也取得了非常好的效果,特殊值得一提的是,在今年的催化剂干系比赛Open Catalyst Challenge 2022上我们还拿了冠军。

这也是基于我们多年以来对AI和量子化学结合的探索根本之上做出的事情。

这样一套方法,我们原来只是在有机分子上,我们看到将其推广到催化的表面体系,以及晶体的周期体系,它仍旧可以非常高精度、非常快速地完成任务,它的速率比用量子化学仿照要快一个数量级。

第二块是我们在图卷积神经网络方向的技能发展。

腾讯以前做的很多图卷积神经网络事情在社交网络方面,但我们把它拓展到蛋白质构造上,创造也有非常好的效果。

实际上不管是蛋白质,还是这些配体和药物体系里面,它实在都有非常好的层次构造,和社交网络非常相似。

蛋白质常日被分为几层构造。
从最底层的原子、乃至电子,再到氨基酸,氨基酸又组成蛋白质多肽链,再到上面三级构造或四级构造,如果在各种不同的层级用不同神经网络建模方法,就可以把它做得更好。

我们把层次图卷积神经网络用在抗体构造预测上,效果超过了AF2、IgFold等模型的结果,目前干系论文也已经被NeurIPS收录,也已经在arXiv上公开。

第三块是大分子预演习模型。

我们刚才提到,药归天学空间非常大,但是详细到某个药物研发项目中时,数据非常少乃至没有,以是你必须办理过拟合的问题。

我在做某一个项目、某一个靶点的时候,它的数据可能就只有几百乃至几十个,这种情形下如果没有大数据作为根本,是非常随意马虎过拟合的。

我们在2019年就意识到这样的问题,揭橥了一个大规模分子预演习模型叫GROVER,现在险些这个领域的所有事情,都会引用当初我们在GROVER上做的成果。

我们是海内最早在分子图上做预演习的,而这也是腾讯云深平台非常底层的技能,不管是在分子属性预测、还是蛋白质构造预测、还是抗体药物设计上,它都是非常底层的公共技能模块。

不管是针对2D还是3D分子,都会基于embedding做特色提取,然后也是预演习+微调这样来用,也是行业内的一个范式。

末了,便是我们今年最新的一个事情。

我们在做AI赞助药物创造时,创造了这样一个问题,在A靶点(A场景)中演习的AI模型,会非常难以运用到B靶点(B场景)上做预测。

这个实在便是OOD(out-of-distribution)问题。
这个是机器学习自身的一个核心问题,现在也没能100%完备办理。

为了验证我们模型的有效性,我们去做了一个名叫DrugOOD的开源框架,现在它也已经贡献给了行业和社区。

我们会根据不同的domain把它做一个划分,比如按照骨架、实验assay、或者靶点区分,这样演习出来的模型就会非常不一样。

这个过程中,我们实际上希望模型在不同场景具备一定的迁移能力,不然模型只能适宜某一演习数据场景,这实在不是我们所希望的,由于这样的模型适应能力非常弱,没办法运用到新的问题上。

在DrugOOD中我们会有一个数据Curator的模块,之后我们会做一个分割,这样在演习不同模型时,我们就可以按照不同的标注去自动写一个配置文件,测定我们新演习的模型在不同的蛋白质家族上不同的效果,这样对模型的泛化性就能有一个非常明确的认识。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态