翻译来源:(点击阅读原文直接看英文原版文献来源以及参考文献信息!)
OlivecronaM,BlaschkeT,EngkvistO,etal.Molecularde-novodesignthroughdeepreinforcementlearning[J].JournalofCheminformatics,,9(1):48.
DOI:10./s---x
译者声明:本译文仅用于科研交流学习,译者不对文中原文任何图片享有任何权利,图片版权归原编著者所有,译者本人仅根据原文进行独立翻译,转载需注明原文以及译本出处,若有侵权请联系本人删除,谢谢合作!
摘要这篇文章介绍了一种调整基于序列的分子生成模型的方法,该方法通过augmentedepisodiclikelihood来学习生成具有特定理想特性的结构。我们执行了一系列的任务展示该模型的能力,如生成查询结构的类似物和生成预测对生物靶点具有活性的化合物。作为原理证明,首先训练该模型生成不含硫的分子。第二个例子,训练该模型生成药物Celecoxib的类似物,这种技术可用于从单个分子开始的scaffoldhopping或libraryexpansion。最后,当将模型调整为生成预测对多巴胺2型受体具有活性的化合物时,该模型生成的分子结构中95%以上被预测为具有活性,包括实验证实的活性物质,这些活性物质既没有包含在生成模型中,也没有包含在活性预测模型中。
引言循环神经网络(RecurrentNeuralNetwork,RNN)通常被用于生成序列性数据的模型,并成功用于自然语言处理等任务。最近,研究者对使用这种生成模型进行分子的denovo设计越来越感兴趣,Segler等人证明,在典范SMILES上训练的RNN既可以学习语言的语法,还可以学习化学空间中的分布。而近两年强化学习(ReinforcementLearning,RL)被用于微调预训练的RNN,通过给生成序列打分来学习具有理想特性的结构,这种方法比仅使用RNN或RL的方法都有显著的改进。Jaques等将这种方法用于分子生成中,并朝着分子特性如cLogP和QED药物相似性进行优化,然而,他们报告说,该方法依赖于一个包含规则的奖励函数来惩罚非理想的序列类型,但这样导致了对奖励的滥用,使得不切实际的简单分子比复杂的结构更有可能满足优化的要求。
本研究中,我们提出了一种基于策略的RL方法来调整RNN完成生成具有特定性质分子的episodictasks。通过包含了priorlikelihood和用户自定义得分函数的augmentedepisodiclikelihood,该方法微调了一个预先在ChEMBL数据库上训练的RNN,以生成理想的化合物。与maximumlikelihoodestimation微调相比,这种方法可以充分利用负样本和连续性分数,降低网络遗忘的风险。
方法RNN训练为序列建模的RNN通常是利用给定前几步的tokens,对目标序列的下一个token
进行maximumlikelihoodestimation。在每一步,模型都会产生下一个字符可能是什么的概率分布,目的是最大化分配给正确token的可能性。损失函数
通常运用于训练实例中称为batch的一个子集,通过对网络参数
进行最小化:
由于BPRNN的特性可能会导致梯度消失或梯度爆炸的现象发生,则需要LSTM模块来控制信息的丢失和记忆。而GRU是LSTM的一种简化实现,能用更少的时间实现同样的效果。
RNN训练及序列生成示意图分子表示本文使用SMILES表示分子,并使用one-hot的方式进行编码
SMILES及one-hot编码表示分子RL考虑一个Agent,给定一state
选择执行一个action
,
为该state执行这个action后的反馈,
为Agent的执行策略,其将state映射到每一个action执行的概率上。而强化学习就是要学习出一个模型使得长期回报
(从时间t积累到T)最大化。本文基于以下几点选择了基于策略的强化学习方法:
基于策略的方法可以学习到最优的随机策略所用方法始于prior序列模型,目标是根据一些指定的评分函数对模型进行微调,由于prior模型已经构成了一个策略,则学习微调策略则只需要对prior模型进行少量修改本episodes中采样短且快,减少了梯度估计差异的影响PriorNetworkPriorRNN为一个三层网络,每一层包括个GRU,在RDKit上万个典范SMILES上进行训练的,这些结构被限制10到50个重原子和元素之间。具体参数设置参照原文。
AgentNetwork作者使用前面描述的prior模型学习的概率分布作为初始prior策略,并将使用该策略的网络简化称为
,而经过微调策略后的网络称为
。Agent与Prior网络的结构相同。任务从RNN的第一步输入GOtoken开始到产生EOStoken为止。在这个事件中,动作序列
表示了SMILES的产生,动作概率的乘积
表示了模型生成该序列的可能性。
为得分函数,评估使用某种任意方法形成的序列是否满足要求。现在的目标是更新来自prior策略
的agent策略
,以提高生成序列的预期得分,然而作者希望他们的策略能够锚定在已经学习了SMILES语法和ChEMBL中分子结构分布的prior策略上。因此作者提出了一个augmentedlikelihood:
为标量系数。序列A的返回
可以看作是Agentlikelihood
和augmentedlikelihood的一致性:
损失函数为:
Agent网络比较方法ActionBasis
这种方法与Agent方法类似,唯一不同的是,其损失是以action而非整个生成序列为基础定义的,其损失函数为:
REINFORCE基于最后一步给定的奖励
,损失函数为:
REINFORCE+Prior基于REINFORCE考虑Priorlikelihood,将奖励从
改为
,损失函数为:
该方法与Agent的区别:
仅产生最高奖赏的推定序列非随机策略依赖于足够长的序列训练模型实现产生高分序列,才不至于陷入局部最优值结果和讨论生成不含硫的分子打分函数:
结果:
对于REINFORCE方法,其唯一的目标就是产生符合SMILES且不包含硫的分子,所以模型很快就学到了生成尽可能多的包含‘C’的序列,而REINFORCE+Prior方法包含了Priorlikelihood使得上述的结果不再出现(这样产生的序列在Prior模型中会给出低可能性),模型会在得分和Priorlikelihood中寻求平衡,但是根据表1和表2结果,这种模型会更偏向生成简单的小分子。因此两个REINFORCE方法都对Prior的表示效果不佳。Agent和ActionBasis在表示Prior的效果上都表现更优,但Agent在无硫生成方面更胜一筹,同时消耗了更少的学习时间。
相似分子生成得分函数:
,为FCFP4指纹的RDKit的运用Jaccardindex,被用来衡量分子i和j之间的相似性。(在该公式中,
,
越大则表示筛选生成的分子需要更相似才能实现满分,也即控制模型生成分子与查询结构的相似程度)。
结果:
作者选择了Celecoxib作为查询结构,为了探索模型能否生成Celecoxib本身,首先设置参数
,仅学习约次模型生成的绝大多数分子已为Celecoxib。为了证明强化学习在本模型的作用,减少Prior习得Celecoxib相似分子结构的能力,作者将所有训练集中与Celecoxib相似性高于0.5的分子全部去除并训练得到模型reducedPrior。reducedPrior生成Celecoxib的可能性大幅下降,从
到
。随后在与前相同的超参条件下,使用reducedPrior进行训练的Agent在约次学习后开始产生Celecoxib,次学习后模型产生的分子中约1/3为Celecoxib,还有约1/3的分子为demethylatedCelecoxib,证明了得分函数对于策略的微调能力。作者还修改了超参进行探索,结果与预期符合,当超参
和
越大,模型生成的分子与查询结构越相似,其结果如下图:
在超参
的情况下,每经过一百次学习,模型生成的分子样本如下图:
作者表示通过超参和学习次数的设定,可以将该模型运用到许多场景如scaffoldhopping和libraryexpansion。
活性靶向分子生成打分函数:
根据一个SVM活性预测模型计算获得,该模型的训练数据来自ExCAPE-DB,多巴胺2型受体(dopaminetype2receptor,DRD2)作为靶点,pIC的为actives,有个,pIC的为inactives,有个,随机选择,个作为inactives。为了减少训练集、验证集和测试集之间actives的相似程度,actives根据分子相似性先进行聚类,然后根据聚类再划分为训练集、验证集和测试集(分别占总actives的4/6,1/6和1/6),而inactives则随机划分。DRD2的活性预测模型如下所示:
随后利用该预测模型进行活性分子模型生成的训练,同样为了降低Prior习得actives结构的能力,作者训练了一个reducedPrior,其训练数据从ChEMBL中抹去了所有DRD2actives。reducedPrior训练调整后模型生成actives的概率从开始的0.02提高到了0.96。其中有些生成的分子与上述训练集和测试集中的actives分子完全相同,典范Prior和reducedPrior分别cover了测试集中1.3%和0.3%,而典范Agent和reducedAgent却cover了13%和7%,分别提高了10倍和23倍。更多的结果如下表所示,均证明了模型结合RNN和RL的正确性:
结论本研究中,作者延续了之前的工作,引入了一种强化学习的方法,通过augmentedepisodiclikelihood来调整RNN,以生成具有某些理想特性的结构。作者分别在不含硫的分子生成、相似分子生成和活性靶向分子生成三个场景运用了该模型,并展示了该模型与仅使用RNN或传统REINFORCE算法相比更优的结果。这些结果表明该方法可以成为药物发现的有用工具。
作者提出该方法可以在以下方面继续深入研究:
探讨训练集大小、模型大小、正则化和训练时间等参数如何影响Prior生成结构的质量和种类tokenembeddings引入更多参数如targetacitivity、DMPKprofile、syntheticaccessibility等欢迎大家
转载请注明:http://www.xiebinbinb.com/blcwems/5375.html