Science | 利用强化学习进行蛋白质的自上而下设计
作者建立了一个树搜索,每个步骤中都在不断增长的链的N端或C端添加一个短的蛋白质片段。给定单体中螺旋的长度和数量以及总体组装体的大小的规格,作者从一个短的螺旋片段开始,在指定的上限距离内随机放置,随机取向,初始化了数百万条MCTS轨迹,并为每个轨迹执行了10,000次迭代,以生成大量多样化的结构。MCTS方法在理论测试中生成了紧密填充的二十面体组装体,这些组装体跨越了与天然和先前的新生二十面体不同的
今天为大家介绍的是来自David Baker团队的一篇关于蛋白质设计的论文。由于进化选择的结果,自然的蛋白质组装的亚基通常具有相当的形状互补性,以生成最优的功能架构,这是当前设计方法所无法实现的。作者描述了一种“自上而下”的强化学习设计方法,使用蒙特卡罗树搜索在整体架构和指定的功能约束条件下对蛋白质构象进行采样。此方法使得复杂蛋白质纳米材料的自上而下设计具有所需的特性,并了强化学习在蛋白质设计中的力量。
图1
多亚基蛋白质组装在生物学中扮演着至关重要的角色。像二十面体病毒外壳这样的结构中,亚基通常几乎完美地拟合在一起。与直接对整个系统属性进行进化选择不同,蛋白质设计常常使用“自下而上”的方法(图1A,左侧)生成蛋白质架构,其中单体结构首先被嵌合成对称寡聚体,然后装配成具有四面体、八面体或二十面体对称性的闭合组装体。这种分层方法的优点在于组装体的多个界面可以独立验证,极大地增加了整个设计过程的稳健性。虽然这种设计的组装已经在免疫生物学和其他领域证明了其在生物医学中的有用性,但其存在局限性。组装体的属性受到可用寡聚体构建块生成的限制,至少一个亚基-亚基界面必须足够强大(可以在独立的环形寡聚体亚结构中稳定)。目前还没有直接优化整个组装体性质的方法。作者旨在通过开发一种自上而下的方法(上图1A,右侧)来克服自下而上蛋白质复合物设计的限制,该方法从所需属性的规定开始(总体对称性、孔隙度等),系统地构建起彼此紧密堆积的亚基以优化这些属性。蛋白质片段组装可以产生各种单体蛋白质结构,因此可以用来产生多样性。之前的设计方法已经能从片段构建蛋白质,但作者的目标是优化整个系统属性,这可能涉及到为了增加亚基-亚基相互作用强度和其他属性而换取单体稳定性。为了实现这种基于最终状态的优化,作者转向了强化学习。蒙特卡罗树搜索(MCTS)是一种RL算法,它在搜索树中找到最优的一系列选择。在MCTS中,每个分支点随机选择一个选择以找到下树的路径,探索一条路径后,评估状态,并将概率在每个分支点上向上传播的权重重新调整,以使后续迭代更有可能导致最优路径。
MCTS的采样
作者本文旨在开发一种基于蒙特卡罗树搜索算法的蛋白质复合物生成方法,通过直接利用蛋白质片段组装单体亚基,优化预先指定的全局结构特性。作者建立了一个树搜索,每个步骤中都在不断增长的链的N端或C端添加一个短的蛋白质片段。每个步骤中考虑的片段数量权衡了学习速度(较少的选项可以更快地学习权重)和可生成的结构多样性。通过使用参数化生成的线性螺旋作为建筑块来平衡这些因素,这些螺旋由单个参数(长度,从9到22个残基)描述,然后使用从大型螺旋蛋白数据库中聚类得到的一些短的环形结构作为构建块,这些短环形结构被分成了316个不同的类别。搜索始于选择一个可能的初始螺旋,然后在两个端点之间交替添加环或螺旋。一旦选择了环簇,模型就从簇内密切相关的环主干中随机选择一个(上图1B左)。虽然这远远不及天然蛋白质结构中观察到的局部结构数量,但在初步的探索中,作者发现可以从这样的建筑块中轻松生成各种紧凑的蛋白质形状。使用这种方法建立一个100个氨基酸残基的蛋白质主链需要添加大约五个螺旋和四个环,总的可能性数量约为10的17次方。环主干变异中还可以获得额外的结构多样性。搜索树的大小随着结构元素数量的指数增长,因此对于具有较少螺旋的单体亚基而言,空间可能性的探索更加有效。
搜索过程是基于具体问题,通过几何约束和得分函数进行调节。在搜索的每个步骤中都会应用几何约束,而得分函数只有在完整的结构组装之后才评估。在搜索树的每个层级,选择的螺旋和环结构都需要满足几何约束。完成的主干结构将使用评分函数进行评估,以评估整体生成结构与用户规定的问题规范的符合程度,并根据需要重新调整每个步骤中每个移动的选择概率。为了解决经典强化学习问题中探索与利用平衡的问题,该搜索算法从许多独立的树开始初始化,并且限制了任何一次螺旋/环添加的最大概率。
使用约束对称MCTS方法构建纳米孔
图2
作者将其方法应用于高度受限的设计挑战,即填充两个先前设计的循环蛋白环之间的空间,以生成具有中央纳米孔的盘状结构(图2A)。作者使用MCTS方法来解决这个挑战,通过几何约束将搜索限制在两个环之间的空间内,要求密集填充,以便结果组装体中唯一的大空洞是内部C6环的孔。内外两个环均具有C6对称性,搜索树从外环的N端开始初始化,并同时构建六个亚基,共同填充空洞。对于一组不同的内环,作者针对2000个放置位置进行MCTS,这些内环具有不同的内孔大小,放置在一个恒定的外环内。MCTS方法有效地满足了设计标准:完全填充了两个原始环之间的空间,生成了一个中心具有窄圆形孔的盘状结构。
迷你二十面体的自上而下设计
接下来,作者探索了使用MCTS方法通过使用59个变换矩阵计算生长单体的对称体来生成二十面体组装体。作者试图设计非常小的、紧密填充的衣壳结构,并开发了几何约束和评分函数,以特别有利于这种结构。给定单体中螺旋的长度和数量以及总体组装体的大小的规格,作者从一个短的螺旋片段开始,在指定的上限距离内随机放置,随机取向,初始化了数百万条MCTS轨迹,并为每个轨迹执行了10,000次迭代,以生成大量多样化的结构。MCTS方法在理论测试中生成了紧密填充的二十面体组装体,这些组装体跨越了与天然和先前的新生二十面体不同的结构空间,比以前描述的任何蛋白质二十面体都要短,并且孔隙度可与进化生成的密集填充的衣壳相媲美(图1D)。
结论
作者的自上而下强化学习方法使得能够解决以前无法通过自下而上设计方法解决的设计难题。MCTS方法的能力以一种自上而下的方式优化任何一组指定的几何标准,为刚性支架免疫原或受体结合单体的多价细胞受体激动剂和疫苗提供了一条路线。更一般地,实验的结果证明了强化学习在蛋白质设计中的威力,作者预计通过引入策略和价值网络来进一步引导搜索,可以进一步提高其性能。
参考资料
Isaac D. Lutz et al. ,Top-down design of protein architectures with reinforcement learning.Science380, 266-273(2023).
DOI:10.1126/science.adf6591

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)