【全球时快讯】同日两篇Science论文,David Baker团队推出从头设计蛋白质序列新模型,几秒即可设计出原创分子


(资料图片仅供参考)

2020 年底,DeepMind 旗下的深度学习模型 AlphaFold2 一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。今年 7 月底,AlphaFold2 再获重大进展,预测了超过 2 亿个蛋白质结构,这些预测的结构涵盖了科学界几乎所有已编目的蛋白质。
基于蛋白质氨基酸序列预测蛋白质结构取得重大进展的同时,通过蛋白质结构逆向设计氨基酸序列同样备受关注。
9 月 16 日,华盛顿大学 团队在 Science 杂志上连发两篇论文,这两篇研究论文也是利用深度学习模型进行蛋白质设计的最新进展。 究人员在论文中详细描述了一种基于深度学习的蛋白质序列设计方法——ProteinMPNN,采用这种工具可以在几秒内设计出原创蛋白质分子。论文中还提到, 该工具在干实验和湿试验测试中均表现良好。
(来源: Science
同时研究人员还使用X 射线晶体学、冷冻电镜以及多种功能研究恢复利用 Rosetta 或 AlphaFold 失败的设计,包括蛋白质单体、环均低聚物、四面体纳米颗粒和目标结合蛋白,最终证明了 ProteinMPNN 应用广泛,且设计的精确度更高。
DeepMind 的 AI for Science 团队负责人也指出,Alphafold 通过解决蛋白质结构预测问题显示出了 AI 以及深度学习在生物学领域中的变革作用,并将生物学带入了一个新的时代。ProteinMPNN 则是为特定任务设计蛋白质序列,是这种范式转变的另一个证明。

几秒即可 从头设计蛋白质序列

蛋白质结构预测是指基于蛋白质的氨基酸序列预测蛋白质的三维结构。也就是说,从蛋白质的一级结构预测它的折叠和二级、三级、四级结构。AlphaFold2、RoseTTAFold 等是具有代表性的蛋白质结构预测,通过氨基酸序列预测蛋白质三维结构,以此帮助科研人员深入了解蛋白质的功能。
而蛋白质设计与之相反,主要是通过计算方式理性确定蛋白质的氨基酸序列,实现预设的结构和功能。大体可分为从头开始设计蛋白质,或者通过计算已知蛋白质结构及其序列的变体来设计蛋白质。
过去 3 年里, 实验室一直在探索制造新的蛋白质,包括应用了多款软件。Rosetta 是该实验室 1998 年开发出的一种蛋白质结构预测算法平台。最初,研究人员构想出一种新蛋白质的形状,即将其他蛋白质的片段拼凑在一起,然后利用软件推导出与形状对应的氨基酸序列。
然而,在实验室这些蛋白质很少能折叠成预期形状,而且会折叠成多种形式。因此,需要另一个步骤来调整蛋白质序列,使其仅折叠成一个所需的结构。然而,这一步涉及模拟不同序列可能折叠的所有方式,所需时间长、且成本很高。
后续,通过调整 AlphaFold 和其他深度学习模型,瞬间即可完成这个耗时的步骤。2021年, 团队介绍了两种机器学习方法,分别是“constrained hallucination”和“in painting”。 在研究中,他们设计了100 多种小的“hallucination”蛋白质,发现大约 1/5 与预测的形状相似。但是,当研究团队指导微生物在实验室中设计蛋白质序列时,150个设计都没有成功。
(来源 : Science
与此同时, 实验室的另一名研究员 博士正在开发一种深度学习工具来解决逆折叠问题,确定与给定蛋白质结构相对应的氨基酸序列。 研究团队将其称之为 ProteinMPNN,这是一种从头设计蛋白质的全新深度学习工具,可以在研究人员有了确定的蛋白质结构基础上,推导出折叠成三维结构的氨基酸序列。
团队将 ProteinMPNN 应用于幻觉蛋白质纳米粒子(hallucinated protein nanoparticles),发现该工具在实验中取得了比之前更大的成功。
论文中指出,在天然蛋白质骨架上,ProteinMPNN 的序列恢复率为 52.4%,而 Rosetta 为 32.9%。在实验中,研究人员使用低温电子显微镜和其他实验技术确定了 30 种新型蛋白质的结构,其中 27 种与基于 AI 的设计相匹配。
(来源:华盛顿大学)
据悉,ProteinMPNN使用的神经网络已训练了大量可以折叠成蛋白质三维结构的氨基酸序列。 目前,ProteinMPNN已开源使用,用户可在开源软件存储库GitHub上免费下载使用。
研究人员还指出,机器学习将使整个蛋白设计过程变得更快、更简单,并在更大的范围内设计出全新的蛋白质和结构。 这一软件模型比以前的工具快了 200 多倍,用户只需输入少量信息即可完成。 也就是说,这一工具可在几秒内而非几个月内从头设计蛋白质序列,有望降低蛋白质设计门槛。

可用于设计多种新材料和治疗方式

上文提到的“constrained hallucination”机器学习方式,允许用户在所有可能的蛋白质序列中进行随机搜索,并挑选具有某些功能的序列。由于机器学习能够处理大量数据集,“constrained hallucination”方式可以帮助用户探索所有潜在的蛋白质结构空间。构成人体蛋白质的氨基酸有20种,这些氨基酸可以组合成大量候选序列。
第一种机器学习方式允许用户在所有可能的蛋白质序列中进行随机搜索,并挑选具有某些功能的序列。由于机器学习能够处理大量数据集,“constrained hallucination”方式可以帮助用户探索所有潜在的蛋白质结构空 间。 构成人体蛋白质的氨基酸有 20 种,这些氨基酸可以组合成大量候选序列。
“in painting”类似于文字处理器中的自动完成功能,即从功能位点开始,填充额外的蛋白质的结构和序列。
去年7月发表的论文还指出,这两种方法可以应用于设计候选免疫原、受体陷阱(receptor traps)、金属蛋白、酶以及结合蛋白等。当时,研究人员通过干湿实验验证了设计。
在最新的论文中, 团队的研究更突出了基于深度学习生成新蛋白质结构的多样性,这为设计用于纳米机器和生物材料的复杂组件铺平了道路。
(来源: Science
通过上文提到的这些方法,研究人员设计出了一种在自然界中从未见过的全新蛋白质,比如该团队设计出具有复杂对称性的巨型环。据外媒披露, 团队正在试验这些环状结构是否可以应用于在纳米尺度上运行的微型机器组件。未来,这些纳米机器或许用于疏通动脉。
研究团队还表示,从理论上讲,这种方法可用于设计与任何对称形状相对应的纳米粒子。
据外媒报道,ProteinMPNN 既可以帮助研究人员发现以前未知的蛋白质,也能够设计全新的蛋白质。 这种 工具还可以应用于开发更有效的疫苗,加快癌症治疗的研究,或者设计全新的材料。
约翰霍普金斯大学化学和生物分子工程教授 认为,近年来领域内的进展正在深刻改变生物分子结构预测和设计领域。他还计划把自己实验室开发的深度学习工具与 团队开发的工具结合起来, 更好地了解免疫系统和免疫相关疾病,并基于 AI 设计相关治疗方法。

参考资料:

1.

2.

3.

关键词: 氨基酸序列 蛋白质序列 研究人员

推荐DIY文章
主机存在磨损或划痕风险 PICO4便携包宣布召回
穿越湖海!特斯拉Cybertruck电动皮卡可以当“船”用
vivoXFold+折叠旗舰开售 配备蔡司全焦段旗舰四摄
飞凡R7正式上市 全系标配换电架构
中兴Axon30S开售 拥有黑色蓝色两款配色
荣耀MagicBookV14 2022正式开售 搭载TOF传感器
it