2023-12-28 11:17:16

通用的、基于语言的方法有助于新蛋白质的设计

通用的、基于语言的方法有助于新蛋白质的设计

麻省理工学院的Markus Buehler将注意力神经网络(有时被称为变压器)与图形神经网络相结合,以更好地理解和设计蛋白质,该研究发表在AIP出版的《应用物理杂志》上。该方法结合了几何深度学习和语言模型的特点不仅可以预测现有的蛋白质特征,还可以想象自然界尚未创造的新蛋白质。

众所周知,蛋白质很难模拟,因为它们的结构复杂,具有多任务能力,并且在溶解时倾向于改变形态。机器学习已经显示出将调节蛋白质活动的纳米级动力学转化为功能框架的能力。然而,相反的方法——将期望的功能转化为蛋白质结构——仍然很困难。

Buehler的技术通过将数字、描述、任务和其他组件转换成他的神经网络可以使用的符号来克服这个困难。

他开始训练他的模型,根据各种蛋白质的活性来预测它们的序列、溶解度和氨基酸组成部分。然后,他训练它具有创造性,并根据新蛋白质功能的初始参数构建全新的结构。

他能够使用这种方法来制造固体形式的抗菌蛋白质,而这些蛋白质以前是溶解在水中的。在另一个案例中,他的团队使用了一种天然存在的丝蛋白,并将其发展成新的形式,例如螺旋形状以增加弹性或褶皱结构以增加坚固性。

该模型完成了构建新蛋白质的许多关键任务,但根据Buehler的说法,该技术可以为额外的任务整合额外的输入,可能使其更加强大。

“一个非常令人惊讶的因素是,这个模型表现得非常好,尽管它是为了能够解决多个任务而开发的。这可能是因为模型通过考虑不同的任务来学习更多。这一变化意味着,研究人员现在可以从多任务和多模式模型的角度进行广泛思考,而不是为特定任务创建专门的模型。”

由于该技术的综合性,该模型可用于蛋白质设计以外的许多领域。