由塞巴斯蒂安·罗
贾瓦纳和雷杰维奇的数字

蛋白质折叠问题——如何根据蛋白质的序列预测蛋白质的结构——在20世纪60年代首次概念化,一直是全世界结构生物学家关注的主要问题之一。去年,谷歌的DeepMind——一个研究人工智能的程序员团队——声称找到了解决方案;就像2016年的围棋一样(并制作了最好的球员退休)。那么,这项新技术是否会使成千上万的科学家研究蛋白质过时的蛋白质的结构?Deepmind是如何解决这个解决方案的?最重要的是,为什么我们甚至关心?

蛋白质的形状和结构

图1所示。一个努力工作的细胞,准备好用它可靠的蛋白质工具箱来处理任何工作。

游戏已经改变了“科学

“它会改变一切” - 性质

蛋白质是一种生物细胞用于保护自己免受病毒,分解食物,修理本身的工具,甚至将消息发送给其他细胞。就像锤子,扳手或螺丝刀一样,蛋白质的结构决定了蛋白质可以做什么。有关如何使用工具的许多信息以及如何从其形状确定工具的方式。蛋白质 - 蛋白质结构也是如此,可用于寻找新药。这是因为大多数药物通过结合(或配合)蛋白质并改变蛋白质的作用。大多数药物以造成损坏的方式使用某些蛋白质止扰细胞。最着名的,第一个艾滋病毒药物设计使用HIV蛋白酶的蛋白质结构- 在20世纪90年代脱落其他蛋白质的蛋白质。科学家设计的药物可以在艾滋病毒蛋白酶中完美地适应并将其关闭。一旦结构确定,它只需要六年的药物进行设计,测试和批准用于治疗艾滋病毒。

尽管蛋白质非常小(平均蛋白质有半径为2nm,这比比那个小10,000倍人头发的宽度),多种技术允许科学家确定蛋白质的三维形状或结构。这些技术中最常见的是X射线晶体学,其使用结晶蛋白质与X射线光相互作用以识别蛋白质的结构。另一种常见方法是低温电子显微镜(Cryo-EM),它利用电子从不同角度拍摄冷冻蛋白质的2D照片,并在3D中重建蛋白质结构。然而,这些技术要求蛋白质表现良好。例如,在x射线晶体学中,蛋白质必须被诱导形成晶体,而这需要非常纯净和高度浓缩的蛋白质。低温电子显微镜可以用于一些不能很好地结晶的蛋白质,但它不能产生高度详细的结构。由于这些问题,近一半的人类蛋白质没有已知结构,也不预测与任何已知结构有相似之处。

一个大独太

图2.细胞可以使用与构建块相同的氨基酸制成各种蛋白质。

蛋白质折叠问题部分地提出了如何从氨基酸序列预测蛋白质的结构。氨基酸是每个蛋白质的结构块,每种蛋白质都具有独特的氨基酸序列。科学家考虑氨基酸的方式相互作用不同深度水平的结构。组成蛋白质的氨基酸序列可以从DNA中确定,而这个序列是蛋白质的一级结构。在3D中,氨基酸的短序列相互作用的方式被称为二级结构。三级结构是蛋白质中所有氨基酸的三维结构。了解蛋白质的三级结构可以让科学家设计出更好的药物,因为每个氨基酸都有许多不同的化学性质这些性质可以根据其他氨基酸附近而变化。为了确定三级结构,计算机程序可以使用这些化学性质来预测来自氨基酸序列的小二次结构。不幸的是,预测的每一种额外的氨基酸都需要计算其与其他氨基酸的相互作用,并且在没有实验上发现结构的情况下,我们无法检查预测结构是否正确。

所需的时间和缺乏检查潜在解决方案的快速方法意味着解决蛋白质折叠问题是一个例子np-hard mathematical问题。" NP "代表非确定性多项式时间它的意思是说,计算机在逻辑上解决一个问题所需的时间,与计算机随机猜测和检查解决方案所用的时间差不多。NP-hard中的“困难”意味着我们不知道是否有一种快速的方法来检查随机猜测的解决方案是正确的。

Sudoku是NP问题的一个例子 - 很容易检查数独谜题是否正确放置,但很难解决。这些类型的问题在我们的日常生活中出现 - 找到了上班的最佳方式,或者如何交付邮件也是NP-HARD。如果有人能找到一种快速解决或检查这些问题的方法,那么有一个20岁百万美元奖品等待!

每日通勤和alphafold

图3.该技术用于找到两个地方之间的最佳路线与alphafold的蛋白质结构预测很多。

DeepMind的AlphaFold技术是一种算法,可以绕过科学家使用x射线晶体学或低温电子显微镜来确定蛋白质结构的需要。相反,在超级计算机上使用AlphaFold就可以找到蛋白质的结构,而不需要任何动手操作。那么AlphaFold算法能解决蛋白质折叠问题吗?它能获得百万美元的奖金吗?嗯,没有。至少,它没有完全解决问题。相反,AlphaFold找到了一种方法,能够在一个时间框架内获得足够好的近似值,而不是花不确定的时间(不可知的很长时间)去寻找完美的解决方案。

AlphaFold找到足够好的近似值的过程与GPS应用Waze的工作原理类似。Waze通过决定来工作基于之前的上千次旅行和少量的数学计算,这是一个不错的开始。然后,它会利用当前正在路上的所有其他Waze用户的信息,在你行驶时更新方向,并对当前和之前行程的微小差异进行分析。最终,你的通勤之路会从刚刚好到足够好——即使它并不完美!

相似地,alphafold创造了数百个“司机“这试试不同的捷径和路径,以找到具有已知结构的特定蛋白质的三级结构。这些“驱动程序”是程序的不同运行,而是从初始预测中的小随机差异开始。由于这些程序实例计算了预测的三级结构,因此它们都在尝试找到解决方案时共享他们的信息。但是,所有驱动因素都可能错过可能的捷径 - 也许是不是在地图上的道路!对于蛋白质结构,这些“捷径”可以是偏离且未在任何已知的蛋白质中发现的二级结构基序。从alphafold中得到的第三级结构被评定为已知的三级结构。然后alphafold重复具有已知结构的每种氨基酸序列的该方法。随着每一种新的蛋白质结构,程序列车,“司机”的平均途径能力越来越好。

拥有完全训练的alphafold,Deepmind的科学家进入了它结构预测的关键评估- 结构生物学家之间的全球竞争预测尚未公开释放的蛋白质的三级结构。alphafold能够预测来自序列的新蛋白质结构,误差率为每100个氨基酸对一个略微错位的氨基酸平均。此错误率是竞争中最低的速率。使用蛋白质结构设计新药物时,科学家必须考虑人们之间存在氨基酸序列存在差异。这样,具有一个错位氨基酸的alphafold是在看时预期的误差内不同人体内相同蛋白质的差异。这意味着alphafold是蛋白质折叠问题的伟大工作解决方案!

这是解决新老问题的好工具

alphafold至少需要三天才能找到蛋白质结构 - 这可能比以前的方法更快,比以前的方法光X射线晶体学或Cryo-Em允许。这项技术将有助于科学家发现历史上难以与之合作的蛋白质的新特性。许多细胞用于与其环境进行通信和交互的许多蛋白质具有很难确定的结构。已知这些蛋白质对病毒很重要比如导致COVID-19的病毒, 但也适用于许多癌症感觉疾病。alphafold结构可以帮助科学家设计新的药物以靶向这些蛋白质。此外,我们可以使用alphafold等工具来帮助我们设计我们可以使用的新蛋白质更好的递送药物,制作新的材料,制作更好的疫苗。


Sebastian Rowe是第二年的博士。哈佛大学化学生物学计划中的学生。你可以在推特上找到他@Ruralphd.

Jovana Andrejevic是哈佛大学工程与应用科学学院的一名五年级应用物理博士生。

想要查询更多的信息:

  • 深入的新闻稿从谷歌的深度alphafold。
  • 美丽的文章捕捉到了DeepMind的AlphaGo打败世界最佳围棋手李世石的瞬间。

发表评论

您的电子邮件地址将不会被公布。必填字段被标记*