蛋白质结构预测|除了下围棋,AI还能预测“难缠”的蛋白质结构,它是怎么做到的?( 二 )


整个蛋白质折叠的过程看似随机,却又仿佛遵循着一张设计蓝图,一旦组成蛋白质的氨基酸序列确定下来,它的折叠方式也就完全确定了 。这实际上很符合直觉,我们可以想象,如果同样的氨基酸序列可以折叠成不同结构的蛋白质,发挥不同的功能,我们的身体内部会陷入怎样的混乱状态 。
自然界经过漫长的生命进化过程,蛋白质分子在眨眼之间就能够自发地完成整个折叠过程 。但科学家们发现,如果想要通过计算氨基酸分子间的相互作用来预测它们如何折叠,那么要穷尽所有可能的蛋白质构型,需要的时间将比整个宇宙年龄还要长 。
这个问题困扰了科学家们很长时间 。但是在人工智能进入这个领域后,预测蛋白质折叠的准确性很快获得提升 。
3 AI出手精确预测蛋白质结构
人工智能(AI)的一种实现手段是时下流行的机器学习 。2016年打败人类围棋冠军的AlphaGo和此次预测蛋白质结构的AlphaFold,利用的都是机器学习算法 。它的大致思路是,先将大量已有的数据——包括结果(比如围棋棋谱、猫狗图片等)输入计算机,然后计算机对这些数据进行分析,利用它惊人的计算能力从这些数据中寻找特征或规律 。这样,对于以后输入的新数据,它就能作出“富有经验”的高明反应了 。
更为先进的人工智能算法甚至允许只输入很少量的学习样本,就能掌握相关技能 。比如AlphaGo的升级版本根本不需要输入棋谱,只要知道围棋的规则,就能根据算法对规则进行自我摸索和训练,通过自己跟自己对弈,最终获得超越人类顶级围棋高手的能力 。
AlphaFold解决蛋白质折叠问题的过程与AlphaGo学习下围棋的过程类似,只不过输入的是大量蛋白质的序列和结构数据——这些数据来自实验室中实际测得的数据 。Alpha-Fold从中找寻氨基酸分子之间的相互作用、蛋白质片段之间的演化关系,从而获得了预测蛋白质结构的强大能力 。最终,只要知道蛋白质的氨基酸序列,就能迅速而准确地预测出它的结构,相当于通过精妙的算法,将蛋白质的一级结构和三级结构准确地联系了起来 。
在2018年的蛋白质结构预测竞赛中,AlphaFold在所有参赛团队中排名第一,准确地从43种蛋白质中预测出了24种蛋白质的结构,取得了前所未有的进步 。
到了2020年,AlphaFold的升级版本从生物学、物理学和机器学习领域的最新进展中汲取灵感,升级算法,再次以压倒性的优异成绩夺冠 。这一次,AlphaFold预测的多种蛋白质结构与实验结果仅仅存在原子尺度的细微差异,达到了与传统的试验方法相媲美的程度,可以说AlphaFold基本解决了蛋白质折叠问题 。
4 AI会让生物学家失业吗
AlphaFold取得里程碑性质的进展,让人类有望在诸多领域得到来自AI的切实助力 。例如在医药领域,阿尔茨海默症、帕金森综合征、亨廷顿综合征等神经系统病变都与蛋白质的错误折叠有关,这直接导致蛋白质结构和功能出现异常 。而AI的介入将让人类更有效地了解这些错误折叠背后的机理,从而提出更加有效的治疗方案 。又如新冠病毒,大约由30种蛋白质组成,在2020年蛋白质结构预测竞赛中,AlphaFold精确预测了其中一种蛋白质(ORF8)的结构 。
工业领域同样会受到这一成就的积极影响 。以酶化工为例,多种蛋白酶已经作为反应催化剂获得了广泛应用 。其中很多种都是人类近年才发现的新型蛋白质,它们个个身怀绝技,有些能够分解原油、有些能够降解塑料 。对于这些蛋白质的结构和催化机理,我们目前都只有非常初步的认识,AI无疑将大大加速相关研究的进展 。
有趣的是,在听闻AlphaFold解决了蛋白质折叠问题的消息后,很多人调侃说,结构生物学家以后要失业了 。不过事实上,AlphaFold只是为结构生物学家们提供了获得蛋白质结构的一种手段,正如传统的核磁共振、X射线衍射和冷冻电镜方法一样 。这些特定结构在生命体中如何发挥功能,才是更需要结构生物学家们回答的问题 。

推荐阅读