你听说过蛋白质折叠问题吗?这个科学问题被称为现代分子生物学“皇冠上的明珠”,已存在60年以上,吸引了众多科学家投身研究。近日,2013年诺贝尔化学奖得主迈克尔·莱维特来到上海,将在上海工作7个月以上。记者有幸来到他居住的公寓式酒店,采访了这位73岁的计算生物学家。他20岁就开始研究蛋白质折叠问题,采用的主要工具不是实验室仪器,而是计算机软件。
蛋白质结构预测难倒超级计算机
迈克尔住的公寓式酒店在新天地附近,他非常喜欢那里的环境。虽然已年过七旬,但从他的穿着就可看出,这位诺奖得主的心态还很年轻——接受采访那天,穿着一双红色跑鞋。采访聊天时,他展示了很多手机软件的使用技巧,比如怎么将亚马逊上的商品图片拷贝下来,再搜索淘宝上的同款商品。不愧是计算生物学家呀,玩电子产品的能力那是“杠杠滴”。
言归正传,什么是蛋白质折叠问题呢?迈克尔和陪同记者采访的复旦大学复杂体系多尺度研究院院长马剑鹏做了科普讲解。迈克尔也在这个研究院工作,担任荣誉院长。
人体和其他生物体内的蛋白质,都由多种氨基酸折叠而成。氨基酸排成一条长链,被放入水里,会在1秒内折叠成稳定的三维结构。这就是生命进化的神奇之处!在这么短的时间内,数千个氨基酸组成的长链能自发地折叠成一个稳定结构。那么问题来了——已知一个蛋白质的氨基酸序列,能否推算出它们折叠后形成的三维结构?
理论上讲,计算机是能够推算出来的。由于氨基酸折叠成蛋白质的力学原理很明确,包括氢键、范德华力、疏水作用等相互作用,上千个氨基酸折叠后形成的三维结构,达到了力学最稳态。
不过实际上,蛋白质折叠问题的难度非常大。举个高度简化的例子,假设每个氨基酸都有2种状态——展开态和折叠态,如果一个蛋白质由100个氨基酸组成,那么它可能的三维结构数量就是2的100次方,这是个“超超超超超超级大”的天文数字,而其中只有一个结构是稳定的三维结构。
100个氨基酸其实是非常小的蛋白,人体内大多数蛋白质都由数千个氨基酸组成,所以光靠超级计算机的“暴力计算”,是无法根据氨基酸序列预测出蛋白质结构的。
“阿尔法折叠”将引发产业变革
除了计算机预测,科学家还可通过冷冻电镜、X光晶体衍射等设备,测定蛋白质的三维结构。比如在国内知名度很高的中国科学院院士施一公,就是用冷冻电镜测定蛋白质结构的实验生物学家。
实验测定蛋白质结构的难度很高,而且耗时费力,但结构生物学家乐此不疲,为什么呢?因为我们服用的药物大多是小分子化学药,它们的作用靶点大部分在蛋白质上。研发这类药物的一个重要前提,是解析蛋白质结构。只有绘制出人体内某些蛋白质的“三维地图”,才能找到药物靶点,完成“精准制导”。
长期以来,计算机预测蛋白质结构的准确率不高,明显低于实验测定的蛋白质结构,所以计算生物学方法在蛋白质折叠问题上只是配角。然而去年,科学界发生了一件大事——谷歌旗下企业——深度思维(DeepMind)研发的“阿尔法折叠2”(AlphaFold2)人工智能系统,在国际蛋白质结构预测大赛中夺冠,它预测的蛋白质三维结构与实验测定的结构只有很小差异。
深度思维就是开发出“阿尔法狗”(AlphaGo)的那家公司。“阿尔法狗”战胜李世石、柯洁可谓轰动全球,但从科学和应用价值来看,“阿尔法折叠”其实比“阿尔法狗”更值得关注。
“‘阿尔法折叠’的成功由三根柱子支撑。”迈克尔解释说,第一根柱子,是实验生物学家用冷冻电镜、X光晶体衍射等设备测定了多种蛋白质结构,给人工智能系统提供了深度学习的样本。第二根柱子,是氨基酸测序技术的成熟。第三根柱子,就是计算生物学家的科研成果,他们开发了很多用于预测蛋白质结构的算法。另外,谷歌强大的算力和研发团队,也是“阿尔法折叠2”实现科技革命的原因。
这一科技革命将引发产业变革。由于人工智能系统预测蛋白质结构的耗时远远少于实验测定,新药研发的效率有望大幅提高。人工智能系统还能助力科学家设计自然界不存在的蛋白质,催生各种新材料,用于能源、化工、环保等行业。
如今,复旦大学复杂体系多尺度研究院正在上海市政府的支持下,研究这个前沿科技领域。诺奖得主迈克尔的到来,让复旦团队拥有了“最强大脑”。马剑鹏告诉记者,他已带领团队开发出名为“作品折叠”(OPUS-Fold)的蛋白质结构预测软件。“作品折叠”未来能否赶上、甚至超越“阿尔法折叠”?让我们拭目以待吧。