2024年又一个诺贝尔奖给了AI!这次是化学奖!
一半归华盛顿大学的戴维·贝克(David Baker),“因其在蛋白质计算设计方面的贡献”;另一半归谷歌DeepMind的戴米斯·哈萨比斯(Demis Hassabis)和约翰·M·江珀(John M.Jumper),“因其在蛋白质结构预测方面的贡献”。
你相信昨天获奖的辛顿是物理学家,而今天获奖的哈萨比斯是化学家吗?
确切地说,这次是关于蛋白质——生命中精巧的化学工具。贝克完成了一项几乎不可能的壮举:构建全新种类的蛋白质。哈萨比斯和江珀开发出了人工智能模型,解决了一个长达50年的难题:预测蛋白质的复杂结构。这些发现具有巨大潜力,应用前景无限广阔。
生命的多样性证明了蛋白质作为化学工具的惊人能力。它们控制和驱动着构成生命基础的所有化学反应。蛋白质还可以作为激素、信号物质、抗体以及不同组织的构建块。
“今年获得认可的发现之一涉及构建令人惊叹的蛋白质。另一个则是实现了一个50年的梦想:从氨基酸序列预测蛋白质结构。这两项发现都开启了广阔的可能性。”诺贝尔化学奖评委会主席海纳·林克说。
蛋白质通常由20种不同的氨基酸组成,这些氨基酸可以被描述为生命的“乐高积木”。2003年,贝克成功利用这些构建块设计出了一种与其他蛋白质完全不同的新蛋白质。从那时起,他的研究团队不断创造出富有想象力的蛋白质,包括可用作药物、疫苗、纳米材料和微型传感器的蛋白质。
第二项发现涉及蛋白质结构的预测。在蛋白质中,氨基酸以长链的形式连接在一起,并折叠形成三维结构,这种结构对蛋白质的功能起着决定性作用。自20世纪70年代以来,研究人员一直试图从氨基酸序列预测蛋白质结构,但这项工作出了名的困难。然而,四年前出现了一个惊人的突破。
2020年,哈萨比斯和江珀推出了一个名为AlphaFold2的人工智能模型。借助该模型,他们能够预测研究人员已确定的近2亿种蛋白质的结构。自突破以来,来自190个国家的超过200万人使用了AlphaFold2。在众多科学应用中,研究人员现在可以更好地理解抗生素耐药性,并创建可以分解塑料的酶的图像。
没有蛋白质,生命就无法存在。现在我们能够预测蛋白质结构并设计自己的蛋白质,这为人类带来了最大的福祉。
继昨天诺贝尔物理奖颁发给为AI基础理论做出贡献的霍普菲尔德和辛顿之后,化学奖颁发给用AI设计和预测蛋白质结构的三位非典型的“化学家”。有人说物理学不存在了,也有人说化学在蹭AI的热点。这些都不对。它说明的是AI正在给科学发现带来的深刻变革:物理奖是Science for AI,而化学奖则是AI for Science,它们将引领科学前沿。
下面,我们详细介绍下这次诺贝尔化学奖的奥秘:
蛋白质可以由几十种氨基酸到几千种氨基酸组成
这是一张教育性很强的示意图,清晰地展示了从基本构建块(氨基酸)到最终产物(蛋白质)的概念。
左侧是一个环形排列,显示了20种基本氨基酸(Amino Acids)的名称:
包括甘氨酸(Glycine);
谷氨酸(Glutamic acid);
谷氨酰胺(Glutamine);
半胱氨酸(Cysteine);
天冬氨酸(Aspartic acid);
等等......
右侧展示了从氨基酸到蛋白质的形成过程:
氨基酸首先以“串珠子”的方式连接成一条链(STRING OF AMINO ACIDS);
这条氨基酸链最终会折叠成特定的三维结构,形成功能性蛋白质(PROTEIN);
这张图很好地诠释了2024年诺贝尔化学奖的两个核心发现:
如何利用这20种氨基酸设计新的蛋白质(David Baker的工作);
如何预测氨基酸链最终会折叠成什么样的三维结构(Hassabis和Jumper的AlphaFold2的工作)。
AlphaFold2如何工作?
这张图很好地展示了AlphaFold2如何将生物学知识、进化信息和深度学习技术结合起来,解决了困扰科学界50年的蛋白质结构预测问题。
首先,作为AlphaFold2开发的一部分,这个AI模型已经在所有已知的氨基酸序列和已确定的蛋白质结构上进行了训练。
工作流程分为四个主要步骤:
1. 数据录入和数据库搜索
将一个结构未知的氨基酸序列输入AlphaFold2。
系统会搜索数据库中类似的氨基酸序列和蛋白质结构。
2. 序列分析
AI模型会对比所有相似的氨基酸序列(通常来自不同物种)。
研究在进化过程中哪些部分被保留下来。
AlphaFold2探索氨基酸在三维蛋白质结构中如何相互作用:
带电荷的氨基酸会相互吸引;
疏水性氨基酸会聚集在一起。
生成一个距离图,估计氨基酸之间在结构中的距离。
3. AI分析
使用迭代过程,AlphaFold2不断完善序列分析和距离图。
AI模型使用称为转换器(transformers)的神经网络。
这些网络能够识别重要元素并利用第一步获得的其他蛋白质数据。
4. 假设结构生成
AlphaFold2将所有氨基酸拼接成一个整体。
通过三个循环周期测试不同的路径。
最终得出一个特定结构。
AI模型计算这个结构不同部分与实际情况相符的概率。
图中还展示了一些重要的可视化内容:
序列分析中的共同进化模式。
距离图显示氨基酸之间的空间关系。
神经网络的示意图。
多个循环周期如何逐步完善最终结构。
第一种人类设计的蛋白质结构
这个结构的独特性和历史意义在于:
1. 全新设计
这是第一个完全从头设计(de novo design)的蛋白质结构。
不是基于任何现有自然蛋白质的修改或模仿。
David Baker团队在2003年设计了这个结构,开创了人工蛋白质设计的新纪元。
2. 结构特点
它包含了新颖的α螺旋和β折叠的组合方式,这种排列在自然界中从未被发现过。
虽然使用了常见的二级结构元素(α螺旋和β折叠),但它们的三维空间排布是全新的。
3. 突破意义
证明了我们可以设计出自然界中不存在的蛋白质结构。
表明蛋白质设计不必局限于模仿自然蛋白质。
开启了人工蛋白质设计的无限可能性。
4. 方法学意义
验证了计算机辅助蛋白质设计的可行性。
为后续更复杂的蛋白质设计奠定了基础。
建立了从理论设计到实际合成的完整工作流程。
这个成就相当于在蛋白质设计领域创造了第一个“人造元素”,就像门捷列夫周期表中的人工合成元素一样,展示了人类不仅能够理解自然,还能创造自然界中不存在的新事物。
使用贝克的Rosetta程序开发的蛋白质
这张图展示了David Baker团队在设计人工蛋白质方面的一些重要成果时间线:
2016年:新型纳米材料
展示了一个可以自发连接多达120个蛋白质的复杂结构。
图中显示为一个大型球状结构,由紫色和浅绿色的蛋白质单元组成。
2017年:芬太尼检测蛋白质
设计出能够结合芬太尼(一种阿片类药物)的蛋白质。
图中绿色为蛋白质主体,紫色部分为结合芬太尼的区域。
这种蛋白质可用于环境中的芬太尼检测。
2021年:流感疫苗纳米颗粒
黄色核心部分是纳米颗粒。
绿色外层是模仿流感病毒表面的蛋白质。
在动物模型中已经证明可以作为流感疫苗使用。
2022年:分子马达蛋白质
设计出可以作为分子马达运转的蛋白质。
图中显示为绿色的复杂结构。
2024年:几何形状蛋白质
设计出具有特定几何形状的蛋白质。
这些蛋白质可以根据外部影响改变形状。
可用于制造微型传感器。
这张图很好地展示了人工设计蛋白质领域的快速发展,从相对简单的结构设计,到具有特定功能的蛋白质(如疫苗、传感器等),再到可以动态响应外界刺激的智能蛋白质。这些进展体现了David Baker在计算蛋白质设计领域的突出贡献。
使用AlphaFold2预测的蛋白质结构
这张图展示了使用AlphaFold2预测的三个重要蛋白质结构:
2022年:核孔复合体部分结构
图中显示为绿色环状结构。
这是人体细胞中的一个巨大分子结构的一部分。
超过一千个蛋白质共同组成了一个穿过细胞核膜的孔道。
这个核孔对细胞核和细胞质之间的物质交换至关重要。
2022年:分解塑料的天然酶
图中显示为绿色的单个蛋白质结构。
这种天然酶能够分解塑料。
研究这种酶的结构目的是设计出可用于塑料回收的人工蛋白质。
这对解决全球塑料污染问题具有重要意义。
2023年:引起抗生素耐药性的细菌酶
图中显示为一个复杂的多彩结构,包含多个不同颜色的蛋白质亚基。
这是一种会导致细菌产生抗生素耐药性的酶。
了解这种酶的结构对于寻找预防抗生素耐药性的方法非常重要。
这对解决全球公共卫生面临的抗生素耐药性威胁具有重要意义。
这张图很好地展示了AlphaFold2在预测复杂蛋白质结构方面的能力,以及这些结构预测对解决重要科学和社会问题的价值。从细胞基本生物学过程(核孔复合体),到环境问题(塑料降解),再到医学挑战(抗生素耐药性),都显示了蛋白质结构预测的广泛应用前景。