当前位置:首页|资讯

给文科生讲清楚,所有2024诺贝尔自然科学奖

作者:博雅小学堂发布时间:2024-10-11

博雅小学堂

给孩子受益终生的人文底色

文丨吴京平

博雅《给孩子的科技周刊》主讲人

知名科普作家

这两天,诺贝尔生理学或医学奖、物理学奖、化学奖纷纷出炉。

都是最聪明的大脑,最前沿的研究。而且大家看得出来,今年最大的赢家是AI,被人称为“AI诺奖元年”。可是文科生如何理解这些最烧脑的前沿科学呢?

推荐《给孩子的科技周刊》主讲人吴京平老师的解读。文章略长,但最核心的原理讲解得很形象,欢迎码住,收藏阅读。

01

诺贝尔生理学或医学奖他们让我们重新认识基因调控

首先介绍诺贝尔生理学或医学奖,这一次颁发给了microRNA,也叫做微小RNA。可能有小伙伴听说过mRNA,千万别搞混了。mRNA全称叫信使RNA,这两个不是一码事,但是关系紧密。

这一次获奖的是维克多·安布罗斯和加里·鲁夫昆,以表彰他们“发现microRNA及其在转录后 基因调控中的作用”。这是啥意思呢?别急,听我慢慢说。

我们都知道,每个细胞核里的染色体里面都有长长的DNA链条,这些DNA就像互相咬合的拉链一样,是个双链结构。这根长长的链条包含了人体所有的遗传基因,是最重要的遗传物质。我们人体长成什么样子,拥有什么样的器官,每个器官有什么功能,全部都是由基因决定的。DNA双链就是生物体的建造图纸。

那么,生物体是如何被建造出来的呢?其实就是根据DNA里面的基因来制造蛋白质。蛋白质的种类异常丰富,可以实现各种各样的功能,我们的肌肉就是由蛋白质构成的,血液里面也有血红蛋白。各种用来催化的酶,也是特殊的蛋白质。这些蛋白质就是组成我们人体最重要的一种零部件。

生物体是如何根据基因来制造蛋白质呢?首先需要一个解开DNA拉链的拉链头,这东西叫做RNA聚合酶,这东西抱住DNA双链,在自己的肚子里面拉开拉链,让互相咬合的两条DNA链条局部张开,拉链的牙齿就互相分开了。然后聚合酶就开始根据张开的这几个牙齿,一对一的复制一个新链条,拉链头一边拉动,一边复制。很快就可以复制出一个小的基因片段。这个片段就叫做“信使RNA”,缩写是mRNA。

拉链头拉过以后,DNA双链恢复如初。又变成了互相咬合的双链结构。这里就没它的事儿了。新造的那个mRNA还需要进一步的处理。这个基因片段里面有一些部分是负责制造蛋白质的图纸,另外有一些片段不是,这时候有特殊的蛋白质来把用不上的片段裁掉,把用来制造蛋白质的部分接在一起,形成裁剪好的mRNA模版。

小小的细胞就是一个极其复杂的化工厂。各种各样的蛋白质都在各司其职。细胞核里有专门的蛋白质会抱住修理好的mRNA穿出细胞核,送给核糖体,核糖体利用这个mRNA模版来制造新的蛋白质。

△基因调控使得不同细胞能够从相同的基因组中获得各异的基因表达(图片来源:瑞典皇家科学院)

这个过程不是蛮顺利的嘛。但是事情不是这么简单的。细胞里还存在一些非常短小,长度只有18~25个牙齿的微小RNA片段,也就是我们所说的microRNA。它们在到处飘来飘去。这东西和mRNA相比,小得不能再小了。mRNA的链条长度怎么也得成千上万。但是吧,这个非常微小的链条片段万一和mRNA上的某一段匹配,这东西就会和mRNA片段咬在一起。

于是呢,这段mRNA就变得很诡异。一根长长的单链。一个个牙齿都是空着的,唯独中间一小段是个双链,有那么几个牙齿被咬上了。这个链条就没法用了。于是蛋白质的制造过程就会出问题。要么,这段mRNA就被当做废品溶解了。要么只制造出来的蛋白质不是想要的。反正,这就等于这个基因起不了作用。

这个作用机理是怎么被发现的呢?上个世纪80年代,安布罗斯和鲁夫昆正在研究一种长度仅仅1毫米的蛔虫,叫做秀丽隐杆线虫。尽管体积很小,秀丽隐杆线虫拥有许多特殊的细胞类型,比如神经和肌肉细胞。所以这东西就成了做实验的好材料。他们在这些线虫之中发现了两个突变的基因,一个叫lin-4,一个叫lin-14。似乎这两个突变犯冲。lin-4似乎是lin-14的负调控因子,只要有了lin-4,lin-14就不管用了,表达不出来。

后来他们发现,lin-4基因产生了一个非常非常短的RNA分子,这么短的RNA是不可能编码蛋白质的。说白了就是这个图纸太简单,按照这么简单的图纸造蛋白质肯定不对。

既然这个东西不是造蛋白质的。那么它是干啥用的呢?于是这两位科学家就开始深入研究。最后发现了我们前面所说的那一大串内容。原来这个微小的RNA片段是用来使得某些基因表达不出来的,也就是诺奖颁奖词里说的“基因调控作用”。成果是1993年发表在《细胞》杂志上的。

△图片来源:诺贝尔生理学或医学委员会。插图:Mattias Karlén

基因调控有啥用呢?

其实很好理解,我们身上每个细胞里面都有一张完整的基因图纸。我们这么大一个活生生的人,也是从一个受精卵逐渐分裂复制而来, 如果没有调控机制,每个细胞都是一样的细胞的功能就不会分化。建造一个复杂的生物体,总要有各种各样不同的细胞才行,也需要有各种各样复杂的蛋白质。建造一种特定的细胞,肯定是这张全图的一部分在发挥作用,其他部分不起作用。所以,基因的表达一定是需要某种调控机制的。你负责建造楼梯,那你就只看建造楼梯的图纸,其他部分你就不用看了呗。

人体的基因调控机制非常多样,也非常复杂。microRNA只是其中的一种。现在,科学家们已经发现了上千的microRNA基因了。microRNA对于基因的调控在多细胞生物之中是个普遍现象。正因为这是一个底层规律,所以安布罗斯和鲁夫昆的贡献非常重要,因此获得诺贝尔奖也是实至名归的。

02

诺贝尔物理学奖他们让机器拥有深度学习能力

这一次的生理学或医学奖还是中规中矩。物理学奖就显得有点离经叛道了。美国科学家约翰·霍普菲尔德和加拿大科学家杰弗里·辛顿获得了2024年的诺贝尔物理学奖。表彰他们“通过人工神经网络实现 机器学习的基础性发现和发明”。

我同时观看了好几场直播。与中科院物理所的,有科学网的。这结果完全出乎大家的预料。现场的人都是一头雾水,只能在那里尬聊。因为嘉宾全是研究物理学的,人工智能他们虽然也经常接触,但是毕竟不是业内人士。他们只好拼命在朋友圈里摇人。其实朋友圈里也是各种舆论都有,很多人都惊呼“物理学不存在了!”。

说起这事儿还真是很久很久以前了。霍普菲尔德1982年提出了一个霍普菲尔德网络算法,发表在了美国国家科学院院刊上。辛顿是在霍普菲尔德的基础上开发出了一个新算法,叫“玻尔兹曼机”。这些东西在进化速度非常快的计算机领域来讲,几乎就是“上古神兽”。开天辟地的意义很大,但是非常原始粗糙。但是不得不承认,现在的神经网路、大模型之类的东西,都是这种上古神兽的子孙后代。同样如今在业内混的风生水起的一票人工智能大佬,也都是辛顿的徒子徒孙。

你要说,他们对人工智能算法做出重要贡献。推动人类进步这都不为过。但是,这东西跟物理学有半毛钱关系?说实话,这一次有很多人的脑子转不过弯儿来。就连获奖者辛顿在接受电话采访的时候也说自己根本没想到,估计以为是骚扰电话呢。想想也是,这事儿谁能想到呢。人工智能要按照大类,怎么也算是数学的延伸吧。怎么能算是物理学呢?

你别说,还真有关系。

霍普菲尔德网络是用来保存和重现数据用的。人家霍普菲尔德在描述的时候,类比为物理学里的磁性。每个原子都像一个小陀螺一样在旋转,都像一个小磁针一样是带有磁性的。霍普菲尔德网络描述的东西,可以类比于物理系统之中自旋的能量。这东西和物理学沾边。

当然,这东西还可以用电路图来表示,画成若干个节点,每个节点是一个放大器,还有若干的电阻电容。每个节点有输入有输出,也是会互相影响的。你看,这个表述方式还是很物理的。

但是,其实这个东西真正类比的是生物学,是人的神经系统。大脑的神经网络是有神经元组成的,神经元之间可以通过突触互相发信号,当我们学习东西的时候,一些神经元之间的联系会变强,另一些会变弱。 所谓的神经网络算法,其实就是在用电子方式模拟一大堆神经元的工作方式。这种人造的神经元,你类比成放大器+电阻电容也行,你用程序编码也行,类比成磁性或者原子自旋,都无所谓。背后的模型算法都差不多。

△ 图源:诺贝尔物理学奖官网

这种神经网络的算法是非常复杂抽象的,我们就不介绍具体算法了。这么说吧,早期的神经网络算的是非常消耗资源的。这就像是盲人走迷宫。往往是连撞了好多回南墙,走了很多冤枉路,才找到那个正确的出口。我们如果采用物理学的办法,让流水自己去找出口呢?那不是快很多嘛。

为啥水一定会找到这条路呢?因为水往低处流,这叫“能量最低原理”。水总是往能量最低的状态去变化,啥叫能量最低呢?就是流进下水道嘛。同样,我也很喜欢能量最低态。站着重心偏高,坐着人的重心就降低了,当然啦,这都比不上躺着,躺着重心最低,势能最小。所以我就喜欢躺着不起来嘛。

总之,一个系统,总是喜欢跌落到能量最低状态,一直到跌无可跌为止。山崖总是会塌方,雪山总是会雪崩。一箱子杂物,你晃一晃,这些杂物总会排列的更加紧凑,空隙更少。这些现象都是能量最低原理的体现。

霍普菲尔德网络,你可以理解为高低起伏的山包。这些高低起伏都是神经网络的参数决定的。所谓的训练神经网络,就是放进一大堆小球,你不用操心,这些小球会自己去寻找能量最低的点,最后一定会掉进一个个坑里不出来了。

当然啦,这个模型并不一定只有一个能量最低态。也就是说不止一个坑。每个坑只是局部能量最低态,不是全局能量最低态。所以,很有可能算到一半卡住了,输出结果不正确。

霍普菲尔德网络训练可能产生的误差

这个问题是被辛顿解决的,他设计了一个玻尔兹曼机。

玻尔兹曼是统计力学方面的大佬。比如气体分子这样一大群微小粒子,就只能用统计方式进行描述。在重力作用下,一大群气体分子会呈现出什么状态呢?气体分子可不像小球那样会老老实实蹲在坑里不动。它们时时刻刻都在做无规则的热运动哦。我们得加一个温度作为参数。温度越高,它们动得越厉害,温度越低越老实。

和前面的霍普菲尔德网络结合在一起,小球变成了气体分子。在引力作用下还是会往低处流,寻找能量最低态。但是,局部能量最低态拦不住它们,只要温度合适,它们总会从这个半山腰的坑里蹦出来。最终落到那个最低的坑里。

到现在为止,哪怕是ChatGPT这样的大模型,依然有温度的概念。你要AI激进一点,更有创意,那温度就要高一点。你要想结果四平八稳,那就温度低一点。当然啦,参数可能不叫这个名字,但是本质是一样的。

由此我们也看得出算法上的某种传承。如今的神经网络和大模型,比这两位老爷子的古早算法强了不知道多少数量级了。但是这扇大门是这二位打开的。

他俩的成果发表了以后,根本没人理他们,大家对这种神经网络算法都不感冒。辛顿能成为这个行业的祖师爷是因为只有他头铁,硬是在这个领域坐了30多年冷板凳。带出的徒子徒孙也不多。谁知道后来这个研究方向竟然这么火爆,他们的坚守是值得的。

当然啦,为人工智能算法做出贡献的人还有很多。但是这已经不是诺贝尔物理学奖能照顾到的,你多少还要和物理沾边吧。这二位起码是沾边的,其他人就距离太远了。

03

诺贝尔化学奖他们带来了蛋白质结构预测和设计自己的蛋白质

不过呢,也不要紧,拿不到物理学奖,可以拿到化学奖嘛。这一次的诺贝尔化学奖的得主是三位,大卫·贝克获得一半的奖金,因为他的团队制造出了此前自然界不存在的蛋白质结构。

另外两位获奖者是德米·哈萨比斯和约翰·江珀。他们俩来自于大名鼎鼎的DeepMind。他们设计的人工智能程序AlphaFold能够以极快的速度预测出蛋白质的3维折叠方式。因此分享了另外一半诺贝尔化学奖,每人四分之一。

有关这个DeepMind,我们介绍了也不是一次两次了。下围棋的AlphaGo就是他们公司的产品。

1988年,12岁的哈萨比斯丨Marc Aspland

要知道蛋白质是一长串氨基酸组成的链条,这个链条在三维空间里如何折叠,其实和蛋白质的性质关系很大。要想了解到蛋白质的分子空间结构,过去只能用X射线衍射的办法。这个办法曾经在1962年就获得过诺贝尔化学奖。

后来呢,科学家们发明了冷冻电镜,可以用这个东西来研究蛋白质的结构。效果比X射线衍射要好得多。冷冻电镜在2017年也获得过诺贝尔化学奖。

但是不管怎么说,你要研究某种蛋白质的结构,只能一个个来,每种蛋白质,提取出来以后弄到冷冻电镜上看一看,拍下一大堆照片来分析三维结构。这个效率依然很低。

就这样,科学家们辛辛苦苦的干体力活,终于攒下了一大堆蛋白质的结构数据。但是这也只是人体蛋白质的一小部分。那有没有快一点的办法呢?也是有的,那就是靠猜嘛。但是计算量大得吓人。比如说一个蛋白质是由100个氨基酸组成的。那么这个蛋白质可能存在的折叠方法大约是10⁴⁷这么大,这简直是个天文数字。

那么能不能用计算机程序来解决这个问题呢?国际上还真有一个比赛叫CASP。每年科学家们都会利用其他方法获得一些新的蛋白质结构,先不公布答案,让各家程序员们用自己写的程序去预测一下这些蛋白的结构,看谁猜得准。

CASP连续办了十几届,各家程序员接连翻车,根本测不准,准确率只有40%。但是一位大神的出场掀起了一场革命。这位就是DeepMind的老板哈萨比斯。2018年他报名参加了第13届预测蛋白质结构的比赛。

2018年是个什么年代啊。2016年,AlphaGo以4:1击败了李世石,从此人类几乎就没赢过计算机。2017年,柯洁在AlphaGo面前是眼泪汪汪的,他是一盘都没赢。

下棋毕竟只是娱乐,不是生产力。到了2018年,DeepMind把目标对准了科学界的难题蛋白质折叠。利用人工智能算法,利用以前科学家们辛辛苦苦获得的已有数据进行训练。他们推出的程序AlphaFold一出手就达到了60%的正确率,但这还远远不够。及格线是90%,这距离实用还差得远呢。

这时候,江珀作为新员工加入了DeepMind,他一来就立刻带来了改观。他们利用最新的神经网络算法改进了AlphaFold,推出了2.0版本。这个版本表现出的能力不亚于X射线晶体学,而且速度很快。困扰了生物学界和化学结50年的难题,由此迎刃而解。

这次获奖的另一位科学家贝克设计的Rosetta的程序也曾经参加过1998年的CASP,他出道比DeepMind的这二位要早得多。他后来走向了一条相反的道路,他关注的不是预测现有蛋白质的结构,而是人工设计和制造世间不存在的新蛋白质结构。他写的那个Rosetta程序可以帮助他设计蛋白质。

2003年,贝克发表了他的成果,他真的制造出了一个叫做Top-7的蛋白质,这东西具有93个氨基酸,通过X射线晶体学的分析,这个蛋白的结构和他们的原始设计完全相符。

如今,AlphaFold2已经创建了2亿个蛋白质结构数据,而且还创建了一个开放的数据库,供大家查询。贝克在2020年也利用最新的神经网络算法增强了他的Rosetta程序。最近几年,他在实验室里创造出了一个又一个令人难以置信的蛋白质。

没有蛋白质,生命就无法存在,我们现在可以预测蛋白质结构并自己设计蛋白质,所以这三位的贡献有多重要也已经不言而喻了。他们获得诺贝尔化学奖可以说是实至名归。

04

最大赢家是AI

好了,到此为止,我们已经介绍完了2024年诺贝尔奖的自然科学奖项。大家也看得出来, 这一次最大的赢家其实是AI

我们或许可以说,物理学奖有点蹭热度的嫌疑。但是,这也是没办法的事情。当年诺贝尔老爷子要是设立个数学奖,也就不至于这么麻烦了。可惜没有啊。面对新技术新手段,你总得找个理由把它塞进去。

我们仔细研究诺贝尔奖的历史,会发现,诺贝尔奖之所以有这么大的名气,这么高的地位,跟物理学的革命是分不开的。诺贝尔本人其实是个工程师,他本来是为了奖励每年产生的新技术新发现。但是因为正好赶上量子力学和相对论革命,这个奖项也就果断的调头蹭热度。和20世纪早期的那些物理学大师开始了一段相互成就的历史。大师们因为获得诺奖而光荣。诺奖也因为颁发给大师而凸显了地位。

到现在,诺奖基本上变成了一个终身成就奖。获奖者多半已经七老八十了。这和当年诺贝尔的初衷已经相去甚远,要想长盛不衰,就得与时俱进。不改变是不行的。

现在, 科学的发展又一次进入到了新时代。人工智能的出现必定会带来新的研究工具和范式。诺奖也必须主动去追逐这个新的潮流,没办法,这是大势所趋。我想这一次就是诺贝尔奖的一次试水吧。

加入《给孩子的新闻周刊》

国内+国际+商业+科技

培养孩子的大视野、大情怀

让孩子学会思辨

这件事越早开始越好


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1