AI对于生物学，早就不只是AlphaFold了……

作者：biokiwi发布时间：2023-04-22

“21世纪是生命科学的世纪”，不知道曾经是谁提出了这个概念。

从这几年的势头看起来，21世纪，应该也是人工智能（AI）的世纪。前脚是2016年会下围棋的AlphaGO，后脚是2021年震惊结构生物学的AlphaFold2，再到如今可能影响数十亿人工作和生活的ChatGPT。

AI，已经开始创造各种新的历史了。

这几年最火的几个AI（左图为AlphaGO纪录片海报，右上图为AlphaFold预测完全部序列蛋白质结构的数据库，右下图是OpenAI官网对ChatGPT的介绍）

而这其中，对生命科学震撼最大的要属当然是前两年的AlphaFold2：超高准确度的蛋白质结构预测能力，几乎完全改写了结构生物学的研究方式，也让相关的生物学研究更加便利。

但是，你要是以为生命科学里的AI只有AlphaFold，那你就大错特错了。

从预测到创造，AI要颠覆蛋白质世界！

不过要展开聊生命科学里的AI，蛋白质结构预测还是绕不过去的话题。

自从2021年DeepMind公司推出了AlphaFold2，和华盛顿大学开发出的RoseTTAFold这两项充满代表性的蛋白质预测工具之后，这个领域就变得一发不可收拾了。

首先是持续发力的AlphaFold2。

正式发布后只过了半年多，2022年7月，DeepMind公司的CEO，杰米斯·哈萨比斯 (Demis Hassabis)就在新闻发布会宣布：我们已经掌握了“整个蛋白质世界”（The entire protein universe）——AlphaFold马不停蹄地运转，成功完成了现有蛋白质数据库中全部2.14亿种蛋白质的结构预测。

DeepMind公司CEO，杰米斯·哈萨比斯 (Demis Hassabis) | 图源：Jung Yeon-Je/AFP/Getty

2.14亿种蛋白质中，有35%被评估为高度准确，虽然这个数字看起来不高，但是按照目前实验检测的水平，全部做完也就差不多这个水平——更何况，截至目前实验检测花了几十年也只测出了14万种。

这些蛋白质结构，也已经发布在AlphaFold和欧洲生物信息学研究所 (EMBL-EBI)建立的数据库中，供科研工作者们使用（https://alphafold.ebi.ac.uk/，前文图）。

但这也只是AI在蛋白质领域发力的开始。

我们知道，蛋白质是由DNA转录、翻译形成的，而DNA测序也远比蛋白质测序更加快速、价格更低。因此，DNA数据库的数据量远比蛋白质数据库多。这多出来的，很关键的一部分，叫做宏基因组（Metagenome）。

在过去几年，科学家们从野外等特殊环境，比如土壤、海洋、肠道等等，直接通过测序得到了成千上万种未知，且无法培养的微生物DNA信息，也就是所谓的宏基因组。

仅在DeepMind公司宣布完成了“整个蛋白质世界”三个月后，2022年10月，Meta公司（原名Facebook）就拓宽了这个“蛋白质世界”的边界（‘dark matter’ of the protein universe）——他们利用自己开发的大型语言模型算法ESMFold，预测了6.17亿种来自宏基因组信息的微生物蛋白质结构。

ESMFold算法的准确度虽然略逊于AlphaFold，但它的优势在于能以60倍于AlphaFold的速度去预测短序列蛋白质的结构，这就使得它在预测结构相对简单的微生物蛋白质上有了很大的优势。

6.17亿种蛋白质结构的全览 | 图源：ESM Metagenomic Atlas

这让人不禁好奇，差不多全预测完之后，AI下一步会在蛋白质结构上做些什么？没过几天，AI又开始颠覆生物学家的认知了——创造蛋白质。

这其实是一个和蛋白质结构预测刚好相反的问题：蛋白质结构预测是从序列到结构，而创造蛋白质是要求从我们希望得到的结构，反推出合适的蛋白质序列。过去这是个计算量巨大的工作，现在AI也能完成了。

相比于大批量预测蛋白质结构，创造蛋白质的目的就更加明确——我们希望能创造出自然界不存在，但是对人类非常有用的蛋白质。

实际上，目前大部分尝试设计都很精彩，但是实验验证阶段就不那么顺利了——AI设计出来的蛋白质结构，往往不能像预期的那样被正确表达、合成出来。

不过设计蛋白质的尝试还在不断进步和迭代，可能在不远的将来就能够出现在我们的日常生活里。例如最新的研究中，利用ProteinMPNN和RoseTTAFold方法设计出来的蛋白质，不仅在自然界完全不存在，并且大大提高了这些蛋白质结构的稳定性，预计在未来会被用作疾病治疗的抗原抗体，或者生物化学反应所需的生物酶。

蛋白质设计的过程，通过不断改变序列让蛋白质结构趋于稳定（结构的稳定基于AlphaFold预测，越红代表越不稳定，越蓝代表越稳定） | 图源：Nature

AI会取代我们的大脑吗？

在生命科学研究中，还有一个难以攻克的问题：如何解读意识？我们的大脑有数十亿个神经元，它们组成的网络连接错综复杂，现有的神经科学研究虽然成果累累，但是仍然不知道人类是怎么思考的。

那，AI可以做到吗？

也许马上就可以了。

功能核磁共振技术（fMRI）可以检测到当我们在做某件事情时大脑血流的变化，来寻找被激活的大脑区域，在过去十几年也被用于研究大脑各个脑区的具体功能。

这是fMRI的图像，通过和静息状态的对比，研究者可以找到被激活的脑区（红色标记） | 图源网络

随着AI的发展，研究者近几年开始了“逆向”推导：既然我们可以检测到大脑的激活状态，那么，是不是就可以通过激活状态，来反向推出人在想什么呢？比如，可以复原出人类看到的东西？

于是研究者首先给志愿者看了成千上万张不同的图片，并测量、记录他们脑区的激活状态，作为AI的训练集。之后再利用训练出来的模型，来检测AI推测人看到的、或者想象的图片的能力。

实验设计的流程，上图为利用大量图片构建训练集，构建深度神经网络模型；下图则是基于模型，解析大脑信号产生的意识图像 | 图源：Koide-Majima N, 2023.

结果其实不算特别理想。因为fMRI数据比较少，无法构建足够大的训练集，虽然AI能形成一定的轮廓，但是也仅限于给出大概的形状。

但是，如果给AI一点小小的文字提示辅助，它就能快速形成和真实图像高度相似的结果！

第一列是志愿者看到的图片，第二列（z）是单纯基于大脑活动检测AI生成的图片，第三列（c）是单纯基于文字信息AI做的图片，第四列则是基于二三列的信息共同生成的结果，已经依稀可以分辨出原来图片的样子 | 图源：Takagi Y, 2023.

第一行为真实照片，第二行则为AI基于大脑活动和文字提示形成的图像 | 图源：Takagi Y, 2023.

当然，这些研究的目的不是为了让AI理解人类，而是希望通过AI分析的过程，更好地理解大脑运作的方式——比如研究者们计划利用这套模型，在未来检测动物的大脑活动，来看看动物们眼中的世界会是什么样子的。

除此以外，研究者还尝试让志愿者想象一个画面，再让AI基于大脑活动来生成图像。虽然得到的图像更加抽象了，但是研究者认为这对于未来的心理学研究有很重要的意义。

三组图像基于想象的脑活动预测的结果，第一行为2019年的研究，第二行为2023年的研究，可以看到算法的提升 | 图源：Koide-Majima N, 2023.

AI早已深入生物医学的方方面面

当我们走向更广阔的生物医学领域，你会发现，AI早就是个“老玩家”了。

比如在基因组学研究中，虽然科学家已经产生了海量的数据，包括基因组、转录组、表观组等等，但这些分子层面的变化如何一步步影响到生物最终的表型？在过去，这个问题往往需要大量的实验验证。

而现如今，利用神经网络的方法，研究者们已经开始尝试基于DNA或RNA序列，预测其背后可能发生的各种各样复杂的调控过程，甚至到表型最终形成的状态。

基因调控是个复杂的问题，而研究者正在针对不同的调控过程利用AI进行预测，图中是转录因子调控基因表达的过程 | 图源：Novakovsky G, 2023.

另外，随着人口的高度聚集，传染病会以更高的频率爆发，就好像最近三年肆虐全球的新冠病毒。

研究者正在考虑将AI引入到传染病的监测过程当中——基于早期个别病例的检测和发病情况，就可以快速预测、探知传染病出现的可能性与位置，进而“扼杀”这些有害的细菌、病毒、真菌、寄生虫等传染病疫情暴发的苗头。

AI在未来的传染病检测中可能有着核心且重要的地位 | 图源：Agrebi S, 2020.

再者，近几十年生物学研究与数据呈现出指数型增长的状态——越来越多的生物学研究与知识不断产出，但是很多研究者却难以及时消化。而像ChatGPT这样的语言模型，就能有效地挖掘这些海量生物学研究结果，甚至可以基于现有的各种结果提炼出新的结论（这其实是很多荟萃分析正在做的事情）。

事实上，以上提到的这些只不过是生物学研究中AI应用的冰山一角。

在《生命3.0》一书中，物理学家马克斯·泰格马克提出了一个很有意思的比喻：假设人类的各种能力分布在一副地形图里，“算术”，“死记硬背”的能力在洼地里，而“下棋”在山麓上，“科学”和“艺术”在山顶，而人工智能就好像不断漫上来的水面，会先把简单的能力填充，并一步步努力向上。

那么现在，人工智能的浪潮已经漫过山麓，正在冲击山顶了。

正如我们文章里展示的各个例子，站在山顶之一的生命科学，其实正在不断被AI“挑战”着。但目前来看，AI对于生命科学更多的不是取代，而是互相配合。

比如在AI最热门的结构生物学领域，虽然AlphaFold和ESMFold已经预测完了世界上几乎全部已知的蛋白质结构，但是只有大约三分之一是高度准确的。而那些不准确的其实就是结构生物学家们正在努力攻克的难题。

利用低温冷冻电子显微镜和AlphaFold相互配合，预测出复杂的核孔蛋白结构 | 图源：Fontana P, 2022.

综合来看，至少在未来10-20年内，生命科学与AI更多的不是“挑战者”与“被挑战者”的关系，而是一种互相“合作”的配合关系——AI会是一项有效的工具，服务于科学研究与疾病治疗。

你说更远的未来？那可能是谁都不知道的世界了。

参考资料：

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein[J]. Nature, 2022, 608(7921): 15-16.
Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model[J]. Science, 2023, 379(6637): 1123-1130.
Callaway E. Scientists are using AI to dream up revolutionary new proteins[J]. Nature, 2022.
Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design[J]. Computational and Structural Biotechnology Journal, 2022.
Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies[J]. Science, 2022, 378(6615): 56-61.
Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning[J]. Science, 2022, 377(6604): 387-394.
Koide-Majima N, Nishimoto S, Majima K. Mental image reconstruction from human brain activity[J]. bioRxiv, 2023: 2023.01. 22.525062.
Takagi Y, Nishimoto S. High-resolution image reconstruction with latent diffusion models from human brain activity[J]. bioRxiv, 2022: 2022.11. 18.517004.
Novakovsky G, Dexter N, Libbrecht M W, et al. Obtaining genetics insights from deep learning via explainable artificial intelligence[J]. Nature Reviews Genetics, 2023, 24(2): 125-137.
Agrebi S, Larbi A. Use of artificial intelligence in infectious diseases[M]//Artificial intelligence in precision health. Academic Press, 2020: 415-438.
Fontana P, Dong Y, Pi X, et al. Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold[J]. Science, 2022, 376(6598): eabm9326.

AI对于生物学，早就不只是AlphaFold了……

从预测到创造，AI要颠覆蛋白质世界！

AI会取代我们的大脑吗？

AI早已深入生物医学的方方面面

推荐体验

相关资讯

AI开始叠buff？ChatGPT、Alphafold2和云实验室联手破局生物学

AIGC的思考——不只是技术

不只是炒菜，AI正在全面渗透餐饮

有了AI大模型的加持，智能音箱将不只是「音箱」

不只是聊天！ChatGPT又有新功能

近期资讯

生鲜乳价格的“寒冬”仍未去，伊利股份30多年的“神话”会破灭吗？

刚刚，融了17轮的深圳明星公司IPO了

最适合初冬独自出行的城市，不是尔滨

74亿港元，今年最后一个智驾IPO来了

飞行汽车Lilium停止运营，全体裁员：曾估值33亿美元，或迎来白衣骑士

豆包定价一元的野心：字节跳动打响AI突围战

山姆：速度与问题并存

“怕无聊、怕生病、怕没钱”，如何从老年人的担忧中发掘商机？

投资8年的独角兽上市了，这家深圳VC等到了

AI医疗，又诞生一家百亿独角兽

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响