当前位置:首页|资讯|AI大模型|人工智能

百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

作者:搜狐科技发布时间:2023-05-18

原标题:百图生科高亮:AI大模型或改写生命科学领域的研发技术能力

搜狐科技讯

5月17日,由搜狐主办的2023搜狐科技峰会在北京盛大开幕。今年,搜狐科技峰会走入第五个年头,峰会规格和内容再次迎来重磅升级。本届峰会齐聚多位院士、科学家、学者和头部企业嘉宾,共同探讨前沿科学与科技变革发展。

峰会下午,百图生科生物计算创新发展平台总经理高亮做了题为《AI Generated Protein:设计全新蛋白 解码生命问题》的演讲。

高亮认为,人工智能大模型在生命科学领域意义重大。传统的蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。

在高亮看来,人工智能大模型或在生物计算领域掀起新的浪潮,或改写生命科学领域的研发技术能力。“大模型可以从所有进化知识中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。”

此外,高亮认为,若要做好生物计算大模型引擎,须有三大模块的支撑:一是计算大模型可以进行跨模态预训练和高性能计算;其次是大数据图谱,公开数据挖掘+独特自产数据;最后则是高通量验证,具备高速的蛋白质和细胞的读写系统。

高亮在2023搜狐科技峰会上发表演讲

以下为高亮演讲全文:

感谢搜狐科技让我有机会分享人工智能在生命科学领域的最新进展,我分享的是基于AI大模型的前沿生命科学科研平台——AIGP,如何破解生命的自然语言。

前述几位科学家已经详细分享了AI大模型怎样破解人类自然语言这一篇章。我在这里想跟大家分享的是,为什么生命科学领域也可以做这样的大模型?

自然语言的进化过程和生命进化过程有内在的相似之处。自然语言是人类对复杂物理世界进行的一种描述。以英文为例,经过几万年的进化,逐渐演化出26个英文字母,在这个基础上形成了词,词的基础上形成了句子,句子基础上形成了篇章,进而形成了现在的自然语言。

在生命进化过程当中也有这样的路径,只不过这个路径非常长,要经过上千万年的进化,最后收敛到21个氨基酸,这21个氨基酸以一定序列排列起来后,在三维空间折叠成蛋白质,蛋白质多了以后就形成了细胞,细胞形成组织,组织又形成了生命体。

二者做类比的话,氨基酸就像自然语言处理当中的字母,21个氨基酸是用21个英文字母表达的,在这个基础上,蛋白质就是词,蛋白质和蛋白质之间有非常复杂的作用,可以理解为自然语言处理当中非常典型的任务,就是上下文交互的关系。

我们认为,传统蛋白发现受限于天然存在的蛋白质,而大模型能够极大扩展搜索空间,高效设计全新功能。天然存在的蛋白质仅代表一小部分可能性,未知领域的全部潜力仍待释放。而通过AI大模型,数万亿倍的增量空间可以被探索。

AI大模型在de novo蛋白方面比传统方式效率更高。传统方式以实验观测/动物筛选为基础,再做少量修改或模型训练拟合。受限于实验平台的物种空间,仅占总蛋白设计空间的万亿分之一。

而大模型可以从所有物种中学习可能性和收敛规律,跳出局部最优,快速迭代演化,从而拥有高效的全新蛋白设计能力。

2018年 OpenAI成立,五年的时间里ChatGPT引爆了体验的革新。相信生命科学领域的大模型目前正处于临界点上,关键问题是,谁能够在这个临界点上作为弄潮儿?生命科学领域的大模型又该怎么做?

与自然语言处理稍有不同,如果若要做好生物计算大模型引擎,我们认为必须有以下三个大模块。

第一是“计算大模型”,可以进行跨模态预训练和高性能计算;第二是“大数据图谱”,公开数据挖掘,并且提供独特自产数据;而第三个则是“高通量验证”,这一部分主要进行蛋白质读写系统和细胞的读写系统。

以上三个模块在这里也想跟大家介绍一下。

首先是跨模态的大模型,这个大模型最关键的是要实现两点,第一点就是所谓的跨模态;第二点,所有的大模型都需要的高性能的计算,生命科学领域的数据非常分散,有的是细胞跟细胞之间相互结合的数据,有的是蛋白质跟蛋白质之间相互结合的数据,还有蛋白质本身功能的数据等。我们设计这样的模型,希望能够把所有的弱相关的数据全部提取统一的表征。

另外一个方面,就是数据挖掘。生命科学领域的数据非常有意思,基本上是半公开的数据。很多的研究所、科学家等等做非常多的试验,但是很多数据都分布在各个分散的领域,彼此之间相似性也很少;同时,“私有的数据”也很重要,要建自己私有的高通量实验室并做线下的验证。目前我们拥有90%半公开数据和10%私有数据,共同为大模型进行数据迭代。

第三个,蛋白质读写系统和细胞读写系统。目前,我们已经在北京和苏州建了近一万平米的高通量实验室,而高通量实验室也真正帮助了AI模型的迭代。现在,蛋白质分析与蛋白质的合成等实验体系已经非常成熟。但是,AI对于这样的实验系统要求又不同。例如,对于AI来说,正样本和负样本都是有价值的数据。

基于大模型,我们的AIGP平台已具备一系列功能,可以根据不同的输入、例如可开发性指标等,设计/优化蛋白质,从而为各类创新药物/环保和可持续发展领域,设计独特的功能/结构的蛋白构件。

第一个功能是Function to Protein,即将目标蛋白质形状、功能、可开发性指标等作为输入,AIGP平台可以自动输出氨基酸序列,生成或者优化可以满足你需要的蛋白质。

第二个功能叫Protein to Protein,即根据一系列给定Protein(抗原),设计与之以特定方式结合的Protein(抗体)。

此外,AIGP还能实现“高特异性设计”,这也是AI非常擅长的,即在短时间内尝试与各种蛋白质组合,保证蛋白质和蛋白结合有非常高的特异性。

第三个Cell-to-Protein功能,AIGP平台能根据给定细胞/细胞组合,发现调控细胞的有效蛋白靶点/组合,并继而快速设计调控蛋白的能力。

简而言之,百图生科要借AI生成创新蛋白之能力,去解决生命科学领域各种各样的问题,尤其是前沿问题。

正如ChatGPT从2018年开启、在2023年成果颇显,我们希望,生命科学领域也能够拥有这样的五年之约:到下一个五年,我们今年发布的AIGP平台能够产生像ChatGPT一样的推动力和影响力,通过先进AI技术与前沿生物技术相结合,改变生命科学研发现状。

谢谢大家。

见证过5G商用元年及其应用的爆发,探讨过AI技术发展与人文价值的平衡,搜狐科技峰会始终秉持媒体公共责任价值,宣扬求知探索的科学精神,聚焦前沿科学发展和技术创新应用。

本届峰会全新升级,重点聚焦更前沿的科学突破,展望人类更遥远的未来。从宇宙文明、天文卫星、人类永生,到核聚变、6G通信、脑机接口,再到通用人工智能时代启幕下的行业变革,以及青年科学家的价值守望和基础科学探索,都将是此次峰会关注的议题。

赓续探索精神,逐梦星辰大海。除本篇外,搜狐科技还将通过多种方式全方位呈现此次峰会嘉宾关于前沿科学与技术发展的洞见和思考。更多精彩内容请关注2023搜狐科技峰会专题报道。

【附专题链接】

PC端

WAP端

APP端

文章来源:顶端新闻

文章链接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4272858#/?categoryId=3


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1