当前位置:首页|资讯|ChatGPT

如何搭建生命科学的ChatGPT,传统科学将成「AI+Science」主战场

作者:ScienceAI发布时间:2023-02-14

原标题:如何搭建生命科学的ChatGPT,传统科学将成「AI+Science」主战场

2 月 10 日,《理解未来》科学讲座 AI for Science 系列 03 期在线上举行。活动由未来论坛理事、北京大学李兆基讲席教授、北京大学理学部主任谢晓亮策划组织。邀请了中国科学院院士、北京大学教授、北京大数据研究院院长、北京科学智能研究院(AI for Science Institute, Beijing)院长鄂维南,加拿大魁北克省人工智能研究中心(Mila)副教授、加拿大高等研究院(CIFAR)人工智能讲席教授唐建。几位老师分别围绕「AI for Science 科技革命」、「生命科学中的生成式人工智能」共同探索交流「AI+生命科学」的潜力及未来发展新方向。

AI for Science:一场正在发生的科技革命

人工智能正在协助突破人类固有的认知局限。以机器学习为代表的人工智能技术正在与科学研究深度融合,借助机器学习在高维空间的表示能力,人类可以更加真实细致地刻画复杂系统的机理,并有望发现新的科学规律。

2018年,鄂维南教授率先在国际上提出了 AI for Science 的概念,并大力推动了 AI for Science 在应用数学、物理、化学、历史、生物学等各个方向的发展,做出了许多的原创性突破。

直播中,鄂维南教授以《AI for Science:一场正在发生的科技革命》为题,从数学理论基础上阐释 AI for Science,并以分子动力学在材料、生物医药上等领域的应用为例,前瞻 AI for Science 的产业变革。

生命科学中的生成式人工智能:如何搭建生命科学的「ChatGPT」

当前我们正处在 AI 以及生物技术革命的交汇点。一方面,几何深度学习技术(如AlphaFold2)在分子建模方面取得了巨大突破;另一方面,以合成生物学为代表的生物技术能够对基因进行快速读、写、以及编辑,给AI创造了大量的数据。两种革命技术的深度融合为全新的药物分子生成带来了巨大的机会。

在唐建教授看来,AI 设计得到的药物分子可以进一步与实验平台进行交互,进行闭环,继续优化生成模型,这一模型未来将不仅仅惠及生物医药领域,在农业、食品、材料、能源、环境等多个领域都会产生重要的影响。

直播中,唐建教授以《生命科学中的生成式人工智能:如何搭建生命科学的「ChatGPT」》为题,介绍人工智能与生物技术的发展变革,阐释生成机器学习在小分子药物、抗体设计、蛋白设计等方面的应用与发展前景。

另外,几位老师就 ChatGPT 对科研的影响、AI 在生命科学领域的前景等相关问题交换了看法。

此处只节选部分内容,对对话进行了不改变原意的整理:

ChatGPT 对科研及发表文章的影响,是只具备互动能力的百科全书,还是能够产生原创内容?

唐建:我觉得 ChatGPT 反映了 AI 或者机器的强项,因为 AI 或者机器是相当于把所有可能的信息(包括互联网上所有可能的文本,各种知识文本代码)都进行了训练。也就是现在的 AI 模型,在所有这些数据上进行训练之后,所以得到的信息知识就很多。所以,当我们的计算能力达到一定强度后,我们就可以 develop 这样一个模型,能够从大量的信息里去学习,所以 ChatGPT 现在在很多任务上都确实有非常不错的表现。

谢晓亮:我的理解是这样的,现在 ChatGPT 已经可以做成一个可以和人对话的百科全书。越来越逼近,但是它并不能够产生原创的东西。

唐建:ChatGPT 是可以产生原创的,它不是完全只从训练数据里面去搬过来,它可以生成全新的内容。它是有创造能力的,所以它确实相当于一个超强大脑。我们用户可以提供一些 query,从大脑里去 query 我们想要的信息。一个比较实际的应用就是对话系统,我问一个问题,这个大脑可以做对应的回答,你可以与它进行对话,所以 ChatGPT 确实像百科全书一样。当然百科全书它很大,把所有可能信息都藏在了里面,而且我们用户可以很快地去从百科全书里得到我们想要的知识。

谢晓亮:你说可以有一些原创,那原创程度有多高?当然肯定会越来越高。最后,我们会不会担心它会越来越高?

唐建:ChatGPT 生成的那些文本其实是可以控制的。至少在蛋白质设计方面,我们设计的很多新的蛋白质序列,跟自然界当中确实还是挺不一样的。所以我觉得它的创新度。我们经常用 diversity 角度衡量,还是挺高的。而且你可以对模型进行一些优化调整,可以让它去尽量去生成那些全新的内容,这个是可以做得到的。

谢晓亮:鄂老师,你怎么看?

鄂维南:关于 ChatGPT,这里面有两件事,一个就是 how original is original?第二个就是 doesnt make any sense,比如你让 ChatGPT 创造量子力学恐怕不容易,你不告诉它量子力学,你让它产生量子力学,恐怕不大容易。但是,设想我们不是生命科学,我们是数学。我们训练一个「 MatchGPT」 ,它很有可能真的会产生一些新的想法,可能这新的想法里面 60% 是错误的, 40% 是对的,就非常了不起。因为我们数学家恐怕 40% 的这些想法里面 40% 对是做不到的。

未来 AI 将在生命科学的哪些方面产生具体的突破?

唐建:我觉得在蛋白质药物设计可能是一个重要方面。目前对于这种药物设计,无论是小分子还是蛋白质设计,本质上我们要生成一些新的假设,不管是数学方面还是分子设计方面。所以我们可以利用生成式模型,去生成全新的小分子或者大分子药物。

另一方面,当然我个人也比较感兴趣,我觉得比较大的突破可能是多组学的数据方面。因为我觉得现在多组学的数据的获取,特别是单细胞测序技术以及冷冻电镜技术,使我们能够从分子水平、细胞水平,来理解细胞跟分子的功能。这里所产生的很多数据,我觉得未来带来的将是革命性的变化。

当我们很能够更好理解分子与细胞的功能之后。有了测序的数据,我觉得可能未来可以进一步拓展。除了去做单细胞测序,我们现在还有,比如空间转录组学的数据。相当于,不仅能理解单个细胞的功能,还能够理解细胞跟细胞之间相互作用。未来,我们有可能可以理解整个组织,可以建立一个组织方面的模型。通过这种数字化的组织器官模型,可以更方便的做一些病理学实验。进而,在疾病的诊断方面,未来可能会有比较大的突破。

谢晓亮:组学确实是一个重要的方面。一个细胞里面有 2 万个基因,其中每一个基因的不同表达,就构成了一个多维的问题,也就是鄂维南老师刚刚讲的维数灾难。这确实是一个值得去研究突破的方面。

当然传统领域也是非常重要,因为机器学习,从图像识别、人脸识别,实际上在医学上的应用看,癌症的成像,更多是直接的应用,其实还有更多的发展空间。

鄂维南:我真的很同意刚才唐老师讲的生成模型,我觉得这方面的发展空间很大。

然后组学方面,现在我觉得关键的问题是怎么做是有效的。两个事情,一个是我们要有效地把研究组织起来,要有不同的背景的人的参加。第二个是要找到一些新的 guiding principle。我们在谈不同尺度的数据,不同尺度的现象的时候,我们要有一些新的 guiding principle 来填补中间的这些尺度的结构。我们现在分子尺度比较清楚,宏观尺度也有一定的 guideline。但是中间尺度我们缺乏一个 guiding principle。这个有可能是做物理的,做数学的人能够帮助的地方。

注:以上整理内容来自《未来科学论坛》。

参考内容:https://mp.weixin.qq.com/s/SPwl0tJRibfCEDDqzOIp2g


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1