AI潜力无限,但科学家无可替代。
人工智能在打破学科界限、通过跨学科合作推动科学发现中的变革性作用。在2024年诺贝尔物理学奖与化学奖接连发布后,让AI For Science(以下称AI4S)领域再掀波澜。
面对一个火热的新兴产业,它在快速发展过程中有哪些机遇与挑战?这一年,行业发生了什么,又该如何激活这一领域的创新动能,实现产业升级与可持续发展,成为行业关注的焦点。
12月11日,在「甲子光年」举办的2024甲子引力年终盛典上,四位领域的专家和创业者围绕《科学智能:AI for Science新范式下的科研变革》这一主题,讨论了AI与科学研究的体感、发展与未来。
深度原理核心创始成员&产品负责人李宇平、鑫研微末生物科技CEO王琰、百图生科战略部总经理徐子尧、莱芒生物AI负责人仝督读与主持人心资本合伙人吴炳见探讨了人工智能在科学研究中的应用和未来的影响,他们生命科学、化学和投资等不同角度分享了见解和体会。
吴炳见谈到了AI在科学领域的逐渐普及和接受程度,表示这些技术的应用已从专业圈子逐步向公众领域扩展,尤其是在解释这些复杂技术的应用时。“AI for Science的发展,让我们更容易向非专业人士解释我们的工作,这种普及是非常重要的。”
李宇平分享了深度原理利用AI进行材料科学研究的经验,以及如何使用AI和实验数据来优化材料设计流程,并强调Science of AI的发展为解决尺度放大和数据不足问题提供了强大的工具。“AI for science、Science of AI恰恰是面对这个问题目前最好的解决方法。”
王琰提到AI在冷冻电镜领域的应用,介绍了AI如何帮助科学家更快地从大量数据中提取有价值的信息。她提到AI在科学研究中从辅助工具到核心技术的转变,“AI for science不是AI简单的进行数据挖掘或者数据整理,而是AI跟先进实验手段的深度耦合。”
徐子尧强调了AI在生物制药领域的应用,特别是在靶点发现和药物开发中的作用。她提到AI对生物数据的理解和模型建立的重要性,以及这些模型如何帮助科学家验证新药靶点的有效性。“AI需要理解science里面的数据,比如说科学家觉得这是一个好的靶点,那它的评价标准是什么?它的维度是什么?这些问题是AI的人进一步来理解science的过程。”
仝督读在讨论中分享了莱芒生物如何结合人工智能与免疫代谢重编程技术,优化肿瘤免疗法。比如如何改善T细胞耗竭问题,提高治疗响应率和疗效,尤其是在临床上对淋巴瘤和白血病的治疗中取得了100%完全缓解的成果。他认为AI技术的应用使得免疫治疗药物的设计更为精准。“通过AI算法解决实体瘤CAR-T、TILs等细胞疗法中遇到的问题,我们能够显著降低肿瘤免疫疗法的毒副作用。”
以下是本场圆桌的交流实录,「甲子光年」整理删改:
吴炳见(主持人):我是心资本的合伙人吴炳见,我们是一家风险投资机构,我个人第一次关注AI for science是2018年,阿尔法精准的预测了蛋白质结构,在科技圈、创业圈、投资圈引起了风潮。到今年诺贝尔奖物理奖、化学奖颁给阿尔法的作者,AI for science逐渐出圈,好像给家人解释我们做什么事情也更容易了,今天主要探讨科学家在AI加强后的突破。我们心资本团队以前投资过小鹏汽车、满帮、百川智能等科技公司,也投了一些AI 应用和 AI for science的项目。
李宇平:我是来自深度原理的产品负责人李宇平,我们是一家年轻的公司,今年刚成立,专注于AI for Chemistry及AI for Materials。我们使用深度学习、第一性原理计算及高通量实验技术来搭建ReactiveAI平台,从而实现材料科学领域从分子筛选、合成设计、配方优化到可控实验的全流程闭环。今年我们组建了一支背景多元互补的团队,在石油化工、精细化工、高端材料等多个领域推进了一些商业合作。
王琰:我是鑫研微末的CEO王琰,鑫研微末是一家提供冷冻电镜服务和AI服务的国际先进服务商。鑫研微末的技术团队源自和赛默飞联合研发世界上第一台用于生物的冷冻电镜的团队,也是全世界首次突破病毒原子级分辨率的团队,深耕在冷冻电镜领域超过20年,累积了非常多的独家算法、工作流和行业技术know how,冷冻电镜行业广泛使用的多个算法也出自我团队。冷冻电镜是一个非常强大的工具,通过解析蛋白质、信号通路、靶点、病毒、细菌等大分子的结构,可以解析生物运作的机制、人为什么生病、又该如何去治疗。目前公司主要是为各类创新药企提供基于各类结构解析服务;为AI for science科技企业提供算法咨询、生物咨询、算法验证、湿实验设计和实施等服务;为生物、医学、药学、化学、材料等各类研究者提供结构解析服务。
徐子尧:我是百图生科的战略部总经理徐子尧。我们用AI大模型解决生命科学问题,今年扩展到了DNA、RNA、菌种大模型。业务角度看,我们从过去三年的生物医药领域扩展到随国家新质生产力倡导的生物制造行业。
仝督读:我是莱芒生物的仝督读,莱芒生物是一家Biotech公司,与其他公司不同,更偏向于AI应用端。我们基于免疫代谢重编程技术和前沿AI算法,优化现有肿瘤免疫治疗方法,尤其解决T细胞耗竭问题,提高肿瘤免疫疗法响应率和疗效,减少毒副作用。在淋巴瘤和白血病适应症上,我们的代谢增强型CAR-T疗法已达到100%完全缓解率,同时我们也在推进实体瘤适应症管线的研发,预计明年可以启动IIT临床研究
吴炳见:先从一个简单的问题开始,各位都在做AI和交叉学科的结合,能不能谈一下你们怎么理解AI for science,在你们的业务里面怎么体现这个理念?
李宇平:我们的公司名对此有所体现,“深度”代表深度学习,“原理”即第一性原理的计算。我们在材料领域面临结构化高质量的数据不足,多尺度建模,复杂工艺衔接等问题。AI for science正是解决这些问题的最好方法,Science在此过程中扮演数据缔造和纠错的角色,基于物理学规律约束AI的输出,提供可解释性,而AI模型在持续的数据投喂下,用极快的速度逼近物理世界的真实解,甚至涌现出更多智能,能在多个生产领域“提出”更激进、创新的设计方案,这可能反过来帮助Science发现,形成一个循环数据驱动的“飞轮”。
王琰:AI for science不只是用AI简单进行数据挖掘或整理,而是与先进科学技术和实验方式的深度耦合。冷冻电镜领域其实很早就开始应用AI for science,因为冷冻电镜技术需要把仪器拍摄的二维的电子衍射图像,还原成各类大分子的三维结构,挑点、数据分析、和结构重建过程中天然就逐渐应用很多AI算法提高效率。
其实我认为AI for science可以分为两阶段:第一阶段, AI作为Science研究工具的一种,帮助处理数据,加速科学研究。第二阶段则由AIphaFold引领, 它是基于Science积累的数据,用AI预测蛋白质的结构,自此,AI不仅是Science研究的重要工具,AI for science成为一个单独的类目,这推动了整个产业和行业的爆发。鑫研微末与AI for science行业紧密相关,为其提供算法咨询、生物咨询,包括湿实验的设计和实施,算法验证等等。
徐子尧:我想用我们在医药领域的实际例子。比如在医药中开发新药,第一步通常是找到新的靶点,这主要是从science定义问题,决定什么是好的靶点。同时AI需要理解,比如科学家认为这是好的靶点,其评价标准和维度是什么?数据是标记的还是未标记的?
实际上AI需要理解这些science规则,并将它们结合到模型架构中。并不是说AI推荐一个靶点我们就可以开发管线、FDA批准上临床,我们仍需science,需要实验去验证AI的结果,整个过程如李总所说,需要像飞轮一样运转,每个环节都需要各方的参与。
仝督读:前面几位嘉宾讲得非常好,尤其是王总提到的两段论,AI初期更多作为工具,后期帮助科学数据进一步发掘深层科学原理。在我们的制药领域,这一点表现得很清楚,最开始AI主要作为设计新药物分子的工具,比如设计具有更高亲和力、活性和特异性的抗体分子或活性蛋白,相当于用AI工具代替部分传统药物研发的湿实验过程,这样更高效、成功率更高且成本更低。对于新型细胞治疗,如CAR-T,其作用机理复杂,组件众多,改变其中一部分可能在临床上效果截然不同。目前的研发手段主要是通过实验尝试各种优化组合来寻找疗效好的CAR-T设计,未来AI工具可以更多地用于发掘数据中的科学机制,为CAR-T的优化设计提供原理性的解释,提高未来设计的效率。
吴炳见:AI for science作为交叉学科的角色,这包括AI和science的成分,既有干实验也有湿实验。能否从自己的业务角度讲述AI和science的比重各是多少?
仝督读:这个问题对于不同公司甚至同一项目内都有很大差异。以我们公司为例,涉及制药的项目需要走完从药物设计到体外细胞实验、体内动物实验及后续的临床研究的全流程,这是一个长链条。我觉得项目中science比重更大,或者说湿实验部分比重更大, 可能占到80%至90%。AI在最早期的分子层面上优化设计时能起到很大作用。对于平台型公司,AI的比重可能更大,能更好地赋能像我们这样的下游企业。
徐子尧:整体上来看,我们是一个AI平台型公司,希望以AI赋能下游产业,所以整体AI占比非常高。具体到项目众多某些环节,比如在前期客户需求定义阶段,science和AI各占一半。到了模型开发阶段,AI的比重可能更高达到80%。在最终交付给客户时,我们会与science团队密切合作,客户的验证过程中一般生物部分占80%,AI仍占20%,他们会持续使用我们的模型,并在实际生产中应用。整个流程中不同环节的AI占比也有所不同。
王琰:按照实际业务情况,我们服务不同客户时占比会不同,比如我们服务AI for Science的客户时,AI占比较高,在为创新药企提供结构解析服务时,大部分是science的内容。那从整体AI For Science产业的角度来看,这个流程是,首先是science产生大量数据作为基础训练集,训练AI模型,AI模型产生结果后再返回science进行验证,验证结果的真伪,再给模型反馈,不断往复,使AI模型逐步优化,行成形成“科学数据-AI模型-实验验证”的闭环。在这个闭环中science的比重是较多的。而且在AI For Science领域,绝不能仅靠算力的堆叠,很多时候对science的深入理解和内见决定了研发的效率和深度。所以从目前来看,science占的比重更大些,大约在60%-65%。但是随着研究的进展,随着数据和模型的积累,AI的占比会逐步提升,但科学实验端的作用永远不会消失,只会更加自动化与智能化。在未来,AI和science一定会是双轮驱动,共同推动生命科学和其他科学领域的发展。
吴炳见:五年后AI的比重可能占多少?
王琰:五年后,我估计AI能占到至少45%,而science则是55%。实际上AI for science是一个动态的平衡,基础实验确定真实世界的“硬约束”和“边界条件”,AI在此基础上寻找模式和加速提出假设。在自然生命科学领域,还有很多边界需要由science来开拓,就比如我们公司的二代冷冻电镜技术CryoET,可以观测在不同生物状态下大分子的原位结构,随着这些边界的逐步扩展,数据累积增多,AI在这个领域的作用将日益增强。
李宇平:前面的嘉宾已从多个维度分析了这个问题,包括客户类型、需求阶段和公司定位等。我更多从时间发展的角度看,这个比例很难量化,是动态发展的。整个产业界发展的基础是科学,而关键在于AI,两者互相支撑,呈螺旋式上升。以我们为例,起初依靠science,对物质结构和化学反应进行计算,开展实验研究。这些数据累积后,我们才开始探索AI算法设计,确保这些算法符合物理学规律,并能基于计算和实验数据不断迭代AI的能力。在AI给出预测结果后,我们在science层面再进行验证。 在AI能力尚未完全达标时,产业界更多依赖于science及专家经验驱动和实验探索。但关键的突破在于AI,未来AI很可能会占到半数以上的比重。
吴炳见:你们做AI for 材料,AI占比多少?
李宇平:目前来看, 需要区分所谓AI是传统的统计学模型还是数据驱动的深度学习框架。前者占比相当高,许多大公司内部会利用开源工具和大语言模型帮助建设自己的AI团队来做一些数字化的项目。至于深度学习,由于一些研发场景的不适配及高昂的开发成本,其应用相对罕见。
吴炳见:今年诺贝尔奖颁布以后,我相信科学界的每个人都感受到了一些触动,科学家的画像在未来可能会有所变化。在你接触的行业中,这对科学家会有什么样的影响?你觉得未来科学家的画像会是什么样的?
李宇平:在我看来,未来的科研团队会越来越依赖AI,AI将成为科学家的贴身助手。从科研的早期阶段,比如文献调研,到商业化过程中的专利检索和材料信息检索,这些耗时而繁重的过程都可以由AI来承担。进入到面向应用场景和市场需求的研发阶段,AI能够提出多种可能的解决方案,快速探索候选空间,并迅速得出目标产品。在这种情况下,科学家的角色会转向更进一步的验证或规划。
王琰:今年诺贝尔奖的颁发,我相信对很多人都是一个震撼,也是一个信号, 显示AI已经成为科学研究中不可或缺的一个固定范式,是基础工具,而不仅是辅助。AI对科学研究的效率提升是巨大的,比如我们的一个合作伙伴现在已经可以做到每周产出10万个多肽复合物的预测,这种效率在以前不可想象,所以未来的科学家,一定要掌握AI的工具,加速自己的研究,也为自己的研究提供了更多探索的空间。
但于此同时,我们也要明白,AI是工具不是终局,科学的前沿问题仍需要人类的创造性和判断力。人类科学家对问题的洞察力、对实验设计的直觉以及对结果的解释仍然至关重要。举个例子,中国科学院上海药物所在12月6日发表了一篇论文,指出Alphafold3预测的GPCR复合物结构是错误的。这表明科学家在验证AI结果、界定AI的应用边界中扮演着不可替代的角色。现有的AI模型在自然科学领域还远远达不到完全可靠的水平,也无法预测分子动态模型或与其他分子的相互作用。因此,AI是科学家加速科研的有力工具,但科学家的作用不可被取代。
徐子尧:因为我们公司有许多同事来自诺贝尔奖得主的团队,比如BioMap美国公司总裁Per Greisen,他之前在David Baker的课题组工作,后来在诺和诺德担任全球副总裁。我们与David Baker团队和顶尖学府的教授都有合作。这次诺贝尔奖是一个非常积极的信号。四年前公司成立时,在中国找到既懂AI又懂生物学的人非常难。过去几年,我们努力促进AI和生物领域人才的对话,举办了许多培训和演讲。这次诺贝尔奖再次点燃了公众对这一领域的关注,无论是从生物还是AI的角度,大家都开始向中间靠拢,拥抱未来的变革。我们希望这种趋势继续下去,吸引更多科学家和学生投身于这一领域。
仝督读:今年诺贝尔奖颁给了AI,我认为这更多是一种出圈的行为。在生物制药行业,AI的使用已经非常广泛,比如早期的CADD(Computer Aided Drug Design),即计算机辅助药物设计,这在上世纪就已经开始了。我个人觉得,从行业内或学术的角度看,工具的发展是渐进式的,从最初的简单统计方法或基于第一性原理的化学计算方法,到后来AI技术的突破,使AI能与之前所有的知识整合,进行更精准的预测,从而加速药物设计过程。这一进展是基于之前所有积累的数据逐步实现的。所以诺奖的获得更多是让不了解这个行业的普通人知道,AI等计算工具在基础科学研究及制药等行业中的应用已经越来越广泛了。
吴炳见:由于AI for science面向的领域非常多,包括与生命科学、材料科学等相关的领域,我相信还有其他学科与之交叉后可以产生有趣的成果。大家能谈谈,在AI for science中,最快落地的方向可能是什么?在实际落地时,又会遇到哪些困难?
仝督读:在我所在的生物制药领域,最容易落地的领域肯定是蛋白设计,包括抗体设计等药物设计方面。这些领域可能更快实现落地,因为蛋白质研究在过去积累了大量高质量、结构化的数据。比如从结构预测到亲和力预测、蛋白功能预测等,这些模型已经能够达到非常高的精度,对药物设计产生重大影响。
尽管目前还没有完全由AI从头设计的小分子或抗体药物通过临床上市,但我们在研的管线中已经看到了AI作为辅助研发的身影。另一方面,落地的瓶颈可能是某些细分领域仍存在数据质量不足的问题,导致预测准确度不够。最大的问题是对于临床层面的预测,AI还不能做出有效预测。在实验室外部环境的理化性质预测可能取得不错的结果,但在体内环境,尤其是从小鼠到人的转换中, 存在巨大鸿沟,目前还没有足够好的数据集支持AI平台开发模型跨越这些鸿沟。
吴炳见:那现在这个鸿沟主要靠什么来填补?
仝督读:主要是通过积累更多临床研究的数据来填补。
徐子尧:我们最近在生物制造方面投入较多,也与多家企业进行了大规模合作。生物制造领域的落地速度可能更快,因为它不涉及临床和监管。生物制造实际上是使用微生物或细胞生产产品,这些产品可以是日常使用的维生素或代糖,它们已开始替代传统化工产业或生产新产品。 在生物制造中,使用AI来改造酶的研发时间可能很短,从小试到放大生产只需几个月到一年。这使得数据迭代非常快,AI在多个产业中迅速显示出优势,包括育种、农业、饲料、维生素、保健品和医美行业。这些领域都是AI平台化的优势所在,我们通过改造不同的酶,应用相似的算法,实现快速的行业应用。
王琰:最快落地的方向就是仝总提到了药物筛选和大分子预测领域的落地,现在许多模型和公司已在这些领域取得了不错的成果,但是目前产业化进程尚未特别顺利,主要是因为存在许多现实问题尚未解决,比如这些模型预测结构的生物有效性还不足,也无法预测不同生物状态下的结构,无法预测分子动态信息,无法预测分子间相互作用和大型复合物,因为这些模型训练的基础数据集就不存在这些信息。比如Alphfold,训练集来源于Protein Data Bank,这些数据大多是蛋白质的晶体结构数据,所以这些模型能预测大部分蛋白质的刚性结构框架,但不能预测柔性结构。
随着技术进步,累积更多包含更多信息的数据,就有望解决目前模型的这些问题。我们公司冷冻电镜二代技术CryoET,不需结晶,甚至不需蛋白的提纯和富集,直接观察到生物状态下原位的结构,可以观察分子动态信息、分子间相互作用、大型复合物等,CryoET产生的结构数据就为解决模型这些问题提供了基础。以往观察一个肿瘤标志物的结构,需要经过蛋白提纯、再表达、富集、纯化筛选等多个步骤,经过这些处理过程,肿瘤标志物的很多柔性结构已经改变,通过结构你无法判断在不同生物状态下这个大分子是什么构型在执行什么功能,但我们的CryoET技术可以直接观测生物原位状态下的构型,可以清楚观察到在此种生物状态下大分子是什么构型,在执行什么功能。
且传统技术在分离提纯过程中也筛掉忽略了很多信息,比如在肿瘤微环境中一些复合物的存在,比如药物和微环境中一些复合物的结合,这些信息经过纯化筛选都忽略掉了,CryoET技术直接观测生物原位结构就可以观察到这些之前被miss掉的信息,为很多疾病的解释和治疗提供了更多信息。随着足够数据的积累,基于这些数据的AI模型将能预测更多分子间的相互作用,复合物相关预测,以及更多的柔性结构。这对整个行业的应用可能带来更多的可能性。甚至随着技术的发展, 如果我们能观察到药物进入人体和每一个细胞每种蛋白结合变化的全过程,那药物和人体作用的全流程就可视化了,各种作用机制也就透明了,那么在未来也许我们就不需要进行小动物大动物临床试验了,这将改变药物研发的流程和产业格局。
李宇平:前面的讨论都集中在生物科技领域,我这里谈一下材料领域的情况。目前看来,在材料领域最容易、最快速落地的主要是配方优化和分子筛选。配方优化很好理解,即通过添加各种助剂组分、调整生产工艺工况,得到性质更优的中间体或最终的产品。这个过程中会产生大量数据,同时也是一个跨尺度的问题,从时间和空间两个维度上都跨越所有尺度。
在时间尺度上,化学反应的过渡态存在时间只有皮秒级别,到后面的物理化学混合过程则需要在一个长得多的时间尺度上观察;在空间上,从化学反应的原子级到分子、聚合物、最后的混合物,也是在尺度上的一次极大跨越。这就带来了多尺度建模和衔接工艺生产的问题。
材料最终要实现商业化,要量产,在这个过程中,它涉及到很多器械的配合和人的操作,这带来了很多不可建模或难以建模的因素。这些影响可能会导致在AI层面上有一些失效、失真的情况,模拟仿真是非常重要的一步。当然,我们也看到了很多技术的发展,比如工业互联网时代智慧工厂的技术发展,为这个问题的解决提供了很好的基础,即通过增加传感器,更多地捕获和采集数据,并且更有意义地、有结构化地组织这些数据,从而解决这个问题。
吴炳见:感谢各位嘉宾的精彩分享。从各自的领域,以非常科普的方式,尽量避免使用专业术语,给大家介绍了你们在AI for science领域的见解、遇到的机遇和挑战。我认为这非常有意思,现在AI正走向两个极端。一方面,自从大模型开始逐渐落地后,出现了很多面向消费者的机会,即使用AI可能创造出覆盖广泛GDP的十亿级产品。另一方面,AI for science服务于一群非常高端的科学家,这群人虽然少,但它为他们带来的提效和突破所占的GDP也是一个非常高的数字。让我们期待明年的诺贝尔奖,看看它的AI含量到底有多高。