文|沈筱
编辑|王与桐
ChatGPT的推出向世界展示了大型语言模型的魅力。这一魅力正是源于大模型泛化能力的提升,使得模型具备完成对话、文本生成、翻译等多种任务的能力。同时,大模型经过微调之后即可得到专业领域模型的能力逐渐显现,AI大模型在各个领域的应用潜力正在被激发。
其中,生命科学是一个早已被关注,但似乎不那么“吸睛”的领域。然而,事实上,其或许是AI大模型最重要的应用领域之一,并将有望同时实现商业价值和社会价值创造。
DeepMind早在2018年就推出了能够预测蛋白质结构的AlphaFold模型。在2022年,该系列模型已经预测了全球几乎所有的蛋白质结构。Meta也于2022年推出了蛋白质结构预测模型ESMFold。
同样,在百图生科看来,得益于数据、算力以及模型的快速发展,人工智能已经进入了大模型的黄金时代。尤其是生命科学领域积累了海量的数据,而这些数据需要有特定的超大模型来加以利用,其价值才能得到激活。百图生科认为,基于大模型,这些数据将在药物研发领域有所可为。
也正是在这样的背景下,百图生科从2020年创立之初,就开始搭建“xTrimo”生命科学大模型体系,旨在结合前沿AI和生物技术,构建高通量干湿闭环的生物计算引擎,建模蛋白质、免疫细胞、免疫系统的复杂规律,从而开发全新的蛋白质药物,重编程免疫系统、治疗数十种免疫相关疾病。
具体来讲,“xTrimo”生命科学大模型体系能创造何种价值,以及如何实现价值创造?为了解答上述问题,3月3日下午百图生科CTO、首席 AI 科学家宋乐博士与36氪等多家媒体进行了交流。
百图生科CTO、首席 AI 科学家宋乐博士
据介绍,百图生科推出的“xTrimo”(Cross-modal Transformer Representation of Interactome and Multi-Omics)是全球首个、也是目前最大的生命科学领域的超大规模多模态模型体系。该体系由千亿参数的预训练模型和多个下游任务模型组成。模型采取4层嵌套结构的设计逻辑,能够对单个蛋白质、细胞中蛋白质相互作用、细胞本身,以及细胞系统建模。
以下是在百图生科交流会访谈实录基础上,经整理、编辑而成:
01 生命科学领域AI大模型的用武之地
尽管一款新药的成功研发能带来高回报,但也意味着其研发过程具有高风险的特征。同时,新药研发通常面临周期长、投入资金成本高、技术难度大的问题,以至于在生物医药领域中一直有着新药研发“双十定律”或“反摩尔定律”的说法。也就是说,一般情况下,需要投入10亿美元,花费超过10年时间,才有可能成功研发一款新药。
而靶点发现、化合物合成和筛选是新药研发的关键环节。在百图生科看来,AI大模型的价值就在于,有望实现上述过程效率和效果的双重提升。
一是基于模型的预测能力,研发人员可以更快速地发现新的蛋白质、新的细胞形态,探索新的靶点和药物设计方向。
生物进化是在多层次上经历自然选择的结果,包括蛋白质序列层面、蛋白质互相作用层面、细胞里基因表达层面。这些结果都不是随机的。通过使用包含上述信息的数据进行训练,大模型在一定程度上能够模拟生物进化的过程,进而具备预测能力。宋乐博士指出:“尽管这些生物学领域的数据在过去的十年中呈现出爆发式增长,但小工具难以实现数据的挖掘和应用。”
二是通过提升化合物合成和筛选的准确率及可靠性,降低后续试验迭代次数,减少试错成本,进而提高新药研发前端进程的效率。
在通用的预训练模型基础上,仅需更少的数据就能得到足够准确的下游任务模型。这些模型预测出的结果再用于实验中,成功率会更高,所需的实验次数和闭环迭代的次数更少。宋乐博士表示,模型预测准确高的时候,甚至可以省去不必要的实验环节,节省实验开支。
另外,通过事先在模型中考虑到药物设计最终需要关注的因素,比如毒性、代谢等问题,基于模型结果设计出来的药物在临床试验阶段的通过率有望得到提升。这样一来也间接提高了临床阶段的效率。
据介绍,百图生科构建“xTrimo”大模型体系,其目的就是探索从蛋白到复杂生物体的进化规律,并基于此针对性生成满足特殊需求的蛋白,以蛋白生成和与生物体对话的方式,加速人工设计蛋白进化的速度,从而解决生命科学行业的痛点问题。
在预训练阶段,百图生科融合了理解与生成两大训练模式,从亿级跨模态生物数据训练通用蛋白质及细胞表征预训练模型,并结合AutoML加速寻找最优应用模型架构,适配多个生物计算任务。在此基础上,“xTrimo”体系能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,理解生物数据之间关联性。
截止目前,“xTrimo”大模型已经在蛋白结构预测、抗体序列生成、细胞表征等问题上实现SOTA,并在细胞功能预测、denovo药物设计上取得了进展。百图生科现有多个AI药物管线在Lead优化阶段,同时已与多个行业伙伴围绕GCPR、ion channel等难成药靶点的大分子药物设计问题展开合作。
02 不止烧钱,训练数据也是关键
想要在更少数据的基础上构建更准确的下游任务模型,就意味着需要底层大模型具有很好的表征或通用能力。这就要求使用更多的数据对底层大模型进行训练,其背后的算力成本之高可想而知。
百图生科指出,训练一个千亿级的大模型,可能需要上千个GPU,运行3到5个月,所需的数据量也是TB Trillion级别的。为此,百图生科与百度云联合构建了异构的生物超算平台,支持动态获取高达几千到几万个GPU,以及相应的CPU资源。经粗略估算,每年对类似xTrimo这样级别的大模型进行几次训练,需要在计算资源方面花费上亿元。
而除了算力投入,高质量数据的挖掘和利用也是百图生科打磨大模型需要解决的关键问题。宋乐博士表示,数据的准确度或质量会对模型表现造成直接影响,对下游任务来讲更是如此。例如,想知道设计的抗体和抗原之间亲和力的强弱,只有在预测相对准确的情况下,才能够挑选到一个比较好的抗体。
然而,在百图生科看来,尽管现有生物学领域的数据已经相当丰富,但由于数据来源于不同的技术和方法,呈现出跨模态的特征,在数据挖掘和利用方面仍然存在两个挑战。
一是生物数据的不一致性和噪声问题。为了确保数据的质量和一致性,需要采用合适的算法和工具进行数据预处理和清洗,来解决不同技术和方法造成的数据质量和信噪比不同的问题。
二是跨模态数据的集成和分析的复杂性。生物数据具有多模态、多尺度和多维度的特点,通常需要跨学科的合作,利用专业技能和知识来处理和分析这些数据。
也就是说,在数据收集、整理方面,一方面,需要保障数据的准确度和可靠性;另一方面需要找到数据对应关系,将蛋白质相互作用,单细胞数据都集成到统一的数据库里,才能系统性地利用好关联数据。
为此,百图生科针对公开数据进行了精细的对齐工作,并以内部实验室数据为高质量数据的补充。
对来自于公开领域的数据,百图生科的生信工程师会基于自有实验体系,重新测量、评估数据,以验证公开数据之间的相关性或准确率。测量结果将影响模型训练时对数据的使用权重。同时,为了百图生科围绕数据对应关系的建立进行了探索,花费了一年的时间实现了公开数据的对齐。具体来说,包括将蛋白质与基因配对,将相互作用对应的两个基因或蛋白质进行关联等。
在内部数据获取方面,百图生科规划、建立了高通量实验验证体系,以实现基于干湿数据的AI创新药研发端到端闭环。以组学实验室为例,百图生科针对10余种不同来源的组织进行样本处理,每年可采集1000万个单细胞测序数据。
目前,来自实验室的私域数据占比约为10%。而这些私域数据的补充也是将通用大模型微调至专业领域模型所必需的。宋乐博士指出:“大模型需要真实的实验数据来进行补充,不断“喂给”模型研究人员最感兴趣的靶点问题、疾病问题相关的数据,进而微调到专业领域模型,提高模型的预测能力,这类似于ChatGPT在模型训练时的人类强化反馈过程。”
而为了实现跨模态数据的集成和分析,百图生科组建了跨多个学科背景的人才团队,包括AI算法人才、生信工程师、数据科学家、生物学和医学人才等。百图生科表示,不同学科背景人才之间的合作也是整个模型体系搭建、模型架构创新,以及推动后续实验、落地到制药过程的关键。
03 百图生科的未来愿景:从制药到解决更广泛的社会问题
和DeepMind、David Bake Lab等致力于通过大模型解决生命科学领域问题的公司和实验室相比,百图生科的不同之处在于两个层面。
首先,如前文所述,百图生科关注的不仅是蛋白质结构预测这样的单点技术,还包括蛋白质之间的相互作用等。在百图生科看来,DeepMind主打的是以Diffusion扩散模型的方式来生成蛋白质,而这些单点技术本身不足以优化药物。药物的优化实际上需要有一系列的专业人才参与其中。
比如,在模型搭建之后需要有生信工程师、生信科学家来理解模型的输出结果、预测结果是否合理;同时需要生物、医学方面的人来进行真实实验,管理高通量的实验体系,以实现数据反馈,持续优化模型能力。这也是百图生科为什么选择在成立之初就建立了基于干湿数据的AI创新药研发端到端闭环的原因之一。
而建立该实验闭环的另一个主要原因,也是百图生科与DeepMind、David Bake Lab、Meta等的第二个不同之处——在药物研发场景中更全面的商业化布局,即并非以完成某个单点技术突破或者纯粹的科研为目的,而是希望能快速将大模型能力实际应用到在整个生物制药以及生命科学领域中。为了加速推进几十、上百个药物管线的开发,百图生科在苏州建立了一套完整的从抗体发现,到蛋白打印,再到抗体工程和优化的平台。
同时,百图生科表示,在未来还将探索除疾病治愈之外的其他与蛋白质设计相关的社会问题,包括环境保护、能源等。例如,探索能够高效分解塑料或加速特定能源生产制备的蛋白酶。
为了实现上述愿景,百图生科未来可能需要持续提升工程能力,并建立更广泛的合作网络以实现数据飞轮效应,同时也需注意不能过早地被商业利益所裹挟。
正如OpenAI在大型语言模型领域取得的阶段性成果所显示的,大模型通用能力的提升在一定程度上得益于其积累的强大工程能力,而这又益于高密度、多领域的人才团队。而这也正是百图生科关注的重点之一:加强跨学科背景的人才团队之间的交流、学习,并在此过程中不断碰撞出新的想法和观点。
据介绍,在靶点发现算法建设的过程中,算法任务是在预测扰动后的细胞状态的变化。由于该任务可以直接利用的数据较少,而描述状态变化的信息是上万维度的基因信息,因此难以直接建模。通过生物背景的研究人员和AI算法研发人员之间的合作,百图生科创新地建立了xTrimoCell免疫细胞扰动后功能变化预测模型。
在合作网络构建方面,百图生科一方面推出了“卓越开发者计划”,面向前沿生物技术专家、药物开发专家和临床专业团队等,为高质量的转化医学研究项目提供科研经费和引擎能力支持;另一方面,与北京大学医学部等临床研究机构,以及免疫专委会等专业协会围绕具体课题和项目展开相关合作。此外,百图生科表示,其近期将开放大模型部分能力的接口。
在商业化方面,百图生科表示,正在探索多种与药企之间的商业合作形式,并不仅限于License out,也希望能够一起进行药物开发。经济利益的获取是商业企业必须关注的重点,但同时,对创新难度较大的药物研发领域而言,如何在尚未实现盈利的情况下保持科研的定力也是关键。