作者 | ZeR0
编辑 | 漠影
ChatGPT这把火,已经烧到了生命科学界。
智东西3月30日报道,近日,百度创始人李彦宏牵头创立的生命科学平台公司百图生科,正式对外发布其“生命科学版ChatGPT”——由生命科学大模型驱动的AI生成蛋白平台AIGP。
恰如人类自然语言可以拆解成26个字母、词、句子、段落的嵌套结构,生命语言可拆解成20个氨基酸字母、蛋白质、细胞、生命体。如此多的相似性,使得生成式AI不仅能写诗编程,也能被用于解决困扰生命科学科研人员已久的难题。
AIGP平台由百图生科在过去2年多时间内、近300位AI+BioTech专家组成的跨国技术团队共同打造。根据不同模块的输入和要求,AIGP平台可在较短时间内设计和生成具有特定性质的蛋白质。据介绍,这将大幅简化蛋白质生产流程,用几十分钟、几小时来设计蛋白质,几天就能把蛋白质制备出来。
其背后的核心引擎,是百图生科成立两年多以来一直致力于打造的生命科学大模型xTrimo。该模型拥有千亿参数,从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律。
有近20家合作伙伴已与百图生科开展AIGP联合研发合作,方向涉及高性能弹头设计、新功能蛋白质设计、靶点挖掘和调控蛋白设计等领域,其中多个项目取得了阶段性的发现成果。
目前,百图生科AIGP平台设置了3大功能模块。
▲ AIGP平台3大功能模块+12项核心能力示意图
(1)Function to Protein Design(F2P):从功能到蛋白设计,根据结构、功能、可开发性等功能指标设计/优化蛋白质,生成形状和理化性质的需求,生成一系列满足用户需求的蛋白设计,包括新功能、新结构、新酶,并可提供蛋白质参数优化能力。百图生科企业发展副总裁、产业基金董事总经理瞿佳润(Vicky)分享说,这类功能更多是跟合成生物学公司、酶类公司以及一些保健、医美行业有相关性。
(2)Protein to Protein Design(P2P):从蛋白到蛋白设计,给定抗原等目标蛋白,设计与之以特定方式结合的抗体等蛋白,比如针对新冠、渐冻症等生成蛋白,根据石油等分子生成酶。该部分提供四个功能点:高亲和力、高精准表位、高特异性、高序列差异化的设计。在这个方向,百图生科的主要合作方是Biotech和Pharma,可以设定到一些大分子药物。
(3)Cell to Protein Design(C2P):从细胞到蛋白设计,给定细胞,发现调控细胞功能的靶点蛋白并设计相应的调控蛋白。比如输入胃癌病人的疾病信息,AIGP的平台能够分析胃癌病人多组学数据,找到病人的胃癌靶点,根据靶点生成一个抗体甚至一系列有多样性的蛋白,最后一键式生成的蛋白回到自动实验室里面合成蛋白。其功能点能够做到细胞分类、细胞调控靶点、组织特异性靶点、药物组合效应的预测。
由于制药需要高度专业性。AIGP平台暂时不会面向大众开放。百图生科计划于2023年6月起将部分功能模块进一步开放,让专业用户可以直接自主使用,在更多的研究场景调用AI的蛋白质生成能力,激发更多的生命科学探索。
AIGP背后的千亿大模型体系,也有一个四层嵌套形式,最底层是对蛋白质的数据进行预训练,往上一层是蛋白质相互作用的预训练,还有一层是对细胞体系的预训练模型,最上层有一系列针对蛋白质设计特别关键的参数的预测模型。
要充分吸收生命科学里的数据,需将模型、训练和工程上的很多创新做有机融合。
百图生科CTO兼首席AI科学家宋乐说,ChatGPT依赖于人类反馈来输出舒适的、对人没有恶意的交流,AI生成蛋白质也是如此,需要经过专家信息及高通量实验室数据的输入,才能将生命科学大模型调整到能生成有用蛋白的程度。
生命科学大模型xTrimo的炼成过程是一个闭环,涉及大模型体系、高通量验证、数据平台三大部分,数据平台既有大量公开数据,也有百图生科自驾实验室产出的数据。
他分享说,经过一两年的打磨,xTrimo预测蛋白质结构的速度能达到比掀起AI蛋白质预测革命的DeepMind AlphaFold模型快100多倍,而且准确率比AlphaFold 2还要准3倍以上,使得在AIGP平台上设计的蛋白更精准,成功率更高。
做大模型,离不开长期的高额研发投入。据百图生科联合创始人兼CEO刘维透露,百图生科一年的研发投入大约几千万美元,同时推进40多个生命科学研发项目,而如果按传统的生命科学逻辑去做研发,加起来开销可能高达十亿美金,这已经开始显现出平台化的效率。
“这是AIGP 1.0时刻,这是新的起点,也是对我们来讲很大的挑战。”刘维说。
AIGP一年前已经在百图生科进行内部测试,并承载了其创新免疫调控药物ImmuBot的研发工作,贡献了多个高性能弹头、新功能传感器的研发案例,验证了AIGP能够实现从靶点发现到调控蛋白设计的快速转化。
他坦言,百图生科的AI大模型和与之配套的大规模数据图谱、高通量验证体系凝结了很多前沿技术的创新和探索,但还远不完美。
今天多种任务初期能力的成功率依然普遍有限,比如蛋白质弹头设计能力,可能在7000个膜表面蛋白上输入到AIGP平台,只有一小部分能够在一两个轮次内找到成功的弹头。
接下来,如何从开始展露一些能力到提高它的泛化能力和速度,需要专业伙伴的帮助,合作伙伴们亦将得益于这一系列尝试,实现前沿项目的加速研发,以及提高成功的概率。
宋乐博士也曾在此前的媒体采访中谈道:“因为生命体的高度复杂度。目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,将使我们能够更加精细精准地理解进化,理解生命。这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴。”
刘维透露说,百图生科可能会在一年内发布AIGP 2.0版本,希望它在弹头设计等一些核心功能上提供更多的自主使用能力,为广大开发者提供普及化的蛋白质生成能力,让设计蛋白质的门槛从必须是专业的Biotech下降到很多生命科学研究者都能使用的水平。
他将这种商业模式比作“Protein-as-a-Service”,但目的不是短期内赚取服务费,而是希望通过提供前沿的蛋白质Denovo设计能力及其他生命科学能力,帮助更多合作伙伴的研发项目取得成功。
“我们今天还很弱小。”刘维说,OpenAI在2018年发布的第一代GPT,当时仅在AI圈内有影响力,经过5年迭代和进展,有了今天耳熟能详的ChatGPT。他们希望5年时间内,也能将AIGP带到和今天大家看到的完全不一样的水平。
从AIGC到AIGP,AI的生成和预测能力对真实世界的影响正越来越广,也越来越深。设计满足特定性能指标及功能的蛋白,往往需要昂贵且长期的过程,而AI正在改变生命科学前沿创新的速度。
“AI能够解决的问题,就是对大数据的分析和进一步的演绎和应用。”中国科学院院士、著名免疫学家董晨教授认为在当下,AIGP确实是一个呼之欲出的平台。他相信AIGP对于我们理解蛋白质,以及在生物系统中研究和发现它的功能和调控,乃至于将来研发新药,都会有非常大的作用。
世界生物信息学界著名学者、哈佛计算生物医学中心创始主任、R语言的主要发明人、百图生科科学顾问委员会委员Robert Gentleman教授的团队正在哈佛进行蛋白质生成/预测模型的相关研究。他评价说“百图生科在这个方向上走得很远了”,并期待AIGP会带来更多的蛋白质/抗体生成模型,以至于抗体工程师们可能会从这些模型的预测中,发现自己从未注意过的细节。
随着“公测”启动及部分功能模块的开放,百图生科AIGP平台对于加速新药研发乃至提供科研、环保、材料、消费等更多场景的解决方案,提供了一个可供自主使用的新平台。除了加速研发项目取得成功外,这一进展的更大潜在价值在于通过节省科研人员们的时间成本,撬动更广大的创造与创新空间。