当前位置:首页|资讯|融资|生成式AI

这家融资7亿美元的AI制药公司发表Nature论文,推出生成式AI蛋白质设计模型,已免费开源

作者:生物世界发布时间:2023-11-21

这家融资7亿美元的AI制药公司发表Nature论文,推出生成式AI蛋白质设计模型,已免费开源

撰文丨王聪

编辑丨王多鱼

排版丨水成文

蛋白质是生命活动的执行者,但创造它们却是一项复杂的任务,需要数十亿年的进化。基于计算的蛋白质设计,旨在通过可编程的方式自动设计功能蛋白来缩短这一漫长的进化过程。该领域在过去几十年里取得了相当大的进展,但大多数从头设计尚未接近自然界中天然蛋白质的复杂性和多样性。

地球诞生生命以来的30亿年时间里,进化产生了巨大的蛋白质多样性,然而,这在蛋白质的全部潜力面前微不足道,这一巨大潜力为我们从头设计蛋白质带来了无限可能,但确定如何有效地探索可设计蛋白质结构的空间,是当前面临的一个巨大挑战。

2023年11月15日,生成式AI制药公司 Generate:Biomedicines 的研究人员在国际顶尖学术期刊 Nature 上发表了题为:Illuminating protein space with a programmable generative model(用可编程的生成式模型照亮蛋白质空间)的研究论文。

该研究开发了一种名为Chroma生成式人工智能模型,该模型建立在扩散模型(Diffusion Models)和图神经网络(Graph Neural Networks)的框架上,能够从头生成高质量、多样化和创新的蛋白质结构。

研究团队使用Chroma生成了310个自然界中不存在的蛋白质,并通过实验验证了这些蛋白质可以表达、折叠,并具有良好的生物物理特性。

这项研究由 Generate:Biomedicines 公司的联合创始人兼首席技术官 Gevorg Grigoryan 博士领导,论文所有作者均来自该公司,他表示,公司从成立的第一天起,就一直在研究蛋白质的生成模型,这也是为什么公司名字叫做Generate(生成)。

Generate:Biomedicines 成立于2018年,旨在通过人工智能(AI)技术来理解蛋白质序列、结构与其功能之间的关系,从而从头设计前所未见的全新蛋白质,定制蛋白质疗法,以改善肿瘤学、免疫学和传染病等领域的药物开发。

Generate:Biomedicines 目前已累计融资近7亿美元,2020年9月,获得 Flagship 的5000万美元融资,2021年11月,该公司完成了3.7亿美元B轮融资,还与安进公司达成了19亿美元的合作。2023年9月,该公司完成了2.73亿美元C轮融资,值得一提的是,C轮投资方还包括制药巨头安进(Amgen)、人工智能计算领导者英伟达(NVIDIA)。

在人工智能革命之前,蛋白质设计方法仅限于基于自然界已有的蛋白质生成设计,起局限性显而易见,因为自然界中的蛋白质只是可能的蛋白质景观的一小部分。相比之下,生成式人工智能方法强调从头设计全新的蛋白质,超越自然界所能达到的范围。

该研究开发的生成式人工智能模型Chroma,能够在外部约束条件下从头设计蛋白质,这些约束条件涉及对称性、亚结构、形状,甚至自然语言提示。研究团队对310个由Chroma生成的蛋白质进行了实验表征,结果显示,这些生成的、自然界不存在的蛋白质可以表达、折叠,并具有良好的生物物理特性。

研究团队还解析了其中2个生成的蛋白质(UNC_079和UNC_239)的X射线晶体结构,结果显示,观察到的结构与预期设计高度匹配(均方根误差分别为1.1Å和1.0Å),这表明了用Chroma生成蛋白质结构是可行的。

Chroma生成的蛋白质的实验验证

探索蛋白质结构空间以产生物理上合理和可设计的构象,一直是蛋白质设计领域长期存在的挑战。现有的蛋白质设计工具往往把大量时间花费在了寻找合理的蛋白质骨架上,而忽略了设计的蛋白质的实际功能。

研究团队表示,Chroma有潜力解决这个问题,使蛋白质设计的重点从生成可行的结构转向特定任务——即设计这个蛋白质要实现的目的是什么。通过对30亿年中进化产生的蛋白质的学习,找到组装稳定蛋白质的新方法,像Chroma这样的生成式人工智能模型已经准备好推动生物分子多样性进入新时代。

Gevorg Grigoryan 博士

论文通讯作者 Gevorg Grigoryan 博士指出,从一开始,可编程性就成为Chroma框架的一部分,因为生产治疗应用需要的不仅仅是生成可以实验验证的蛋白质结构。评估蛋白质功能,例如结合性、异构体控制和酶活性,对治疗潜力至关重要。

他进一步强调,这项研究的一个新颖之处是,在对蛋白质的设计中,目标不再是“想让这种蛋白质起作用”,而是去表征模型。在决定实验验证哪些计算结构时,常用的方法包括一个过滤步骤,在这个步骤中,蛋白质设计者根据他们对生物物理结构的理解来批评设计,例如由于溶解度问题而惩罚疏水区域的过度表达。而在这项研究中,进行进一步实验验证的310个蛋白质是直接从Chroma模型输出中提取的,而不是以这种方式过滤的。从这些蛋白质中,我们看到了很高的成功率,这非常令人兴奋,因为它表明,由Chroma参数化的这个大型蛋白质空间是真实的,并允许更有效的蛋白质设计。

让数据为你工作

蛋白质设计领域的传统“自下而上”方法,基于原子的生物物理动力学模拟蛋白质行为,在逻辑上是“精细和一致的”,但这并没有导致现在可以通过机器学习实现的进步。机器学习方法不是从“第一性原理”开始,评估模拟是否准确,而是从观察开始,推断导致这些观察的原则。

机器学习工具可以让你的数据为你工作,具体来说,Chroma利用扩散模型(Diffusion Model),这是一种在图像生成工具中取得了相当大的成功的机器学习工具,例如Midjourney、OpenAI的DALL-E,以及Stable Diffusion等。这些生成式模型学习它们的训练数据的模式,并生成具有类似特征的新输出。而Chroma同样利用这种框架,使其具有可塑性,可以引入新的可编程条件。

实际上,Chroma并不是唯一利用扩散模型进行蛋白质设计的生成式人工智能工具。

今年7月,著名蛋白质设计专家、华盛顿大学医学院 David Baker 教授团队在 Nature 期刊发表论文,开发并描述了一种从头设计全新蛋白质的AI模型——RoseTTAFold Diffusion(简称RFdiffusion)。该模型能够生成各种功能性蛋白质,包括在天然蛋白质中从未见过的拓扑结构。 

向所有人免费开源

据悉,Generate:Biomedicines已经将Chroma模型背后的代码想所有学术界和工业界的研究人员免费开源,以促进其在生物医学以及纳米技术和材料科学等领域的应用。

David Baker 教授表示,Generate:Biomedicines对科学界开源Chroma模型的决定非常棒,科学界将从有多个生成蛋白质设计模型中受益。也期待在这些模型的基础上创建出更好的蛋白质设计模型。

成立5年,推出17个管线

今年9月份,Generate:Biomedicines 完成了2.73亿美元的C轮融资,此轮融资将用于支持其候选药物——具有泛SARS-CoV-2特异性单抗的首次人体临床试验,以及后续多个临床试验申请。

这款GB-0669候选药物是一种靶向SARS-CoV-2刺突蛋白(S蛋白)高度保守区域的单克隆抗体。此外,该公司还将在今年第四季度提交用于治疗哮喘的抗胸腺基质淋巴细胞生成素(TSLP)单克隆抗体的临床试验申请,预计将在不久之后进入人体临床试验。

据悉,此次C轮融资将支持该公司现有的17个研发项目,这些项目主要集中在三个不同的治疗领域——免疫学、感染性疾病和肿瘤学。

人工智能与湿实验结合

Generate:Biomedicines的技术有两个核心组件,一个是蛋白质的从头设计,计算机在没有预先对感兴趣的靶标结合知识的情况下提出具有结合特异性的蛋白序列,而不局限于免疫系统产生的蛋白。第二个是蛋白质序列的优化,计算出蛋白质是一回事,但使其成为可行的治疗方法是另一回事,这还需要掌握蛋白质的结合亲和力、免疫原性和可制造性。为了解决这个问题, Generate:Biomedicines 创建了一个优化方法,允许他们获得原始的天然蛋白质,并使其成为靶向目标的可行治疗方法。

该公司通过一些早期实验,创造了超过一百万种在自然界中从未存在过的蛋白质,并对其中一些蛋白进行了测试,通过冷冻电镜技术和湿实验确定这些全新蛋白质结构和功能,例如,从头设计了比之前好50倍的绿色荧光蛋白(GFP)。

Generate:Biomedicines 是一家基于人工智能技术的公司,但他们一直尊重实验生物学,实际上,该公司从事湿实验的科学家与从事干实验的科学家一样多。此外,他们还在今年6月份建立了一个先进的冷冻电镜实验室,从而将更好地理解治疗药物与其预期靶标相互作用的精确方式,以加速生成式AI药物的发现和开发。

参考资料

https://generatebiomedicines.com/news/series-c-financing-announcement


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1