ChatGPT尤其是GPT-4的问世是生成式人工智能应用的突破,而生成式AI驱动药物研发也有很长的实践。英矽智能(Insilico Medicine)是全球率先将生成式AI应用于药物发现领域的公司,已经成功赋能多款抗肿瘤候选药物的发现和设计,部分最新成果在4月14日-19日举办的美国癌症研究协会年会(AACR)上发布。
前不久,英矽智能宣布通过多模态生成式强化学习平台Chemistry42基于结构生成化学分子的药物设计方法,成功发现了一款有效的、具有选择性的、口服CDK8抑制剂,有潜力用于癌症的治疗。
近日,「明亮公司」对话了英矽智能创始人兼CEO Alex Zhavoronkov博士,讨论了ChatGPT能否为生物制药行业带来变革,以及生成式AI在新药研发中的成果及前景。
Alex Zhavoronkov(来源:受访人提供)
2016年英矽智能发表了第一篇将生成式人工智能应用于药物化学领域的研究论文,此后,在早期论文的基础上,英矽智能构建了人工智能药物研发平台Pharma.AI,其下的3款引擎都在一定程度上使用了生成式AI。英矽智能的算法核心也从生成对抗网络(GANs)起步,后又加入了强化学习、Transformers机制和预训练模型等现代机器学习算法。
Alex表示,谷歌是Transformer领域真正的先驱者,2017年在神经信息处理系统会议(NIPS,后改名NeurIPS)上,谷歌团队发表了论文“Attention is all you need”提出了Transformer的概念。
到2023年1月,这篇论文被引用超过6.2万次,成为人工智能领域被引用次数最多的论文之一。另外,像GPT-4这样的多模态Transformer也不是新事物。它们最初由DeepMind开创,第一批论文大约在9个月前发表。最近,谷歌也发布了名为PALM-E的高度多模态转化器,它比GPT-4更小,但包含了更多的数据模态。
英矽智能的Chemistry42平台建立在多年对大型生物、化学和文本数据集建模和训练的基础上,包括42个生成式AI模型和超过500个用于评分的预测模型,帮助研究人员通过基于结构的药物设计(SBDD)和基于配体的药物设计(LBDD)思路,利用尖端深度学习技术从头开始生成具有所需特性的分子。
Alex介绍,这42种生成式AI模型包含了GANs、大语言模型等多种可生成虚拟分子结构的算法;而评分预测模型可以判断每种模型所生成的候选分子是否达到所需特性,包括分子能否合成、分子结构是否稳定、有没有靶点选择性等。他表示:“我们还有过滤模型对未达标的分子结构对应的生成算法进行惩罚,反之则进行奖励,以过滤掉不准确的分子。这与ChatGPT的强化学习(RLHF)模型是一样的道理,ChatGPT使用了预训练数据集,而我们训练时使用的是实时数据。”
英矽智能已将基于大型语言模型最新进展的高级AI聊天工具ChatGPT集成到它的 PandaOmics平台中,PandaOmics是拥有21种算法的靶点识别平台。新功能「ChatPandaGPT」使研究人员能够与平台进行自然语言对话,并有效地导航和分析大型数据集,以更有效的方式促进潜在治疗靶点和生物标志物的发现。
虽然Chat-4在消费者场景中已经是现象级产品,但Alex表示,以ChatGPT系列为代表的这些生成式AI模型对制药业来说并不成熟,既不能用于靶点发现,也不能用于分子生成,更不能用于临床试验预测。如果要真正做到为新药研发提供帮助,这些模型需要在专门的生物和化学数据上进行训练,然后由专业的科学家对他们的训练结果提供反馈,而不仅仅是由OpenAI通过对公众开放收集反馈这样易于达成。
ChatGPT之所以更适用于消费者场景,是因为它会优先考虑用户体验,比如在几秒钟内就能响应。但药物研发领域的产品优先考虑的是准确性而不是用户体验。Alex表示,AI药物研发平台分析处理生物数据并获得潜在靶点可能需要几分钟,针对特定蛋白生成新颖分子的时间可能是几小时到数十个小时。
其次,ChatGPT也非常善于处理自然语言。拼写、语法、甚至风格都接近完美,而且它非常友好地避免了攻击性或争议性的话题,这应该是OpenAI通过雇佣大量的AI训练师和慕名而来的大量“野生”AI训练师共同训练而实现的。这个过程可以简单的理解为从人类反馈中强化学习(RLHF),这也是OpenAI是如何使这个系统对人类如此友好的秘诀所在。
Alex认为:“当涉及到医疗健康领域时,考虑到对准确率和对专业知识的需求,无论是消费领域还是专业领域,我将完全避免在这些领域使用它。而且目前,即使ChatGPT提供的参考资料通常也是错误的。这或许是因为维基百科在ChatGPT训练中发挥了非常大的作用。维基百科有大量的人为偏见。即使涉及到科学,维基百科也常存在偏见,并不总是包含所有的关键论文参考文献。”
他表示,我们也不应该信任ChatGPT所参与填写的一些报告。虽然在美国,一些医生已经用ChatGPT处理保险索赔等信息。这些不准确的信息不应在未来被用于训练专门的系统,“说到这里,我更期待在生物医学和医疗健康领域出现类似ChatGPT的专门系统。这将需要从Nature、Elsevier等主要出版集团获取生物医学文献的全文。另外,ChatGPT也给了我另一层启发,英矽智能在过去10年里设法建立的大规模专业数据库也比我想象的要有价值得多。当然我们也使用了专家级的数据清洗团队和AI训练师来训练,使我们的平台和算法组合更精确。同时,我们的平台还经过了专家使用者的验证和反馈。”
Alex还表示:“在基于外部数据训练时,我们需要的并不是合作方的数据,而是数据训练后的反馈。根据反馈结果的筛选,一些实验就没必要做了,节省了大量的研发支出。”
他进一步指出:“这一点也使全球化布局的AI制药企业有更多竞争优势。相对而言,海外的公司或跨国药企对于AI制药的认可度和信任度更高,这使得海外或全球化的AI制药公司更易达成合作。另外,考虑到不确定的国际关系,全球客户与中国的AI制药/AI+CRO公司合作时可能有所担忧。虽然他们可以在国内进行训练,但他们在获得药物研发专家验证和反馈方面可能会受到影响。”他表示:“英矽是一家全球化的企业,我们的合作伙伴能放心地使用我们的软件平台,他们能够规避风险,而我们也不会获取他们的数据。”
Alex总结,现在面临的真正问题是,我们可能知道所有人类生物学、化学和物理学的0.1%,而对于如何改变它我们更是一无所知,即使有生成式AI的重大进展,也不可能从0.1%产生100%的知识。
生成式AI可能在某种程度上帮助我们发现靶点、生成分子,甚至从无到有产生一些新颖的想法,但在很长一段时间内,它不会取代实验,“这就是为什么,我们在苏州的BioBAY建立了世界上最大的全自动化生物目标发现实验室之一。这些实验室是专门为使用生成式AI而设计的,也将为生成式AI提供了生物数据。”
2022年底,英矽智能第六代AI控制的全自动化机器人实验室已在苏州启动。在实验室中,经过英矽训练和验证的AI大脑可高效提出靶点假设、设计自动化实验和工作流程,并基于实验结果反馈理想靶点。
另外,英矽智能已经建立了基于生物学(基因组学)数据的多模态Transformer,日后还将以论文发表新的研究结果。
本文来自微信公众号 “明亮公司”(ID:suchbright),作者:罗宾,36氪经授权发布。