ChatGPT运用一种被称为自然语言处理的AI技术让其像人类一样回答问题。自然语言算法可以快速分析语言并预测对话中的下一步,它也可以用于生物数据。日前,致力于AI新药研发的医图生科正在搭建生物制药领域的“ChatGPT”模型:AceGPT。这是一种AIGC(人工智能内容生成)模型,旨在提高药物研发效率,降低药物研发门槛,构建AI药物研发基础设施。
ChatGPT为何火爆?
2022年11月30日,ChatGPT面市,瑞银发布研究报告称,截至2023年1月ChatGPT月活跃用户估计已达1亿,成为历史上用户增长最快的消费者应用。该报告援引分析公司Similar Web的数据称,1月,全球每天约有1300万独立访问者使用ChatGPT,是2022年12月的两倍多。
ChatGPT之所以如此火爆,一个原因是自然语义和对话式搜索功能使得它可以更精准地获取相关信息,更人性化的对话语言和内容极大地提升了用户的互动体验,另外ChatGPT还可以通过更为复杂和精准的算法进行深度学习和训练人机之间的对话,高度模拟真实的人类对话,从而更贴近人性化,更容易被用户所接受。
ChatGPT依赖于人类反馈强化学习(RLHF)训练模型。简单说,ChatGPT是通过和AI训练员对话来提升自己的自然语言处理能力,尤其是提高回答的逻辑性,ChatGPT最大的特点就是会承认自己的局限性,通过人类对话细节给出人类可能想要的答案。未来ChatGPT的数据积累也会越来越大,能够应对的事情也越来越多。
ChatGPT技术特点
ChatGPT是自然语言处理(NLP)中一项引人瞩目的进展,它阅览了互联网上几乎所有数据,在超级复杂的模型之下进行深度学习。因为语言是人类智慧、思维方式的核心体现,因此,自然语言处理被称作“AI皇冠上的明珠”。而ChatGPT的出色表现,被认为可能是迈向通用型AI的一种可行路径——作为一种底层模型,它再次验证了深度学习中“规模”的意义。
其主要技术特点为,一是Transformer架构。Transformer是一种基于注意力机制的神经网络架构,用于处理序列数据,如文本。Transformer可以自动学习到语言特征和语法结构,从而提高模型的语言理解能力。二是预训练技术。预训练技术是指使用大量的语料数据(包括成千上万的维基百科条目、社交媒体帖子和新闻文章,来学习句子、单词和部分单词之间的关系),在训练前对模型进行预处理,以便获得更好的语言和知识表示。预训练技术可以提高模型的泛化能力,使其在新任务中更好地工作。
创新药领域ChatGPT变革蓄势待发
在寻找新型抗病药物的过程中,制药商长期以来都是通过一种费力的试错过程来确定合适的化学成分。但如果人工智能(AI)可以预测新药物的分子构成,事情会有什么变化?
最近大火的软件ChatGPT是OpenAI公司运用一种被称为自然语言处理的AI技术让其像人类一样回答问题。这种方法利用了一点,即生物密码与搜索查询以及电子邮件文本之间有一个共同点:它们都由一系列字母来表示。
蛋白质是由几十个到数千个被称为氨基酸的化学结构单元所组成,科学家会使用特殊的符号来记录这些序列。由于每个氨基酸对应词表中的一个单字,因此蛋白质用符号表示出来就像是一串长句。
自然语言算法可以快速分析语言并预测对话中的下一步,它也可以用于这类生物数据来创建蛋白质-语言模型。这些模型会对所谓的“蛋白质语法”——也就是确定哪些氨基酸组合能产生特定疗效的法则——进行编码,进而预测有望构成新药物分子基础的字母序列。如此带来的效率提升,有望使得药物研发初期所需的时间从数年缩短至几个月。
过去两年间,包括默克公司(Merck&Co.)、罗氏控股(Roche Holding AG)旗下Genentech在内的企业以及许多初创企业如医图生科,已开始借助AI自然语言处理研发新药。这些企业希望这种方法不仅可以提升现有药物和候选药物的有效性,还能开启一扇通往未知分子的大门,届时人们或许可以利用这些分子来治疗目前难以找到更有效药物的疾病。
医图生科在成立一年多时间内,凭借“医图AceMap智能药物研发平台”实现了AI新药研发领域的技术突破,以三大AI智能药物研发平台:医图AceMap智能药物(靶点发现及基因组学)研发平台、医图AceMap智能药物(分子设计)研发平台、医图AceMap智能药物(合成生物学、抗衰物质)研发平台,在AI新药研发领域筑起技术高地。公司AI新药研发平台在全新靶点的背景下完成有效活性药物设计并进行化学合成/生物表达的时间可以控制在2-3个月,比传统企业减少约70%,研发成本也降至传统药企的10-20%。
有消息称,医图生科正在搭建生物制药领域的模型:AceGPT,这是一种AIGC(人工智能内容生成)模型,旨在提高药物研发效率,降低药物研发门槛,构建AI药物研发基础设施。该模型与医图AceMap智能药物研发平台融合之后,将为新药研发行业创造更多奇迹。
医图生科小分子平台能够完成针对全新靶点的小分子DeNovo生成、成药性/可靶性评估、高通量虚拟分子筛选、ADME/T预测,以及化合物合成,最终推动到IND。另外,大分子药物设计一直是制药领域的重大难题之一。医图生物大分子及合成生物学AI平台的核心在于将基因工程技术和人工智能深度结合。
人工智能和生物技术的研究正处于黄金时期。语言生成模型如ChatGPT在对话系统领域取得了很大的突破,医图生科的科研团队正在探索在生物制药领域搭建类似的人工智能模型AceGPT。目前,医图生科共有8条在研管线,2条完成了里程碑License Out锁定。如果医图生科AceGPT开发完成,将与其AI新药研发平台融合,并深入到多个自有管线项目的应用。