文/陈根
近日,ChatGPT大火。作为Open AI发布的自然语言新模型,很多人形容ChatGPT是一个真正的“六边形战士”——不仅能拿来聊天、搜索、做翻译,还能撰写诗词、论文和代码,甚至开发小游戏、参加美国高考等等。诞生不到2个月,ChatGPT已经撼动了许多领域。
ChatGPT写出的论文质量极高,教育系统甚至已经开始考虑“封杀”这个程序,以防学生利用它作弊;也因为即便是专家也难以区分这些内容是否来自AI,《自然》在内的多家科学杂志也要求论文中需要明确指出是否使用了ChatGPT。连马斯克也感叹:“我们离强大到危险的人工智能不远了”。
现在,生物学领域也正在尝试仿造出一款生物学界的“ChatGPT”——ProGen。要知道,ChatGPT背后的大型语言模型利用对海量人类语言数据的分析,学习人类语言的语法和其它特征。基于此,科学家们也利用了与ChatGPT背后AI模型类似的算法,并给ProGen的模型输入了约2.8亿个蛋白质序列,它们来自近两万个蛋白家族,并且包括描述蛋白特征的信息。从中,ProGen学习到了蛋白中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。
作为一款能从头生成人工蛋白的AI系统,在实验检测中,ProGen生成的蛋白酶虽然氨基酸序列与大自然中发现的天然酶迥然不同,但是功能却可与之媲美。研究人员表示,这一新技术可能比获得诺贝尔奖的定向进化(directed evolution)蛋白设计技术更有威力,给蛋白工程学领域注入新的活力。
ProGen利用语言模型生成全新蛋白,为蛋白设计和新药开发增添了基于AI的新策略。在日前结束的第41届JP摩根医疗健康大会上,科技公司Nvidia的报告指出,AI生物学领域近年来突飞猛进,能够像人类一样输出创新内容的生成式人工智能(generative AI)和在ChatGPT和ProGen背后的大型语言模型(LLM)将促进生物学的工程化。或许很快,基于AlphaFold精准解析蛋白质三维结构,再加上能从头生成人工蛋白的ProGen就会给生物学领域带来一场新的变革。