近年来,大语言模型的出现革新了自然语言处理领域。ChatGPT,Claude-2等模型已经深入到人们的日常生活中了如语言翻译、信息获取、代码生成。但这些语言模型在自然语言和代码语言上极强的处理能力并不能迁移到生物序列(如蛋白质序列)上。当让其描述一条蛋白质序列的功能或者生成一条符合某种性质的蛋白质,它们常常不会遵从指令,或者给出错误答案。文章认为这一现象的出现是因为当前蛋白质-文本对数据集存在两个缺陷:(1)缺乏指令信号;(2)数据注释的不均衡。这两个缺陷导致模型对蛋白质序列建模效果不好且无法有效理解用户...【查看原文】