当前位置:首页|资讯

北大高歌教授综述:生物信息与大语言模型

作者:生信宝典-陈同发布时间:2024-10-22

来源:生物信息与育种      2024年6月,北京大学高歌教授课题组在Quantitative Biology期刊上发表了一篇题为“Foundation models for bioinformatics”的前瞻性综述。文章从基于文本的大语言模型在生物学信息任务上的应用与基于生物学数据预训练的基础模型两个角度探讨了基础模型对生物信息领域的影响,目前的发展与局限性,及潜在的发展方向。


摘要

基于Transformer的基础模型,如ChatGPT,已经彻底改变了我们的日常生活,并影响了包括生物信息学在内的诸多领域。这篇文章首先讨论了文本基础模型在生物信息学任务上的直接应用,重点讨论了如何最大限度地利用标准的大语言模型,并减少它们固有的缺陷。同时,探讨了为生物信息学量身定制的基于Transformer的基础模型,这些模型既适用于序列数据也适用于非序列数据。特别展望了生物信息学基础模型的进一步发展方向以及面临的挑战。

简介

深度学习正在经历一场范式转变,随着大规模基础模型的兴起,这些模型在大量数据集上进行预训练,并适应多种下游任务。这些模型的基础性质不仅突显了它们广泛的应用,也意味着它们的不完整性。在这里,我们将关注两个主题:用于基于文本的生物信息学数据挖掘的标准文本大型语言模型(LLMs)和为生物数据适应的基础模型(图1)。


大多数基础模型都基于Transformer架构。Transformer背后的关键概念“注意力”,强调了token间的关系,最初在bi-LSTM网络上以“加性注意力”的形式出现在公众视野中。后来在2017年,注意力机制进一步转变为“点积/乘性注意力”设置,被命名为Transformer,具有高达数十亿参数的高可扩展性,使得可以在大量未标记数据上以自监督的方式进行并行预训练。预训练策略主要分为两类:仅编码器(BERT类)架构,采用自编码掩码语言模型训练目标;仅解码器(GPT类)架构,采用自回归因果语言模型损失。

经过面向聊天的微调和对齐后,这些预训练模型成为了我们现在日常生活中遇到的标准化文本LLMs,包括ChatGPTs、Claude、Gemini,以及LLaMA和BLOOM家族。生物和生物医学信息挖掘已经被广泛采用作为这些LLMs的直接下游应用。同时,Transformer架构已经被适应到生物序列,如DNA、RNA、蛋白质,以及可序列化数据,如单细胞组学和小分子,这些得益于Transformer的可扩展性和容量。

生物信息学的文本型大语言模型

大型语言模型的内在逻辑推理能力,源于它们提取输入文本的句法和语义结构的能力,使LLMs成为对大量文献进行上下文敏感总结的有效“AI读者”。这些能力使LLMs能够参与数据库的传统手动整理过程。此外,经过进一步对比性微调的LLMs可以生成给定句子的语义特征向量表示(见OpenAI的APIs),将它们的能力从基于关键词的搜索扩展到基于语义的搜索。同时,LLMs可以被视为关于生物概念的“知识库”。有几项研究测试了LLMs在生物问题回答上的表现,包括基因相互作用、生物途径、基因组功能和基于标记基因的细胞类型注释。特别是,已经很好地证明了针对生物医学定制的LLMs在医学文献上训练能够更好地理解和回答特定领域的问询。值得注意的是,当前LLMs存在幻觉(定义为“生成语法和语义正确但不符合事实或无意义的文本”)的事实使它们成为生物信息学工作流程的好副驾驶,而不是可靠的顾问。例如,在Reactome整理试验中,ChatGPT被查询以获取昼夜节律途径的额外参与者。ChatGPT提出了13个候选者,其中7个有文献支持但在传统手动整理中被忽视,5个无法确认,1个不准确。

已经展示出几种策略可以提高LLMs在现实世界中的可用性。

  1. 提示词(prompt)调整总是你在遇到LLMs问题时的首选。以前的工作展示了角色提示、思维链提示和上下文学习在基因关系挖掘中的重要性,并促进了一种迭代提示细化策略以提高性能。

  2. 众所周知,LLMs容易幻觉,并且不能说出未知的事物,特别是当被问及详细问题或超出训练语料库知识库的问题时。尽管流行的LLMs的预训练语料库包括几个生物数据库,如PubMed摘要和PubMed Central全文,但仍然可能需要将更多生物文本纳入预训练过程,以减轻与生物学相关的任务中的幻觉。

  3. 提取增强生成(RAG)已被建议用于抑制幻觉。RAG背后的关键是通过基于文本嵌入的数据库搜索直接提供额外信息到LLMs的聊天上下文中。LLMs的推理过程可以利用这些信息更好地处理下游任务。

  4. 更一般地说,像ChatGPTs这样的现代聊天机器人已经被预训练以理解API并以JSON对象表示法模式返回,它们知道何时以及如何调用作为插件提供的函数或工具来加强自己。这些插件函数可以注入额外的能力到LLMs中,以支持RAG的向量数据库搜索、网页浏览和PubMed搜索等。这些插件和不断增长的模型规模可能会进一步提高LLMs处理生物任务的能力。

生物数据的基础模型

接下来,我们讨论在生物数据上预训练的基础模型,包括生物序列数据(DNA、RNA和蛋白质)以及可以序列化的数据(小分子和单细胞组学)。Transfomer架构天然适合于生物序列,在为序列数据设计基础模型时有几个关键选择。

  1. 我们是否应该选择类似BERT的结构,它擅长提取有意义的嵌入,还是选择类似GPT的结构,它利用生成能力。简而言之,对于类似BERT的模型,从大规模预训练数据中学习到的表示是每个标记(即氨基酸或核苷酸)的上下文表示,某种程度上是多序列比对(MSA)的替代。上下文化表示可以进一步用于多种下游任务,包括结构预测、突变效应推断和功能属性预测。相反,类似GPT的模型可以适应基于控制标签的从头蛋白质生成或具有高多样性和成功率的蛋白质工程任务。

  2. 是否在单条序列还是MSA级别进行预训练。

  3. 我们标记和建模序列的规模:DNABERT-2使用字节对编码算法对DNA序列进行标记,并将多个残基视为一个标记以提高计算效率,而ESM All-Atom选择在预训练期间将残基表示扩展到原子级别,以进行更细粒度的建模,并结合了小分子模式。

就像Transformer在计算机视觉中的应用,它也可以适应其他可序列化的生物数据。小分子可以轻松序列化为SMILES字符串并输入变换器以学习表示,以预测分子属性、药物-靶标相互作用和其他功能任务,从而促进药物设计。对于单细胞组学,序列化和应用transformer架构更具挑战性。Geneformer、GeneCompass和Nicheformer通过只考虑个别基因归一化表达的相对排名来序列化单细胞计数矩阵。同时,scBERT、scGPT、scFoundation和xTrimoGene将经典变换器模型中的位置嵌入替换为基因嵌入,并将分箱或转换的表达视为标记。

从预训练模型中得到的上下文化基因级嵌入、细胞级嵌入和注意力模式可以为下游任务量身定制,包括细胞类型注释、扰动分析、调控网络推断等。

另一项工作将文本LLMs作为单细胞分析的外部知识引入。GenePT和scELMo利用基于文本LLMs的嵌入作为上述基于表达的嵌入的正交方法,用于下游任务。由于已经证明LLMs可以生成句子的语义嵌入,这些研究为文本LLMs提供基因和细胞的文本摘要,以生成文本基因/细胞嵌入,并根据表达式配置文件聚合它们,以生成用于下游任务的细胞嵌入。这些研究提出了将文本和生物学基础模型整合以提高性能、可用性和可解释性的新方向。

讨论与展望

到目前为止,基于transformer的基础模型仍然存在一些限制。可解释性最初被认为是transformer架构的优势,因为“注意力”应该突出序列内的相互关系。然而,后来的工作发现,解释和“注意力”之间仍然存在差距,需要额外的步骤。尽管不考虑位置嵌入的情况下,transformer操作本身可以应用于任何长度的序列,但其空间和时间复杂度随着序列长度的增长而呈二次方增长,因此限制了输入上下文的长度。该领域正在呼唤新一代的transformer操作替代品,而不损害其可扩展性和网络中长距离依赖之间的O(1)信息路径长度。这一目标可能通过(1)更好的内存限制处理实现,(2)稀疏或低秩近似,以及(3)利用状态空间模型或其他形式来实现。

生物信息学基础模型的进一步发展指出了几个方向。

  1. 文本LLMs在更多生物信息检索任务上的能力边界需要进一步测试,并且可以通过插件来增强LLMs。

  2. 特别是,随着该领域已经学到“痛苦的教训”,即规模法则是当今LLMs成功的秘诀,将基础模型扩展到数十亿参数以用于生物数据仍有待测试。需要更多的研究来回答这一领域有哪些新出现的属性。模型规模的增长反过来又迫切需要更多的经过良好清洗的开源生物数据。

  3. 从文本、图像和声音的多模态模型的成功中汲取灵感,跨不同种类的生物序列、不同的单细胞组学、生物医学图像和组学的多模态模型也是有趣的话题,并且正吸引越来越多的关注。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1