编辑 | 萝卜皮
GPT-4 是一种专为语音理解和生成而设计的大型语言模型。
哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。
「注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基因。」Wenpin Hou 博士说。
当对数百种组织和细胞类型进行评估时,GPT-4 生成的细胞类型注释与手动注释表现出很强的一致性。此功能可以大大减少细胞类型注释所需的人类专家工作量和专业知识。并且,研究人员还为 GPT-4 的自动细胞类型注释开发了 R 软件包 GPTCelltype。
该研究以「Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis」为题,于 2024 年 3 月 25 日发布在《Nature Methods》。
细胞类型注释是单细胞 RNA 测序 (scRNA-seq) 分析的基本步骤。这个过程通常既费力又耗时,需要人类专家将每个细胞簇中高表达的基因与典型细胞类型标记基因进行比较。虽然自动化细胞类型注释方法已经开发出来,但手动注释仍然是主流方式。
生成式预训练 Transformer (GPT),包括 GPT-3.5 和 GPT-4,是专为语言理解和生成而设计的大型语言模型。最近的研究证明了它们在生物医学领域的有效性。
在这里,研究人员假设 GPT-4 可以准确地注释细胞类型,将注释过程从手动转变为半甚至全自动程序。GPT-4 具有成本效益,并且可以无缝集成到现有的单细胞分析流程(例如 Seurat)中,从而无需构建额外的流程并收集高质量的参考数据集。GPT-4 的大量训练数据可在各种组织和细胞类型中实现更广泛的应用,其聊天机器人性质允许用户驱动的注释细化。
图示:GPT-4 细胞类型注释示例以及与其他方法的比较。(来源:论文)
该团队系统地评估了 GPT-4 在十个数据集中的细胞类型注释性能,涵盖五个物种和数百种组织和细胞类型,包括正常和癌症样本。
使用他们开发的软件工具 GPTCelltype 查询 GPT-4。对于竞争方法,研究人员评估了GPT-3.5(GPT-4的早期版本)以及 CellMarker2.0、SingleR 和 ScType,它们是自动细胞类型注释方法,提供适用于大量组织的参考。
GPT-4 或竞争方法的细胞类型注释根据其与原始研究提供的手动注释的一致性进行评估。使用数字分数来衡量一致性程度。
分析结果
研究人员首先探讨了可能影响 GPT-4 注释准确性的不同因素。当使用前十个差异基因时,以及当使用两侧 Wilcoxon 检验导出差异基因时,GPT-4 表现最佳。
GPT-4 在各种提示策略中表现出相似的准确性,包括基本提示策略、包含推理步骤的思维链启发的提示策略以及重复提示策略。在后续分析中,GPT-4 和 GPT-3.5 均使用基本提示策略,以 Wilcoxon 检验获得的前十个差异基因作为适用数据集的输入。
在大多数研究和组织中,GPT-4 的注释完全或部分匹配超过 75% 的细胞类型的手动注释,证明了其生成与专家可比较的细胞类型注释的能力。对于来自文献检索的标记基因,这种一致性特别高,在大多数组织中至少有 70% 的完全匹配率。即使通过差异分析鉴定的基因较低,但一致性仍然很高。不过,应谨慎解释 2021 年 9 月之前发布的数据集的结果,因为它们早于 GPT-4 的训练截止时间。
与其他细胞类型相比,GPT-4 对粒细胞等免疫细胞表现更好。它可以识别结肠癌和肺癌数据集中的恶性细胞,但无法识别 B 淋巴瘤,这可能是由于缺乏独特的基因集。恶性细胞的鉴定可以受益于其他方法,例如拷贝数变异。
在包含不超过 10 个细胞的小细胞群中,性能略有下降,这可能是由于可用信息有限。GPT-4注释在主要细胞类型(例如 T 细胞)中比在亚型(例如 CD4 记忆 T 细胞)中更频繁地完全匹配手动注释,而超过75%的亚型仍然实现完全或部分匹配。
图示:评估结果。(来源:论文)
在某些细胞类型中,GPT-4 与手动注释之间的低一致性并不一定意味着 GPT-4 的注释不正确。例如,分类为基质细胞的细胞类型包括表达 I 型胶原基因的成纤维细胞和成骨细胞,以及表达 II 型胶原基因的软骨细胞。对于手动注释为基质细胞的细胞,GPT-4 会分配更高粒度的细胞类型注释,从而导致部分匹配和较低的一致性。
对于手动注释为基质细胞但被 GPT-4 识别为成纤维细胞或成骨细胞的细胞类型,I 型胶原蛋白基因的表达量明显高于 II 型胶原蛋白基因。这与在手动注释为软骨细胞、成纤维细胞和成骨细胞的细胞中观察到的模式一致,表明 GPT-4 为基质细胞提供了更准确的细胞类型注释。
根据平均一致性分数,GPT-4 大大优于其他方法。使用 GPTCelltype 作为接口,GPT-4 的速度也明显更快,部分原因是它利用了来自标准单细胞分析流程(例如 Seurat)的差异基因。鉴于这些管道的不可或缺的作用,研究人员认为差异基因可立即用于 GPT-4。
相比之下,SingleR 和 ScType 等其他方法需要额外的步骤来重新处理基因表达矩阵。与其他免费方法相比,GPT-4 使用在线门户网站需要支付 20 美元的月费。GPT-4 API 的成本与查询的细胞类型数量线性相关,并且本研究中所有查询的成本不超过 0.1 美元。
研究人员通过模拟数据集进一步评估了 GPT-4 在复杂真实数据场景中的稳健性。GPT-4 可以以 93% 的准确度区分纯细胞类型和混合细胞类型,以 99% 的准确度区分已知和未知细胞类型。当输入基因集包含较少基因或被噪声污染时,GPT-4的性能下降但仍然很高。
最后,该团队使用先前的模拟研究评估了 GPT-4 注释的再现性。GPT-4 在 85% 的情况下对相同的标记基因产生了相同的注释,表明具有很高的重现性。两个 GPT-4 版本的注释在大多数情况下显示出相同的一致性分数,Cohen’s κ 为 0.65,证明了显著的一致性。
「所有这些结果都证明了 GPT-4 在各种情况下的稳健性。」Hou 说。
结语
虽然 GPT-4 在细胞类型注释方面表现出色,超越了现有方法,但仍存在需要考虑的局限性。
首先,GPT-4训练语料库的未公开性质使得验证其注释基础具有挑战性,因此需要人工评估以确保注释质量和可靠性。
其次,人类参与模型的可选微调可能会由于主观性而影响再现性,并可能限制模型在大型数据集中的可扩展性。
第三,scRNA-seq数据中的高噪声水平和不可靠的差异基因可能会对GPT-4的注释产生不利影响。
最后,过度依赖 GPT-4 可能会引发人工智能幻觉。
研究人员建议在进行下游分析之前由人类专家验证 GPT-4 的细胞类型注释。
论文链接:https://www.nature.com/articles/s41592-024-02235-4
相关报道:https://phys.org/news/2024-03-gpt-cell-cells-outperforms-expert.html