当前位置:首页|资讯|人工智能|ChatGPT

同济开发T细胞受体的特异性识别工具,可用于肿瘤新生抗原识别

作者:DeepTech深科技发布时间:2023-07-17

原标题:同济开发T细胞受体的特异性识别工具,可用于肿瘤新生抗原识别

现如今,AI 领域都在谈论大模型和大数据。像 ChatGPT 等大模型一般具备两个特点,一是需要巨大的参数量,二是需要经过预训练过程,才能实现在特定任务上解决问题的能力,这是目前可能实现通用人工智能的路径之一。

“一直以来,我们主要研究生物医学领域。由于收集该领域的标记样本需要花费更高的成本,因此我们也同时关注小样本学习的场景。这项研究使用的元学习方法,是小样本学习中一种非常典型的研究思路。我认为大模型预训练的思路和小样本元学习的思路是当前生物医学领域人工智能发展的两个重要的思路。”同济大学刘琦教授表示。

图丨(来源:刘琦)

在免疫学研究中,有一项非常基础且颇具挑战性的问题,即抗原和 T 细胞受体(T-cell receptors,TCRs)亲和力的特异性识别问题。

如果能够特异性地准确预测上述两者之间的亲和力,将有助于解决诸多与免疫学研究和临床转化相关的问题,比如有助于肿瘤新生抗原识别、T 细胞受体嵌合型 T 细胞疗法(T Cell Receptor-Gene Engineered T Cells,TCR-T)等细胞治疗方法的开发,以及外来入侵病毒和机体相互作用等方面的研究。

长期以来,刘琦团队将肿瘤的新生抗原识别研究作为重点研究方向之一。近年来,他们在寻找肿瘤的新生抗原、评估肿瘤新生抗原的免疫原性方面做出了系列研究成果。

经过长期的研究发现,现存的 AI 工具在准确预测和识别抗原与 TCR 配对方面,面临着巨大的挑战。其只能从已知的 TCR 结合库中对曾经见过的抗原进行 TCR 亲和力识别,而不能识别从未出现在免疫系统中的抗原。

这主要是因为,从 AI 的角度来看,目前该领域的先验样本不足,给 AI 模型的训练造成了障碍;同时,由于 TCR 受体的多样性,模型训练本身非常困难,如同大海捞针。

并且,模型训练还需要依赖实验记录的数据,而后者在免疫学领域呈现长尾分布的特点,这让普通的 AI 模型只能学到长尾分布的头部数据所呈现的抗原-TCR 结合模式,但无法学到小样本数据的内在结合模式,即识别长尾分布的中部数据以及尾部数据。在这种条件下,极易训练出具有偏见的模型。

因此,为了能够实现新生抗原与 TCR 配对的准确预测和识别,该团队结合元学习和神经图灵机的思想,开发了一个泛肽元学习(Pan-Peptide Meta Learning,PanPep)的 AI 模型。

据了解,该模型具有良好的通用性和鲁棒性,能够准确预测 TCR 和长尾分布下的各类肽结合的特异性,尤其是免疫系统从未见过的肽,即新生抗原。

图丨PanPep 框架的说明(来源:Nature Machine Intelligence)

为了证明该模型相较同类工具的优越性,以及其在特定研究领域下的应用效果,他们还做了许多验证性测试,比如,对 T 细胞的克隆和扩增进行定性测量;在肿瘤新生抗原治疗中对反应性 T 细胞进行筛选;在一项新型冠状病毒肺炎研究的大型队列中,准确识别免疫应答性 TCR。结果表明,该模型优于现有的工具。

2023 年 3 月 6 日,相关论文以《T 细胞受体-抗原结合识别的泛肽元学习》(Pan-Peptide Meta Learning for T-cell receptor–antigen binding recognition)为题在 Nature Machine Intelligence 上发表[1]。Nature Machine Intelligence 同期进行了 Research Highlight,指出 PanPep 的思想适用于解决生命科学领域普遍存在的数据长尾分布问题。

同济大学博士研究生高溢骋和高雨莉为该论文的共同第一作者,刘琦教授担任论文的通讯作者。

图丨相关论文(来源:Nature Machine Intelligence)

据刘琦介绍,Nature Machine Intelligence 是人工智能领域具有代表性的国际学术期刊。论文投稿至该期刊,经过两个月的审稿过程即被接收。同时,审稿人也给出了非常正面的评价,认为该研究发展了元学习在生物信息学领域的开创性应用,为解决细胞治疗、抗原识别等问题提供了具有创新性的 AI 框架,有望推广到更多生物学问题的应用上。

目前,该模型在零样本场景下(zero-shot)的性能可达 70%。因此,该团队希望接下来对其性能进一步优化,使其能够在肿瘤新生抗原的识别上得到良好的应用。此外,他们也正在和一些聚焦 TCR-T 疗法的实验科学家和公司开展合作,计划将该工作向临床应用层面进行推进。

“我们团队所开展的工作,主要聚焦于发展组学挖掘的 AI 计算方法和计算模型,以赋能数据驱动的精准医学研究,这项研究也不例外。而在生物医学领域发展基于小样本学习的研究范式,是我们课题组所关注的一个重要研究方向,因为生物医学领域的样本标注成本更高,表型相关的样本获取难度更大,很多场景下,并没有足够多的样本让我们去训练大模型,这也是我想通过该研究所传递的一个信息。”刘琦说。

参考资料:

1. Gao, Y., Gao, Y., Fan, Y. et al. Pan-Peptide Meta Learning for T-cell receptor–antigen binding recognition. Nature Machine Intelligence 5, 236–249 (2023). https://doi.org/10.1038/s42256-023-00619-3


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1