上海交大洪亮团队提出CPDiffusion模型，超低成本、全自动设计功能型蛋白质

作者：HyperAI超神经发布时间：2024-09-24

蛋白质是生命活动的主要执行者，其结构与功能之间的关系一直是生命科学领域研究的核心议题。近年来，随着深度学习的兴起，借助其强大的数据处理能力，让模型学习蛋白质序列、结构及其功能之间的映射关系，设计出具备更高稳定性、更强结合亲和力、更高酶活性的新型蛋白质，可以大幅提升蛋白质设计的效率，并有效降低其研发成本。

然而，现有方法通常需要在大规模数据集上训练一个参数量极大的模型，难以推广到同源序列稀少的特异蛋白上，往往也只能生成结构、功能相对简单的蛋白质。此外，实验验证表明，设计出的蛋白一般活性较低，能够超越野生型蛋白质的更是凤毛麟角。

对此，上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮课题组的助理研究员周冰心等人，设计了一种扩散概率模型框架 CPDiffusion，该框架结合蛋白质骨架结构、活性位点等多种生成条件，能够以非常低的训练成本、数据成本，学习蛋白质的序列、结构与功能之间的隐含映射关系，进而生成多样化的蛋白质序列，这些生成的序列能够在湿实验验证中以极高的成功率通过测试。

值得注意的是，CPDiffusion 的训练和推理过程几乎不需要专家指导，可自动识别高度保守的区域，进而在确定保守区功能的基础上，在非保守区域引入更多的变化，提高所生成序列的多样性。该研究以「A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity」为题，发表于 Nature 旗下 Cell Discovery。

研究亮点：

* 该研究成功设计并生成内切核酸酶 KmAgo、PfAgo，它们的 DNA 剪切活性最高提升 10 倍以上，显著高于现在已发现的中温野生型蛋白活性

* 该研究可一次性改变数百个氨基酸，为蛋白质工程研究提供了更多的可能性

* 多样化生成的新型蛋白序列还能扩展蛋白质家族的数据库，为科学家们提供更为丰富的研究资源

论文链接：
https://www.nature.com/articles/s41421-024-00728-2
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：确保样本多样性，避免数据偏见

为了学习蛋白质序列-结构-功能之间的映射关系，CPDiffusion 模型用 CATH 4.2 中的 2 万条野生型蛋白质进行训练，此外，研究人员还在训练集中加入了 694 条 pAgos 蛋白质，用于强化模型对待生成蛋白质特征的理解。

这些蛋白质来自先前研究中整理的 pAgo 蛋白质家族，包括短型、long-A、long-B 型的 pAgo 蛋白质，确保了所选样本的多样性，以此减少可能存在的数据偏见问题。此外，数据集中大多数 WT 蛋白质是中温 pAgos，仅有少数 long-A pAgo 蛋白质属于嗜热型。

模型架构：6 步法自动设计 pAgo 蛋白

为了验证 CPDiffusion 对功能性蛋白质的生成效果，研究人员选择将关注点放在 pAgo 蛋白上。pAgo 蛋白是一种在原核生物 DNA 干扰过程中起重要作用的内切核酸酶，能够特异性地识别并切割特定的单链 DNA 或 RNA 序列，在诊断学领域具有广泛的应用价值。此外，pAgo 蛋白对底物具有高度亲和力，并能够特异地识别目标序列，这使得它们成为成像和基因编辑的重要工具。

研究人员利用 CPDiffusion 框架设计新型 pAgo 蛋白，如下图 a 所示，首先将输入蛋白质 (Original pAgo) 的序列和信息转化为一种图表示，这种图表示在氨基酸层面展示了蛋白质的分子生化和拓扑特性。如图 b 所示，蛋白质进入前向扩散 (Forward Diffusion) 阶段，原始蛋白质中的每种氨基酸类型都会遵循某个替换概率矩阵，在一系列步骤（T 步）中被破坏，直到整个序列变得均匀分布。

如上图 c 所示，在逆向扩散 (Reverse Diffusion) 阶段，研究人员从 20 种均匀分布的氨基酸类型中随机抽样氨基酸，随后，对蛋白质序列逐步去噪。如上图 d 所示，在去噪过程中，研究人员依据一些条件（如目标蛋白质的野生型骨架结构 Backbone、二级结构 Secondary Structure，以及基于野生型蛋白质的氨基酸替换矩阵 Transition Matrix 等）来指导这一过程。为了确保模型能够学习到蛋白质三维结构中隐含的等变性，研究人员使用了一个等变图卷积层来拟合传播函数。随后，该模型会生成蛋白质骨架上每个氨基酸位置的联合概率分布，通过对学习到的分布进行采样 (Sampling)，研究人员可以得到相应的蛋白质序列 (Generated pAgo)，如上图 e 所示。

接下来，研究人员使用 AlphaFold2 对生成的序列进行结构预测，并通过评估 RMSD 和 pLDDT 等指标来筛选出合适的序列。最后，如下图 f 所示，这些合适的序列会在实验室中通过湿实验（实验合成 Synthesis、表征 Characterization 和评估），进一步确认它们的实际特性，如表达水平、酶活性和热稳定性等。

实验结论：新型蛋白质活性、热稳定性更强

研究人员以嗜温 pAgo 蛋白（如 KmAgo）、嗜热 pAgo 蛋白（如 PfAgo）作为候选蛋白，进一步生成两组新蛋白质序列。如下图所示，利用生成和筛选框架 CPDiffusion，研究人员成功生成了 27 种新型人工 KmAgos (Km-APs) 和 15 种新型人工 PfAgos (Pf-APs)。这些新生成的蛋白质，与原始的野生型 (WT) 模板相比，有 50%-70% 的序列同一性，与其他非模板 WT 蛋白质（即 NCBI 数据库中的其他 WT 蛋白）相比，序列同一性则低于 40%。
* KmAgo 是一种中温酶，野生型的 DNA 切割活性相对较低，限制它在实际应用中的潜力

* PfAgo 是一种超高温酶，野生型的 DNA 切割活性更高，但通常仅在高温下发挥作用，随着温度下降，活性也会随之减弱

值得一提的是，CPDiffusion 的训练和推理过程几乎不需要专家指导，可自动识别高度保守的区域，从而在确定保守区功能的基础上，在非保守区域引入更多的变化，提高所生成序列的多样性。

通过多种实验验证，如下图所示，研究人员发现为 KmAgo 生成的新序列中，所有序列都能够表达。将近 90% 的新序列具备 DNA 切割活性，超过 70% 的序列表现出比野生型更高的活性，其中，表现最佳的新 KmAgo 活性比野生型 KmAgo 高出将近 9 倍。此外，相较于野生型 KmAgo，部分 Km-AP 的热稳定性也得到了增强。

e: 37 °C 下 27 种 Km-AP 的 DNA 切割活性
g: 27 个 Km-AP 中，发挥不同作用的蛋白质数量
f: 42°C 下培育 2min 和 5min后，WT KmAgo 和 27 种 Km-APs 的 DNA 切割活性

如下图所示，在为 PfAgo 生成的 15 个新序列中，所有的序列都能够表达，并展示出单链 DNA 切割活性。其中表现最佳的新 PfAgo 不仅将野生型 PfAgo 的熔解温度从 100°C 左右降低到了约 50°C，而且在 45°C 时的单链 DNA 切割活性是野生型 PfAgo 在 95°C 时的 2 倍，更是中温下野生型 KmAgo 切割活性的 11 倍。

c: 45 °C 下 15 种 Pf-AP 的 DNA 切割活性
d: WT PfAgo 和 Pf-AP 的熔融温度
e: 15 个 Pf-AP 中，发挥不同作用的序列数量

综上，CPDiffusion 可作为一种强大的全新蛋白质序列设计工具，能够自动从野生型功能蛋白中学习，并设计出功能更强大的复杂蛋白质序列，丰富现有蛋白质数据库，为蛋白质工程设计带来更多的可能。

AI 重塑蛋白质工程的未来之路

用 AI 解码蛋白质奥秘，对于生命科学研究的数字化进程具有关键意义，在这场探寻生命本质的竞赛中，中国研究团队正不断前进，贡献力量。作为该领域的杰出代表之一，本研究的通讯作者洪亮教授及其课题组长期关注 AI 蛋白质定向改造和辅助药物设计，具体研究内容包括但不限于蛋白质结构预测和优化、蛋白质定向改造和设计、辅助药物设计和优化等，团队成果颇丰。截止目前共发表论文 77 篇，其中多篇登顶 Nature 期刊。

洪亮教授课题组主页：

https://ins.sjtu.edu.cn/people/

自 2021 年起，洪亮教授团队就尝试将 AI 用于蛋白质领域，比如，构建蛋白质工程领域的专有模型，端对端地面向功能设计序列。他们曾与上海人工智能实验室的谈攀研究员合作，提出了一个基于蛋白质预训练模型的微调训练方法 FSFP，该方法能在只利用 20 个随机湿实验数据的情况下，高效训练蛋白质预训练模型，大幅提高模型的单点突变预测阳性率，可适用于蛋白质适配性的小样本学习，在实际应用中显示出了巨大的潜力。

洪亮教授团队还开发了一种名为 ProtLGN 的微环境感知图神经网络，能够从蛋白质三维结构中学习并预测有益的氨基酸突变位点，指导具有不同功能白质单位点突变和多位点突变设计。实验结果显示，超过 40% 的 ProtLGN 设计单点突变体蛋白质优于其野生型对应物。

此外，他们还引入了一种简单、高效、可扩展的适配器 SES-Adapter，将蛋白质语言模型嵌入与结构序列嵌入结合，以创建结构感知表示 (structure-aware representations)，能够显著增强蛋白质语言模型的性能。

以上研究展示了深度学习在蛋白质设计中的强大潜力，毫无疑问，随着深度学习技术在蛋白质领域的进一步应用，蛋白质工程的研究将迎来更加广阔的发展空间。

参考资料：
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article

上海交大洪亮团队提出CPDiffusion模型，超低成本、全自动设计功能型蛋白质

数据集：确保样本多样性，避免数据偏见

模型架构：6 步法自动设计 pAgo 蛋白

实验结论：新型蛋白质活性、热稳定性更强

AI 重塑蛋白质工程的未来之路

推荐体验

相关资讯

深度学习蛋白质设计

蛋白质领域的Chatgpt-CLEAN算法注释蛋白质功能

深度学习蛋白质设计最新详解！

MIT团队提出生成式AI模型，无需预训练，可从头生成新蛋白质

生成式AI设计出非天然蛋白质

近期资讯

无人塔吊在山东青岛应用较人工作业方式综合效率平均提升超15%

一箭四星！快舟一号甲成功发射天启星座29～32星

华为云加速企业数智跃迁，以卓越成就卓越

在帅丰集成灶氧气BAOBAO音乐节解锁新厨房主张邂逅美好生活搭子

袋鼠云亮相2024云栖大会，带来Data+AI数智化产品与方案

当涂：汽车产业驶入发展“快车道”

山灵发布新一代流媒体播放设备SM1.3 流媒体播放一体机

夸克 CueMe 智能对话助手体验：拒绝 AI 味写作

影石Insta360预告9月24日发布新品，或为新一代直播摄像头

浙江辰凯电器有限公司取得一种防缠绕的食物垃圾处理器专利，有效地解决了现有的食物垃圾处理器防缠绕功能一般的问题

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响