一些人工智能设计的基因编辑器可能比自然界中的基因编辑器用途更广。
埃文-卡拉韦报道显示化脓性链球菌 CRISPR-Cas9 基因编辑复合物分子结构的计算机插图。为了发现以前未知的 CRISPR 基因编辑系统,研究人员对温泉、泥炭沼泽、便便甚至酸奶中的微生物进行了无休止的探索。现在,得益于人工智能(AI)的进步,他们或许可以通过按下按钮来设计这些系统。本周,研究人员公布了他们如何使用一种名为蛋白质语言模型的生成式人工智能工具--一种在数百万个蛋白质序列上训练出来的神经网络--来设计CRISPR基因编辑蛋白质的详细情况,并证明其中一些系统能在实验室中发挥预期的作用1。今年二月,另一个研究小组宣布,他们开发出了一个在微生物基因组上训练过的模型,并用它设计出了新的CRISPR系统,该系统由DNA或RNA切割酶和RNA分子组成,RNA分子指导分子剪刀向何处切割2。"这其实只是从表面入手。机器学习科学家、位于加利福尼亚州伯克利的生物技术公司 Profluent 首席执行官阿里-马达尼(Ali Madani)说:"这表明,利用机器学习模型设计这些复杂的系统是可能的。马达尼的团队于4月22日在bioRxiv.org上发表了一篇预印本1 (尚未经过同行评审),报告了他们所说的 "完全由机器学习设计的蛋白质首次成功编辑人类基因组"。香港大学合成生物学家艾伦-黄(Alan Wong)的团队利用机器学习优化了CRISPR3。因此,对于某些应用来说,找到合适的CRISPR是一项挑战。"他说:"利用人工智能扩大编辑器的范围可能会有所帮助。基因组训练ChatGPT等聊天机器人是在现有文本基础上经过训练后设计出来处理语言的,而CRISPR设计人工智能则是在大量蛋白质或基因组序列形式的生物数据基础上训练出来的。这一 "预训练 "步骤的目的是让模型深入了解自然发生的基因序列,例如哪些氨基酸往往会组合在一起。然后,这些信息就可以应用到创建全新序列等任务中。马达尼的团队以前曾利用他们开发的名为 ProGen 的蛋白质语言模型,提出了新的抗菌蛋白质4。为了设计出新的CRISPR,他的团队用数百万个不同的CRISPR系统实例重新训练了ProGen的更新版本,细菌和其他被称为古细菌的单细胞微生物利用这些CRISPR系统抵御病毒。由于CRISPR基因编辑系统不仅包括蛋白质,还包括指定目标的RNA分子,因此马达尼的团队开发了另一个人工智能模型来设计这些 "引导RNA"。然后,研究小组利用神经网络设计了数百万个新的 CRISPR 蛋白序列,这些序列属于自然界中数十个不同的此类蛋白家族。为了验证人工智能设计的CRISPR是否是真正的基因编辑器,马达尼的团队合成了与200多种蛋白质设计相对应的DNA序列,这些蛋白质设计属于目前在实验室中广泛使用的CRISPR-Cas9系统。当他们把这些序列--Cas9蛋白和 "引导RNA "的指令--插入人体细胞时,许多基因编辑器都能精确地切割基因组中的目标。最有希望的Cas9蛋白--一种他们命名为OpenCRISPR-1的分子--在切割目标DNA序列方面的效率与广泛使用的细菌CRISPR-Cas9酶一样高,而且它在错误位置的切割次数要少得多。研究人员还利用OpenCRISPR-1的设计创建了一个碱基编辑器--一种能改变单个DNA "字母 "的精确基因编辑工具--并发现它也和其他碱基编辑系统一样高效,而且不易出错。
由加州斯坦福大学计算生物学家布赖恩-希(Brian Hie)和加州帕洛阿尔托弧形研究所生物工程师帕特里克-许(Patrick Hsu)领导的另一个研究小组使用了一种能够生成蛋白质和RNA序列的人工智能模型。他们的模型名为EVO,是在8万个来自细菌和古细菌的基因组以及其他微生物序列(总计3000亿个DNA字母)上训练出来的。Hie和Hsu的团队尚未在实验室中测试其设计。但他们设计的一些CRISPR-Cas9系统的预测结构与天然蛋白质相似。他们的研究成果发表在bioRxiv.org上的预印本2中,尚未经过同行评审。精准医学"西班牙巴塞罗那分子生物学研究所的计算生物学家 Noelia Ferruz Capapey 说:"这太神奇了。与一些获得专利的基因编辑工具不同,研究人员可以不受限制地使用 OpenCRISPR-1 分子,这给她留下了深刻印象。用于微调的ProGen2模型和CRISPR序列 "图集 "也是免费提供的。马达尼说,希望人工智能设计的基因编辑工具能比现有的CRISPR更适合医疗应用。他补充说,Profluent公司希望与正在开发基因编辑疗法的公司合作,测试人工智能生成的CRISPRs。"这确实需要精确度和定制设计。他说,"这确实需要精确和定制的设计,而我认为这不是从自然存在的CRISPR系统中复制和粘贴就能做到的"。doi: https://doi.org/10.1038/d41586-024-01243-w