ChatGPT等大模型点燃人工智能新一轮热潮之际,另一种累积数百万年的天书般“语言”也在试图用该技术获得最新解码。近日,全球基因测序仪龙头因美纳(Illumina)宣布推出全新的人工智能算法PrimateAI-3D,以求更准确地预测患者致病基因突变。
据美国国家卫生研究院发布的数据,每年生成的基因组数据量接近400亿GB。然而,获取这些数据仅仅是解开诸多生命谜团的第一步,想要让它们真正有助于人类健康,尚需深度的解读和分析。
目前的科学研究显示,每个人都携带着数百万种基因变异,正是这些变异导致了健康和疾病风险的个体差异,但目前大多数变异的作用方式尚不明确。美国贝勒医学院人类基因组测序中心和因美纳人工智能实验室希望借助PrimateAI-3D更进一步解决问题。
据因美纳方面介绍,PrimateAI-3D采用了与ChatGPT和AlphaFold类似的深度神经网络架构,不同之处在于PrimateAI-3D是根据基因组序列而不是人类语言来进行训练。“你可以在维基百科和其他地方的现有文本上训练ChatGPT等生成语言模型,我们使用了类似的深度学习架构,但我们的数据来自数百万年的自然选择。”因美纳人工智能副总裁Kyle Farh表示。
另外,在ChatGPT等生成语言模型中,现有的文本就可以为训练提供信息,而人类基因组中导致疾病的基因变异在很大程度上却是未知的。为解决这一问题,PrimateAI-3D利用自然选择来训练深度神经网络的参数,这种训练基于此前对233种不同灵长类动物进行测序时发现的数百万种良性基因变异来开展,这也是迄今为止开展的最大规模的非人类灵长类物种测序工作。
“我们已经证明,我们对非人类灵长类动物的遗传变异了解得越多,就越能更好地预测哪些突变可能导致人类疾病。”来自美国贝勒医学院的Jeffrey Rogers说。
随后,包括Rogers在内的美国贝勒医学院人类基因组测序中心及分子与人类遗传学系的研究人员和Farh领导的因美纳人工智能实验室团队,将PrimateAI-3D算法应用到了英国生物样本库的近50万个个体中,识别潜在的致病人类突变。与之相关的两篇研究近日发表在顶级学术期刊《科学》(Science)上。
他们发现,在调查的90种不同临床病症中,普通人群里97%的健康成员的基因组中至少潜伏着一种高度可干预变异。研究结果还发现了导致常见疾病高风险的罕见基因变异。Farh说,总体而言,PrimateAI-3D在评估心血管疾病和2型糖尿病等健康问题的遗传风险方面,比以往任何一种方法准确度都要提高至少12%。
Farh还补充提到,这项新技术的一个优势在于,它同样适用于整个人类。这也意味着,其克服了现有遗传风险评估中固有的对欧洲白人血统人群的偏见,这些评估主要基于这些群体的数据。
因美纳首席技术官Alex Aravanis表示,“将最新的人工智能技术应用于基因组学,以揭示糖尿病、心脏病和自身免疫性疾病等复杂遗传疾病的关键底层信息,这一技术的推出为因美纳在遗传风险预测和药物靶点发现方面带来巨大机遇。”
据因美纳方面表示,PrimateAI-3D将集成在因美纳的互联软件中,供基因组学界使用。