Genomics, Proteomics & Bioinformatics (GPB)在线发表了由中国农业大学王向峰教授团队撰写的题为“Machine learning for AI breeding in plants”的观点文章。“要文译荐”栏目很高兴邀请到文章作者程前博士和王向峰教授为大家介绍该观点文章的主要内容。
要点介绍
目前,作物育种已进入“5G”时代,而机器学习方法在5G育种中有巨大应用前景。在这篇综述中,研究人员结合众多代表性工作,从数据降维、特征工程、数据驱动的设计育种等近十个不同方面或应用场景,阐述了机器学习技术对于植物智能育种的促进作用。最后,提出了一个以机器学习技术为核心驱动力的植物智能育种的生态系统,为未来植物育种的数字化、智能化提供参考和指导。
研究背景
机器学习先驱亚瑟·塞缪尔(Arthur Samuel)在1959年给出了机器学习(Machine Learning,ML)定义:“一门让计算机能够在未被明确编程的情况下进行学习的学科”。与依赖先验假设的统计学方法不同,ML无需人为干预来理解数据,从而大大减少了人力投入。ML领域涵盖大量算法,其中许多都支持大数据分析。随着多组学技术的飞速发展,作物育种已进入“5G”时代(基因组、种质资源、基因、基因组育种和基因编辑),通过将生物学知识和组学大数据相结合,5G育种可以加速作物性状改良。ML在5G育种中有巨大应用前景,ML技术目前已在组学大数据驱动的基因挖掘、基因型到表型(Genotype-to-Phenotype,G2P)预测和植物表型组学等多个领域得到应用。然而,基础研究和育种实践之间仍然存在较大差距。鉴于多组学、基因型、表型和环境等数据的维度更加复杂和异质化,因此需要新的ML算法。本文提出了一些方法,为将最前沿的ML模型应用于植物研究提供了一些建议,旨在让作物育种变得更加智能和简单。
研究内容
对常见农艺性状进行的全基因组关联研究(GWAS)已达到瓶颈,因为它们在解析复杂的多基因性状方面的能力非常有限。而在不同时空条件下的多组学分析可大大提升定位精度,可以将RNA转录本、蛋白质、代谢物等不同层级的特征数据视为分子性状(mTraits),将通过视觉技术和高通量成像技术得到的信息视为图像性状(iTraits)。
群体规模的多组学数据集通常具有高维度、噪声大和异质性强的特点。通过数据降维和特征工程,对特征进行映射转换形成新尺度下的特征或直接对原始特征进行精简,可以有效降低特征维度或数量,有效解决特征数量远大于样本数量而导致的模型不可构建或过拟合问题。这两种策略在提供干净、易于解释的结果的同时,大大减少了计算时间并节省了资源。部分ML特征工程方法,还可以用于性状关联位点的鉴定和定位。同时数据降维有助于在将数据映射到低维时保持高维数据的几何特性。这种技术特别适用于数据的可视化,在单细胞RNA测序(scRNA-seq)上尤为突出。
植物研究的先验知识将推动作物育种即知识驱动的分子设计育种,通过理解表型调控机制精准利用因果基因。然而,知识转化为育种实践仍面临挑战,例如GWAS种质库中的变异已在现代育种品种中消失,因此难以直接应用。育种改良通过重组等位基因微调遗传网络,基因的作用因发育阶段或环境而变化,因此育种需平衡有害和有益等位基因的影响。ML技术可以整合多组学数据,进行因果推断,帮助理解遗传网络的因果关系,推进作物性状改良的精确设计。ML也可以帮助设计高效标记面板,有效平衡成本和收益。
工业育种数据包括基因型、表型和环境信息,基因组选择(GS)通过统计或机器学习推断这些数据的相关性。与知识驱动的分子设计育种不同,数据驱动的基因组设计育种通过统计或机器学习(ML)模型推断数据之间的相关性,如基因组选择(GS)策略。在基因型数据层面,低覆盖度全基因组测序(lcGWS)可降低基因分型成本,但存在SNP不一致覆盖问题,需使用高覆盖度参考图谱解决。GS平衡成本与预测精度,在玉米育种中应用广泛,然而,GS也面临群体分层问题,因此训练样本和预测样本的合理划分至关重要。结合深度学习(DL)与多组学数据的整合可以进一步提升GS的预测能力,但复杂特征集可能导致过拟合风险。多模态学习与特征工程则为解决样本量不足和数据维度过大提供了新途径。总而言之,多模态学习与深度学习为复杂特征集提供了解决方案,并有助于应对样本稀缺和过拟合问题。
总结与展望
高质量的数据集和样本标签比ML模型本身更重要,众多研究表明没有一种方法在所有性状和物种上都表现最优,超参数调整对于ML模型获得最佳性能至关重要。由于多种因素存在,预测精度并不是应用ML辅助育种的唯一目标。相反,模型的稳健性、可扩展性和效率更需要考虑。因此,研究人员提出了一个专门为作物智能育种设计的ML生态系统。该生态系统应包含三个主要组件:数据平台、模型平台和应用平台(图1)。在人工智能时代,这样一个由ML驱动的生态系统将使作物育种更加智能和简单。
图1 作物智能育种构建生态系统基本组成示意图
审校人:
GPB青年编委宋佳明
文章编译来源:
Cheng Q, Wang, X. Machine Learning for AI Breeding in Plants. Genomics Proteomics Bioinformatics 2024;4:qzae051.
英文全文详见:https://academic.oup.com/gpb/advance-article/doi/10.1093/gpbjnl/qzae051/7703285
作者信息:
中国农业大学农学院博士后程前博士为该文第一作者,王向峰教授为该文通讯作者。本研究得到生物育种重大项目、拼多多-中国农业大学研究基金、杨凌种业创新中心重点研究项目基金的支持。