自然微生物综述( IF:31.851)于2018年在线发表了微生物组领域的研究方法综述,不仅系统总结了过去,更为未来3-5年内本领域研究方法的选择,提供了清晰的技术路线,让大家做出更好的研究,微生物组学研究主要涉及两方面技术:测序技术和数据分析技术,随着基因测序技术的进步和测序成本不断下降,大样本量的微生物组学研究激增。传统的统计方法已经不再适用于极度高维、稀疏的微生物组数据分析,而适用于复杂数据分析的机器学习逐渐成为微生物组学数据分析的首选方法。机器学习已被证明是分析微生物群落数据并对特定结果进行预测(包括人类和环境健康)的有效方法,基于微生物群落数据的机器学习已被成功用于预测人类健康中的疾病状态、环境质量和环境中污染的存在,并可以作为法医学中的微量证据。机器学习算法已经在肠道微生物、微生物组数组表型、环境微生物、微生物生态学、皮肤微生物、土壤微生物、植物微生物、人体微生物等领域应用广泛,通过查阅文献发现近几年机器学习在微生物组研究发刊分值都很高,特别是在Nature Communications、Advanced Materials(IF=30.849)、Water Research Nature Microbiology、Environment International 、Nature Methods、Cell Regeneration、JAIMS等期刊多次发表!
代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科,被广泛用于揭示小分子与生理病理效应间的关系。目前,代谢组学已经被应用于药物开发的各个阶段(如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等)。基于代谢组学的高性价比特性,它被药学领域的研究者给予了厚望,有望加速新药开发的进程。然而,代谢组领域还面临着严重的信号处理与数据分析问题,对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,就需要开发针对代谢组信号系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。
蛋白质组(Proteome)是指一个细胞或组织由整个基因组表达的全部蛋白质。蛋白质组学(Proteomics)是采用大规模、高通量、系统化的方法,从整体的角度分析细胞或组织内动态变化的蛋白质组成成分、表达水平和修饰状态及蛋白质之间的相互作用,目的在于揭示蛋白质功能与细胞生命活动规律的学科。蛋白质组研究对象涉及人体、动物、植物和微生物,可以为疾病标志物的筛选、疾病机制研究、植物抗逆机理研究、发育机制研究等方向提供技术手段,为精准医疗、药物靶点研究、药效分析等提供支持。
深度学习在许多领域都有应用,在生物信息学领域也不例外!深度学习作为一种机器学习方法,机器学习技术在基因组学研究中得到了广泛的应用。机器学习任务分为两大类:有监督和无监督。在有监督的学习中,目标是通过使用提供的一组有标签的训练示例来预测每个数据点的标签(分类)或响应(回归)。在无监督学习中,例如聚类和主成分分析,目标是学习数据本身的内在模式。许多机器学习任务的最终目标是优化模型性能,而不是在可用数据(训练性能)上,而是在独立数据集(泛化性能)上。基于这个目标,数据被随机分成至少三个子集:训练、验证和测试集。训练集用于学习模型参数,验证集用于选择最佳模型,测试集用于估计泛化性能。机器学习必须在模型灵活性和训练数据量之间达到适当的平衡。一个过于简单的模型将不合适,无法让数据“说话”。一个过于灵活的模型会过度适应训练数据中的虚假模式,而不会泛化。,近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology 等知名国际顶刊上,为我们发表顶刊鉴定了基础