当前位置:首页|资讯|深度学习|机器学习|人工智能

五大生信技能研究分析,生命科学热度来袭!深度学习基因组学+机器学习转录组学与表观

作者:博学研习社发布时间:2023-06-25


随着高通量生物技术的发展,已经开发了多种组学技术来表征不同但互补的生物信息,包括基因组学、单细胞、表观基因组学、转录组学、微生物组学和代谢组学等。

近年来,癌症相关多组学技术的快速发展 一直是人工智能生物学分析探索新型抗癌靶点的最重要因素之一。下图将这些技术分为五个方面:表观遗传学、基因组学、蛋白质组学、代谢组学和多组学整合分析。

人工智能整合多组学数据(例如表观遗传学、基因组学、蛋白质组学和代谢组学)以识别癌症治疗靶点。

最近的人工智能技术已经从“浅层”学习架构发展到“深度”学习架构。作为人工智能的一个重要分支,机器学习(ML)可以自动学习捕捉复杂的模式,并根据数据做出智能决策。ML在癌症研究和临床肿瘤学中有着非常广泛的应用。特别是,在多组学数据快速增长的推动下,属于ML子领域的基于深度学习(DL)的方法已成为生物医学数据分析的强大工具

专题内容

专题一、深度学习基因组学

专题二、机器学习转录组学与表观组学

专题三、深度学习单细胞

专题四、机器学习代谢组学

专题五、机器学习微生物组学

学习目标

【深度学习基因组学】通过基础入门+应用案例实操演练的方式,从初学及应用研究的角度出发,带大家实战演练多种深度学习模型在基因组学分析中的各种应用,深入剖析多篇高分文章代码演示及文章复现,通过对这些深度学习在基因组学中的应用案例进行深度讲解和实操,能够掌握深度学习分析高维基因组学、转录组学、蛋白组学等多组学数据流程,系统学习深度学习及基因组学理论知识及熟悉软件代码实操,熟练掌握这些前沿的分析工具的使用以及研究创新深度学习算法解决生物学及临床疾病问题与需求。

【学习转录组学与表观组学】在Linux和R环境中进行数据分析的技能。如何处理和分析转录组和表观组数据,并深入了解这两个领域的关键概念和最新发展。内容包括Linux操作系统的基础知识和常用命令行技巧,R编程语言的应用,转录组数据的预处理和差异表达分析,表观组数据的分析方法,以及综合应用和实际项目实践。

【深度学习单细胞】通过高分文献和代码实操,解析单细胞深度的套路

【机器学习代谢组学】熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。

【机器学习微生物组学】机器学习在微生物组数据分析流程,能够快速运用到自己的科研项目上。

详细内容

一、深度学习基因组学

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1.安装并介绍深度学习工具包tensorflow, keras,pytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

1.Chip-Seq中识别基序特征G4,如DeepG4

2.Chip-Seq中预测DNA甲基化,DeepSEA

3.Chip-Seq中预测转录调控因子结合,DeepSEA

4.DNase-seq中预测染色体亲和性,Basset

5.DNase-seq中预测基因表达eQTL,Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

1.复现DeepG4从Chip-Seq中识别G4特征

2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变

3.复现Basset,从Chip-Seq中预测染色体亲和性

4.复现Enformer,从Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

1.SNP微阵列中预测拷贝数变异CNV,DeepCNV

2.RNA-Seq中预测premiRNA,dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA

3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因

第六天

理论部分

深度学习在预测药物反应机制上的应用

1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

1.预处理药物分子结构信息

2.计算药物相似性

3.在不同数据集上构建self-attention SWnet

4.评估self-attention SWnet

5.构建多任务的SWnet

6.构建单层SWnet

7.构建带权值层的SWnet

案例图片:

二、机器学习转录组学与表观组学

第一天

理论部分

高通量测序原理

高通量测序基础

测序方法及数据

二代测序数据分析流程

实操内容

R语言基础

R(4.1.3)和Rstudio的安装

R包安装和环境搭建

数据结构和数据类型

R语言基本函数

数据下

数据读入与输出

第二天

理论部分

多组学基础

常用生物组学实验与分析方法

常用组学数据库介绍

批量处理组学数据

生物功能分析

基于转录组学的差异基因筛选,疾病预测

组学数据可视化

实操内容

Linux操作系统

Linux操作系统的安装与设置

网络配置与服务进程管理

Linux的远程登录管理

常用的Linux命令

在Linux下获取基因数据

利用Linux探索基因组区域

Shell script与Vim编辑器

基因组文件下载与上传

Linux权限管理

文件的身份

修改文件的所有者和所属组

修改文件权限

第三天

理论部分

介绍转录组学的基本概念和研究流程

RNA-seq数据的预处理和质量控制

序列比对和对齐评估

基因表达量估计和差异表达分析

实操内容

转录组测序数据质量控制

转录组数据比对

RNA-seq数据原始定量

主成分分析

原始定量结果差异分析

差异结果筛选及可视化

GO和KEGG通路富集分析

GSEA基因集富集分析

第四天

理论部分

表观遗传学的基本概念和技术介绍

DNA甲基化和组蛋白修饰的分析方法

表观组数据的预处理和质量控制

差异甲基化和差异修饰分析

甲基化和修饰的功能注释和富集分析

甲基化数据的整合分析和基因调控网络构建

表观组数据的可视化方法和工具

介绍其他表观组学技术(如染色质构象捕获)

实操内容

测序数据质量控制和检查

数据比对和多匹配问题

计算结合峰位置

IGV中组学结果可视化

差异peaks分析

结合程度矩阵计算

富集热图和曲线图绘制

第五天

理论部分

机器学习概述

线性模型

决策树

支持向量机

集成学习

模型选择与性能优化

实操内容

决策树算法实现

随机森林算法实现

支持向量机(SVM)算法实现

朴素贝叶斯算法实现

Xgboost算法实现

聚类算法实现

DBSCAN算法实现

层次聚类算法实现

第六天

理论部分

基因功能注释和富集分析

WGCNA(Weighted Gene Co-expression Network Analysis)网络分析

转录因子分析和调控网络构建

转录组数据的可视化方法和工具

转录水平预测蛋白翻译水平

实操内容

创建Seurat对象

数据质控

测序深度差异及标准化

单细胞数据降维

批次效应去除

数据整合

亚群注释

GSVA通路活性分析

单细胞富集分析

案例图片:

三、深度学习单细胞

第一天

理论内容

1.单细胞组学研究简介(包含单细胞转录组测序技术进展及其原 理)

2.单细胞主要数据库介绍

2.1 CellMarker

2.2 CancerSEA

2.3 Tabula Muris

2.4 TISCH

3.单细组学在肿瘤、发育、免疫及其它领域的研究思路的介绍 4.单细胞测序分析在科研中的应

4.1 与 bulk 测序相较的优势

4.2 发现新细胞类型

4.3 识别细胞亚群转录差异

4.4 细胞互作预测

实操内容

1.R 语基础

1.1 文件读入

1.2 数值、字符串、向量

1.3 列表 矩阵 数据框

2.数据清洗

2.1 缺失值处理

2.2 数据筛选

2.3 数据合并

2.4 数据匹配

2.5 分类变量

2.6 条件函数

2.7 字符串的切分

2.8 重复值处理

3.R 语言基础绘图

3.1 箱式图

3.2 小提琴图

3.3 热图

第二天

理论内容

1.Seurat 对象

2.细胞质控

2.1 nFeature

2.2 nCount

2.3 percent.mt

3.特征选择

3.1 高变基因

3.2 FindVariableFeatures

4.降维聚类

4.1 tsne

4.2 umap

4.3 线性降维 PCA

实操内容

1.数据读入

1.1 10x 数据读入

1.2 csv 数据读入

1.3 txt 数据读入

2. 多数据的整合

2.1 直接法

2.2 harmony 包

3.质控

4.归一化

5.聚类

6.tSNE/UMAP 降维

7.细胞类型注释

7.1 自动注释法

7.2 marker 人工注释法

8.细胞比例计算

9.基因集打分

9.1 ssGSEA

9.2 AUCel

10.单细胞 GSVA 富集分析

11.单细胞 GSEA 富集分析

第三天

理论内容

1.IF6+文献解读

2.单细胞常见图表解读

2.1 降维聚类图

2.2 marker 气泡图/小提琴图

2.3 细胞通讯图

3.富集分析

3.1 基因 ID

3.2 弦表图

3.3 和弦图

4.细胞通讯基本原理

5.反卷积

5.1 系数表

5.2 bulk 转录组矩阵

实操内容(以 IF6+文献文献为例)

1.单细胞差异基因分析并绘制火山图

2.GO/KEGG 富集分析并绘制气泡图、柱状图、弦表图 3.iTALK 分析不同细胞的通讯情况

4.Cibersortx

4.1 单细胞数据处理

4.2 bulk 数据

4.3 推测 bulk 数据新细胞类型的比例)

第四天

理论内容

1.深度学习入门

1.1 基本概念

1.2 常用方法

1.3 科研应用

2.LASSO 的原理和作用

2.1 正则化

2.2 惩罚参数

2.3 变量收缩

3.Randomforest 的原理和作用

3.1 Bagging 思想

3.2 OOB error

3.3 Bagging 框架参数(n_estimators、oob_score、criterion)

3.4 决策树参数

4.SVM 的原理和作用

4.1 最大间隔超平面

4.2 支持向量

4.3 SVM 最化问题

5.ROC 曲线的原理和作用

5.1 二分类

5.2 true negative;false negative

5.3 true positive;true negative

实操内容

1.LASSO 的应用

1.1 lambda 选择

1.2 特征选择

2.Randomforest 的应用

2.1 error 图

2.2 气泡图

2.3 棒棒糖图

3.SVM 的应用

4.ROC 曲线的应用

第五天

理论内容

1.深度学习结合单细胞的应用

1.1 细胞亚群

1.2 特征基因筛选

1.3 基因后续验证的科研思路

2.解析深度学习结合单细胞的文献(IF8+)

3.LASSO 与单细胞联合

4.Randomforest 与单细胞联合

5. SVM-RFE 与单细胞联合

5.1 支持向量机

5.2 递归消除

6.人工神经网络 ANN 与单细胞联合

6.1 人工和生物神经网络之间的相似性

6.2 神经元模型

6.3 神经网络模型

6.4 前馈神经网络

6.5 反馈神经网络

6.6 M-P 模型

6.7 neuralnet

实操内容 (IF8+文献为例)

1.单细胞分析(包括数据读取、聚类降维、细胞注释等)

2.LASSO 筛选特征基因并构建预后模型

3.生存曲线检验预后模型的效果

4.cox 森林图验证风险评分是否有临床意义

5.列线表

6.免疫治疗 TIDE 与风险评分的分析

7.免疫浸润分析风险评分与免疫微环境的关系

8.neuralnet 的基础案例实操

9.ANN 的单细胞特征基因筛

四、机器学习代谢组学

第一天

A1 代谢物及代谢组学的发展与应用

(1) 代谢生理功能;

(2) 代谢疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢流与机制研究;

(6) 代谢组学与药物和生物标志物。

A2 代谢组学实验流程简介

A3 色谱、质谱硬件原理

(1) 色谱分析原理;

(2) 色谱的气相、液相和固相;

(3) 色谱仪和色谱柱的选择;

(4) 质谱分析原理及动画演示;

(5) 正、负离子电离模式;

(6) 色谱质谱联用技术;

(7) LC-MS 的液相系统

A4 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;

(2) 能量代谢通路;

(3) 三大常见代谢物库:HMDB、METLIN 和 KEGG;

(4) 代谢组学原始数据库:Metabolomics Workbench 和Metabolights.

第二天

B1 代谢物样本处理与抽提

(1)组织、血液和体液样本的提取流程与注意事项;

(2)用 ACN 抽提代谢物的流程与注意事项;

(3)样本及代谢物的运输与保存问题;

B2 LC-MS数据质控与搜库

(1)LC-MS 实验过程中 QC 样本的设置方法;

(2)LC-MS 上机过程的数据质控监测和分析;

(3)XCMS 软件数据转换与提峰;

B3 R软件基础

(1)R 和 Rstudio 的安装;

(2)Rstudio 的界面配置;

(3)R 的基本数据结构和语法;

(4)下载与加载包;

(5)函数调用和 debug;

B4 ggplot2

(1)安装并使用 ggplot2

(2)ggplot2 的画图哲学;

(3)ggplot2 的配色系统;

(4)ggplot2 画组合图和火山图;

第三天

机器学习

C1无监督式机器学习在代谢组学数据处理中的应用

(1)大数据处理中的降维;

(2)PCA 分析作图;

(3)三种常见的聚类分析:K-means、层次分析与 SOM

(4)热图和 hcluster 图的 R 语言实现;

C2一组代谢组学数据的降维与聚类分析的 R 演练

(1)数据解析;

(2)演练与操作;

C3有监督式机器学习在代谢组学数据处理中的应用

(1)数据用 PCA 降维处理后仍然无法找到差异怎么办?

(2)PLS-DA 找出最可能影响差异的代谢物;

(3)VIP score 和 coef 的意义及选择;

(4)分类算法:支持向量机,随机森林

C4一组代谢组学数据的分类算法实现的 R 演练

(1)数据解读;

(2)演练与操作;

第四天

D1 代谢组学数据清洗与 R 语言进阶

(1)代谢组学中的 t、fold-change 和响应值;

(2)数据清洗流程;

(3)R 语言 tidyverse

(4)R 语言正则表达式;

(5)代谢组学数据过滤;

(6)代谢组学数据 Scaling 原理与 R 实现;

(7)代谢组学数据的 Normalization;

(8)代谢组学数据清洗演练;

D2在线代谢组分析网页 Metaboanalyst 操作

(1)用 R 将数据清洗成网页需要的格式;

(2)独立组、配对组和多组的数据格式问题;

(3)Metaboanalyst 的 pipeline 和注意事项;

(4)Metaboanalyst 的结果查看和导出;

(5)Metaboanalyst 的数据编辑;

(6)全流程演练与操作

第五天

E1机器学习与代谢组学顶刊解读(2-3 篇);

(1)Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;

(2)Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;

(3)1-2 篇代谢组学与转录组学和蛋白组学结合的文献。

E2 文献数据分析部分复现(1 篇)

(1)文献深度解读;

(2)实操:从原始数据下载到图片复现;

(3) 学员实操。

案例图片:

五、机器学习微生物组学

第一天

机器学习及微生物学简介

1. 机器学习基本概念介绍

2. 常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)

3. 混淆矩阵

4. ROC曲线

5. 主成分分析(PCA)

6. 微生物学基本概念

7. 微生物学常用分析介绍

R语言简介及实操

1.R语言概述

2.R软件及R包安装

3.R语言语法及数据类型

4.条件语句

5.循环

第二天

机器学习在微生物学中的应用案例分享

1.利用机器学习基于微生物组学数据预测宿主表

2.利用机器学习基于微生物组学数据预测疾病状态

3.利用机器学习预测微生物风险

4.机器学习研究饮食对肠道微生物的影响

微生物学常用分析(实操)

1. 微生物丰度分析

2. α-diversity,β-diversity分析

3. 进化树构建

4. 降维分析

5. 基于OTU的差异表达分析,热图,箱型图绘制微生物biomarker鉴定

第三天(实操)

零代码工具利用机器学习分析微生物组学数据

1. 加载数据及数据归一化

2. 构建训练模型(GLM, RF, SVM)

3. 模型参数优化

4. 模型错误率曲线绘制

5. 混淆矩阵计算

6. 重要特征筛选

7. 模型验证,ROC曲线绘制利用模型进行预测

第四天(实操)

利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)

1. 加载数据(三套数据)

2. 数据归一化

3. OUT特征处理

4. 机器学习模型构建(RF, KNN, SVM, Lasso等9种机器学习方法)

5. 5倍交叉验证

6. 绘制ROC 曲线,比较不同机器学习模型模型性能评估

第五天(实操)

利用机器学习预测微生物风险(多分类)

1.加载数据

2.机器学习模型构建(RF, gbm, SVM, LogitBoost等等)

3.10倍交叉验证

4.模型性能评估

利用机器学习预测刺激前后肠道菌群变化

1.数据加载及预处理

2.α-diversity,β-diversity分析

3. RF模型构建(比较分别基于OUT,KO,phylum的模型效果)

4.10倍交叉验证, 留一法验证

5.特征筛选及重要特征可视化外部数据测试模型

案例图片:

全国各大高校、企业、科研院所从事人工智能、生命科学、代谢工程、有机合成、天然产物、药物、生物信息学、植物学,动物学、化学化工,医学、基因组学、农业科学、植物学、动物学,临床医学、食品科学与工程、肿瘤免疫与靶向治疗、 全基因组泛癌分析、人黏连蛋白折叠基因组机、病毒检测、功能基因组、遗传图谱、基因挖掘变异、代谢组学、蛋白质组学、转录组学、生物医学、癌症、核酸、毒物学等研究科研人员及爱好者

深度学习在基因组学

2023.07.29----2023.07.30全天(上午 09.00-11.30 下午 13.30-17.00)

2023.07.30----2023.07.31晚上 (晚上 19.00-22.00)

2023.08.05----2023.08.06 全天(上午 09.00-11.30 下午 13.30-17.00)

2023.08.07----2023.08.08晚上 (晚上 19.00-22.00)

机器学习转录组学与表观组学

2023.07.29----2023.07.30全天(上午 09.00-11.30 下午13.30-17.00)

2023.08.05-----2023.08.06全天(上午09.00-11.30下午13.30-17.00)

2023.08.12-----2023.08.13全天(上午09.00-11.30下午13.30-17.00)

深度学习单细胞

2023.08.05----2023.08.06全天(上午 09.00-11.30 下午13.30-17.00)

2023.08.08-----2023.08.09晚上(晚上19.00-22.00)

2023.08.14-----2023.08.15全天(上午09.00-11.30下午13.30-17.00)

机器学习代谢组学

2023.08.05----2023.08.06全天(上午 09.00-11.30 下午 13.30-17.00)

2023.08.08----2023.08.09晚上 (晚上 19.00-22.00)

2023.08.12----2023.08.13全天(上午 09.00-11.30 下午 13.30-17.00)

机器学习微生物时间

2023.08.05----2023.08.06全天(上午 09.00-11.30 下午 13.30-17.00)

2023.08.08----2023.08.09晚上 (晚上 19.00-22.00)

2023.08.12----2023.08.13全天(上午 09.00-11.30 下午 13.30-17.00


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1