欢迎点赞+收藏+关注
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)
小果今天给大家带来的分享绝对是生信热点分析内容,基于三种机器学习算法进行生存资料特征基因筛选,最终将三种算法获得的交叉基因作为我们的特征基因。
接下来跟着小果开启今天的学习之旅吧!
1. 三种机器学习算法进行特征筛选
小伙伴们是不是在想到底是那三种机器学习算法?不急!小果来慢慢告诉大家,今天小果将利用LASSO回归,随机森林和xgboost三种算法进行生存资料特征基因筛选,这三种机器学习的算法原理小果在这里不做过多的介绍,感兴趣的小伙伴们可以自行查询学习,今天小果将通过实操,让大家轻松掌握如何利用这三种算法进行特征基因筛选,其实分析非常简单,只需要输入带有生存信息的表达矩阵文件,就可以很轻松的完成该分析,对小白也很适用,话不多说,马上跟着小果开始今天的实操吧!
2. 准备需要的R包
3. 数据准备
exp_surv.txt
#生存信息加基因表达矩阵文件,行名为样本信息,第一列为OS.time(生存时间),第二列为OS(生存状态),其他列为基因。
4 . LASSO回归分析
#通过LASSO回归筛选的特征基因文件,第一列表示基因名,第二列表示coefficient。
5.随机森林分析
注:通过随机森林算法筛选的特征基因,第一列表示基因名,第二列为VIP值。
6.xgboost算法
注:通过xgboost算法筛选的VIP值排前十的基因,第一列表示基因名,第二列表示VIP值。
绘制venn图筛选三种算法获得的交叉基因
7.结果文件
1. lambda.pdf
该结果图片为LASSO回归lambda图。
2. lasso.pdf
该结果图片LASSO回归为10折交叉验证图。
3. forest.pdf
该结果图片为随机森林OBB图和VIP图。
4. train_error.pdf
该结果图片为xgboost算法cox风险比例回归的负偏对数随着迭代次数的变化。
5. venn.pdf
该结果图片为三种算法特征基因的venn图,将交叉基因筛选为候选基因。
最终小果顺利完成了利用 lassso回归,随机森林和xgboost三种机器学习算法进行了特征基因筛选。机器学习相关其他分析内容欢迎尝试本公司新开发的云平台生物信息分析小工具,零代码完成分析,云平台网址:http://www.biocloudservice.com/home.html。
“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。