欢迎点赞+收藏+关注
机器学习,在现在生信文章中出现的频率越来越高,尤其是通过几种机器学习算法相结合的策略来识别相关疾病的特征基因,在现在是最火的生信分析热点,今天小果带着小伙伴也来蹭蹭热点,通过LASSO回归和SVM-RFE两种机器学习算法进行特征变量筛选,最后将两种算法获得的交叉基因作为特征基因;这就是小果为大家今天带来的分享内容,接下来和小果一起开启今天的学习之旅吧!
1.何为LASSO回归和SVM-RFE算法?
在进行实操之前,小果想为大家简单的介绍一下这两种算法的原理,SVM-RFE(support vector machine - recursive feature elimination)是基于支持向量机的机器学习方法, 通过删减svm产生的特征向量来寻找最佳变量;LASSO回归(logistic regression)也是机器学习的方法之一,通过寻找分类错误最小时的λ来确定变量,主要用于筛选特征变量,构建最佳分类模型。以上就是小果对两种算法的简单介绍。了解了原理之后,小伙伴们是不是有个疑问,什么时候该利用机器学习算法进行特征基因筛选?一般都是通过转录组数据差异分析结合WGCNA,获得疾病相关基因候选基因,对这些候选基因通过多种机器学习算法进行候选基因进一步筛选,这是最常见的分析套路。今天小果想利用这两种算法进行特征选择,最后取两种算法的交叉基因作为特征基因,话不多说,马上跟着小果开始今天的实操吧!
后台回复“111",领取代码,代码编号:231019
2.载入需要的R包
3.数据准备
svm.csv,行名为样本名,第一列为分组信息,其他列为基因所对应的表达矩阵。需要注意的是必须要有分组信息奥!
4.LASSO回归和SVM-REF筛选特征变量
5.结果文件
1.1A_lasso.pdf
该结果图片为Lasso回归图。
2.2cvfit.pdf
3.5B_svm-error.pdf
4.6B_svm-accuracy.pdf
该结果图片为基于SVM-RFE算法5折交叉验证的正确率曲线图
5.3feature_lasso.csv
该结果是基于Lasso算法经过特征选择,筛选出的特征基因。
6.4feature_svm.csv
该结果是基于SVM-REF算法经过特征选择,筛选出的特征基因,FeatureName表示基因名。
7.7C_lasso_SVM_venn.pdf
该结果图片为通过LASSO回归和SVM-REF算法进行特征选择,最后取两种方法得到的16个交叉基因作为特征基因的Venn图。
最终小果顺利完成了利用 lassso回归和SVM-REF两种机器学习算法进行了特征基因筛选,小伙伴们多多理解代码的意义哦~
往期推荐