看啥推荐读物
专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
生信宝典  ·  Nat ...·  昨天  
生物学霸  ·  某 985 ...·  4 天前  
BioArt  ·  Cancer ...·  4 天前  
今天看啥  ›  专栏  ›  生信宝典

机器学习第18篇 - Boruta特征变量筛选(2)

生信宝典  · 公众号  · 生物  · 2021-02-22 21:03
前面(机器学习第17篇 - 特征变量筛选(1))评估显示Boruta在生物数据中具有较高的特征变量选择准确度,下面就具体看下如何应用Boruta进行特征变量选择。Boruta算法概述Boruta得名于斯拉夫神话中的树神,可以识别所有对分类或回归有显著贡献的变量。其核心思想是统计比较数据中真实存在的特征变量与随机加入的变量(也称为影子变量)的重要性。初次建模时,把原始变量拷贝一份作为影子变量。原始变量的值随机化后作为对应影子变量的值 (随机化就是打乱原始变量值的顺序)。使用随机森林建模并计算每个变量的重要性得分。对于每一个真实特征变量,统计检验其与所有影子变量的重要性最大值的差别。重要性显著高于影子变量的真实特征变量定义为重要。重要性显 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照