看啥推荐读物
深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。 如需推送广告合作请联系微个人号: hai299014
今天看啥  ›  专栏  ›  机器学习AI算法工程

如何筛选特征?用随机森林(RF)

机器学习AI算法工程  · 公众号  ·  · 2019-05-15 08:00
向AI转型的程序员都关注了这个号👇👇👇人工智能大数据与深度学习  公众号:datayx一般情况下,数据集的特征成百上千,因此有必要从中选取对结果影响较大的特征来进行进一步建模,相关的方法有:主成分分析、lasso等,这里我们介绍的是通过随机森林来进行筛选。用随机森林进行特征重要性评估的思想比较简单,主要是看每个特征在随机森林中的每棵树上做了多大的贡献,然后取平均值,最后比较不同特征之间的贡献大小。贡献度的衡量指标包括:基尼指数(gini)、袋外数据(OOB)错误率作为评价指标来衡量。衍生知识点:权重随机森林的应用(用于增加小样本的识别概率,从而提高总体的分类准确率)随机森林/CART树在使用时一般通过gini值作为切分节点的标 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照