用随机森林进行特色主要性评估的思想比较大略,紧张是看每个特色在随机森林中的每棵树上做了多大的贡献,然后取均匀值,末了比较不同特色之间的贡献大小。
贡献度的衡量指标包括:基尼指数(gini)、袋外数据(OOB)缺点率作为评价指标来衡量。
衍生知识点:权重随机森林的运用(用于增加小样本的识别概率,从而提高总体的分类准确率)
随机森林/CART树在利用时一样平常通过gini值作为切分节点的标准,而在加权随机森林(WRF)中,权重的实质是赋给小类较大的权重,给大类较小的权重。也便是给小类更大的惩罚。权重的浸染有2个,第1点是用于切分点选择中加权打算gini值,表达式如下:
随机森林针对小样本数据类权重设置
https://wenku.baidu.com/view/07ba98cca0c7aa00b52acfc789eb172ded639998.html
通过sklearn中的随机森林返回特色的主要性:
举个样例:
sklearn.metrics中的评估方法先容:
参考:http://blog.csdn.net/cherdw/article/details/54971771
网格搜索调参:
grid.fit():运行网格搜索
grid_scores_:给出不同参数情形下的评价结果
best_params_:描述了已取得最佳结果的参数的组合
best_score_:成员供应优化过程期间不雅观察到的最好的评分
http://www.cnblogs.com/xiaochouk/p/8583255.html