由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - random forest/xgbclassifier的feature importance
相关主题
用10-fold cross-validation 之后怎么挑Model?[Data Science Project Case] Generate Categories for Product
data science 面试求教若问entropy和gini的选择
问题:用VIF做feature selection如何evaluate an unsupervised learning method?
评估feature的预测能力请问决策树连续值的分界点怎么选
weka有支持regression tree的random forest吗 (转载)kaggle上那批人太逆天了 (转载)
求教分类问题中预测概率的问题有关neuralnetwork基本的问题请教
R 里面random forest score新的data有new level的问题machine learning 课程项目的presentation: 大疑问-???
用R做review 的summary有没有做sentiment analysis的,求思路 (转载)
相关话题的讨论汇总
话题: feature话题: importance话题: forest话题: random
进入DataSciences版参与讨论
1 (共1页)
f*****n
发帖数: 499
1
用ensemble training的时候,一般我也很感兴趣feature importance
比如我的model的accuracy是0.85, 同时得到这样的feature importance:
Importance
Feature-1 0.25
Feature-2 0.09
Feature-3 0.08
明显Feature-1是最重要的;所以我就把Feature-1 除去,用剩下的feature计算,
我发现哪怕去除了Feature-1,accuracy还有0.79
我其实不是很懂feature importance的算法,只是觉得比如Feature-1应该贡献了25%的
,所以去掉Feature-1后model accuracy应该大大降低,但为何还是有0.79呢?
是不是因为这就是ensemble的优势?依赖于各种weak feature的集合?所以去掉重要
feature也不那么sensitive?
m******n
发帖数: 453
2
feature importance就是tree里面的entropy
你去掉了一个,排第二的只不过取而代之而已。
s*********h
发帖数: 6288
3
你有多少feature?
1.0.85-> 0.79已经是很明显的drop了。
2.相关性。feature-1缺失了剩下的相关的feature就step up了。

【在 f*****n 的大作中提到】
: 用ensemble training的时候,一般我也很感兴趣feature importance
: 比如我的model的accuracy是0.85, 同时得到这样的feature importance:
: Importance
: Feature-1 0.25
: Feature-2 0.09
: Feature-3 0.08
: 明显Feature-1是最重要的;所以我就把Feature-1 除去,用剩下的feature计算,
: 我发现哪怕去除了Feature-1,accuracy还有0.79
: 我其实不是很懂feature importance的算法,只是觉得比如Feature-1应该贡献了25%的
: ,所以去掉Feature-1后model accuracy应该大大降低,但为何还是有0.79呢?

f*****n
发帖数: 499
4
大概300个feature
恩。你说的很对,有一些跟feature-1相关的其他feature就“顶上来”替代了
不过,既然这个feature-1占了0.3这么大比例的importance,为何去掉后,百分比之降
低了6%?

【在 s*********h 的大作中提到】
: 你有多少feature?
: 1.0.85-> 0.79已经是很明显的drop了。
: 2.相关性。feature-1缺失了剩下的相关的feature就step up了。

s***n
发帖数: 678
5
6%超级大了。你还得给一些其他正确率的数据做参考,说不定全0或者全1也有75%正
确率啊,那你掉到了79%岂不是离最蠢模型不远了?

【在 f*****n 的大作中提到】
: 大概300个feature
: 恩。你说的很对,有一些跟feature-1相关的其他feature就“顶上来”替代了
: 不过,既然这个feature-1占了0.3这么大比例的importance,为何去掉后,百分比之降
: 低了6%?

1 (共1页)
进入DataSciences版参与讨论
相关主题
有没有做sentiment analysis的,求思路 (转载)weka有支持regression tree的random forest吗 (转载)
刚入行新人的两个问题求教分类问题中预测概率的问题
One phone interview question.R 里面random forest score新的data有new level的问题
请问关于小的dataset evaluation的问题用R做review 的summary
用10-fold cross-validation 之后怎么挑Model?[Data Science Project Case] Generate Categories for Product
data science 面试求教若问entropy和gini的选择
问题:用VIF做feature selection如何evaluate an unsupervised learning method?
评估feature的预测能力请问决策树连续值的分界点怎么选
相关话题的讨论汇总
话题: feature话题: importance话题: forest话题: random