f*****n 发帖数: 499 | 1 用ensemble training的时候,一般我也很感兴趣feature importance
比如我的model的accuracy是0.85, 同时得到这样的feature importance:
Importance
Feature-1 0.25
Feature-2 0.09
Feature-3 0.08
明显Feature-1是最重要的;所以我就把Feature-1 除去,用剩下的feature计算,
我发现哪怕去除了Feature-1,accuracy还有0.79
我其实不是很懂feature importance的算法,只是觉得比如Feature-1应该贡献了25%的
,所以去掉Feature-1后model accuracy应该大大降低,但为何还是有0.79呢?
是不是因为这就是ensemble的优势?依赖于各种weak feature的集合?所以去掉重要
feature也不那么sensitive? |
m******n 发帖数: 453 | 2 feature importance就是tree里面的entropy
你去掉了一个,排第二的只不过取而代之而已。 |
s*********h 发帖数: 6288 | 3 你有多少feature?
1.0.85-> 0.79已经是很明显的drop了。
2.相关性。feature-1缺失了剩下的相关的feature就step up了。
【在 f*****n 的大作中提到】 : 用ensemble training的时候,一般我也很感兴趣feature importance : 比如我的model的accuracy是0.85, 同时得到这样的feature importance: : Importance : Feature-1 0.25 : Feature-2 0.09 : Feature-3 0.08 : 明显Feature-1是最重要的;所以我就把Feature-1 除去,用剩下的feature计算, : 我发现哪怕去除了Feature-1,accuracy还有0.79 : 我其实不是很懂feature importance的算法,只是觉得比如Feature-1应该贡献了25%的 : ,所以去掉Feature-1后model accuracy应该大大降低,但为何还是有0.79呢?
|
f*****n 发帖数: 499 | 4 大概300个feature
恩。你说的很对,有一些跟feature-1相关的其他feature就“顶上来”替代了
不过,既然这个feature-1占了0.3这么大比例的importance,为何去掉后,百分比之降
低了6%?
【在 s*********h 的大作中提到】 : 你有多少feature? : 1.0.85-> 0.79已经是很明显的drop了。 : 2.相关性。feature-1缺失了剩下的相关的feature就step up了。
|
s***n 发帖数: 678 | 5 6%超级大了。你还得给一些其他正确率的数据做参考,说不定全0或者全1也有75%正
确率啊,那你掉到了79%岂不是离最蠢模型不远了?
【在 f*****n 的大作中提到】 : 大概300个feature : 恩。你说的很对,有一些跟feature-1相关的其他feature就“顶上来”替代了 : 不过,既然这个feature-1占了0.3这么大比例的importance,为何去掉后,百分比之降 : 低了6%?
|