由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 问题:用VIF做feature selection
相关主题
model selection problemretail bussiness预测客户的流失概率
问个feature selection的问题random forest/xgbclassifier的feature importance
报面筋求实习合租 (转载)请问哪些算法是可以用python写的,然后输入PMML
Re: 攒人品,发Google Statistician/Data Scientist电面面经data science 面试求教
评价一个变量可预测性问题 (转载)基于DS的startup究竟都申请些什么专利?
如何用python读取大数据用R做review 的summary
请问想找data scientist 工作应该怎么开始准备新手学python, 有个简单数据结构问题,在线急等
lending club的notes 数据feature selection的方法求教
相关话题的讨论汇总
话题: vif话题: feature话题: selection话题: 去掉话题: 余下
进入DataSciences版参与讨论
1 (共1页)
M***e
发帖数: 531
1
有个问题是怎么用VIF做feature selection.
有上千个feature,要求是最后的logistic regression model的feature VIF要小于2.
想了解一下大家用VIF做feature selection的过程。
1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的
VIF,不断循环直到最后余下的feature VIF<2.
2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的,
然后重新计算余下feature的VIF.
因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉
的feature里有本该留下的,结果一刀切都去掉了。
一般大家都怎么做的呢?
求助,多谢
m******r
发帖数: 1033
2
不明白为什么很多人忌讳vif, 其实大一点没什么。
w******H
发帖数: 53
3
我认为取决于用的是什么模型。如果是linear regression,VIF太大模型不稳定。如果
是其他某些模型,比如naive bayes, 影响可能小一点。

【在 m******r 的大作中提到】
: 不明白为什么很多人忌讳vif, 其实大一点没什么。
m******r
发帖数: 1033
4
楼主说的是2. 不知道谁想出来的这个数。 要我说,谁想出这个数,那就说明谁已经有
主意了,就按谁的方法做 大家都开心。

【在 w******H 的大作中提到】
: 我认为取决于用的是什么模型。如果是linear regression,VIF太大模型不稳定。如果
: 是其他某些模型,比如naive bayes, 影响可能小一点。

m*****n
发帖数: 3644
5
方法2不行。假设有10个x,其中x1和x2高度相关,99%,VIF_i=1/(1-R_i^2).方法2会
同时剔除x1和x2。
1 (共1页)
进入DataSciences版参与讨论
相关主题
feature selection的方法求教评价一个变量可预测性问题 (转载)
问问面试如何出题如何用python读取大数据
[IT+IEOR背景]请教一下往DtSci方向的职业发展建议请问想找data scientist 工作应该怎么开始准备
也问个模型lending club的notes 数据
model selection problemretail bussiness预测客户的流失概率
问个feature selection的问题random forest/xgbclassifier的feature importance
报面筋求实习合租 (转载)请问哪些算法是可以用python写的,然后输入PMML
Re: 攒人品,发Google Statistician/Data Scientist电面面经data science 面试求教
相关话题的讨论汇总
话题: vif话题: feature话题: selection话题: 去掉话题: 余下