a*********y 发帖数: 36 | 1 被问到关于risk model的问题,不太理解,请教版上有相关经验的高人。
1. risk model 用很多credit bureau 的数据,大概两百个吧,但是很多variable 的
missing value 高达90%,这种情况应该如何处理?被告知dataset里面所有的missing
value都被populate 成9999,这样是否可行?如果不可行,应该如何处理?
2. 一般用多少个independent variables 来build model, 一般最后选出来多少个?用
sas run proc logistic 的话,放200最后还是选出来50个左右,怎样可以减少到10-15
个?是不是放得太多?如果不放那么多的话,有什么好的方法可以选择出适量的
variables 放进去 run model?
问题太多,谢谢! | G*******s 发帖数: 10605 | 2 1.可以考虑imputation,对结果影响不大,如果variable很多missing本身就不适合做最
后scoring formula的, 这种variable我宁可不要
2.Principle Component是个不错的选择
missing
15
【在 a*********y 的大作中提到】 : 被问到关于risk model的问题,不太理解,请教版上有相关经验的高人。 : 1. risk model 用很多credit bureau 的数据,大概两百个吧,但是很多variable 的 : missing value 高达90%,这种情况应该如何处理?被告知dataset里面所有的missing : value都被populate 成9999,这样是否可行?如果不可行,应该如何处理? : 2. 一般用多少个independent variables 来build model, 一般最后选出来多少个?用 : sas run proc logistic 的话,放200最后还是选出来50个左右,怎样可以减少到10-15 : 个?是不是放得太多?如果不放那么多的话,有什么好的方法可以选择出适量的 : variables 放进去 run model? : 问题太多,谢谢!
| D******n 发帖数: 2836 | 3 1. discard.
2. Its personal.
missing
15
【在 a*********y 的大作中提到】 : 被问到关于risk model的问题,不太理解,请教版上有相关经验的高人。 : 1. risk model 用很多credit bureau 的数据,大概两百个吧,但是很多variable 的 : missing value 高达90%,这种情况应该如何处理?被告知dataset里面所有的missing : value都被populate 成9999,这样是否可行?如果不可行,应该如何处理? : 2. 一般用多少个independent variables 来build model, 一般最后选出来多少个?用 : sas run proc logistic 的话,放200最后还是选出来50个左右,怎样可以减少到10-15 : 个?是不是放得太多?如果不放那么多的话,有什么好的方法可以选择出适量的 : variables 放进去 run model? : 问题太多,谢谢!
|
|