s*******w 发帖数: 27 | 1 我老板让我做个project, 本人水平有限, 向各位讨教。 希望各位能给我些建议。先
谢过大家!!
比如我们已经知道1000 个加油站的销售量。要做个Predictive Model.
每个加油站大概有100个attributes. 80% attributes are catogorical data. Like
the appearance of this gas station is 1-5. 1 is very bad. 5 is outstanding.
我先是把这100 attributes 能和的和,能去的去。俺家领导要求保留尽可能多的
independent variables. 所以最后还是有很多indep variables. 我就用加油站的销售
量做为Dependent variable. 做个Regression. Because of muticolinearity problem
, many weights don't make sense at all.
最后决定给这100 Independent variables 分成5大类, 像Facility,pricing,
traffic.....
然后用这5个新的key driver 做回归。
现在如何确定每一大类的score 和里面的variables 的weights 是个大问题。比如像确
定Facility里的30个variabels的weights。 我试了2个方法
1.PCA 方法。结果不好
2.Regression. 还是把 加油站的销售量做为Dependent variable,30个和Facility 相
关variabels做Independent variable. 这样来得到Facility score 和 每个vairable
的weights. 好像也不太对。 :(
可以给我些建议吗?多谢, 多谢!!!!!!! |
d*******y 发帖数: 1154 | 2 PCA不好?why?我第一个想到的就是每个类里取1st PC |
l*********s 发帖数: 5409 | 3 pls/RRR/SEM etc, but really, you don't have to worry about weights if
prediction is the business goal. |
P****D 发帖数: 11146 | 4 1000 samples, 100 independent variables? I guess that 10:1 ratio will work
but only barely. |
s*******w 发帖数: 27 | 5 我也是的呀。:(
可是我要取到至少5个PC以上,才能解释70%variance.而且我已经提到了80% var是
catorical data, 甚至是binary 的。你觉的CPA 还有可以用吗
还有你是不是觉得我的第二个方法更本就不make sense? 多谢!!
【在 d*******y 的大作中提到】 : PCA不好?why?我第一个想到的就是每个类里取1st PC
|
a****g 发帖数: 8131 | 6 5个PC有什么问题吗?
要不要做个global的correlation,看看这100个变量中有没有重复的categorical var |
s*******w 发帖数: 27 | 7 Thanks a lot! But Weights 也非常重要的。 俺家领导说, 这个模型的一个重要用途
是,客户要做ALTER SITE.意思就是, 比如他们想着重新装修一下, Apparence 从1到
5, 就指望着销售量增加.
:(
【在 l*********s 的大作中提到】 : pls/RRR/SEM etc, but really, you don't have to worry about weights if : prediction is the business goal.
|
s*******w 发帖数: 27 | 8 pls/RRR/SEM????可以说明白的吗?多谢!!
【在 l*********s 的大作中提到】 : pls/RRR/SEM etc, but really, you don't have to worry about weights if : prediction is the business goal.
|
c**h 发帖数: 206 | 9 告诉他们每加仑降价5毛
保证上去
lol
【在 s*******w 的大作中提到】 : Thanks a lot! But Weights 也非常重要的。 俺家领导说, 这个模型的一个重要用途 : 是,客户要做ALTER SITE.意思就是, 比如他们想着重新装修一下, Apparence 从1到 : 5, 就指望着销售量增加. : :(
|
s*******w 发帖数: 27 | 10 是的!所以开始我是能和就和,能去就去variables.
【在 P****D 的大作中提到】 : 1000 samples, 100 independent variables? I guess that 10:1 ratio will work : but only barely.
|
|
|
s*******w 发帖数: 27 | 11 可是只能取一个呀! 难道5个PC可以合成一个SCORE吗?多谢!
var
【在 a****g 的大作中提到】 : 5个PC有什么问题吗? : 要不要做个global的correlation,看看这100个变量中有没有重复的categorical var
|
l*********s 发帖数: 5409 | 12 RRR: reduced rank regression
SEM : structural equation modeling
【在 s*******w 的大作中提到】 : pls/RRR/SEM????可以说明白的吗?多谢!!
|
s*******w 发帖数: 27 | 13 这个想法,我赞成!!不过,估计俺家领导一听, 这么简单, 要你个搞统计的干啥,
裁了!:(
【在 c**h 的大作中提到】 : 告诉他们每加仑降价5毛 : 保证上去 : lol
|
s*******w 发帖数: 27 | 14 多谢,多谢! 让我Research 一下。再找你请教!Thanks again!
【在 l*********s 的大作中提到】 : RRR: reduced rank regression : SEM : structural equation modeling
|
l*********s 发帖数: 5409 | 15 I don't know them very well either except they do deal with collinearity.
【在 s*******w 的大作中提到】 : 多谢,多谢! 让我Research 一下。再找你请教!Thanks again!
|
c**h 发帖数: 206 | 16 我觉得你索性直接用price单一做个regression
看看是不是有用
有用的话就说就这么办,SAS证明的。统计不就是干这个的嘛
【在 s*******w 的大作中提到】 : 这个想法,我赞成!!不过,估计俺家领导一听, 这么简单, 要你个搞统计的干啥, : 裁了!:(
|
s*******w 发帖数: 27 | 17 Ok. Anyway,thanks a lot!
【在 l*********s 的大作中提到】 : I don't know them very well either except they do deal with collinearity.
|
s*******w 发帖数: 27 | 18 嗯, 很怀念很怀念SAS。 俺家领导是数学出身,不喜欢SAS。不肯给我买SAS. 总是说
: R 好啊, 可以写自己的算法, 还不要钱!
【在 c**h 的大作中提到】 : 我觉得你索性直接用price单一做个regression : 看看是不是有用 : 有用的话就说就这么办,SAS证明的。统计不就是干这个的嘛
|
w******4 发帖数: 488 | 19 看上去像个model selection的问题,试试forward selection? 或者least angle
regression? 当然结果可能还有collinearity,然后再试着去除相关的predictors..如
果有非线性的关系,就不知道怎么办了。。 |
l*********s 发帖数: 5409 | 20 I have to agree with your advisor. R is much easier to program with than SAS
. I only play SAS when I am bored. : -)
【在 s*******w 的大作中提到】 : 嗯, 很怀念很怀念SAS。 俺家领导是数学出身,不喜欢SAS。不肯给我买SAS. 总是说 : : R 好啊, 可以写自己的算法, 还不要钱!
|
s*******w 发帖数: 27 | 21 Thanks a lot for your reply! 嗯, 和我的想法一样, 我的第一步就是这个^_^
【在 w******4 的大作中提到】 : 看上去像个model selection的问题,试试forward selection? 或者least angle : regression? 当然结果可能还有collinearity,然后再试着去除相关的predictors..如 : 果有非线性的关系,就不知道怎么办了。。
|