b*******e 发帖数: 288 | 1 我做了一个regression model:
Y = B0 + B1X1 + B2X2 + B3X3 + B4X4
但是X1和X2, X2和X3, 以及X1和X3都线性相关,导致最后的模型不稳定
我如果把X1和X2去掉,只用X3和X4做模型得到:
Y = B0* + B3*X3 + B4*X4,这个新模型稳定性不错。
但是Y和X1, 以及Y和X2相关性都很高,所以我不想就这么简单的消掉这两个参数。
所以我想请教一下,有没有什么办法消除原来那个模型里的相关(都是线性的)。或者
我这样消掉两个变量后的模型理论上行
不行(因为我想既然X3可以预测X1和X2,那是不是把1和2消掉后也不影响最后的结果?
)?
还有我试了centering的方法,没用。
多谢多谢! |
d******e 发帖数: 7844 | 2 Ridge
【在 b*******e 的大作中提到】 : 我做了一个regression model: : Y = B0 + B1X1 + B2X2 + B3X3 + B4X4 : 但是X1和X2, X2和X3, 以及X1和X3都线性相关,导致最后的模型不稳定 : 我如果把X1和X2去掉,只用X3和X4做模型得到: : Y = B0* + B3*X3 + B4*X4,这个新模型稳定性不错。 : 但是Y和X1, 以及Y和X2相关性都很高,所以我不想就这么简单的消掉这两个参数。 : 所以我想请教一下,有没有什么办法消除原来那个模型里的相关(都是线性的)。或者 : 我这样消掉两个变量后的模型理论上行 : 不行(因为我想既然X3可以预测X1和X2,那是不是把1和2消掉后也不影响最后的结果? : )?
|
b*******e 发帖数: 288 | 3 谢谢
不过这个我查了查,完全看不懂啊……
【在 d******e 的大作中提到】 : Ridge
|
F****n 发帖数: 3271 | 4 Difficulty Level in Increasing Order:
1. Regress X1, X2 on residuals of Y~X3+X4;
2. Ridge / Lasso
3. Principle Component Regression / Factor Analysis;
4. Partial Least Square / Structural Equation Modeling
【在 b*******e 的大作中提到】 : 我做了一个regression model: : Y = B0 + B1X1 + B2X2 + B3X3 + B4X4 : 但是X1和X2, X2和X3, 以及X1和X3都线性相关,导致最后的模型不稳定 : 我如果把X1和X2去掉,只用X3和X4做模型得到: : Y = B0* + B3*X3 + B4*X4,这个新模型稳定性不错。 : 但是Y和X1, 以及Y和X2相关性都很高,所以我不想就这么简单的消掉这两个参数。 : 所以我想请教一下,有没有什么办法消除原来那个模型里的相关(都是线性的)。或者 : 我这样消掉两个变量后的模型理论上行 : 不行(因为我想既然X3可以预测X1和X2,那是不是把1和2消掉后也不影响最后的结果? : )?
|
b*******e 发帖数: 288 | 5 谢谢,我先来试试第一个!
【在 F****n 的大作中提到】 : Difficulty Level in Increasing Order: : 1. Regress X1, X2 on residuals of Y~X3+X4; : 2. Ridge / Lasso : 3. Principle Component Regression / Factor Analysis; : 4. Partial Least Square / Structural Equation Modeling
|
r******m 发帖数: 369 | 6 借楼主的帖子问一下,如果用PCR, principle component regression的话,以后如果
有要用这个模型来predict的话,X也要做一样的线性变换是把,可是这样的话感觉会有
overfitting的问题啊。请熟悉PCR的同学回答一下。 |
s*****9 发帖数: 108 | 7 不会吧,用了pc,x的维度下降了,出现overfit的几率减小了啊 |
F****n 发帖数: 3271 | 8 PCR creates coefficients for X from coefficients of principal components by
weighting on loadings.
Off course it has the potential of overfitting, but so do other regression
methods.
【在 r******m 的大作中提到】 : 借楼主的帖子问一下,如果用PCR, principle component regression的话,以后如果 : 有要用这个模型来predict的话,X也要做一样的线性变换是把,可是这样的话感觉会有 : overfitting的问题啊。请熟悉PCR的同学回答一下。
|
r******m 发帖数: 369 | 9 PCR用在X上的coefficients不也可以看成一种estimate吗?
【在 s*****9 的大作中提到】 : 不会吧,用了pc,x的维度下降了,出现overfit的几率减小了啊
|
r******m 发帖数: 369 | 10 恩,我就是觉得PCR看似很漂亮地解决了collinearity但是这个penalty其实转移了而已。
不过我还是比较肤浅地了解,有没有好的读物推荐一下?谢谢。
by
regression
【在 F****n 的大作中提到】 : PCR creates coefficients for X from coefficients of principal components by : weighting on loadings. : Off course it has the potential of overfitting, but so do other regression : methods.
|
|
|
F****n 发帖数: 3271 | 11 Someone recommended a book called "statistical learning" something, can't
remember the exact title.
已。
【在 r******m 的大作中提到】 : 恩,我就是觉得PCR看似很漂亮地解决了collinearity但是这个penalty其实转移了而已。 : 不过我还是比较肤浅地了解,有没有好的读物推荐一下?谢谢。 : : by : regression
|
d******g 发帖数: 130 | 12 The Elements of Statistical Learning
【在 F****n 的大作中提到】 : Someone recommended a book called "statistical learning" something, can't : remember the exact title. : : 已。
|
r******m 发帖数: 369 | 13 我晕,这本书现在就在我手边,好吧,我还是啃书本把
【在 d******g 的大作中提到】 : The Elements of Statistical Learning
|
A*******s 发帖数: 3942 | 14 if aiming at reducing overfitting/underfitting, you need to use subset
selection methods with generalized error estimation together. PCR alone
doesn't guarantee anything. Overfitting and multicollinearity are not
directly related even though both usually occur when the model has too many
variables.
【在 r******m 的大作中提到】 : 借楼主的帖子问一下,如果用PCR, principle component regression的话,以后如果 : 有要用这个模型来predict的话,X也要做一样的线性变换是把,可是这样的话感觉会有 : overfitting的问题啊。请熟悉PCR的同学回答一下。
|
d******e 发帖数: 7844 | 15 PC regression实际就是Low Rank Regularization
已。
【在 r******m 的大作中提到】 : 恩,我就是觉得PCR看似很漂亮地解决了collinearity但是这个penalty其实转移了而已。 : 不过我还是比较肤浅地了解,有没有好的读物推荐一下?谢谢。 : : by : regression
|
a****m 发帖数: 693 | 16
当p>>n时,you can not do ordinary linear regression because of
multicolinearity. PCR可以extract the most possible variance in X and use
those orthogonal principal component to fit the model. therefore, it
eliminates the multicolinearity problem. but the problem of choosing an
optimum subset of predictors remains.
【在 d******e 的大作中提到】 : PC regression实际就是Low Rank Regularization : : 已。
|
h***i 发帖数: 3844 | 17 you always need to pick a threshold, hehe
【在 a****m 的大作中提到】 : : 当p>>n时,you can not do ordinary linear regression because of : multicolinearity. PCR可以extract the most possible variance in X and use : those orthogonal principal component to fit the model. therefore, it : eliminates the multicolinearity problem. but the problem of choosing an : optimum subset of predictors remains.
|