由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 多元回归,小的变量怎么处理呢?
相关主题
regression要求做normality test么?急问:用什么方法好???
请教一个曲线拟合的问题 (转载)linear regression 中的categorical data
请教:回归方程中自变量的选取。一个关于regression的问题
求教一个题目如何算多个数据的总的标准偏差
有熟悉SAM:Significance Analysis of Microarrays?请问一类校生物统计一年的master program难读吗?
双黄包请教一个统计模型选择问题菜鸟请问ANOVA问题
Monthly自变量VS Weekly因变量,该怎么分析?发包子求教,如何走好统计这条路
有没有什么软件可以实现用多种model来fit data的?选课问题:数据挖掘和多元回归 2选1
相关话题的讨论汇总
话题: ye话题: x3话题: x1话题: 设备话题: 引起
进入Statistics版参与讨论
1 (共1页)
H*H
发帖数: 472
1
大家好,最近在做多元线性回归时遇到了一个问题,特来请教一下。
先简单说一下我的例子:
在工厂中,一年的时间内,他们会采取一到三种方法去测量排污量(例如200天用A设备
测,150天用B设备测,15天用C设备测);x1, x2, x3 就是在一年时间内分别用这三种
方法测的排污量,排污总量就是 Y = x1 + x2 + x3。然后工厂还会在年底根据其他方
法估算一年的排污量 Ye. Y 与 Ye这间就必然存在差别,这差别是由A,B, C三种设备
引起的;所以我就利用Y 与 Ye 之间的差别(△y)作为因变量,三种方法实测的量作
为自变量,构建了以下回归方程:
△y = a+ b1*x1 + b2*x2 + b3*x3
利用1000个工厂的数据进行回归, 结果是x1, x2, x3都是与△y 显著相关的;
b1 = -0.08; b2= 0.11; 而 b3 = 3.54
方法A会引起-8%的误差,方法B引起的误差是11%,这都在我们的估计范围内。但是方法
C 引起的误差 354%就远远超出了可能值。
我认为这是由于x3比较小引起的,利用ols方法作回归分析时,x3远小于x1跟x2的话是
不是就会引起x3的系数严重偏大的问题呢?我看了一下这1000个samples, x3的值基本
上只有x1跟x2的1%(因为C设备利用得很少,基本上是在A跟B都不工作的时候才得用C设
备工作,因此利用C设备所测的量x3很少,但是我们又不能忽略不计)
想请问一下在这种情况下,应该怎么处理回归方程,才会使方程对x3参数的估计更合理
呢?
在网上查了一下,也没有得到啥有意义的答案,所以就只能来这里请教一下了;还望高
手赐教,谢谢!
a******n
发帖数: 11246
2
对,b3大是因为x3小,但是这个对预测\Delta Y没有关系啊。
给个可能不太恰当的解释吧。
A设备你用了200天,假如这个设备的误差每天是\sigma^2,
那么200天总和的误差就是 200 \sigma^2,非常大的误差。
因为b1比较小,所以他对总的误差\Delta y的贡献,和C设备
可能差不多,因为C设备只用15天,误差相对小,但b3大。
另外,你说的方法A会引起8%的误差好像不对吧。因为因变量是
绝对数量Y-Ye,而不是比率Y/Ye...

【在 H*H 的大作中提到】
: 大家好,最近在做多元线性回归时遇到了一个问题,特来请教一下。
: 先简单说一下我的例子:
: 在工厂中,一年的时间内,他们会采取一到三种方法去测量排污量(例如200天用A设备
: 测,150天用B设备测,15天用C设备测);x1, x2, x3 就是在一年时间内分别用这三种
: 方法测的排污量,排污总量就是 Y = x1 + x2 + x3。然后工厂还会在年底根据其他方
: 法估算一年的排污量 Ye. Y 与 Ye这间就必然存在差别,这差别是由A,B, C三种设备
: 引起的;所以我就利用Y 与 Ye 之间的差别(△y)作为因变量,三种方法实测的量作
: 为自变量,构建了以下回归方程:
: △y = a+ b1*x1 + b2*x2 + b3*x3
: 利用1000个工厂的数据进行回归, 结果是x1, x2, x3都是与△y 显著相关的;

H*H
发帖数: 472
3

谢谢你的解释;
可不可以这样理解呢,假设在某一个工厂,365天都是由A 设备来测的,所以全部偏差
都是A引起的;
就是 delta Y = Y - Ye = a1*x1= a1 * Y
所以算出来的结果 a1 = (Y- Ye)/Y,所以这里的系数其实是一个比率。x1在这里是一
个绝对数量
比率a1*x1就是相当于引起的差 Y - Ye
如果x3相对于x1 跟 x2 很小的话,请问有什么方法优化呢?

【在 a******n 的大作中提到】
: 对,b3大是因为x3小,但是这个对预测\Delta Y没有关系啊。
: 给个可能不太恰当的解释吧。
: A设备你用了200天,假如这个设备的误差每天是\sigma^2,
: 那么200天总和的误差就是 200 \sigma^2,非常大的误差。
: 因为b1比较小,所以他对总的误差\Delta y的贡献,和C设备
: 可能差不多,因为C设备只用15天,误差相对小,但b3大。
: 另外,你说的方法A会引起8%的误差好像不对吧。因为因变量是
: 绝对数量Y-Ye,而不是比率Y/Ye...

m****n
发帖数: 3016
4

没大理解,你这里面为什么要放 a ,如果x1~x3=0的时候,应该没有排污了吧,难道你
这里的a表示的是本底值?
也可以试试把dependent variable 设成Ye.

【在 H*H 的大作中提到】
: 大家好,最近在做多元线性回归时遇到了一个问题,特来请教一下。
: 先简单说一下我的例子:
: 在工厂中,一年的时间内,他们会采取一到三种方法去测量排污量(例如200天用A设备
: 测,150天用B设备测,15天用C设备测);x1, x2, x3 就是在一年时间内分别用这三种
: 方法测的排污量,排污总量就是 Y = x1 + x2 + x3。然后工厂还会在年底根据其他方
: 法估算一年的排污量 Ye. Y 与 Ye这间就必然存在差别,这差别是由A,B, C三种设备
: 引起的;所以我就利用Y 与 Ye 之间的差别(△y)作为因变量,三种方法实测的量作
: 为自变量,构建了以下回归方程:
: △y = a+ b1*x1 + b2*x2 + b3*x3
: 利用1000个工厂的数据进行回归, 结果是x1, x2, x3都是与△y 显著相关的;

H*H
发帖数: 472
5

这里 a 就是相当于是截距,就是其他因素可能引起的,而不是由三种测量设备引起的
偏差;不知道这样说对不对。 Ye 作变量的话结果几乎都偏向Ye了,因为Ye比其他的都
大很多... 我主要是想知道什么引起了Y 跟Ye的偏差

【在 m****n 的大作中提到】
:
: 没大理解,你这里面为什么要放 a ,如果x1~x3=0的时候,应该没有排污了吧,难道你
: 这里的a表示的是本底值?
: 也可以试试把dependent variable 设成Ye.

D******n
发帖数: 2836
6
hmm, do you know what you are doing here with regression? and what kind of
problem you are going to solve or what kind of question you want an answer
for? It reminds me of a proverb.
“if all you have is a hammer, everything looks like a nail”
Before you apply regression, carefully think through your problem and
formulate it in the language of Math. Your problem looks more like ANOVA.
and maybe simply doing average can give you some thoughts.
just compare x1/n1,x2/n2, x3/n3,and ye/ne
n1,n2,n3,ne are the corresponding days those methods were applied, in your ,
example, they are 200,150,15,and 365 respectively.

【在 H*H 的大作中提到】
: 大家好,最近在做多元线性回归时遇到了一个问题,特来请教一下。
: 先简单说一下我的例子:
: 在工厂中,一年的时间内,他们会采取一到三种方法去测量排污量(例如200天用A设备
: 测,150天用B设备测,15天用C设备测);x1, x2, x3 就是在一年时间内分别用这三种
: 方法测的排污量,排污总量就是 Y = x1 + x2 + x3。然后工厂还会在年底根据其他方
: 法估算一年的排污量 Ye. Y 与 Ye这间就必然存在差别,这差别是由A,B, C三种设备
: 引起的;所以我就利用Y 与 Ye 之间的差别(△y)作为因变量,三种方法实测的量作
: 为自变量,构建了以下回归方程:
: △y = a+ b1*x1 + b2*x2 + b3*x3
: 利用1000个工厂的数据进行回归, 结果是x1, x2, x3都是与△y 显著相关的;

H*H
发帖数: 472
7

,
谢谢你的建议;但问题是Ye只有一年的总量。Ye/Ne是可以得到的,但是这样得出的结
果就是把A B C 三种设备混为一谈了,现在我就是想分别得出A B C三种方法所引起的
偏差,很自然就想到A设备相对于估算方法的偏差是a1,B设备相对于估算方法的偏差是
a2, C设备的偏差是a3,然后它们引起的总偏差就相当于Y - Ye;
刚才LSS那位同学说用Ye 当因变量,其实我想想也是可以的,这样的话a1, a2, a3就相
当于分别是调整系数了(呵呵 ,不知道这样说对不对);但是得出的结果仍然是a3严
重偏大。

【在 D******n 的大作中提到】
: hmm, do you know what you are doing here with regression? and what kind of
: problem you are going to solve or what kind of question you want an answer
: for? It reminds me of a proverb.
: “if all you have is a hammer, everything looks like a nail”
: Before you apply regression, carefully think through your problem and
: formulate it in the language of Math. Your problem looks more like ANOVA.
: and maybe simply doing average can give you some thoughts.
: just compare x1/n1,x2/n2, x3/n3,and ye/ne
: n1,n2,n3,ne are the corresponding days those methods were applied, in your ,
: example, they are 200,150,15,and 365 respectively.

1 (共1页)
进入Statistics版参与讨论
相关主题
选课问题:数据挖掘和多元回归 2选1有熟悉SAM:Significance Analysis of Microarrays?
请教个多元回归中的问题双黄包请教一个统计模型选择问题
什么SAS命令可以执行multivariate regression???Monthly自变量VS Weekly因变量,该怎么分析?
[合集] 如何简单的画这个图有没有什么软件可以实现用多种model来fit data的?
regression要求做normality test么?急问:用什么方法好???
请教一个曲线拟合的问题 (转载)linear regression 中的categorical data
请教:回归方程中自变量的选取。一个关于regression的问题
求教一个题目如何算多个数据的总的标准偏差
相关话题的讨论汇总
话题: ye话题: x3话题: x1话题: 设备话题: 引起