l**********8 发帖数: 305 | 1 同事发我的email, 请教大家的见解?
The p-value tests for Normality (kolmogrov-smirnov and shapiro-wilks) are
good indicators of whether data are truly Normal, but the are NOT good
indicators of whether you can use the data in ANOVA or Regression. These
tests will always be significant for large sample sizes, even if the data
are only slightly skewed, and the ANOVA is robust to non-normality for large
sample-sizes from the central limit theorem (even only n=11), meaning your
final conclusions and p-values are fine. So it’s better just to check the
skewness and kurtosis directly as these will most impact the results (if
they are really skewed). |
T*******I 发帖数: 5138 | 2 前不久老板也是问我建线性模型时是否检验过因变量和自变量的正态性,她的协作者说
必须检验,只有服从正态性的才能建线性模型。我回答说我所受的教育里没有这个前提
要求。线性模型的正态性前提要求是模型的residuals被假定服从正态分布。仅此而已
。但在网上搜索时,你会发现有些统计学教授创建的网页有对两个变量的正态性要求。
所以,看起来这个领域有了新思想或思想有些混乱了。
large
your
【在 l**********8 的大作中提到】 : 同事发我的email, 请教大家的见解? : The p-value tests for Normality (kolmogrov-smirnov and shapiro-wilks) are : good indicators of whether data are truly Normal, but the are NOT good : indicators of whether you can use the data in ANOVA or Regression. These : tests will always be significant for large sample sizes, even if the data : are only slightly skewed, and the ANOVA is robust to non-normality for large : sample-sizes from the central limit theorem (even only n=11), meaning your : final conclusions and p-values are fine. So it’s better just to check the : skewness and kurtosis directly as these will most impact the results (if : they are really skewed).
|
w********m 发帖数: 1137 | 3 regression 的assumptions里面没有normality。 这个应该是基本常识吧。 |
R*****s 发帖数: 28 | 4 没有细看,不过线性回归的正太测试不是在变量上做,而是在residual上做。 |
l**********8 发帖数: 305 | 5 同事的意思就是没有必要test, 只要看看SKEWNESS 就够了。。。我有点不懂了。。
【在 R*****s 的大作中提到】 : 没有细看,不过线性回归的正太测试不是在变量上做,而是在residual上做。
|
T*******I 发帖数: 5138 | 6 残差(Residuals)服从正态分布当然好,不服从又会怎样?模型预测误差大?不准确?
【在 R*****s 的大作中提到】 : 没有细看,不过线性回归的正太测试不是在变量上做,而是在residual上做。
|
t*****a 发帖数: 459 | 7 他说的是不要依赖test来判断数据是不是正太分布,最好就是直接看数据的分布有没有
点正太的样子。他说的和你说的不是一个问题。 |
l**********8 发帖数: 305 | 8 在实际工作中,同事确实是只plot看一眼,如果不是skewness太厉害,就算正太了。。
。而且只是看histogram 和density。 在建立linear Regression model之前,不是要
test一下 residual的normality 吗(或是看看qqplot)?
【在 t*****a 的大作中提到】 : 他说的是不要依赖test来判断数据是不是正太分布,最好就是直接看数据的分布有没有 : 点正太的样子。他说的和你说的不是一个问题。
|
t*****a 发帖数: 459 | 9 那些normality test往往结论不一致,而且每一种都不是业界公认的标准。有时候可以
用某个test看一眼,如果p<0.01就比较警惕,如果p=0.05左右但是看着数据分布和正太
差不远也还是可以当做正太的。有一些东西如果不是正太就要按non-parametric的方法
来处理,但是往往数据和正太差不远的时候non-parametric和parametric的结果也差不
多,所以不需要太纠结。 |
l**********8 发帖数: 305 | 10 谢谢,懂了
【在 t*****a 的大作中提到】 : 那些normality test往往结论不一致,而且每一种都不是业界公认的标准。有时候可以 : 用某个test看一眼,如果p<0.01就比较警惕,如果p=0.05左右但是看着数据分布和正太 : 差不远也还是可以当做正太的。有一些东西如果不是正太就要按non-parametric的方法 : 来处理,但是往往数据和正太差不远的时候non-parametric和parametric的结果也差不 : 多,所以不需要太纠结。
|
|
|
h***i 发帖数: 3844 | 11 建立model之前 你怎么搞出这个residual?
【在 l**********8 的大作中提到】 : 在实际工作中,同事确实是只plot看一眼,如果不是skewness太厉害,就算正太了。。 : 。而且只是看histogram 和density。 在建立linear Regression model之前,不是要 : test一下 residual的normality 吗(或是看看qqplot)?
|
l**********8 发帖数: 305 | 12 Linear reggresson is fairly robust for validity against non-normality, but
it may not be most powerful test available for a given non-normal
distribution.....
确?
【在 T*******I 的大作中提到】 : 残差(Residuals)服从正态分布当然好,不服从又会怎样?模型预测误差大?不准确?
|
T*******I 发帖数: 5138 | 13 回归模型的主要功能是刻画变量间的数量依存变化的关系,从而为预测奠定基础。如果
说残差的正态性不好因而模型不好,那应该是指预测功能不够理想,也就是预测失准的
可能性大于残差分布符合正态时的情形。
【在 l**********8 的大作中提到】 : Linear reggresson is fairly robust for validity against non-normality, but : it may not be most powerful test available for a given non-normal : distribution..... : : 确?
|
d*****n 发帖数: 754 | 14 Gauss - Markov 定理咋说的?
large
your
【在 l**********8 的大作中提到】 : 同事发我的email, 请教大家的见解? : The p-value tests for Normality (kolmogrov-smirnov and shapiro-wilks) are : good indicators of whether data are truly Normal, but the are NOT good : indicators of whether you can use the data in ANOVA or Regression. These : tests will always be significant for large sample sizes, even if the data : are only slightly skewed, and the ANOVA is robust to non-normality for large : sample-sizes from the central limit theorem (even only n=11), meaning your : final conclusions and p-values are fine. So it’s better just to check the : skewness and kurtosis directly as these will most impact the results (if : they are really skewed).
|
m********8 发帖数: 32 | 15 以下是一点个人见解,说的不对还请指教。
Linear Regression的一个基本假设就是error term必须iid服从正态分布N(0, sigma2)
。由此可以推得y也必须iid服从正态分布N(X*beta, sigma2)。
但是对y做Normality检验并不是Linear Regression的前提,因为对于不同的y来说,X*
beta不同,也就是说这些y服从的是mean彼此不同,方差相同的正态分布。在不知道每
一个y对应的mean的前提下,对y做Normality检验的结果是没有意义的。
换句话说,假设Linear Regression的model成立,y服从正态分布N(X*beta, sigma2)。
但如果X*beta本身的skewness很大,可以想象y的skewness也会很大,此时对y做
Normality检验,检验结果显然是false的。 |
h***i 发帖数: 3844 | 16
sigma2)
-----这句错了
由此可以推得y也必须iid服从正态分布N(X*beta, sigma2)。
-----即使上句对了,这句也错了
X*
在不知道每一个y对应的mean的前提下,对y做Normality检验的结果是没有意义的。
换句话说,假设Linear Regression的model成立,y服从正态分布N(X*beta, sigma2)。
-----这句错了,同第一句
但如果X*beta本身的skewness很大,可以想象y的skewness也会很大,
------这句不知所云,难道你在讨论X的分布?
此时对y做Normality检验,检验结果显然是false的。
-----这句错了, 你没想如果x是常数会怎么样么?
【在 m********8 的大作中提到】 : 以下是一点个人见解,说的不对还请指教。 : Linear Regression的一个基本假设就是error term必须iid服从正态分布N(0, sigma2) : 。由此可以推得y也必须iid服从正态分布N(X*beta, sigma2)。 : 但是对y做Normality检验并不是Linear Regression的前提,因为对于不同的y来说,X* : beta不同,也就是说这些y服从的是mean彼此不同,方差相同的正态分布。在不知道每 : 一个y对应的mean的前提下,对y做Normality检验的结果是没有意义的。 : 换句话说,假设Linear Regression的model成立,y服从正态分布N(X*beta, sigma2)。 : 但如果X*beta本身的skewness很大,可以想象y的skewness也会很大,此时对y做 : Normality检验,检验结果显然是false的。
|
l**********8 发帖数: 305 | 17 再请教一个具体的问题
连续性变量,如果把response plot出来,skewness=2 大概在border line左右,
Independent variable 是binary 的, 那我是把y做log transfer后用t-test好,还
是直接上wilcoxon rank sum test? |
e*********5 发帖数: 151 | 18 linear regression 要求 Y conditional on x*beta是正态,如果你test的Y的边际分
布是不是正态,那么没有任何意思。 因为Y的边际分布依赖于X的分布。你要test的fit
model以后residual的分布 |
m********8 发帖数: 32 | 19 想请问一下你觉得的linear regression最基本的模型应该是怎样的?
看不太明白你的批注。。。
【在 h***i 的大作中提到】 : : sigma2) : -----这句错了 : 由此可以推得y也必须iid服从正态分布N(X*beta, sigma2)。 : -----即使上句对了,这句也错了 : X* : 在不知道每一个y对应的mean的前提下,对y做Normality检验的结果是没有意义的。 : 换句话说,假设Linear Regression的model成立,y服从正态分布N(X*beta, sigma2)。 : -----这句错了,同第一句 : 但如果X*beta本身的skewness很大,可以想象y的skewness也会很大,
|
g*****o 发帖数: 812 | 20 想一下最小二乘法?回归不是只有用似然法解的
【在 m********8 的大作中提到】 : 想请问一下你觉得的linear regression最基本的模型应该是怎样的? : 看不太明白你的批注。。。
|
|
|
d*****n 发帖数: 754 | 21 OLS 回归依靠G-M 定理的几个假设。G-M 定理不要求正态分布。G-M里的假设加上正
态的假设称为经典线性回归。正态分布的假设影响的是t- 检验和 F检验,但并不影响
回归本身。
【在 g*****o 的大作中提到】 : 想一下最小二乘法?回归不是只有用似然法解的
|
v****0 发帖数: 1887 | 22 终于看到靠谱的回答 有大数律在 咋都是无偏的 影响的是t test 和
confident interval
【在 d*****n 的大作中提到】 : OLS 回归依靠G-M 定理的几个假设。G-M 定理不要求正态分布。G-M里的假设加上正 : 态的假设称为经典线性回归。正态分布的假设影响的是t- 检验和 F检验,但并不影响 : 回归本身。
|
m********8 发帖数: 32 | 23 多谢指点!这下想通了。
【在 d*****n 的大作中提到】 : OLS 回归依靠G-M 定理的几个假设。G-M 定理不要求正态分布。G-M里的假设加上正 : 态的假设称为经典线性回归。正态分布的假设影响的是t- 检验和 F检验,但并不影响 : 回归本身。
|
y*****8 发帖数: 39 | 24 linear regression is actually least square which does not need normality. |
y*****8 发帖数: 39 | 25 linear regression is actually least square which does not need normality. |
y*****8 发帖数: 39 | 26 linear regression is actually least square which does not need normality. |
y*****8 发帖数: 39 | 27 linear regression is actually least square which doesn't need normality. |
c********d 发帖数: 253 | 28 Gauss-Markov theorem already indicates that no normality assumption is
required. But if the errors follow normal distribution, you can prove that
the OLS estimator is the same as MLE, thus it can share the efficiency
gained by MLE. |
c********d 发帖数: 253 | 29 Gauss-Markov theorem already indicates that no normality assumption is
required. But if the errors follow normal distribution, you can prove that
the OLS estimator is the same as MLE, thus it can share the efficiency
gained by MLE. |