由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 问个基本的建MODEL问题
相关主题
还是个MODEL问题用什么方法分析?
a question about ordinal predictor这个是ANOVA的问题吗?
包子求解释,为什么anova解释variance这么少攒人品,发Google Statistician/Data Scientist电面面经
one question about variable selection in SASany regression model with high prediction accuracy?
如何确定什么情况time series,什么情况linear reg?anybody use minitab?
how to convert a categorical variable into a continuous variable请问:想fit gamma 并同时用lasso的方法做variable selection
弱问到底什么是fixed/random effect model?请教如何分析一个case control study。
求助一道题How to deal with this predictor with 50% missing values
相关话题的讨论汇总
话题: predictor话题: bmi话题: model话题: anova
进入Statistics版参与讨论
1 (共1页)
z**********i
发帖数: 12276
1
OUTCOME: BMI
PREDICTOR: QUESTION1, QUESTION2, QUESTION5, QUESTION6...
所有的PREDICTORS是ORDIANL VARIABLE.
我想分别TEST OUTCOME和每一个PREDICTOR的CORRELATION.
我用了2个方法:
1.
PROC CORR SPEARMAN;
VAR BMI QUESTION1n QUESTION2n...;
RUN;
生成一个CORRELATION TABLE.
2. ANOVA
分别把每个PREDICTOR和BMI放到MODEL里,这一步,我不是很确定.
proc glm data = DATA;
class QUESTION1;
model BMI = QUESTION1;
meansQUESTION1;
run;
quit;
最终,是要建个MIXED MODEL.现在是筛选可用的PREDICTORS.
多谢!!
z**********i
发帖数: 12276
2
给点建议吧...

【在 z**********i 的大作中提到】
: OUTCOME: BMI
: PREDICTOR: QUESTION1, QUESTION2, QUESTION5, QUESTION6...
: 所有的PREDICTORS是ORDIANL VARIABLE.
: 我想分别TEST OUTCOME和每一个PREDICTOR的CORRELATION.
: 我用了2个方法:
: 1.
: PROC CORR SPEARMAN;
: VAR BMI QUESTION1n QUESTION2n...;
: RUN;
: 生成一个CORRELATION TABLE.

k*****u
发帖数: 1688
3
anova为什么要一个一个的来呢? 简单的backward variable selection是全部
predictor放进去,然后把不显著的去掉。
而且第一步算了他们的correlation,应该考虑把predictor相关性很强的去掉。要不然
会有复共线性的问题。当然也要考虑实际的意义。
ps,前天刚刚看到statcompute的一个paper,如果predictor不是线性的,用GAM没法解
释predictor的时候,他们用CARD或者别的先对predictor做prediction。然后再做GLM。
希望有实际经验的大牛们出来说说还可以怎么搞。
A*******s
发帖数: 3942
4
啥文章呢?card还是cart?

GLM。

【在 k*****u 的大作中提到】
: anova为什么要一个一个的来呢? 简单的backward variable selection是全部
: predictor放进去,然后把不显著的去掉。
: 而且第一步算了他们的correlation,应该考虑把predictor相关性很强的去掉。要不然
: 会有复共线性的问题。当然也要考虑实际的意义。
: ps,前天刚刚看到statcompute的一个paper,如果predictor不是线性的,用GAM没法解
: 释predictor的时候,他们用CARD或者别的先对predictor做prediction。然后再做GLM。
: 希望有实际经验的大牛们出来说说还可以怎么搞。

D******n
发帖数: 2836
5
i guess he was referring to the industrial approach:
build tree to do segmentation and build linear models on each segment.

【在 A*******s 的大作中提到】
: 啥文章呢?card还是cart?
:
: GLM。

z**********i
发帖数: 12276
6
第一步的CORRELATION之后,是要把相关很强的去掉,正在做.多谢!
ANOVA这步,需要分别来看吗?
A one-way analysis of variance (ANOVA) is used when you have a categorical
independent variable (with two or more categories) and a normally
distributed interval dependent variable and you wish to test for differences
in the means of the dependent variable broken down by the levels of the
independent variable.
因为样本比较大,虽然每组的MEAN比较接近,但用F计算的P还是有显著性.另外,
PREDICTOR是ORDINAL,但BMI并不是随着增加或降低.
BACKWARD是用PROC GLMSELECT吧? 以前没用过,去研究一下.
另外,QUESTION5,6,7是相同BEHAVIOR,45-49是PHYSICAL ACTIVITY BEHAVIOR,在MODEL里
把它们作为单独的COVARIATES还是合并呢?
非常感谢你的回复!

GLM。

【在 k*****u 的大作中提到】
: anova为什么要一个一个的来呢? 简单的backward variable selection是全部
: predictor放进去,然后把不显著的去掉。
: 而且第一步算了他们的correlation,应该考虑把predictor相关性很强的去掉。要不然
: 会有复共线性的问题。当然也要考虑实际的意义。
: ps,前天刚刚看到statcompute的一个paper,如果predictor不是线性的,用GAM没法解
: 释predictor的时候,他们用CARD或者别的先对predictor做prediction。然后再做GLM。
: 希望有实际经验的大牛们出来说说还可以怎么搞。

z**********i
发帖数: 12276
7
能给个参考文章吗?
我这个DATA有2个LEVEL, STUDENT和COUNTRY LEVEL,然后,还要用HLM.本来水平就有限,
没办法,只好硬着头皮上了.

【在 D******n 的大作中提到】
: i guess he was referring to the industrial approach:
: build tree to do segmentation and build linear models on each segment.

k*****u
发帖数: 1688
8
cart
哈哈 打错了
改了

【在 A*******s 的大作中提到】
: 啥文章呢?card还是cart?
:
: GLM。

k*****u
发帖数: 1688
9
totally right
哈哈

【在 D******n 的大作中提到】
: i guess he was referring to the industrial approach:
: build tree to do segmentation and build linear models on each segment.

k*****u
发帖数: 1688
10
你的question变量值是什么啊? yes / no 这种么?
你的那段英文也说了,anova要自变量是正态。 要是yes / no就不能anova了

differences

【在 z**********i 的大作中提到】
: 第一步的CORRELATION之后,是要把相关很强的去掉,正在做.多谢!
: ANOVA这步,需要分别来看吗?
: A one-way analysis of variance (ANOVA) is used when you have a categorical
: independent variable (with two or more categories) and a normally
: distributed interval dependent variable and you wish to test for differences
: in the means of the dependent variable broken down by the levels of the
: independent variable.
: 因为样本比较大,虽然每组的MEAN比较接近,但用F计算的P还是有显著性.另外,
: PREDICTOR是ORDINAL,但BMI并不是随着增加或降低.
: BACKWARD是用PROC GLMSELECT吧? 以前没用过,去研究一下.

相关主题
how to convert a categorical variable into a continuous variable用什么方法分析?
弱问到底什么是fixed/random effect model?这个是ANOVA的问题吗?
求助一道题攒人品,发Google Statistician/Data Scientist电面面经
进入Statistics版参与讨论
a****g
发帖数: 8131
11
据我的感觉,你的response var是continuous data
predictors are discrete
为什么不把所有的var斗放进去呢?就象前面有人提到的
当然 做个correlation减少var的数量也很有必要

【在 z**********i 的大作中提到】
: OUTCOME: BMI
: PREDICTOR: QUESTION1, QUESTION2, QUESTION5, QUESTION6...
: 所有的PREDICTORS是ORDIANL VARIABLE.
: 我想分别TEST OUTCOME和每一个PREDICTOR的CORRELATION.
: 我用了2个方法:
: 1.
: PROC CORR SPEARMAN;
: VAR BMI QUESTION1n QUESTION2n...;
: RUN;
: 生成一个CORRELATION TABLE.

G**7
发帖数: 391
12
The predictor variables are ordinal.
Why not read some literature to determine first?
Next, get the correlation of all variables and if any are highly correlated
or not correlated. Double check with literature for those with 0
correlation.
d*******o
发帖数: 493
13
不妨直接上proc glmselect stepwise
z**********i
发帖数: 12276
14
question是过去的一个月内有几天没吃饱?
A.0; B.1; C.2; D.3; E.4; F.5; G.6.
都是类似的问题:我看是ORDINAL的VARIABLE.
OUTCOME是BMI,不是非常NORMAL,但很接近.我看一篇文献取了倒数,我取了,比不取好点,
但NORMAL TEST,还是不NORMAL.
多谢回复!!

【在 k*****u 的大作中提到】
: 你的question变量值是什么啊? yes / no 这种么?
: 你的那段英文也说了,anova要自变量是正态。 要是yes / no就不能anova了
:
: differences

z**********i
发帖数: 12276
15
RESPONSE是BMI,CONTINUOUS.
PREDICTOR都是CATEGORICAL.
下面,我用PROC GLMSELECT看看.
多谢!!

【在 a****g 的大作中提到】
: 据我的感觉,你的response var是continuous data
: predictors are discrete
: 为什么不把所有的var斗放进去呢?就象前面有人提到的
: 当然 做个correlation减少var的数量也很有必要

z**********i
发帖数: 12276
16
多谢!要读点东西.

correlated

【在 G**7 的大作中提到】
: The predictor variables are ordinal.
: Why not read some literature to determine first?
: Next, get the correlation of all variables and if any are highly correlated
: or not correlated. Double check with literature for those with 0
: correlation.

z**********i
发帖数: 12276
17
据说,STEPWISE有很多问题,我还是从BACKWARDS起手.
多谢!!

【在 d*******o 的大作中提到】
: 不妨直接上proc glmselect stepwise
A*******s
发帖数: 3942
18
你这个例子是可以当成continuos的
我觉得你这个问题的关键还是怎么处理ordinal predictors
要不就和一般的regression,anova区别不大
可以试试对ordinal predictor转换成percentile
这样可以避免太高的model df

点,

【在 z**********i 的大作中提到】
: question是过去的一个月内有几天没吃饱?
: A.0; B.1; C.2; D.3; E.4; F.5; G.6.
: 都是类似的问题:我看是ORDINAL的VARIABLE.
: OUTCOME是BMI,不是非常NORMAL,但很接近.我看一篇文献取了倒数,我取了,比不取好点,
: 但NORMAL TEST,还是不NORMAL.
: 多谢回复!!

s**f
发帖数: 365
19
那你把它搞成normal阿,呵呵
independent var的话,应该是你给出correlation,scientist来决定取舍吧?
就好比education和SES很正相关,如何取舍呢?先有鸡还是先有蛋?只能问写paper
argue的那个人。我们提供数据就好了。

点,

【在 z**********i 的大作中提到】
: question是过去的一个月内有几天没吃饱?
: A.0; B.1; C.2; D.3; E.4; F.5; G.6.
: 都是类似的问题:我看是ORDINAL的VARIABLE.
: OUTCOME是BMI,不是非常NORMAL,但很接近.我看一篇文献取了倒数,我取了,比不取好点,
: 但NORMAL TEST,还是不NORMAL.
: 多谢回复!!

z**********i
发帖数: 12276
20
现在,我又要给出CORRELATION,又要做SCIENTIST,所以只好来这里问问各位大侠了.
:-)

【在 s**f 的大作中提到】
: 那你把它搞成normal阿,呵呵
: independent var的话,应该是你给出correlation,scientist来决定取舍吧?
: 就好比education和SES很正相关,如何取舍呢?先有鸡还是先有蛋?只能问写paper
: argue的那个人。我们提供数据就好了。
:
: 点,

1 (共1页)
进入Statistics版参与讨论
相关主题
How to deal with this predictor with 50% missing values如何确定什么情况time series,什么情况linear reg?
model和variables都sig.但每个category都不sighow to convert a categorical variable into a continuous variable
做machine learning还有这么悲催的吗弱问到底什么是fixed/random effect model?
通常Predictor越多AIC是不是应该越低?求助一道题
还是个MODEL问题用什么方法分析?
a question about ordinal predictor这个是ANOVA的问题吗?
包子求解释,为什么anova解释variance这么少攒人品,发Google Statistician/Data Scientist电面面经
one question about variable selection in SASany regression model with high prediction accuracy?
相关话题的讨论汇总
话题: predictor话题: bmi话题: model话题: anova