k*****u 发帖数: 1688 | 1 如果用boxplot的话,proc univariate里面的一个个的变量来看。太多了
有没有那个proc可以对所有的变量看的?
另外,model y=x; 假如有100个x,名字都不一样,怎么放进model后面,得一个个的敲
名字进去么?
谢谢 | a******n 发帖数: 11246 | 2
值,怎么找每个变量里面的outlier?
用两个减号:第一个变量名--最后一个变量名
如:input Y X1 A2 B3 D;
......
model Y=X1--D;
【在 k*****u 的大作中提到】 : 如果用boxplot的话,proc univariate里面的一个个的变量来看。太多了 : 有没有那个proc可以对所有的变量看的? : 另外,model y=x; 假如有100个x,名字都不一样,怎么放进model后面,得一个个的敲 : 名字进去么? : 谢谢
| b********8 发帖数: 3059 | | o********p 发帖数: 127 | 4 my 2 cents:
1) use stepwise selection to select variables, etc.
2) can also consider other variable selection methods, such as PCA and, in
particularily some regularization method (to address for the
multicollinerity issues among regressors). This can be easy done in R,
however, SAS should have similar procesures (lots of big cow here in this
board...)
3) If you are doing classificaiton (y is categorical), you may (and should,
actualy) consider ROC curve, which is quite practical and most commonly used.
4) for 100 x, seems SAS can do some f1-f100 stuff to simplify notation -
again, lots of SAS big cow here...;-)
【 在 killniu (killniu) 的大作中提到: 】 | k*****u 发帖数: 1688 | 5 多谢楼上的几位帮忙。 我昨天晚上仔细看了一下data,因变量y是连续的数值型变量,
自变量有几个是连续的,但是绝大部分自变量都是categorical的,我这么想不知道对
不对:
1:把categorical的自变量变成dummy variable,这样的话可以做linear regression
。 也可以用向前,向后,逐步的办法选择变量。有一个问题是,万一变量选择的时候
,某个dummu variable有一些显著,一些不显著,那怎么解释?
2:就把categorical的x作为离散的,然后用proc mixed作为一个混合模型,某些x有很
多值的就作为一个random effect。不知道proc mixed里面做variable selection用什
么办法?好像没有forward这种类似的命令。还有,在这里面那些连续的x能直接放进来
么?还是怎么办? 谢谢了
多谢各位! | T*******I 发帖数: 5138 | 6 如果嫌敲一个个变量名麻烦,一个简单的办法是将实际变量名改为变量名序列X1, X2,
X3...., XM。为此,你需要建立一个专门的变量名数据集记录这个对应关系。可用以下
语句
data newset;
set oldset;
renmane xhy = X1
zdgf = X2
......
vmn = Xm;
run;
变量名数据集可以用proc contents来获得,然后输出到excel中,它将在第1列,在excel的第二列的第一行输入X001(如果你的最大变量个数在三位数以内的话), 然后单击该格,向下拖拉直至你要的个数,excel会自动生成一个序列
X001
X002
....
X999
上述操作是为原始数据库中的变量没有label时而设计的。如果嫌上述操作麻烦,可以用下面的code:
data newset;
set oldset;
X1 = xhy;
X2 = zdgf;
......
Xm = vmn;
drop old variables names;
run;
这个code的好处是系统自动将原变量名作为新变量名的label。
有了上述新dataset后,会很便于code的编写,例如,在model语句中可以这样写:
proc glm data=newset;
model = X1-X15 X17 X19-X78 X92-X134;
run;
有时甚至:
model = X1-X134;
【在 k*****u 的大作中提到】 : 如果用boxplot的话,proc univariate里面的一个个的变量来看。太多了 : 有没有那个proc可以对所有的变量看的? : 另外,model y=x; 假如有100个x,名字都不一样,怎么放进model后面,得一个个的敲 : 名字进去么? : 谢谢
| k*****u 发帖数: 1688 | |
|