m****l 发帖数: 46 | 1 有A,B,C三组样本, 假设每一组的样本容量分别是200,300和400,每一个样本有40000
维,每一维基本符合正态分布。 现在我想从这40000维里找出一些有差异的若干维(控
制在50维以内),用来进行分类。不知道用T检验来寻找具有显著差异的维否可行?实
际上我用T检验筛选出某些维度以后,发现用来进行分类效果并不好。不知道是什么原
因?该如何改进? |
h***i 发帖数: 3844 | 2 这么有钱,做了这么多sample?
40000
【在 m****l 的大作中提到】 : 有A,B,C三组样本, 假设每一组的样本容量分别是200,300和400,每一个样本有40000 : 维,每一维基本符合正态分布。 现在我想从这40000维里找出一些有差异的若干维(控 : 制在50维以内),用来进行分类。不知道用T检验来寻找具有显著差异的维否可行?实 : 际上我用T检验筛选出某些维度以后,发现用来进行分类效果并不好。不知道是什么原 : 因?该如何改进?
|
m****l 发帖数: 46 | 3 sample是别人现成的,我就是拿过来分析一下而已。 |
A*******s 发帖数: 3942 | 4 你是搞LDA/QDA么?T test这个就相当于做多次anova,还不如直接搞一个manova。但是
效果应该不如forward/backward selection。或者用RDA来搞搞也行。
40000
【在 m****l 的大作中提到】 : 有A,B,C三组样本, 假设每一组的样本容量分别是200,300和400,每一个样本有40000 : 维,每一维基本符合正态分布。 现在我想从这40000维里找出一些有差异的若干维(控 : 制在50维以内),用来进行分类。不知道用T检验来寻找具有显著差异的维否可行?实 : 际上我用T检验筛选出某些维度以后,发现用来进行分类效果并不好。不知道是什么原 : 因?该如何改进?
|
h***i 发帖数: 3844 | 5 他是要先做screening。
【在 A*******s 的大作中提到】 : 你是搞LDA/QDA么?T test这个就相当于做多次anova,还不如直接搞一个manova。但是 : 效果应该不如forward/backward selection。或者用RDA来搞搞也行。 : : 40000
|
A*******s 发帖数: 3942 | 6 对啊,搞bivariate analysis来screen掉一堆variable还是有风险的。有些
insignificant in bivariate analysis的,也有可能become significant after
adjusted by other covariates.
不过在业界,至少在银行,还是不少人直接这么干的。大家都不太在乎,呵呵。其实直
接搞个forward/backward也不费事。
【在 h***i 的大作中提到】 : 他是要先做screening。
|
l*********s 发帖数: 5409 | 7 精算你怎么学的这么好呢,cong!
【在 A*******s 的大作中提到】 : 对啊,搞bivariate analysis来screen掉一堆variable还是有风险的。有些 : insignificant in bivariate analysis的,也有可能become significant after : adjusted by other covariates. : 不过在业界,至少在银行,还是不少人直接这么干的。大家都不太在乎,呵呵。其实直 : 接搞个forward/backward也不费事。
|
A*******s 发帖数: 3942 | 8 小鸟不要乱拍mp... 能不能给我推荐一本mixed model的书,感觉你在这方面挺懂的
【在 l*********s 的大作中提到】 : 精算你怎么学的这么好呢,cong!
|
l*********s 发帖数: 5409 | 9 瀑布汗,你的感觉超不准 :-)
不过一般买书要细看亚马孙的评价啦,比如有的书评分高是因为容易自学,但却可能不
合适作参考用
【在 A*******s 的大作中提到】 : 小鸟不要乱拍mp... 能不能给我推荐一本mixed model的书,感觉你在这方面挺懂的
|
m****l 发帖数: 46 | 10 我最终的目的是把他们分类。 因为现在的样本是人为分类的,我想要设计自动分类的
程序。 直观的感觉就是要挑选一些特定的维度来做分析,直接处理这样高维的数据感
觉很有难度,不知道是否有有效的处理高维数据的方法? 我试过PCA,但效果不好。
你说的forward/backward selection我还没试过,也是用来筛选数据的么?
【在 A*******s 的大作中提到】 : 你是搞LDA/QDA么?T test这个就相当于做多次anova,还不如直接搞一个manova。但是 : 效果应该不如forward/backward selection。或者用RDA来搞搞也行。 : : 40000
|
|
|
n*****n 发帖数: 3123 | 11 分类效果不好的原因是用t-test或者其他的univariate的选出来的redundancy很高,很
可能50个里面只有两三个是有用的,其他的跟这两三个correlation很高,就是说没有
提供什么额外的信息。
你可以用些multivariate 的方法,比如用lasso选,不过维数太高,不知道lasso能不
能上去。还可以用基于svm的方法。有很多文章讨论高纬下的variable selection. 你
可以search下看看。
40000
【在 m****l 的大作中提到】 : 有A,B,C三组样本, 假设每一组的样本容量分别是200,300和400,每一个样本有40000 : 维,每一维基本符合正态分布。 现在我想从这40000维里找出一些有差异的若干维(控 : 制在50维以内),用来进行分类。不知道用T检验来寻找具有显著差异的维否可行?实 : 际上我用T检验筛选出某些维度以后,发现用来进行分类效果并不好。不知道是什么原 : 因?该如何改进?
|
A*******s 发帖数: 3942 | 12 我看你check normality又做t test,猜你大概想要做LDA。如果只是classification的
话,variable selection for high dimension的方法就多了。楼上提了几点你可以看
看。
truncated PCA用来classficiation效果不一定好,可以看看Hastie的那篇supervised
PCA文章。
【在 m****l 的大作中提到】 : 我最终的目的是把他们分类。 因为现在的样本是人为分类的,我想要设计自动分类的 : 程序。 直观的感觉就是要挑选一些特定的维度来做分析,直接处理这样高维的数据感 : 觉很有难度,不知道是否有有效的处理高维数据的方法? 我试过PCA,但效果不好。 : 你说的forward/backward selection我还没试过,也是用来筛选数据的么?
|
m****l 发帖数: 46 | 13 谢谢提示,我去验证一下。 我想知道如何把冗余降低呢? 通过计算correlation可以
么? 假设某些变量与其他变量存在高度的相关,那么这部分冗余的变量为什么会降低
分类的效果呢?
【在 n*****n 的大作中提到】 : 分类效果不好的原因是用t-test或者其他的univariate的选出来的redundancy很高,很 : 可能50个里面只有两三个是有用的,其他的跟这两三个correlation很高,就是说没有 : 提供什么额外的信息。 : 你可以用些multivariate 的方法,比如用lasso选,不过维数太高,不知道lasso能不 : 能上去。还可以用基于svm的方法。有很多文章讨论高纬下的variable selection. 你 : 可以search下看看。 : : 40000
|
m****l 发帖数: 46 | 14 谢谢。我的确一直苦恼于高维数据中有效数据的选择问题。
supervised
【在 A*******s 的大作中提到】 : 我看你check normality又做t test,猜你大概想要做LDA。如果只是classification的 : 话,variable selection for high dimension的方法就多了。楼上提了几点你可以看 : 看。 : truncated PCA用来classficiation效果不一定好,可以看看Hastie的那篇supervised : PCA文章。
|
A*******s 发帖数: 3942 | 15 把冗余降低 may not improve prediction performance. say if one predictor X1's
VIF=10, which means 90% of its variance can be explained by other
covariates(X2, X3, ..., Xp). However, the rest 10%, or the part of X1
orthogonal to (X2, X3, ..., Xp), could happen to be predictive. If you just
delete X1 as suggested by the book "Applied Linear Statistical Models", it
may not be good for model predictive performance.
BTW, the rule of thumb "delete variables with VIF >10 ", i think, is
misunderstood by many statisticians.
【在 m****l 的大作中提到】 : 谢谢提示,我去验证一下。 我想知道如何把冗余降低呢? 通过计算correlation可以 : 么? 假设某些变量与其他变量存在高度的相关,那么这部分冗余的变量为什么会降低 : 分类的效果呢?
|
m****l 发帖数: 46 | 16 删掉与不删掉X1,对分类而言,利弊如何呢?
应该是删掉更有利于分类吧。
's
just
【在 A*******s 的大作中提到】 : 把冗余降低 may not improve prediction performance. say if one predictor X1's : VIF=10, which means 90% of its variance can be explained by other : covariates(X2, X3, ..., Xp). However, the rest 10%, or the part of X1 : orthogonal to (X2, X3, ..., Xp), could happen to be predictive. If you just : delete X1 as suggested by the book "Applied Linear Statistical Models", it : may not be good for model predictive performance. : BTW, the rule of thumb "delete variables with VIF >10 ", i think, is : misunderstood by many statisticians.
|
m****l 发帖数: 46 | 17 svm也试过了。
基本上是训练的时候几乎错误,但测试的时候就很糟糕了,跟扔硬币差别不多。
【在 n*****n 的大作中提到】 : 分类效果不好的原因是用t-test或者其他的univariate的选出来的redundancy很高,很 : 可能50个里面只有两三个是有用的,其他的跟这两三个correlation很高,就是说没有 : 提供什么额外的信息。 : 你可以用些multivariate 的方法,比如用lasso选,不过维数太高,不知道lasso能不 : 能上去。还可以用基于svm的方法。有很多文章讨论高纬下的variable selection. 你 : 可以search下看看。 : : 40000
|
A*******s 发帖数: 3942 | 18 都有可能的,我举得的不就是删掉不利于分类的情况么?这种根据multicollinearity
删变量的方法,10个删掉2个可能问题不大,但是100个删掉20个也许就不行。我的经验
是ridge这种smoother shrinkage的方法表现会更好一些。
【在 m****l 的大作中提到】 : 删掉与不删掉X1,对分类而言,利弊如何呢? : 应该是删掉更有利于分类吧。 : : 's : just
|