新手请教一个分类问题 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 新手请教一个分类问题

相关主题
● 请教多元线性回归的问题	● 晕菜了, logistic regression with time-dependent covariates
● 问大家一个repeated measure的问题	● good classification methods for high dimension data
● 谈谈最近两次面试经历	● 请问：多维数据怎么进行检验？
● model里有multicollinearity，该如何处理呢？	● model selection一般都用什么方法
● 在线求助 eliminated highly correlated variables.	● 研究生统计毕业，求内推机会！万分感谢！
● 这段产生bivariate normal的简单程序怎么理解？	● 问一个principal component的分布问题
● 急问：请教一个muliticollinearity的面试问题，谢谢！	● how to Use PCA to get eignen vector and eigen value
● bivarate normal distribution的可传递性	● 用PCA的时候，如果P比N大怎么办啊？

相关话题的讨论汇总
话题: 分类话题: x1话题: 40000话题: vif话题: xp

进入Statistics版参与讨论

(共1页)

m****l
发帖数: 46

有A,B,C三组样本，假设每一组的样本容量分别是200，300和400，每一个样本有40000
维，每一维基本符合正态分布。现在我想从这40000维里找出一些有差异的若干维（控
制在50维以内），用来进行分类。不知道用T检验来寻找具有显著差异的维否可行？实
际上我用T检验筛选出某些维度以后，发现用来进行分类效果并不好。不知道是什么原
因？该如何改进？

h***i
发帖数: 3844

这么有钱，做了这么多sample？

40000

【在 m****l 的大作中提到】

: 有A,B,C三组样本，假设每一组的样本容量分别是200，300和400，每一个样本有40000
: 维，每一维基本符合正态分布。现在我想从这40000维里找出一些有差异的若干维（控
: 制在50维以内），用来进行分类。不知道用T检验来寻找具有显著差异的维否可行？实
: 际上我用T检验筛选出某些维度以后，发现用来进行分类效果并不好。不知道是什么原
: 因？该如何改进？

m****l
发帖数: 46

sample是别人现成的，我就是拿过来分析一下而已。

A*******s
发帖数: 3942

你是搞LDA/QDA么？T test这个就相当于做多次anova，还不如直接搞一个manova。但是
效果应该不如forward/backward selection。或者用RDA来搞搞也行。

40000

【在 m****l 的大作中提到】

h***i
发帖数: 3844

他是要先做screening。

【在 A*******s 的大作中提到】

: 你是搞LDA/QDA么？T test这个就相当于做多次anova，还不如直接搞一个manova。但是
: 效果应该不如forward/backward selection。或者用RDA来搞搞也行。
:
: 40000

A*******s
发帖数: 3942

对啊，搞bivariate analysis来screen掉一堆variable还是有风险的。有些
insignificant in bivariate analysis的，也有可能become significant after
adjusted by other covariates.
不过在业界，至少在银行，还是不少人直接这么干的。大家都不太在乎，呵呵。其实直
接搞个forward/backward也不费事。

【在 h***i 的大作中提到】

: 他是要先做screening。

l*********s
发帖数: 5409

精算你怎么学的这么好呢，ｃｏｎｇ！

【在 A*******s 的大作中提到】

: 对啊，搞bivariate analysis来screen掉一堆variable还是有风险的。有些
: insignificant in bivariate analysis的，也有可能become significant after
: adjusted by other covariates.
: 不过在业界，至少在银行，还是不少人直接这么干的。大家都不太在乎，呵呵。其实直
: 接搞个forward/backward也不费事。

A*******s
发帖数: 3942

小鸟不要乱拍mp... 能不能给我推荐一本mixed model的书，感觉你在这方面挺懂的

【在 l*********s 的大作中提到】

: 精算你怎么学的这么好呢，ｃｏｎｇ！

l*********s
发帖数: 5409

瀑布汗，你的感觉超不准 :－）
不过一般买书要细看亚马孙的评价啦，比如有的书评分高是因为容易自学，但却可能不
合适作参考用

【在 A*******s 的大作中提到】

: 小鸟不要乱拍mp... 能不能给我推荐一本mixed model的书，感觉你在这方面挺懂的

m****l
发帖数: 46

我最终的目的是把他们分类。因为现在的样本是人为分类的，我想要设计自动分类的
程序。直观的感觉就是要挑选一些特定的维度来做分析，直接处理这样高维的数据感
觉很有难度，不知道是否有有效的处理高维数据的方法？我试过PCA，但效果不好。
你说的forward/backward selection我还没试过，也是用来筛选数据的么？

【在 A*******s 的大作中提到】

: 你是搞LDA/QDA么？T test这个就相当于做多次anova，还不如直接搞一个manova。但是
: 效果应该不如forward/backward selection。或者用RDA来搞搞也行。
:
: 40000

相关主题
● 这段产生bivariate normal的简单程序怎么理解？	● 晕菜了, logistic regression with time-dependent covariates
● 急问：请教一个muliticollinearity的面试问题，谢谢！	● good classification methods for high dimension data
● bivarate normal distribution的可传递性	● 请问：多维数据怎么进行检验？
进入Statistics版参与讨论

n*****n
发帖数: 3123

分类效果不好的原因是用t-test或者其他的univariate的选出来的redundancy很高，很
可能50个里面只有两三个是有用的，其他的跟这两三个correlation很高，就是说没有
提供什么额外的信息。
你可以用些multivariate 的方法，比如用lasso选，不过维数太高，不知道lasso能不
能上去。还可以用基于svm的方法。有很多文章讨论高纬下的variable selection. 你
可以search下看看。

40000

【在 m****l 的大作中提到】

A*******s
发帖数: 3942

我看你check normality又做t test，猜你大概想要做LDA。如果只是classification的
话，variable selection for high dimension的方法就多了。楼上提了几点你可以看
看。
truncated PCA用来classficiation效果不一定好，可以看看Hastie的那篇supervised
PCA文章。

【在 m****l 的大作中提到】

: 我最终的目的是把他们分类。因为现在的样本是人为分类的，我想要设计自动分类的
: 程序。直观的感觉就是要挑选一些特定的维度来做分析，直接处理这样高维的数据感
: 觉很有难度，不知道是否有有效的处理高维数据的方法？我试过PCA，但效果不好。
: 你说的forward/backward selection我还没试过，也是用来筛选数据的么？

m****l
发帖数: 46

谢谢提示，我去验证一下。我想知道如何把冗余降低呢？通过计算correlation可以
么？假设某些变量与其他变量存在高度的相关，那么这部分冗余的变量为什么会降低
分类的效果呢？

【在 n*****n 的大作中提到】

: 分类效果不好的原因是用t-test或者其他的univariate的选出来的redundancy很高，很
: 可能50个里面只有两三个是有用的，其他的跟这两三个correlation很高，就是说没有
: 提供什么额外的信息。
: 你可以用些multivariate 的方法，比如用lasso选，不过维数太高，不知道lasso能不
: 能上去。还可以用基于svm的方法。有很多文章讨论高纬下的variable selection. 你
: 可以search下看看。
:
: 40000

m****l
发帖数: 46

谢谢。我的确一直苦恼于高维数据中有效数据的选择问题。

supervised

【在 A*******s 的大作中提到】

: 我看你check normality又做t test，猜你大概想要做LDA。如果只是classification的
: 话，variable selection for high dimension的方法就多了。楼上提了几点你可以看
: 看。
: truncated PCA用来classficiation效果不一定好，可以看看Hastie的那篇supervised
: PCA文章。

A*******s
发帖数: 3942

把冗余降低 may not improve prediction performance. say if one predictor X1's
VIF=10, which means 90% of its variance can be explained by other
covariates(X2, X3, ..., Xp). However, the rest 10%, or the part of X1
orthogonal to (X2, X3, ..., Xp), could happen to be predictive. If you just
delete X1 as suggested by the book "Applied Linear Statistical Models", it
may not be good for model predictive performance.
BTW, the rule of thumb "delete variables with VIF >10 ", i think, is
misunderstood by many statisticians.

【在 m****l 的大作中提到】

: 谢谢提示，我去验证一下。我想知道如何把冗余降低呢？通过计算correlation可以
: 么？假设某些变量与其他变量存在高度的相关，那么这部分冗余的变量为什么会降低
: 分类的效果呢？

m****l
发帖数: 46

删掉与不删掉X1，对分类而言，利弊如何呢？
应该是删掉更有利于分类吧。

's
just

【在 A*******s 的大作中提到】

: 把冗余降低 may not improve prediction performance. say if one predictor X1's
: VIF=10, which means 90% of its variance can be explained by other
: covariates(X2, X3, ..., Xp). However, the rest 10%, or the part of X1
: orthogonal to (X2, X3, ..., Xp), could happen to be predictive. If you just
: delete X1 as suggested by the book "Applied Linear Statistical Models", it
: may not be good for model predictive performance.
: BTW, the rule of thumb "delete variables with VIF >10 ", i think, is
: misunderstood by many statisticians.

m****l
发帖数: 46

svm也试过了。
基本上是训练的时候几乎错误，但测试的时候就很糟糕了，跟扔硬币差别不多。

【在 n*****n 的大作中提到】

A*******s
发帖数: 3942

都有可能的，我举得的不就是删掉不利于分类的情况么？这种根据multicollinearity
删变量的方法，10个删掉2个可能问题不大，但是100个删掉20个也许就不行。我的经验
是ridge这种smoother shrinkage的方法表现会更好一些。

【在 m****l 的大作中提到】

: 删掉与不删掉X1，对分类而言，利弊如何呢？
: 应该是删掉更有利于分类吧。
:
: 's
: just

(共1页)

进入Statistics版参与讨论

相关主题
● 用PCA的时候，如果P比N大怎么办啊？	● 在线求助 eliminated highly correlated variables.
● 诚心请教大data set到底该怎么分析？	● 这段产生bivariate normal的简单程序怎么理解？
● PCA and linear regression	● 急问：请教一个muliticollinearity的面试问题，谢谢！
● 问两个一直含糊不清的marketing analysis 的问题	● bivarate normal distribution的可传递性
● 请教多元线性回归的问题	● 晕菜了, logistic regression with time-dependent covariates
● 问大家一个repeated measure的问题	● good classification methods for high dimension data
● 谈谈最近两次面试经历	● 请问：多维数据怎么进行检验？
● model里有multicollinearity，该如何处理呢？	● model selection一般都用什么方法

相关话题的讨论汇总
话题: 分类话题: x1话题: 40000话题: vif话题: xp

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天