g********r 发帖数: 8017 | 1 能直接做选择么?还是需要一步初筛?
假如很多variable有corrrelation,一般初筛到多少variable比较合适? |
m******2 发帖数: 564 | |
T*******I 发帖数: 5138 | 3 I am little bit confused.
How many observations or individuals in each of your 几百个samples?
【在 g********r 的大作中提到】 : 能直接做选择么?还是需要一步初筛? : 假如很多variable有corrrelation,一般初筛到多少variable比较合适?
|
g********r 发帖数: 8017 | |
T*******I 发帖数: 5138 | 5 So, that is a confused concept in Statistics.
【在 g********r 的大作中提到】 : 一个sample一个人。
|
w***n 发帖数: 1084 | 6 大师,我知道你爱把sample叫做individual,把a group of samples叫做sample。
你爱怎么发明创造不管,但你不能那你的用词来理解我们的用词,就说sstatistics有confused concept,也太搞笑了吧。
别人都清楚得很。要confuse也是你自己confuse。
【在 T*******I 的大作中提到】 : So, that is a confused concept in Statistics.
|
a***g 发帖数: 2761 | 7 li, bing以前好像做过变量选择的complexity的估计,不过忘了发在哪里了
不过只是看过,细节都忘记了,可能他做的也不一定就适合你的问题
【在 g********r 的大作中提到】 : 能直接做选择么?还是需要一步初筛? : 假如很多variable有corrrelation,一般初筛到多少variable比较合适?
|
r*****o 发帖数: 140 | 8 我用RF做过几十万个变量的分析。个人感觉还是筛一下好,否则每个Node抽出来的变量
都是噪音,但晒到多少为好,不是特别清楚。
至于高相关性,我们以前做SNP数据时,是要基于r2来prune一下的,不过好像有个叫
conditional forest? 大概是这个名字的,可以考虑到变量间的相关性,在做
permutation的时候将高相关的变量一起permute,似乎效果不错。 |