问问各位大佬：SVM和RF在几百个sample几万个variable的情况下 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 问问各位大佬：SVM和RF在几百个sample几万个variable的情况下

相关主题
● How to deal with unbalanced data	● Interview时应该怎样描述自己做过的Project？
● 关于SVM 数据scale的问题	● 关于在R中run SVM的问题
● 大牛给解释下，什么叫自由度拆借？	● 谁给说说到底如何在一堆变量中找到the biggest contributing factor?
● sampling weight variable怎么用到linear regression里啊？	● 请教： 3组数据之间的correlation？？
● 求教如何用sas从一个大population选sample	● 全部都是Character Variables怎么做分类啊
● 面试：nonlinear regression, predictive modeling, machining learning问什么？	● svm的变量选择和shrinking选项什么关系？
● 急问有关SVM，randomforest的问题（gene expression data）	● logistic repression 多分类变量定义哑变量与不定义，结果为何截然不同？
● 向大家请教一个生物统计 RESEARCH的问题	● [合集] 多变量回归

相关话题的讨论汇总
话题: sample话题: variable话题: rf话题: svm话题: 几百个

进入Statistics版参与讨论

1

(共1页)

g********r 发帖数: 8017	1 能直接做选择么？还是需要一步初筛？假如很多variable有corrrelation，一般初筛到多少variable比较合适？
m******2 发帖数: 564	2 Stratified Sampling
T*******I 发帖数: 5138	3 I am little bit confused. How many observations or individuals in each of your 几百个samples? 【在 g********r 的大作中提到】 : 能直接做选择么？还是需要一步初筛？ : 假如很多variable有corrrelation，一般初筛到多少variable比较合适？
g********r 发帖数: 8017	4 一个sample一个人。
T*******I 发帖数: 5138	5 So, that is a confused concept in Statistics. 【在 g********r 的大作中提到】 : 一个sample一个人。
w***n 发帖数: 1084	6 大师，我知道你爱把sample叫做individual，把a group of samples叫做sample。你爱怎么发明创造不管，但你不能那你的用词来理解我们的用词，就说sstatistics有confused concept，也太搞笑了吧。别人都清楚得很。要confuse也是你自己confuse。【在 T*******I 的大作中提到】 : So, that is a confused concept in Statistics.
a***g 发帖数: 2761	7 li, bing以前好像做过变量选择的complexity的估计，不过忘了发在哪里了不过只是看过，细节都忘记了，可能他做的也不一定就适合你的问题【在 g********r 的大作中提到】 : 能直接做选择么？还是需要一步初筛？ : 假如很多variable有corrrelation，一般初筛到多少variable比较合适？
r*****o 发帖数: 140	8 我用RF做过几十万个变量的分析。个人感觉还是筛一下好，否则每个Node抽出来的变量都是噪音，但晒到多少为好，不是特别清楚。至于高相关性，我们以前做SNP数据时，是要基于r2来prune一下的，不过好像有个叫 conditional forest? 大概是这个名字的，可以考虑到变量间的相关性，在做 permutation的时候将高相关的变量一起permute，似乎效果不错。

1

(共1页)

进入Statistics版参与讨论

相关主题
● [合集] 多变量回归	● 求教如何用sas从一个大population选sample
● 求教一个sas读data的问题	● 面试：nonlinear regression, predictive modeling, machining learning问什么？
● 几个简单的用R的问题。	● 急问有关SVM，randomforest的问题（gene expression data）
● SAS data merge求助	● 向大家请教一个生物统计 RESEARCH的问题
● How to deal with unbalanced data	● Interview时应该怎样描述自己做过的Project？
● 关于SVM 数据scale的问题	● 关于在R中run SVM的问题
● 大牛给解释下，什么叫自由度拆借？	● 谁给说说到底如何在一堆变量中找到the biggest contributing factor?
● sampling weight variable怎么用到linear regression里啊？	● 请教： 3组数据之间的correlation？？

相关话题的讨论汇总
话题: sample话题: variable话题: rf话题: svm话题: 几百个

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)