由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 急问有关SVM,randomforest的问题(gene expression data)
相关主题
还是run SVM的问题support vector machine
如何确定什么情况time series,什么情况linear reg?做分类 除了 logit reg 和svm 还有什么别的方法比较好
svm的变量选择和shrinking选项什么关系?如何把1个文件分成22个以chromosone为单位的文件 (转载)
问一个linear regression 的弱问题。急问:R语言怎么做多维的local linear estimation?
classification 问题 求教!!请教LINEAR REGRESSION基本问题
请问几个回归的sas code急问大家一个问题,关于F test 和T test关系的
machine learning救助 模型在1数据集上表现好 其他烂面试:nonlinear regression, predictive modeling, machining learning问什么?
高维问题问问各位大佬:SVM和RF在几百个sample几万个variable的情况下
相关话题的讨论汇总
话题: svm话题: linear话题: predictor话题: 问题
进入Statistics版参与讨论
1 (共1页)
s***1
发帖数: 343
1
分别用randomForest,e1071做random forest和svm,用ipred做cv。
刚开始的时候用iris练了RBF条件下的SVM,挺顺利的。但是上了实际基因数据就出问题
了。observation虽然只有不到200个,但是predictor var有差不多几万个(
microarray得到的数据)。
问题一:
老板要求试一下linear SVM,可是我发现ipred package里的errorest.SVM function好
像不能用于linear。 没有kernel="linear"的argument。
我于是后来只好用e1071的svm function(cross=10),然后用它自带的accuracies,
并平均一下这10个error值来看error rate,这种方法是不是不对?(我出来的结果很
奇怪,20个cost值各跑了一遍,error rate有10多个是一模一样的,但是想不明白问题
出在哪里)
有什么function可以直接算linear SVM的cv error rate吗?
问题二:
randomForest function当读入几万个 predictor var以后就crash了。我之前从没做过
大数据量的,请问大家这种大数据量的predictor vars一般怎么做randomforest呢?
多谢了!
r*****o
发帖数: 140
2
SVM我不熟。
但是我用randomForest做过GWAS。一般而言,如果predictor间有相关,importance
score可能会biased。所以我们一般先按照SNP间的LD去掉一部分marker。同时,盲目地
将一大堆噪音SNP加入RF,效果也不一定好,所以我们往往先优选一部分,这样下来,
做RF的SNP只有1万左右。用R还是可以做得。
如果你真的有几万个,建议你用randomJungle,速度快一点。
1 (共1页)
进入Statistics版参与讨论
相关主题
问问各位大佬:SVM和RF在几百个sample几万个variable的情况下classification 问题 求教!!
residual~predict plot出现这个样子,说明了什么?请问几个回归的sas code
问个GENERALIZED线性模型中,DESIGN MATRIX变动的影响machine learning救助 模型在1数据集上表现好 其他烂
C1 internship 面经高维问题
还是run SVM的问题support vector machine
如何确定什么情况time series,什么情况linear reg?做分类 除了 logit reg 和svm 还有什么别的方法比较好
svm的变量选择和shrinking选项什么关系?如何把1个文件分成22个以chromosone为单位的文件 (转载)
问一个linear regression 的弱问题。急问:R语言怎么做多维的local linear estimation?
相关话题的讨论汇总
话题: svm话题: linear话题: predictor话题: 问题