N******n 发帖数: 3003 | 1 是个临床检测公司:给了个test case:
data is 580 X 16562
The first column of the provided data is the binary variable “response”.
The 16,562 other columns are binary columns that can be used to predict the
“response”.
A description of the predictive model, with a discussion of how well the
model performs.
我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后,
做boost trapping of Lasso, 找到 important variable, and then prediction?
3x |
E**********e 发帖数: 1736 | 2 1. 可以先给每个feature 分成几个group,看positive 和
negative 在给个group 直接的相关性。 这样就可以用自动选fea
ture。 金融里边
probability of default model常用。
2. 可以用pca先给 16562个feature 姜维。 去accumal
ative variance 90-95% 或做好能够渠道2,300的新fe
atures。
接下来就简单了, 用 5-fold cross validation。 al
gorithm 用xgboost,看看是不是performance要好点。
也许logistic regression 已经足够了。 不过姜维就不知道那
些variable 重要了。
the
【在 N******n 的大作中提到】 : 是个临床检测公司:给了个test case: : data is 580 X 16562 : The first column of the provided data is the binary variable “response”. : The 16,562 other columns are binary columns that can be used to predict the : “response”. : A description of the predictive model, with a discussion of how well the : model performs. : 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后, : 做boost trapping of Lasso, 找到 important variable, and then prediction? : 3x
|
b**********r 发帖数: 91 | 3 Use NN with all features
the
【在 N******n 的大作中提到】 : 是个临床检测公司:给了个test case: : data is 580 X 16562 : The first column of the provided data is the binary variable “response”. : The 16,562 other columns are binary columns that can be used to predict the : “response”. : A description of the predictive model, with a discussion of how well the : model performs. : 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后, : 做boost trapping of Lasso, 找到 important variable, and then prediction? : 3x
|
z***t 发帖数: 2261 | |
N******n 发帖数: 3003 | 5 谢谢, 外星人,
这个是生物科技公司,是不是解释性,合理性的model要好一些。
deep learning这些就会丧失这些特性。 |
g****s 发帖数: 1755 | 6 Sorta of what I am doing.
All those features are actually gene expressions;
So, 1st reduce dimension (pca will work for sure, but, in bioinformatics we
use Bayesian packages, edgeR or deseq to pick top DE genes.
2nd feature selection by RFE(), further reduce the important genes/features
to ~500.
3rd, svm-RFE(), with some optimizations, further tune the model.
4th, plot roc-auc to see model specificity
5 apply the model to test data, to get the confusion matrix. |
m******r 发帖数: 1033 | 7 请教一下, 你说的rfe是caret::rfe吗? 我对于该函数一直有疑问。
http://topepo.github.io/caret/recursive-feature-elimination.html
这个网页里, rfe看来用不同的模型来选择最终变量‘There are a number of pre-
defined sets of functions for several models, including: linear regression (
in the object lmFuncs), random forests (rfFuncs), naive Bayes (nbFuncs),
bagged trees (treebagFuncs) and functions that can be used with caret’s
train function (caretFuncs). The latter is useful if the model has tuning
parameters that must be determined at each iteration.’
我的疑问是, 既然模型都造出来了, 为什么要谈‘选变量’? 举个简化例子。 比如
输入100个变量, 选用线性回归, alpha = 5%, 输出10个变量。 与其像rfe()声称
1. ‘在100个变量里, 这10个变量最重要‘,
不如直接说:
2‘我用这100个变量,造了某种模型, 该模型最终只用了10个变量’
也许我对该文档理解有误,谁来指点指点。 另外, 为了说明问题, 我用了最简单的
解释,如何抽样都省掉了。
另外,我认为正确的‘变量选择’方法是计算以下变量, entropy / gini/ p_value/
chisq/accuracy/auc/kappa/yuden/F1.... 100个输入对应有100个输出。 |
m*****s 发帖数: 371 | 8 16,562特征就是看你懂不懂降维。 其中有10个足够判断, 所以必然先用pca降维, 接
下来用svm, random forest就行了。 |
g*********3 发帖数: 177 | 9 一般都是让你熟悉feature selection。这种面试题就是找免费劳动力的吧。 |
O*O 发帖数: 2284 | 10 如果response variable是continous variable
features是binary variables
怎么做feature selection比较好?
需要知道feature的重要性,也要有解释性(PCA不行) |
|
|
N******n 发帖数: 3003 | 11 是个临床检测公司:给了个test case:
data is 580 X 16562
The first column of the provided data is the binary variable “response”.
The 16,562 other columns are binary columns that can be used to predict the
“response”.
A description of the predictive model, with a discussion of how well the
model performs.
我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后,
做boost trapping of Lasso, 找到 important variable, and then prediction?
3x |
E**********e 发帖数: 1736 | 12 1. 可以先给每个feature 分成几个group,看positive 和
negative 在给个group 直接的相关性。 这样就可以用自动选fea
ture。 金融里边
probability of default model常用。
2. 可以用pca先给 16562个feature 姜维。 去accumal
ative variance 90-95% 或做好能够渠道2,300的新fe
atures。
接下来就简单了, 用 5-fold cross validation。 al
gorithm 用xgboost,看看是不是performance要好点。
也许logistic regression 已经足够了。 不过姜维就不知道那
些variable 重要了。
the
【在 N******n 的大作中提到】 : 是个临床检测公司:给了个test case: : data is 580 X 16562 : The first column of the provided data is the binary variable “response”. : The 16,562 other columns are binary columns that can be used to predict the : “response”. : A description of the predictive model, with a discussion of how well the : model performs. : 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后, : 做boost trapping of Lasso, 找到 important variable, and then prediction? : 3x
|
b**********r 发帖数: 91 | 13 Use NN with all features
the
【在 N******n 的大作中提到】 : 是个临床检测公司:给了个test case: : data is 580 X 16562 : The first column of the provided data is the binary variable “response”. : The 16,562 other columns are binary columns that can be used to predict the : “response”. : A description of the predictive model, with a discussion of how well the : model performs. : 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后, : 做boost trapping of Lasso, 找到 important variable, and then prediction? : 3x
|
z***t 发帖数: 2261 | |
N******n 发帖数: 3003 | 15 谢谢, 外星人,
这个是生物科技公司,是不是解释性,合理性的model要好一些。
deep learning这些就会丧失这些特性。 |
g****s 发帖数: 1755 | 16 Sorta of what I am doing.
All those features are actually gene expressions;
So, 1st reduce dimension (pca will work for sure, but, in bioinformatics we
use Bayesian packages, edgeR or deseq to pick top DE genes.
2nd feature selection by RFE(), further reduce the important genes/features
to ~500.
3rd, svm-RFE(), with some optimizations, further tune the model.
4th, plot roc-auc to see model specificity
5 apply the model to test data, to get the confusion matrix. |
m******r 发帖数: 1033 | 17 请教一下, 你说的rfe是caret::rfe吗? 我对于该函数一直有疑问。
http://topepo.github.io/caret/recursive-feature-elimination.html
这个网页里, rfe看来用不同的模型来选择最终变量‘There are a number of pre-
defined sets of functions for several models, including: linear regression (
in the object lmFuncs), random forests (rfFuncs), naive Bayes (nbFuncs),
bagged trees (treebagFuncs) and functions that can be used with caret’s
train function (caretFuncs). The latter is useful if the model has tuning
parameters that must be determined at each iteration.’
我的疑问是, 既然模型都造出来了, 为什么要谈‘选变量’? 举个简化例子。 比如
输入100个变量, 选用线性回归, alpha = 5%, 输出10个变量。 与其像rfe()声称
1. ‘在100个变量里, 这10个变量最重要‘,
不如直接说:
2‘我用这100个变量,造了某种模型, 该模型最终只用了10个变量’
也许我对该文档理解有误,谁来指点指点。 另外, 为了说明问题, 我用了最简单的
解释,如何抽样都省掉了。
另外,我认为正确的‘变量选择’方法是计算以下变量, entropy / gini/ p_value/
chisq/accuracy/auc/kappa/yuden/F1.... 100个输入对应有100个输出。 |
m*****s 发帖数: 371 | 18 16,562特征就是看你懂不懂降维。 其中有10个足够判断, 所以必然先用pca降维, 接
下来用svm, random forest就行了。 |
g*********3 发帖数: 177 | 19 一般都是让你熟悉feature selection。这种面试题就是找免费劳动力的吧。 |
O*O 发帖数: 2284 | 20 如果response variable是continous variable
features是binary variables
怎么做feature selection比较好?
需要知道feature的重要性,也要有解释性(PCA不行) |
i**********8 发帖数: 27 | 21 试试 L1 logistic regression
选变量的同时就把模型作了
LibLinear package 挺好用的
the
【在 N******n 的大作中提到】 : 是个临床检测公司:给了个test case: : data is 580 X 16562 : The first column of the provided data is the binary variable “response”. : The 16,562 other columns are binary columns that can be used to predict the : “response”. : A description of the predictive model, with a discussion of how well the : model performs. : 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后, : 做boost trapping of Lasso, 找到 important variable, and then prediction? : 3x
|
i**********8 发帖数: 27 | 22 试试 L1 logistic regression
选变量的同时就把模型作了
LibLinear package 挺好用的
the
【在 N******n 的大作中提到】 : 是个临床检测公司:给了个test case: : data is 580 X 16562 : The first column of the provided data is the binary variable “response”. : The 16,562 other columns are binary columns that can be used to predict the : “response”. : A description of the predictive model, with a discussion of how well the : model performs. : 我的打算是想把数据16562 通过 correlation of response 减到 1000 以内,然后, : 做boost trapping of Lasso, 找到 important variable, and then prediction? : 3x
|