问个关于lasso的问题 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 问个关于lasso的问题

相关主题
● R里面regression 变量选择的package?	● Fraud detection model 在testing dataset 中效果很差，求原因
● 怎么解决共线性问题	● 多大的data算是large data set？
● 请教一下ridge regression。	● 请问大家现在做adaptive LASSO都用R的什么package?
● 请问能用glmnet实现weighted least square regularization吗	● 关于使用adaptive lasso中weight的问题
● model的predictors之间有multi-colinearity怎么办？	● 请教一个lasso的问题，如何选定最后的model
● 请问：想fit gamma 并同时用lasso的方法做variable selection	● 新手请教logistic regression
● Question about LASSO in R	● 电话面试完了，肯定没戏，大家帮我看看题目，就算学习吧
● 有80个候选Predictors,怎么从中选<10个	● 抓狂！为啥选出来的predictor都这么差

相关话题的讨论汇总
话题: svm话题: accuracy话题: lasso话题: regression话题: beat

进入Statistics版参与讨论

(共1页)

c*****r
发帖数: 156

请问一下lasso里面该怎样选取penalty前面的参数lambda呢？参数选取的不同直接导致
了shrinkage的程度也不同。是用grid search或者迭代的方法来选择最好的lambda么？
谢谢！

q*****q
发帖数: 158

貌似是cross validation...

【在 c*****r 的大作中提到】

: 请问一下lasso里面该怎样选取penalty前面的参数lambda呢？参数选取的不同直接导致
: 了shrinkage的程度也不同。是用grid search或者迭代的方法来选择最好的lambda么？
: 谢谢！

q**j
发帖数: 10612

这个和data mining有区别么？另外那些比较fancy的比如least angle regression比
ridge和lasso实战中强么？有没有那种方法可以scientific的现在penalty的强弱。多
谢。

【在 q*****q 的大作中提到】

: 貌似是cross validation...

l***a
发帖数: 12410

LAR和LASSO区别在哪？

【在 q**j 的大作中提到】

: 这个和data mining有区别么？另外那些比较fancy的比如least angle regression比
: ridge和lasso实战中强么？有没有那种方法可以scientific的现在penalty的强弱。多
: 谢。

q**j
发帖数: 10612

http://en.wikipedia.org/wiki/Least-angle_regression
请高手指教。

【在 l***a 的大作中提到】

: LAR和LASSO区别在哪？

c*****r
发帖数: 156

那也要grid search不同的lambda值，然后分别对每个值做cross validation？

【在 q**j 的大作中提到】

A*******s
发帖数: 3942

u can do grid search with cross validation but seems LAR approach is more
efficient (Efron et al. (2004))

【在 c*****r 的大作中提到】

c*****r
发帖数: 156

谢谢精算兄～
不过LAR给出的lambda也不是一个确定的值吧（就是Efron paper里面的t值），不同的t
值给予的constraint也不一样。我就是想问怎么确定这个t的值。

【在 A*******s 的大作中提到】

: u can do grid search with cross validation but seems LAR approach is more
: efficient (Efron et al. (2004))

A*******s
发帖数: 3942

cv is normally used for choosing the best tuning parameter. or AIC and BIC/
SBC if sample size is sufficient.

的t

【在 c*****r 的大作中提到】

: 谢谢精算兄～
: 不过LAR给出的lambda也不是一个确定的值吧（就是Efron paper里面的t值），不同的t
: 值给予的constraint也不一样。我就是想问怎么确定这个t的值。

g********r
发帖数: 8017

好像有generalized CV不用反复算。

的t

【在 c*****r 的大作中提到】

相关主题
● 请问：想fit gamma 并同时用lasso的方法做variable selection	● Fraud detection model 在testing dataset 中效果很差，求原因
● Question about LASSO in R	● 多大的data算是large data set？
● 有80个候选Predictors,怎么从中选<10个	● 请问大家现在做adaptive LASSO都用R的什么package?
进入Statistics版参与讨论

q*****q
发帖数: 158

惭愧啊，我没有在实际数据上用过这些，LAR也只是非常肤浅的读过。大概知道lasso的
好处就是如果某个量的影响非常小，直接coefficient就变0了。可以看看Hastie,
Tibshirani and Friedman的那本statistical learning的书，上面的解释和评论都挺
好的。

【在 q**j 的大作中提到】

d******e
发帖数: 7844

之所以叫他tuning parameter就是因为要tune啊。基本都是基于grid search来做的。
选择lambda的方法有很多，根据目的不同（prediction或者model selection）选择方
式也不同。
除了Cross validation外还有Extended BIC，Stability Selection，StARS等等。

【在 c*****r 的大作中提到】

d******e
发帖数: 7844

LARS就是一个只进不出版本的Lasso

【在 l***a 的大作中提到】

: LAR和LASSO区别在哪？

d******e
发帖数: 7844

LARS已经过时很久了，现在都是glmnet，用coordinate descent

【在 A*******s 的大作中提到】

: u can do grid search with cross validation but seems LAR approach is more
: efficient (Efron et al. (2004))

q**j
发帖数: 10612

新品种的提高如何？有没有实战中用过，尤其在forecast的环境下。

【在 d******e 的大作中提到】

: LARS已经过时很久了，现在都是glmnet，用coordinate descent

d******e
发帖数: 7844

glmnet非常快。R里有现成的package，你直接用就行了。

【在 q**j 的大作中提到】

: 新品种的提高如何？有没有实战中用过，尤其在forecast的环境下。

A*******s
发帖数: 3942

lazy SAS still uses LAR in its newest glmselect...

【在 d******e 的大作中提到】

: LARS已经过时很久了，现在都是glmnet，用coordinate descent

q**j
发帖数: 10612

我是说在降低mse和mean forecast error的条件下。多谢了。因为我有一些经验，理论
上非常fancy的东西有时候实际提高很少。

【在 d******e 的大作中提到】

: glmnet非常快。R里有现成的package，你直接用就行了。

B******5
发帖数: 4676

这个的提高还是很明显的，比LARS快很多

【在 q**j 的大作中提到】

: 我是说在降低mse和mean forecast error的条件下。多谢了。因为我有一些经验，理论
: 上非常fancy的东西有时候实际提高很少。

B******5
发帖数: 4676

这个有reference么？我的理解GCV也要grid search的

【在 g********r 的大作中提到】

: 好像有generalized CV不用反复算。
:
: 的t

相关主题
● 关于使用adaptive lasso中weight的问题	● 电话面试完了，肯定没戏，大家帮我看看题目，就算学习吧
● 请教一个lasso的问题，如何选定最后的model	● 抓狂！为啥选出来的predictor都这么差
● 新手请教logistic regression	● logistic regression用LASSO选择变量合适吗？
进入Statistics版参与讨论

g********r
发帖数: 8017

我自己没用过。听来的。

【在 B******5 的大作中提到】

: 这个有reference么？我的理解GCV也要grid search的

o****o
发帖数: 8077

used GLMNET in some binary classification cases
consistently beat SVM, ridged DA, logistic regression and ensembled Flexible
Discriminant Analysis
just my own experience

【在 q**j 的大作中提到】

: 我是说在降低mse和mean forecast error的条件下。多谢了。因为我有一些经验，理论
: 上非常fancy的东西有时候实际提高很少。

d******e
发帖数: 7844

没有一个方法能保证general性能的，你自己试试看才知道。
绝大部分情况，Lasso都无法beat forward selection

【在 q**j 的大作中提到】

: 我是说在降低mse和mean forecast error的条件下。多谢了。因为我有一些经验，理论
: 上非常fancy的东西有时候实际提高很少。

d******e
发帖数: 7844

gcv不用算k次，性能近似于Leave one out。但一样得tune。

【在 g********r 的大作中提到】

: 我自己没用过。听来的。

d******e
发帖数: 7844

你的数据肯定是个别情况... ...
L1-regularized logistic regression的性能也就那么回事。

Flexible

【在 o****o 的大作中提到】

: used GLMNET in some binary classification cases
: consistently beat SVM, ridged DA, logistic regression and ensembled Flexible
: Discriminant Analysis
: just my own experience

o****o
发帖数: 8077

这个没得啥general rules，我都是用一堆方法，然后average

【在 d******e 的大作中提到】

: 你的数据肯定是个别情况... ...
: L1-regularized logistic regression的性能也就那么回事。
:
: Flexible

l*********s
发帖数: 5409

whoo, impressive!

Flexible

【在 o****o 的大作中提到】

: used GLMNET in some binary classification cases
: consistently beat SVM, ridged DA, logistic regression and ensembled Flexible
: Discriminant Analysis
: just my own experience

d******e
发帖数: 7844

Penalized models其实还处于自娱自乐的阶段，大家更care simulation和theory。
实际用起来，很多情况下都得不到sparse解，做prediction性能也不行。

【在 o****o 的大作中提到】

: 这个没得啥general rules，我都是用一堆方法，然后average

o****o
发帖数: 8077

beat SVM 我还是比较impressed，beat其他几个我觉得应该正常

【在 l*********s 的大作中提到】

: whoo, impressive!
:
: Flexible

o****o
发帖数: 8077

那如果我先做basis expansion再用penalized models？

【在 d******e 的大作中提到】

: Penalized models其实还处于自娱自乐的阶段，大家更care simulation和theory。
: 实际用起来，很多情况下都得不到sparse解，做prediction性能也不行。

相关主题
● 请教SAS高手关于lasso...	● 怎么解决共线性问题
● 问个logistic model的面试问题	● 请教一下ridge regression。
● R里面regression 变量选择的package?	● 请问能用glmnet实现weighted least square regularization吗
进入Statistics版参与讨论

F****n
发帖数: 3271

What do you mean by "beat"? Better accuracy? Generalizabiblity?
For a two-class case, if the data points can be separated by polynomials
then regression can always "beat" SVM. glmnet is regression.

【在 o****o 的大作中提到】

: beat SVM 我还是比较impressed，beat其他几个我觉得应该正常

n*****n
发帖数: 3123

SVM may use some non-linear kernels. I don't think your statement is right.

【在 F****n 的大作中提到】

: What do you mean by "beat"? Better accuracy? Generalizabiblity?
: For a two-class case, if the data points can be separated by polynomials
: then regression can always "beat" SVM. glmnet is regression.

F****n
发帖数: 3271

Obviously, you don't understand what I say.
SVM's non-linearity != Polynomials
SVM is superior because it handles more complex non-linearity with greater
generalizability.
If you only look at predication accuracy SVM will be "beaten" by a lot of
methods. But that's nonsense.

【在 n*****n 的大作中提到】

: SVM may use some non-linear kernels. I don't think your statement is right.

n*****n
发帖数: 3123

Again, I don't think you are right.
If as you said, there is no need for SVM. Prediction accuracy is the most
important for classification.

【在 F****n 的大作中提到】

: Obviously, you don't understand what I say.
: SVM's non-linearity != Polynomials
: SVM is superior because it handles more complex non-linearity with greater
: generalizability.
: If you only look at predication accuracy SVM will be "beaten" by a lot of
: methods. But that's nonsense.

d******e
发帖数: 7844

～～～～～这个取决于你用什么Kernel，Polynomial kenerl的功能就和你这个类似，
呵呵。
～～～～～知道为什么现在SVM没有以前那么火了么？因为其他的方法一样可以通过
regularization来实现控制model complexity。至少目前来说，SVM比起Kernelized
logistic regression没有任何优势。
～～～～～不看prediction accuracy看什么？
right.

【在 F****n 的大作中提到】

o****o
发帖数: 8077

for the binary case, by 'beat' I mean high AUC with low MSE(AUC) on CV
what is your definition for Accuracy and Generalizability?

【在 F****n 的大作中提到】

D******n
发帖数: 2836

co-ask,
what else to look at?

【在 d******e 的大作中提到】

:
: ～～～～～这个取决于你用什么Kernel，Polynomial kenerl的功能就和你这个类似，
: 呵呵。
: ～～～～～知道为什么现在SVM没有以前那么火了么？因为其他的方法一样可以通过
: regularization来实现控制model complexity。至少目前来说，SVM比起Kernelized
: logistic regression没有任何优势。
: ～～～～～不看prediction accuracy看什么？
: right.

n*****n
发帖数: 3123

Yes. I don't think he has clear understanding on accuracy and generalization.

【在 o****o 的大作中提到】

: for the binary case, by 'beat' I mean high AUC with low MSE(AUC) on CV
: what is your definition for Accuracy and Generalizability?

(共1页)

进入Statistics版参与讨论

相关主题
● 抓狂！为啥选出来的predictor都这么差	● model的predictors之间有multi-colinearity怎么办？
● logistic regression用LASSO选择变量合适吗？	● 请问：想fit gamma 并同时用lasso的方法做variable selection
● 请教SAS高手关于lasso...	● Question about LASSO in R
● 问个logistic model的面试问题	● 有80个候选Predictors,怎么从中选<10个
● R里面regression 变量选择的package?	● Fraud detection model 在testing dataset 中效果很差，求原因
● 怎么解决共线性问题	● 多大的data算是large data set？
● 请教一下ridge regression。	● 请问大家现在做adaptive LASSO都用R的什么package?
● 请问能用glmnet实现weighted least square regularization吗	● 关于使用adaptive lasso中weight的问题

相关话题的讨论汇总
话题: svm话题: accuracy话题: lasso话题: regression话题: beat

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天