第7页 - 关于lasso的讨论汇总 - 话题女王

全部话题 - 话题: lasso

l***a
发帖数: 12410

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

所以咋办？
是不是glmselect不适合除了binary response的model？

l***a
发帖数: 12410

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

多谢
R package是glmnet？
SAS我现在没有iml，自己写可能不好办吧

A*******s
发帖数: 3942

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

what is small step forward? stagewise?

l***a
发帖数: 12410

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

能不能展开说说

A*******s
发帖数: 3942

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

don't know optimization but my understanding is it is easier to optimize a
convex and differentiable target function.

g********r
发帖数: 8017

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

是吧。忘了名字。就是那个每次beta增加一点点的。

p******k
发帖数: 23

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

logistic loss不是quadratic, 也不是piecewise linear. 根据 prof. Ji Zhu的文章
，它的solution path不是piecewise linear的,应该是非线性的。原则上讲和Least
Angel Regression 是不一样. 但是我们总是可以用local quadratic去逼近 logistic.
所以还是可以用small step forward很好逼进的

d******e
发帖数: 7844

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

自己写个C的也花不了多长时间，即使是非凸的Penalty，无非也就是LQA或者LLA罢了，
Relax 4~7次就足够了
至于收不收敛，只要不是完全没有收敛的pattern，IRLS都还说得过去，而且精度太高
没用，循环个几千次就行了。

0

d******e
发帖数: 7844

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

你确定你读懂计算了么? SCAD和MCP都只是对Penalty做LQA或者LLA,这两种penalty都是
decomposable的,根本不涉及到矩阵求逆.
SCAD和MCP的code,我都写过,无非就是多了一个Convex Relaxation的loop而已,如果是
做Onestep的SCAD,连loop都不需要写.

d******e
发帖数: 7844

来自主题: Statistics版 - Re: 生物转CS，大家觉得应该转吗 (转载)

他在CS版也是个二楞子。
他的名言是“本质上，SVM就是个QP, Lasso就是个QP... ...”

r********3
发帖数: 2998

来自主题: Statistics版 - Re: 生物转CS，大家觉得应该转吗 (转载)

你这个妖精，Lasso是啥？我听都听过。

s*r
发帖数: 2757

来自主题: Statistics版 - 请教linear regression中的subset selection算法

现在lasso都是基本的算法了

a***g
发帖数: 2761

来自主题: Statistics版 - Lasso (question on tuning parameter and final model)

try 10 fold

s*r
发帖数: 2757

来自主题: Statistics版 - Lasso (question on tuning parameter and final model)

把那个 trace画出来，肉眼挑个lambda。

.
shall

l******0
发帖数: 73

来自主题: Statistics版 - Lasso (question on tuning parameter and final model)

It seems your data can't be fit to only one model well. How many
observations do you have? Are they from the same strata?

r********n
发帖数: 6979

来自主题: Statistics版 - logistic regression结果释疑，解读

52个感觉是多了一点
我不用sas
所以不知道这个logistic regression是怎么得到这些系数的
你可以试试用一些Bayesian methods
加上一些df的penalty
比方LASSO之类的
应该得到的df要小一些

s*******o
发帖数: 392

来自主题: Statistics版 - logistic regression结果释疑，解读

好的，我这就去尝试一下lasso，bayesian怎么搞，sas里边具体函数是什么名字呢？

f*********y
发帖数: 376

来自主题: Statistics版 - logistic regression issue

I have similar issues as mentioned in http://www.mitbbs.com/article/Statistics/31314451_0.html
From this post and reply, there are several ways to select variabel for
logistic regression
1. Use correlate to find highly correlated variables and delete some of them
if possible. But by what criteria?
2. Use backward selection method. Does SAS have the routine or I need
program the process by myself?
3. Use best subset method. Does SAS have the routine or I need program the
process by myself?
4. If ... 阅读全帖

c******t
发帖数: 8

来自主题: Statistics版 - An interview question

You have dataset 1, with 100 explanatory variables, response and 100
observations. You want to construct a model for prediction, but 100
variables is too many. Penalized methods, such as LASSO can be used.
The question is: you have dataset 2, with same 100 explanatory variables,
but the sample size is 1000, no response, and the data come from similar
population. How to use dataset 2 to help you construct a prediction model
for dataset 1?
Thanks

w**********y
发帖数: 1691

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

我的问题是：
1。如果我多run几次，选择CV最小的lamda建立的model 业界是否可以接受？我这个
model只是筛选，以后还要验证，所以多引几个variable在model中没有关系
--一般不推荐用min而是用lambda.1se吧?特别你的目的只是筛选..
2。使用glmnet有什么技巧可以使建出的model的重复性好些，比如选出的variable都在
10个左右。CV.err也更接近

a***g
发帖数: 2761

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

这个比较不好说，像他这个情况，画solution path，拿眼睛看也许真的更靠谱，以前
谁就这么调侃的

a***g
发帖数: 2761

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

假如你min可以选出来15个左右的参数，接着再验证，再然后用aic之类的看看
反正又不是写论文，公司用的不必很fancy管用就行，土法上马也可以吧
呵呵

run

w**o
发帖数: 15

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

这个随机性主要是cv产生的吧，1se rule在低noise的时候才好用
高noise的时候，有一两个fold的error很大，cv curve就会增长很快，导致选的lambda
太大
你这样做可以，不过还要看一下solution path是否合理，不会过于rough

run

N******n
发帖数: 3003

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

这个solution path 是用glmnet做的吗？

lambda

A*******s
发帖数: 3942

来自主题: Statistics版 - 请教SAS高手关于lasso...

你这个seed是做cross validation用的么？如果想要确定的结果，数据量大的话就用
aic/bic，数据量不大的话就用press，不一定要用CV吧。

s*********I
发帖数: 22

来自主题: Statistics版 - 请教SAS高手关于lasso...

我也不想啊，不过题目要求是用CV。。。

A*******s
发帖数: 3942

来自主题: Statistics版 - 请教SAS高手关于lasso...

press难道不是closed form solution of leave-one-out CV?
AIC/BIC也是asymtotically equivalent to CV的

s*********I
发帖数: 22

来自主题: Statistics版 - 请教SAS高手关于lasso...

哈哈，没完全明白您的意思，不过看上去很厉害的样子：）刚学统计一个月，很多东
西还是云里雾里。也就是说如果如果selection criteria 选择press 或 AIC BIC，
得到的效果类似CV，但是可以产生确定model （不需要seed）。对吗？谢谢！

A*******s
发帖数: 3942

来自主题: Statistics版 - 请教SAS高手关于lasso...

看看press residual的定义你就明白了
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/d

s*********I
发帖数: 22

来自主题: Statistics版 - 请教SAS高手关于lasso...

谢谢。。。看来有很多课要补呀！

w******e
发帖数: 142

来自主题: Statistics版 - 推荐大家使用r里面的foreach+doSNOW package来并行计算提高速度

速度提高很明显，使用也很简单，一般的for循环稍微改一下就可以了，如果你是文艺
青年的mac os可以用doMC来代替doSNOW.
我把实验室的服务器24个线程的全部用起来过跑很多个lasso的循环，比单线程程快了
很多，直接从6分钟降到了46秒。

a***d
发帖数: 336

来自主题: Statistics版 - ##面试过了，请教问题##

seems to be colinearity. But do both become negative? or just one of them?
May try LASSO, or combine the two variables into a single variable.

I*****a
发帖数: 5425

来自主题: Statistics版 - 问大牛们一个logistic model的问题哈

can u do some regularized methods, such as lasso ?

？？

c***z
发帖数: 6348

来自主题: Statistics版 - 问大牛们一个logistic model的问题哈

Right, I was talking about perfect multicollinearity.
For p>=n, I would do a ridge or lasso.

since
just

i**********d
发帖数: 26

来自主题: Statistics版 - 请用简单的语句解释一下LASSO Logistic Regression

简单讲一下，原理，怎么设定lamba
疑问是，每次coef小的var的beta被shrink到0以后，这些var就不在model里面了吗？还
是在模型里面，但是假定beta = lamba

A*******s
发帖数: 3942

来自主题: Statistics版 - 请用简单的语句解释一下LASSO Logistic Regression

拉嗖回归就是拉紧(penalization)一下，很多变量就嗖嗖地没有了(sparsity).

p*****y
发帖数: 34

来自主题: Statistics版 - Fraud detection model 在testing dataset 中效果很差，求原因

近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
问题：model 在testing data set中的performance 远远差于training dataset中的
performance… training data 是3-4个月的，testing data 是随后15天的。想了很久
也没有想通，莫非是fraud trends 变得太快?
不知道当前业界比较流行的方法是什么，很想知道目前最好的方法能捉到fraud的比例
有多少( 70%? 还是 40%就很不错了？)
向版上大牛真诚请教！

w********m
发帖数: 1137

来自主题: Statistics版 - regression的时候什么时候要standardize variables？

Shrinkage 比如ridge和lasso是必须的，否则lambda很难调。其他的倒没听说非得做。

w********m
发帖数: 1137

来自主题: Statistics版 - regression的时候什么时候要standardize variables？

Shrinkage 比如ridge和lasso是必须的，否则lambda很难调。其他的倒没听说非得做。

c***z
发帖数: 6348

来自主题: Statistics版 - 请问OLS怎样选择feature sets？

step wise, ridge, lasso, elastic net, etc
check the R package glmnet
may want to use sparse matrix

f****s
发帖数: 3078

来自主题: Statistics版 - 请问OLS怎样选择feature sets？

ridge不能选择regressor吧
不过lasso倒是可以，但是没有grouping effect
elastic net不错，当时没想到

d******e
发帖数: 7844

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

算是个还不错的方法。
可以Cross Validation选一个regularization parameter，然后refit，然后做一个T-
test的Screening。

K*****2
发帖数: 9308

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

http://arxiv.org/pdf/1001.0188.pdf

d******e
发帖数: 7844

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

我记得这个是吧。
http://www.stat.cmu.edu/~roeder/publications/wr2009.pdf
算p-value的话就很复杂了，最近arxiv上有一些linear model inference的文章，你可
以搜搜看。

d******e
发帖数: 7844

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

就算有理论支持，用起来也就那么回事儿。
理论也只能保证在模型是正确的情况下的表现。
但是现实使用中，模型永远是错的。
只要方法能帮你自圆其说，帮你写出文章就行了。

A*******s
发帖数: 3942

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

我记得SCAD的文章里就有说怎么估计std err的吧。要做inference的话直接用这个就好
了。
同意drburnie说的，理论就是理论，实际上不可能真有oracle的东西。

W**********E
发帖数: 242

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

哈哈，这个赞同

d******e
发帖数: 7844

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

SCAD那篇paper里的东西15年前就出来了，现在的东西比那时候advanced多了。

w******e
发帖数: 142

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

还有一种方法是不要选最低cross-validation MSE的lambda来变量选择，而用1个SD以
外的变量更少的lambda来选变量再重新OLS. glmnet package默认的coef(model)出来
的就是1 sd away的系数。忘了在讲义还是书上看见过原作者这样提出来过。

c***z
发帖数: 6348

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

多谢分享！

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天