由买买提看人间百态

topics

全部话题 - 话题: lasso
首页 上页 1 2 3 4 5 6 7 8 下页 末页 (共8页)
l***a
发帖数: 12410
1
所以咋办?
是不是glmselect不适合除了binary response的model?
l***a
发帖数: 12410
2
多谢
R package是glmnet?
SAS我现在没有iml,自己写可能不好办吧
A*******s
发帖数: 3942
3
what is small step forward? stagewise?
l***a
发帖数: 12410
4
能不能展开说说
A*******s
发帖数: 3942
5
don't know optimization but my understanding is it is easier to optimize a
convex and differentiable target function.
g********r
发帖数: 8017
6
是吧。忘了名字。就是那个每次beta增加一点点的。
p******k
发帖数: 23
7
logistic loss不是quadratic, 也不是piecewise linear. 根据 prof. Ji Zhu的文章
,它的solution path不是piecewise linear的,应该是非线性的。 原则上讲和Least
Angel Regression 是不一样. 但是我们总是可以用local quadratic去逼近 logistic.
所以还是可以用small step forward很好逼进的
d******e
发帖数: 7844
8
自己写个C的也花不了多长时间,即使是非凸的Penalty,无非也就是LQA或者LLA罢了,
Relax 4~7次就足够了
至于收不收敛,只要不是完全没有收敛的pattern,IRLS都还说得过去,而且精度太高
没用,循环个几千次就行了。

0
d******e
发帖数: 7844
9
你确定你读懂计算了么? SCAD和MCP都只是对Penalty做LQA或者LLA,这两种penalty都是
decomposable的,根本不涉及到矩阵求逆.
SCAD和MCP的code,我都写过,无非就是多了一个Convex Relaxation的loop而已,如果是
做Onestep的SCAD,连loop都不需要写.
d******e
发帖数: 7844
10
他在CS版也是个二楞子。
他的名言是“本质上,SVM就是个QP, Lasso就是个QP... ...”
r********3
发帖数: 2998
11
你这个妖精,Lasso是啥?我听都听过。
s*r
发帖数: 2757
12
现在lasso都是基本的算法了
a***g
发帖数: 2761
13
try 10 fold
s*r
发帖数: 2757
14
把那个 trace画出来,肉眼挑个lambda。

.
shall
l******0
发帖数: 73
15
It seems your data can't be fit to only one model well. How many
observations do you have? Are they from the same strata?
r********n
发帖数: 6979
16
来自主题: Statistics版 - logistic regression结果释疑,解读
52个感觉是多了一点
我不用sas
所以不知道这个logistic regression是怎么得到这些系数的
你可以试试用一些Bayesian methods
加上一些df的penalty
比方LASSO之类的
应该得到的df要小一些
s*******o
发帖数: 392
17
来自主题: Statistics版 - logistic regression结果释疑,解读

好的,我这就去尝试一下lasso,bayesian怎么搞,sas里边具体函数是什么名字呢?
f*********y
发帖数: 376
18
来自主题: Statistics版 - logistic regression issue
I have similar issues as mentioned in http://www.mitbbs.com/article/Statistics/31314451_0.html
From this post and reply, there are several ways to select variabel for
logistic regression
1. Use correlate to find highly correlated variables and delete some of them
if possible. But by what criteria?
2. Use backward selection method. Does SAS have the routine or I need
program the process by myself?
3. Use best subset method. Does SAS have the routine or I need program the
process by myself?
4. If ... 阅读全帖
c******t
发帖数: 8
19
来自主题: Statistics版 - An interview question
You have dataset 1, with 100 explanatory variables, response and 100
observations. You want to construct a model for prediction, but 100
variables is too many. Penalized methods, such as LASSO can be used.
The question is: you have dataset 2, with same 100 explanatory variables,
but the sample size is 1000, no response, and the data come from similar
population. How to use dataset 2 to help you construct a prediction model
for dataset 1?
Thanks
w**********y
发帖数: 1691
20
我的问题是:
1。如果我多run几次,选择CV最小的lamda建立的model 业界是否可以接受?我这个
model只是筛选,以后还要验证,所以多引几个variable在model中没有关系
--一般不推荐用min而是用lambda.1se吧?特别你的目的只是筛选..
2。使用glmnet有什么技巧可以使建出的model的重复性好些,比如选出的variable都在
10个左右。CV.err也更接近
a***g
发帖数: 2761
21

这个比较不好说,像他这个情况,画solution path,拿眼睛看也许真的更靠谱,以前
谁就这么调侃的
a***g
发帖数: 2761
22
假如你min可以选出来15个左右的参数,接着再验证,再然后用aic之类的看看
反正又不是写论文,公司用的不必很fancy管用就行,土法上马也可以吧
呵呵


run
w**o
发帖数: 15
23
这个随机性主要是cv产生的吧,1se rule在低noise的时候才好用
高noise的时候,有一两个fold的error很大,cv curve就会增长很快,导致选的lambda
太大
你这样做可以,不过还要看一下solution path是否合理,不会过于rough


run
N******n
发帖数: 3003
24
这个solution path 是用glmnet做的吗?

lambda
A*******s
发帖数: 3942
25
来自主题: Statistics版 - 请教SAS高手关于lasso...
你这个seed是做cross validation用的么?如果想要确定的结果,数据量大的话就用
aic/bic,数据量不大的话就用press,不一定要用CV吧。
s*********I
发帖数: 22
26
来自主题: Statistics版 - 请教SAS高手关于lasso...
我也不想啊,不过题目要求是用CV。。。
A*******s
发帖数: 3942
27
来自主题: Statistics版 - 请教SAS高手关于lasso...
press难道不是closed form solution of leave-one-out CV?
AIC/BIC也是asymtotically equivalent to CV的
s*********I
发帖数: 22
28
来自主题: Statistics版 - 请教SAS高手关于lasso...
哈哈,没完全明白您的意思,不过看上去很厉害的样子 :)刚学统计一个月,很多东
西还是云里雾里。 也就是说如果如果selection criteria 选择press 或 AIC BIC,
得到的效果类似CV,但是可以产生确定model (不需要seed)。 对吗? 谢谢!
A*******s
发帖数: 3942
29
来自主题: Statistics版 - 请教SAS高手关于lasso...
看看press residual的定义你就明白了
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/d
s*********I
发帖数: 22
30
来自主题: Statistics版 - 请教SAS高手关于lasso...
谢谢。。。看来有很多课要补呀!
w******e
发帖数: 142
31
速度提高很明显,使用也很简单,一般的for循环稍微改一下就可以了,如果你是文艺
青年的mac os可以用doMC来代替doSNOW.
我把实验室的服务器24个线程的全部用起来过跑很多个lasso的循环,比单线程程快了
很多,直接从6分钟降到了46秒。
a***d
发帖数: 336
32
来自主题: Statistics版 - ##面试过了,请教问题##
seems to be colinearity. But do both become negative? or just one of them?
May try LASSO, or combine the two variables into a single variable.
I*****a
发帖数: 5425
33
来自主题: Statistics版 - 问大牛们一个logistic model的问题哈
can u do some regularized methods, such as lasso ?

??
c***z
发帖数: 6348
34
来自主题: Statistics版 - 问大牛们一个logistic model的问题哈
Right, I was talking about perfect multicollinearity.
For p>=n, I would do a ridge or lasso.

since
just
i**********d
发帖数: 26
35
简单讲一下,原理,怎么设定lamba
疑问是,每次coef小的var的beta被shrink到0以后,这些var就不在model里面了吗?还
是在模型里面,但是假定beta = lamba
A*******s
发帖数: 3942
36
拉嗖回归就是拉紧(penalization)一下,很多变量就嗖嗖地没有了(sparsity).
p*****y
发帖数: 34
37
近几个月在建模型帮公司做on-line fraud detection. 选择了很多方法, logistics
regression/lasso/elastic net, decision tree, RF, MART, SVM…. 发现一个共同的
问题:model 在testing data set中的performance 远远差于training dataset中的
performance… training data 是3-4个月的,testing data 是随后15天的。想了很久
也没有想通,莫非是fraud trends 变得太快?
不知道当前业界比较流行的方法是什么,很想知道目前最好的方法能捉到fraud的比例
有多少( 70%? 还是 40%就很不错了?)
向版上大牛真诚请教!
w********m
发帖数: 1137
38
Shrinkage 比如ridge和lasso是必须的,否则lambda很难调。其他的倒没听说非得做。
w********m
发帖数: 1137
39
Shrinkage 比如ridge和lasso是必须的,否则lambda很难调。其他的倒没听说非得做。
c***z
发帖数: 6348
40
来自主题: Statistics版 - 请问OLS怎样选择feature sets?
step wise, ridge, lasso, elastic net, etc
check the R package glmnet
may want to use sparse matrix
f****s
发帖数: 3078
41
来自主题: Statistics版 - 请问OLS怎样选择feature sets?
ridge不能选择regressor吧
不过lasso倒是可以,但是没有grouping effect
elastic net不错,当时没想到
d******e
发帖数: 7844
42
算是个还不错的方法。
可以Cross Validation选一个regularization parameter,然后refit,然后做一个T-
test的Screening。
K*****2
发帖数: 9308
d******e
发帖数: 7844
44
我记得这个是吧。
http://www.stat.cmu.edu/~roeder/publications/wr2009.pdf
算p-value的话就很复杂了,最近arxiv上有一些linear model inference的文章,你可
以搜搜看。
d******e
发帖数: 7844
45
就算有理论支持,用起来也就那么回事儿。
理论也只能保证在模型是正确的情况下的表现。
但是现实使用中,模型永远是错的。
只要方法能帮你自圆其说,帮你写出文章就行了。
A*******s
发帖数: 3942
46
我记得SCAD的文章里就有说怎么估计std err的吧。要做inference的话直接用这个就好
了。
同意drburnie说的,理论就是理论,实际上不可能真有oracle的东西。
W**********E
发帖数: 242
47
哈哈,这个赞同
d******e
发帖数: 7844
48
SCAD那篇paper里的东西15年前就出来了,现在的东西比那时候advanced多了。
w******e
发帖数: 142
49
还有一种方法是不要选最低cross-validation MSE的lambda来变量选择,而用1个SD以
外的变量更少的lambda来选变量再重新OLS. glmnet package默认的coef(model)出来
的就是1 sd away的系数。忘了在讲义还是书上看见过原作者这样提出来过。
c***z
发帖数: 6348
50
多谢分享!
首页 上页 1 2 3 4 5 6 7 8 下页 末页 (共8页)