关于lasso的讨论汇总 - 话题女王

D**u
发帖数: 288

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

lasso的 'p-value' 最近已经被弄出来了参见官方package http://cran.r-project.org/web/packages/covTest/covTest.pdf
先lasso 再lr后的结果肯定没有lasso直接出来的好，不过也有可能直接lr结果比lasso
还好. 具体操作的话，如果变量太多而且就想用lasso来选择，并且不想用这个R的pkg
话，倒是可以先lasso再lr。

a*s
发帖数: 23

来自主题: Statistics版 - 在lasso相关的论文中使用上标+表示什么意思？

在看lasso的一篇经典文章
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
非常痛苦
特别是其中有个记号始终猜不懂啥意思，
如
文中2.2的 beta_j=sign(^beta_j)(|^beta_j|-garma)+
这里的+号在原文中是上标来的
请问这式子到底表示什么意义？
我是cs的背景，看这个文章实在是力不从心
谢谢大家帮忙

c****s
发帖数: 63

来自主题: Statistics版 - 请问：想fit gamma 并同时用lasso的方法做variable selection

我的问题是：
我现在有cost为outcome的数据，要用gamma distribution来fit,
但是难题是predictors有1000个,所以又要同时选择predictor.
我的想法:
1.如果用stepwise方法来选，就可以既fit gamma 又同时select variables. 在R中可
以实现，但老板所stepwise不好，让用lasso来select variables.
2.如果直接先用lasso选变量，再去fit model，好像也不太对。因为lasso fit的
是least Angle regression, 不是基于gamma distribution. 应该不能适用于cost
data.
不知道大家遇到这种问题该怎么办，SAS, Stata or R, 那个能解决这个问题呢？
或者有什么好的建议，先谢谢了！

W**********E
发帖数: 242

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

有这方面的文献么？LASSO预测应该没问题，问题就是这个variable selection
LASSO看起来很热，但好的基因研究文章通常是不太用LASSO筛选基因，应该是这个P-
value问题。有人说就算refit，P-value/系数还是得打个问号。类似stepwise，最后模
型的系数/p-value都是biased.

D**F
发帖数: 54

来自主题: Biology版 - Chemspider上那个“Symbiosys LASSO”参考价值有多大？

【以下文字转载自 Chemistry 讨论区】
发信人: DDGF (ddgf), 信区: Chemistry
标题: Chemspider上那个“Symbiosys LASSO”参考价值有多大？
发信站: BBS 未名空间站 (Wed Jan 14 02:55:42 2015, 美东)
如果某个化合物对某个target的LASSO Score是1.0
是不是说明该化合物肯定抑制这个蛋白？

i*******n
发帖数: 227

来自主题: Statistics版 - 请问：想fit gamma 并同时用lasso的方法做variable selection

confused by your question.
LAR is only a solution for lasso, and LAR is nothing to do with statistical
assumptions. Why do you want to use lasso but worry about LAR?
I guess what you want is a gamma fitting model with L1-norm constraint, am I
right?

c****s
发帖数: 63

来自主题: Statistics版 - 关于lasso的variable selection问题

请问，如果用lasso来选择变量，有没有什么限制，比如说对数据的distribution上。
它可以用于gamma 的分布吗？
另外，它的操作方法是什么呢？在SAS里，用lasso先选择变量，然后把它带到proc
genmod中去，是这样吗？
希望知道的各位兄弟姐妹帮帮忙，谢谢了！

d*******o
发帖数: 493

来自主题: Statistics版 - 关于lasso的variable selection问题

你的意思是想用log去transform Gamma distribution的cost吗？那就transform后进去
好了。
proc glmselect;
class
model LogCost=var1 var2 /selection=lasso;
run;
Proc Genmod 好像没有stepwise, backward,lasso这些选项

d******g
发帖数: 130

来自主题: Statistics版 - 关于使用adaptive lasso中weight的问题

关于使用glmnet实现adaptive lasso,对于有大量input variable,考虑multi-
collinearity,想问问大家是不是先run ridge regression,将ridge regression得到的beta绝对值求倒数，然后作为weight赋值给"glmnet"中的"weight" option。去实现adaptive LASSO.
非常感谢各种input!

d******g
发帖数: 130

来自主题: Statistics版 - 关于使用adaptive lasso中weight的问题

D**u
发帖数: 288

来自主题: Statistics版 - 关于使用adaptive lasso中weight的问题

首先纠正一下楼主，应该是在glmnet用penalty.factor option，weight option 是针
对observation的。
再者，有谁能share一下experience，证实用这种方法（ridge output to lasso）,确
实可以提高 model performance的么？
我得到的结果都很糟糕，根本不如直接用Lasso。

a***g
发帖数: 2761

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

我不是很清楚这个问题数据是什么样的
不过望文生义觉得你可以考虑一下adaptive lasso
这个就是相当于把lasso对各个变量都是用一个阀值变成了使用不同的阀值，理论上说
剃刀性很强，能够找出make sence的变量

W**********E
发帖数: 242

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

用LASSO，系数是biased因为shrinkage而且没有p-value。那么拿LASSO单纯地当挑选变
量的方法，重新用这些变量refit regression有何弊端？

d*****n
发帖数: 684

来自主题: FleaMarket版 - [+] lasso

对方ID:
lasso
Feedback (+/-/0):
+
具体交易内容:
Amazon gift card
我的评价:
Fast pay. Smooth transaction. Thanks.
交易原始贴链接:
http://www.mitbbs.com/article/FleaMarket/31515483_0.html

D**F
发帖数: 54

来自主题: Chemistry版 - Chemspider上那个“Symbiosys LASSO”参考价值有多大？

如果某个化合物对某个target的LASSO Score是1.0
是不是说明该化合物肯定抑制这个蛋白？

s*********e
发帖数: 1051

来自主题: Statistics版 - 请问：想fit gamma 并同时用lasso的方法做variable selection

i think it is ok to use lasso and here is why.
there are 2 parameters in gamma, scale and shape parameters. when shape
parameter is large, gamma converges to gaussian. so if you are working on
large sample, you should be fine.

c****s
发帖数: 63

来自主题: Statistics版 - 请问：想fit gamma 并同时用lasso的方法做variable selection

Thanks for your reply!
Yes, you are right.
So according what you said, can I use lasso in 'proc glmselect' in SAS to
find the best variables and then put those variables in 'proc genmod'?
Or do you have any suggestions? Thanks!

d*******o
发帖数: 493

来自主题: Statistics版 - 关于lasso的variable selection问题

proc glmselect;
class
model /selection=lasso;
run;

c*****r
发帖数: 156

来自主题: Statistics版 - 问个关于lasso的问题

请问一下lasso里面该怎样选取penalty前面的参数lambda呢？参数选取的不同直接导致
了shrinkage的程度也不同。是用grid search或者迭代的方法来选择最好的lambda么？
谢谢！

q**j
发帖数: 10612

来自主题: Statistics版 - 问个关于lasso的问题

这个和data mining有区别么？另外那些比较fancy的比如least angle regression比
ridge和lasso实战中强么？有没有那种方法可以scientific的现在penalty的强弱。多
谢。

l***a
发帖数: 12410

来自主题: Statistics版 - 问个关于lasso的问题

LAR和LASSO区别在哪？

q*****q
发帖数: 158

来自主题: Statistics版 - 问个关于lasso的问题

惭愧啊，我没有在实际数据上用过这些，LAR也只是非常肤浅的读过。大概知道lasso的
好处就是如果某个量的影响非常小，直接coefficient就变0了。可以看看Hastie,
Tibshirani and Friedman的那本statistical learning的书，上面的解释和评论都挺
好的。

d******e
发帖数: 7844

来自主题: Statistics版 - 问个关于lasso的问题

LARS就是一个只进不出版本的Lasso

d******e
发帖数: 7844

来自主题: Statistics版 - 问个关于lasso的问题

没有一个方法能保证general性能的，你自己试试看才知道。
绝大部分情况，Lasso都无法beat forward selection

o****o
发帖数: 8077

来自主题: Statistics版 - 关于使用adaptive lasso中weight的问题

Isn't this the recommendation from Zou's original paper (2006 JASA)?

的beta绝对值求倒数，然后作为weight赋值给"glmnet"中的"weight" option。去实现
adaptive LASSO.

l***a
发帖数: 12410

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

proc logistic的selection好像不支持lasso，可以把y和所有x放到glmselect里面？

g********r
发帖数: 8017

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

好奇问一问：logistic regression里面，small step forward还是跟lasso等价的么？
如果是的话是不是不难写，就是慢。

p******k
发帖数: 23

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

我现在花了很多时间在搞一个关于logistic + LASSO (SCAD,MCP).程序最大的问题是
很多时候会不收敛 (特别是对高维数据)，要特别小心处理IRLS probability接近 0
和 1的情况。对于intercept的处理也没有LS容易。 logistic要比LS复杂很多。
Friedman 和 Haste的 glmnet核心程序是用fortron写的，里面用了很多goto挺难读得
，建议你直接看他们的文章. 如果R package能直接用的话，就直接用他们的吧.

p******k
发帖数: 23

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

对于高维数据（p~n,或 p>n）LQA或LLA 基本上是很难做的，里面的矩阵求逆很容易就
出现singular. 用lasso做变量选择基本都是高伟数据，如果低维的话直接用BIC好了
。高维IRLS还是会出很多问题的。

w******8
发帖数: 59

来自主题: Statistics版 - Lasso (question on tuning parameter and final model)

I am using Lasso on analyzing gene data. I use 5-CV to find the tuning
parameter lamda but each time I am running it again, a different tuning
parameter will be selected and hence a different final model will be chose.
I know this is from randomness of partitioning the training set. What shall
I do? Shall I just run once and select whatever model produced? This seems
so random and not stable. Thanks for your input!

P*****6
发帖数: 273

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

lasso 的使用本版讨论了不少，受益不浅，不过实际应用中还是遇到一个问题，不知高
手如何解决
我的基本问题跟前一段一位老兄相似，就是run不同次结果不同
我的数据只有50个左右，variable 却有400多个
我可以理解可能有多个参数coefficent类似，不过有时参数只有1-2个（可能是最
dominant的那1-2个），有时却有10几个，差别太大，结果中一般来说参数只有1-2个的
CV.err大
另一个解释是，听说glmnet 用coordinate descent 找lamda，可能不是每次都能找到
CV.err最小的
我的问题是：
1。如果我多run几次，选择CV最小的lamda建立的model 业界是否可以接受？我这个
model只是筛选，以后还要验证，所以多引几个variable在model中没有关系
2。使用glmnet有什么技巧可以使建出的model的重复性好些，比如选出的variable都在
10个左右。CV.err也更接近

P*****6
发帖数: 273

来自主题: Statistics版 - 请教一个lasso的问题，如何选定最后的model

多谢指点，我没有注意到lambda.1se 和 lambda.min 的差别，我是用的lambda.min.
不过lambda.1se 对我可能不是很适用。因为我的solution path 图上lambda通常有两
个极值，一个倾向于选取1-2个参数。一个倾向于选择15个左右的参数。我试了一下，
lambda.1se 选取较大的lambda，最后就剩intercept了
不过我说多run几次选CV.err最小的model，到不是指lambda.min. 我的意思是比如run
5次lasso
每一次Min(cv.fit$CVM) 分别如下，2.75， 2.7，2.6, 2.62 , 2.65, 2.49
Min(CVM) 是2.75 的只有1-2个predictor
而Min（CVM）是2.49 通常有14个左右的perdictors。我可不可以选取这个model？这
种选出的参数会不会随机成分过高，没有后续分析的价值？
我个人感觉是可以的，因为coordinate descent 在选取极值上有随机性，我多run几次
相当于尝试多个路径。最终的最低点是一个客观存在的点，不是我随机... 阅读全帖

s*********I
发帖数: 22

来自主题: Statistics版 - 请教SAS高手关于lasso...

用lasso做multiple linear regression，发现给定不同的seed情况下，会产生不同的
model。目前的解决思路是随机选n个seeds （比如100个），统计最后各种model的
frequency以确定最佳model。请问在SAS中如何实现？
SAS菜鸟一枚，恳请赐教！

b**********e
发帖数: 61

来自主题: Statistics版 - lasso regression

use lasso regression for logistic regression, how do decide the sample size
required given the error rate?
many thanks!!!

W**********E
发帖数: 242

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

看了manual，作者说了理论文章没有发表，关于logit/cox模型并无无严谨的理论支持
，所以。。。。

lasso
pkg

w******o
发帖数: 578

来自主题: Statistics版 - cross validation选择 lasso的参数

用 cross validation 选择 lasso的参数，发现最优的参数太大，除了intercept其
他的参数都变为0。这种情况说明什么？是不是说明数据本身有问题，predictor和
response 根本没有association?

g****1
发帖数: 261

来自主题: Biology版 - MONSANTO FOUND GUILTY OF CHEMICAL POISONING IN LANDMARK CASE

http://worldtruth.tv/monsanto-found-guilty-of-chemical-poisonin
A French farmer who can no longer perform his routine farming duties because
of permanent pesticide injuries has had his day in court, literally, and
the perpetrator of his injuries found guilty of chemical poisoning. The
French court in Lyon ruled that Monsanto’s Lasso weedkiller formula, which
contains the active ingredient alachlor, caused Paul Francois to develop
lifelong neurological damage that manifests as persistent memory l... 阅读全帖

w**********y
发帖数: 1691

来自主题: Statistics版 - 请教一个multi colinearity的问题

你描述的问题不是LASSO要解决的问题
In practice, 至少应该 exploring/pre-screening + variable transformation/
combination + variable selection
你说的问题主要在前两部，Lasso的目的主要在第三步，正是因为lasso的缺点，才有
了后来的adaptive lasso, group lasso, 已经最近几年peter buhlmann做的一个
clustering and sparse estimation
peter buhlmann的方法恰好我四五年前用过，out-sample的效果很好，特别是在你的数
据的确是有group/cluster的structure下

o*s
发帖数: 623

来自主题: Statistics版 - 有80个候选Predictors,怎么从中选<10个

如果你用SAS
看看这个 PROC GLMSELECT
SAS 9.4还是蛮全的
较早的版本9.2或者9.3没那么全
Forward Selection (FORWARD)
Backward Elimination (BACKWARD)
Stepwise Selection(STEPWISE)
Least Angle Regression (LAR)
Lasso Selection (LASSO)
Adaptive LASSO Selection
Elastic Net Selection (ELASTICNET)
当然R也应该都有的
相关文章：
Efron, B., Hastie, T., Johnstone, I., & Tibshirani, R. (2004). Least angle
regression. The Annals of statistics, 32(2), 407-499.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso.
Journal of the Royal ... 阅读全帖

发帖数: 1

来自主题: Military版 - 叼哒哒在厦门的时候和台巴蒋梅毒余孽深入勾结

http://www.soe.xmu.edu.cn/info/news/2018-11-23-18161.html
由厦门大学经济学科张兴祥副教授、钟威教授和洪永淼教授（通讯作者）合作的“中国
梦”论文《国民幸福感的指标体系构建与影响因素分析：基于LASSO的筛选方法》已被
《统计研究》作为2018年第11期的重要文章置于首篇刊出。该文系洪永淼教授主持的国
家社会科学基金特别委托项目“中国梦的系统结构、操作层面及国际比较研究”（[email protected]
ZH020）的阶段性成果之一。
论文借鉴“美国梦综合指数”、Benjamin等已有研究文献的幸福指数量表，构建一套适
合于测度中国国民幸福感的指标体系，通过设计调查问卷、展开全国性的实地调查以获
取样本数据。为了有效地选择重要变量和消除估计偏差，论文采用新近发展的重要统计
方法LASSO（Least Absolute Shrinkage and Selection Operator）筛选方法。LASSO
方法优势在于通过添加惩罚项，将不重要变量的回归系数直接估计为0，从而达到剔除
不重要变量的目的。基于LASSO筛选... 阅读全帖

m******r
发帖数: 6963

来自主题: Military版 - TikTok进军硅谷以高出20%薪酬挖Fb员工

凤凰网科技讯北京时间10月15日消息，多位知情人士称，抖音海外版TikTok已经在硅
谷开设了一家办事处，并开始挖角Facebook员工，提供的薪酬最多比Facebook高出20%。
多位知情人士称，TikTok在近期搬进了加州山景城的一处办公地点，而这处办公地点此
前由Facebook旗下消息应用WhatsApp使用。TikTok新办事处距离Facebook门洛帕克总部
只有几英里，将两家公司之间的竞争从吸引年轻用户升级到了人才争夺战。
TikTok在2017年由字节跳动公司发布，被称为抖音海外版，允许用户观看和制作通常是
唱歌的短视频。字节跳动称，旗下产品的全球总日活跃用户超过7亿。相比之下，
Facebook宣称有21亿人每天在使用其应用家族中的产品，包括Instagram、Messenger以
及WhatsApp。
职业社交网站领英上的信息显示，在硅谷开设新办事处的同时，TikTok和字节跳动还在
旧金山湾区发布了多个岗位招聘公告。自2018年以来，TikTok和字节跳动从Facebook挖
走的员工超过24名。
薪酬高出20%
两位已跳槽到TikTok的前Facebook员... 阅读全帖

p********a
发帖数: 5352

来自主题: Statistics版 - [合集] 生物转CS，大家觉得应该转吗 (转载)

☆─────────────────────────────────────☆
ningyan (ningyan) 于 (Wed Aug 3 16:05:21 2011, 美东) 提到:
发信人: wcwyf (wcwyf), 信区: CS
标题: Re: 生物转CS，大家觉得应该转吗
发信站: BBS 未名空间站 (Wed Jun 8 18:27:43 2011, 美东)
你这个基础学CS会很痛苦的。拿统计硕士吧，那个相对好对付。

☆─────────────────────────────────────☆
adgang (九戒之重出江湖) 于 (Wed Aug 3 16:06:16 2011, 美东) 提到:
看爱好了
编程是可以练出来的
☆─────────────────────────────────────☆
ningyan (ningyan) 于 (Wed Aug 3 23:28:18 2011, 美东) 提到:
这年头编程的门槛已经很低了，统计还被CS鄙视，ft死了
☆────────────────────────────... 阅读全帖

g****e
发帖数: 1829

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

no offense，你说每句话都对，每句话都是背书。最后我都糊涂了。
lasso的 k fold可以拿来决定shrinkage，一般不用来选variable。因为每个fold选的
variable都不一样，你怎么知道那个留，哪个不留？如果你想用lasso，可以这样做：
1) 合并sample 1和2，这样你就只有一个大sample，以及一个hold out（原来的sample
3）
2）用第一步的大sample做k fold，看out of sample error，用来选 lasso的
shrinkage
2）用第一步的大sample全部data做一遍lasso，剩下的variable留下。
以上过程是你的training过程。
3）用第二步的结果用在sample 3（hold out）上，看 prediction，或者benchmarking
。我不知到你说的分布是怎么意思，是不是你bootstrap了？如果是，那么是有问题的。

发帖数: 1

来自主题: Military版 - 叼哒哒在厦门的时候和台巴蒋梅毒余孽深入勾结

hongyongmiao这逼堕落到这个地步了
[在 deepJaNet (69之王) 的大作中提到：]
:http://www.soe.xmu.edu.cn/info/news/2018-11-23-18161.html
:由厦门大学经济学科张兴祥副教授、钟威教授和洪永淼教授（通讯作者）合作的“中
国梦”论文《国民幸福感的指标体系构建与影响因素分析：基于LASSO的筛选方法》已被
:《统计研究》作为2018年第11期的重要文章置于首篇刊出。该文系洪永淼教授主持的
国家社会科学基金特别委托项目“中国梦的系统结构、操作层面及国际比较研究”（[email protected]
:ZH020）的阶段性成果之一。
适合于测度中国国民幸福感的指标体系，通过设计调查问卷、展开全国性的实地调查以
获取样本数据。为了有效地选择重要变量和消除估计偏差，论文采用新近发展的重要统
计方法LASSO（Least Absolute Shrinkage and Selection Operator）筛选方法。
LASSO
筛选重要变量，然后再对筛选出的变量进行回归系数估计及显著性检验。总样本的回归
结果... 阅读全帖

f*******y
发帖数: 423

来自主题: OperaHouse版 - 有练美声唱法的吗？大家来交流下吧

LASSO主要就是考虑一个penalized term，就是parameter的l1 norm，大致idea，就是
parameter不能搞太多，太大，所以加个penalized term。LASSO现在的确很火的，好像
有人还搞了个glasso，graphic lasso出来

f*******y
发帖数: 423

来自主题: OperaHouse版 - 有练美声唱法的吗？大家来交流下吧

w**********y
发帖数: 1691

来自主题: Quant版 - 刚面了一家prop shop，基本功太差，活该被虐了

Q2
If I were the interviewer, I would ask you two follow-up questions:
1. Why is colinearity very dangerous?
2. What are the disadvantages of LASSO?
A standard answer to 1 is huge variance of your b1 or b2; then you can
explain more;
For 2, there are many where the related one is, in this highly correlated
situation, LASSO most likely can only select one out of these two variables.
So between Ridge and LASSO, ridge is preferred. But there are other ways.
This is more like a practical question in... 阅读全帖

n*****s
发帖数: 10232

来自主题: Statistics版 - 抓狂！为啥选出来的predictor都这么差

我感觉lasso总是选比stepwise少的多的var（我用的proc glmselect里面的selection=
lasso），有时候会怀疑不可靠。。。实际很多时候在linear regression中，lasso的R
^2也确实比stepwise小（在stepwise结果可以接受的情况下）

g********r
发帖数: 8017

来自主题: Statistics版 - 抓狂！为啥选出来的predictor都这么差

lasso是有bias的。不知道你说的proc是不是纠正了bias，否则R2不可靠。另外lasso有
N多变种如adaptive lasso之类的。结果也不完全一样。

q**j
发帖数: 10612

来自主题: Statistics版 - R里面regression 变量选择的package?

终于到了这一步了。请大家推荐一下各种regression variable selection tools。比如
正常regression里面哪个比较好？
另外在ridge, lasso，LAR下面哪个好。还有什么glmnet的？我全部尝试一边，可以汇报
实际效果。
另外问一下，如果用lasso来选择变量，但是用Ordinary least square 估计系数和cov
ariance matrix，这样做合理吗？我要estimate system of equations，不知道lasso这
样的有现成package给用么？普通regression有package systemfit干这个。多谢了。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天