由买买提看人间百态

topics

全部话题 - 话题: stepwise
首页 上页 1 2 3 4 (共4页)
r*****y
发帖数: 199
1
来自主题: Statistics版 - questions about modeling ?
If you are doing a model selection, I think you can try both stepwise or
backward. I personally prefer backward.
s********8
发帖数: 50
2
来自主题: Statistics版 - questions about modeling ?
I tried stepwise, backward and forward. and then I picked variables in
common in the model first. Next I tried to add variables accepted in only
one method or two mehtods in to the previous model.
P*****4
发帖数: 55
3
来自主题: Statistics版 - 问一个统计问题
在RUN proc phreg 模型的时候,如果变量太多了,但由于各个变量之间的interaction
,导致stepwise那些模型都是把变量全选。
在这种情况下,要怎样做啊
A*******s
发帖数: 3942
4
来自主题: Statistics版 - one question about variable selection in SAS
is there any common SAS option available to "bond" two or more variables
together in forward/backward/stepwise selection? Say if we have many
predictors, we would like two of them stay in model or be dropped out
together. Like Rose said to Jack, you jump I jump. :)
Thanks in advance.
c*****a
发帖数: 808
5
digital strategies, site and email tactics, search engine marketing, and
more traditional mediums, including print
Key Responsibilities
•Develop and implement statistical analysis that increase the efficacy
of the company's online advertising campaigns
•Develop and implement cutting edge online advertising targeting
algorithms
•Design and implement analysis that incorporate custom survey results,
web behavior data, campaign performance metrics and information from public
databa... 阅读全帖
d*******o
发帖数: 493
6
来自主题: Statistics版 - 问个基本的建MODEL问题
不妨直接上proc glmselect stepwise
z**********i
发帖数: 12276
7
来自主题: Statistics版 - 问个基本的建MODEL问题
据说,STEPWISE有很多问题,我还是从BACKWARDS起手.
多谢!!
s*****p
发帖数: 299
8
电面的时候被问到的题目,问相互之间的区别,哪种好,为什么?没回答出来,想请教
板上的大牛们。万一以后再被问到不至于再回答不出了。
Thanks in advance!
s*r
发帖数: 2757
9
你说这些个都太老了,不流行了
A*******s
发帖数: 3942
10
backward could have larger chance of overfitting or even sometimes perfect
separation in logistic regression tho
o********p
发帖数: 127
11
my 2 cents:
1) use stepwise selection to select variables, etc.
2) can also consider other variable selection methods, such as PCA and, in
particularily some regularization method (to address for the
multicollinerity issues among regressors). This can be easy done in R,
however, SAS should have similar procesures (lots of big cow here in this
board...)
3) If you are doing classificaiton (y is categorical), you may (and should,
actualy) consider ROC curve, which is quite practical and most common... 阅读全帖
v*********0
发帖数: 941
12
Did you give the season that you choose logistic model?
I mean the data include both categorical and numerical variables? or other
points to support choosing logistic?
AND how did you express " how to do variable selection" -->
did you mention criteria : p-valule or other ; method: stepwise or other
-->另一个是给你data了,你用什么model
我答了logistic
他问我怎么判断哪些variable重要
我说我会建立个full model,做varaible selection
c****s
发帖数: 395
13
第一个先按大中小等等分组
组内再比较吧
第二个30十几个vairables还算好的吧
先explore一下
再stepwise一下吧
g*********r
发帖数: 2847
14
关于第二个,俺不是做统计的,不过最近在做一个类似的research project。
俺们的variables有几百个,大致思路就是先精简(当然你30+就不用了),然后对于
non-numeric的考虑转化成一些dummy variables,随后risk adjusted,trending 等一
系列处理,接着stepwise,之后具体问题具体分析吧
i****e
发帖数: 46
15
1. 没做过第一个,不过要是我有这个concern的话,就给impression做个outlier分析
,去掉那些极端小的size。
2。 要做missing value check,有太多missing的variable要扔掉,其余的要
imputation,有些变量要做transform, convert continuous variable to
categorical/dummy variable。可以做variable clustering。然后 univariate
analysis,然后stepwise logistic regression。
c****y
发帖数: 3592
16
stepAIC实在太SB了
1. 公式一定要分开打,比如A[,1]~A[,2]+A[,3]+A[,4],不能直接说A[,1]~A[,2:4]
2. 不能改标准,我不想用AIC想用p-value不行
3. 没有一个inclusion的output告诉我最后哪几个变量被归入方程了
4. 最重要的,如果没有合适的变量,这种情况应该给我空集,而它竟然是把所有变量
都归入方程给我结果
R别的方程用下来都可以,怎么这么普遍的功能这么傻逼呢
B******5
发帖数: 4676
17
write the one yourself then~
w******8
发帖数: 59
18
Maybe try the functions add1 and drop1?
w*********2
发帖数: 400
19
实在着急,怎么也做不出来了,
现在的问题是 :
我用stepwise和GLR分别做出来air 污染的模型,模型马马虎虎,R2有0.7,也有差的0.3,
无所谓了,我用好的.
可是当我找其他的实验数据验证的时候,差别很大了.比如,实验数据是12,可是模型出来
的是1000.
怎么办呢?
请达人给点建议,虽然我知道这些模型都是骗人的,但是还是想能混过毕业阿.
b********1
发帖数: 2861
20
首先你确定你选择的模型是正确的吗?如果你的数据关系不是简单的线性关系,那么可
能需要更复杂的模型。
其次,你建模之前,是否处理了你的数据,比如outlier,correlated相关的问题,你的
数据是否有代表性,分布如何等等
另外,stepwise是最省事的selection option, 但是很容易产生overfitting的问题,
所以需要谨慎使用
建模是统计分析里面最简单的一步,你的大量时间是用来分析你的数据,具有代表性的
数据,才会有好的预测效果
v*********0
发帖数: 941
21
Nice points.
By the way, could you give us more options about selection based on your
experience?? --> "另外,stepwise是最省事的selection option, 但是很容易产生
overfitting的问题"
Thanks very much and best wishes :)
所以需要谨慎使用
a*z
发帖数: 294
22
来自主题: Statistics版 - logistic regression结果释疑,解读
you may try best subset method instead stepwise?
o********c
发帖数: 1
23
来自主题: Statistics版 - 遇到这样的regression问题
背景:非统计专业自然科学博士,面data analyst/business analyst职位
如果你遇到一个sample我们要建模,有非常多的variable,假设你不知道哪一个和你的
模型有关,怎么选择哪些variable放进你的regression模型,问题是基于online
consumer behavior的方向。
当时我就晕菜了,我只做过简单的linear regression,顶多5个变量,我就把所有变量
都试一遍,看每个变量的p value决定哪一个放在regression里,可是网上用户的数据
非常多,每个都试一遍应该不现实吧。
我目前的感觉好像是用stepwise regression,不过我也不是很清楚原理,来这里请教
一下
真心请教统计学人士,这种情况下怎么选变量。
j*****g
发帖数: 222
24
二流学校统计master毕业,3年做了四份工作,电面50+,onsite 10家, onsite 成功率
算7.5吧(0.5是有一家,老板很喜欢我,但是怕我干不长就跑了,面试之后还打电话给
我,要我表决心,那个时候我已经拿到一个更喜欢的offer了,于是不了了之), 大部
分都是marketing research方面的职位,因为比较感兴趣
总结一下经常问到的技术问题吧, 这些问题我觉得marketing research方向的话,基
本是必问的,其实都很简单,但是想到了还是列一下,ms列的有点乱
SAS
(1) Proc transpose
(2) Merge data的时候要注意什么问题?
a. Have to sort both tables before merging
b. Check what’s the type of merge (one to many, one to one, or many to
many?) --- check duplicates in each table (这条很多经验不够的通常都想不到
,只想到sort)
c. ... 阅读全帖
i***m
发帖数: 148
25
很好的经验,然后我加一些自己的经验供大家讨论

SAS
(1) Proc transpose
(2) Merge data的时候要注意什么问题?
a. Have to sort both tables before merging
b. Check what’s the type of merge (one to many, one to one, or many to
many?) --- check duplicates in each table (这条很多经验不够的通常都想不到
,只想到sort)
c. What if you only want to keep the IDs in table a?
--many to many merge, data step 与sql的不同
--missing data在merge时的处理,尤其是primary key有missing时
(3) Array
If you have a data set a with 1000 columns, you want to change all the
mi... 阅读全帖
D**u
发帖数: 288
26
来自主题: Statistics版 - R glmnet 大数据
多谢回复,刚看了一下,果真很多用glmnet的case都是针对small N的,这点学到了。
可是,除了glmnet之外,R似乎就剩stepAIC用做selection比较popular,问题是stepAIC
用greedy search,估计很慢,还有什么其他的方法么?
我们已经有一个SAS的analytic系统,正是用stepwise.可是现在想在R上做一个类似的
能处理大数据的Variable Selection方法。
我们也考虑过Revolution Analytics,可是现在还不想上这个,不知道可否。
l*g
发帖数: 46
27
抱歉刚才点错变成回信了,请忽略!
我就是做的proportional hazard model,那么剩下那一组testing sample可以
evaluate the prediction likelihood么?怎么得到predicted likelihood呢?我是
follow一篇paper里说每一个fold里的9/10组sample做一个model,然后用stepwise来
从k个predictors里面选best model,然后用剩下的1/10组sample来evaluate the
prediction log-lik. "For each k, 把所有predicted log-lik加总得到一个score,
score越小的就越好”,没明白什么意思。。。
谢谢!
q**********9
发帖数: 711
28
来自主题: Statistics版 - 包子问题请教( sas)
有好几十个因变量(predictor,我的变量名字没有规律,不像x1-x99),想做一个stepwise
-regression, 要把这几十个因变量的 two way interaction term 都要作为因变量放
进去.程序怎么写?
要是用 proc Reg; 的话,要先添加two way interaction term 作为新的因变量,平时就
是用sas做作业,直接定义x1x2 = x1*x2就可以了,但是对于大批量数据怎么弄?
谢谢!
双黄包
B******y
发帖数: 9065
29
stepwise selection
W**********E
发帖数: 242
30
有这方面的文献么?LASSO预测应该没问题,问题就是这个variable selection
LASSO看起来很热,但好的基因研究文章通常是不太用LASSO筛选基因,应该是这个P-
value问题。有人说就算refit,P-value/系数还是得打个问号。类似stepwise,最后模
型的系数/p-value都是biased.
y*****n
发帖数: 5016
31
来自主题: Statistics版 - 最近一些面试的经历
dumping 1000 variables into a regression in a big no no, for the reason
ABCDE (i am too lazy to type), you need to pre-screen the variable, how? xyz
(i am too lazy to type). i will keep no more than 50 variables before
running regression with stepwise selection.
h***x
发帖数: 586
32
来自主题: Statistics版 - sas 和 r的讨论又开始了 ?
别说R和SAS比了,同样是SAS的产品,哪怕对10K obs+10个变量的数据跑简单的
stepwise, Proc logistic 和 Enterprise Miner产生的系数都不只差0.1。
不过这是小事,变量的方向对了就行。系数差个0.01不会改变rank. Rank最重要!
y**i
发帖数: 1050
33
来自主题: Statistics版 - 紧急求助一个LOGISTIC REGRESSION 问题.
紧急求助一个LOGISTIC REGRESSION 问题.
请问大家一个问题,我打算做一个LOGISTIC REGRESSION MODEL, Y=1 或者0
但是我的Y=1只占 1%的比例,绝大部分是Y=0
可以用来做LOGISTIC REGRESSION吗?
我用SAS出来的结果非常差, GOODNESS OF FIT倒是可以,但是ROC 估计很差.
大家有什么办法吗, 对于这种SKEWED Y 有什么好的办法来做LOGISTIC REGRESSION不?
或者说其他的MODEL来PREDICT 0,1的吗?
在做LOGISTIC REGRESSION之前需要对数据做什么处理吗? 比如需要NORMALIZED DATA
吗,我的X, 有的X是1.0-2.0的LEVEL,有的是1000,2000,3000, 不知道是不是可以呢? 因
为我用SAS PROC LOGISTIC STEPWISE SELECTION X,不知道需要提前对数据做如何处理
呢?
谢谢
f****s
发帖数: 3078
34
来自主题: Statistics版 - 请教一个multi colinearity的问题
stepwise selection
s*r
发帖数: 2757
35
来自主题: Statistics版 - 请教一个multi colinearity的问题

no, this is not an assumption; this is my interpretation of the results. All
views are wrong, but some are useful.
thanks for the information. in my practice, the problem is usually we do not
include the true signal in the design matrix; we just hope (and wish does
not always become true) certain columns in the design matrix are correlated
with the true signal(s).
any operation in small samples is dangerous.with regularization, lasso is
much safer than usual (stepwise) regression, or usual (uns... 阅读全帖
s*****r
发帖数: 183
36
Lasso可以试一下,Ridge没有variable sparse功能吧。
另外,stepwise,forward, backward试了吗?
h*********n
发帖数: 278
37
跟风探讨一下,在用这些variable selection方法之前,是不是还是要对这些变量,尤
其是categorical variables,进行一些处理呢?有些categorical variable 有很多
level, 有些level只有几个observation, 这种情况如果直接扔进去model做var
selection, 好像会出问题。比如最近做的一个model, 一开始我把所有变量直接扔进去
用stepwise selection, 结果直接error, 后来我只好分还几步,每次把上一步选中的
variables再加上一组新的让它选(说实话也不知道这样对不对)。可是这样也觉得挺
累的,这要是有上百上千个个变量,怎么处理这问题呢,所谓的big data是怎么实现不
对数据做initial处理就进行变量选择的?如果说要先处理数据,那你一开始又怎么知
道一个有上百level的变量,怎么去combine那些level呢?
b*******t
发帖数: 390
38
用的SAS 中的Proc logistic,selection=stepwise 筛选变量。
加进去有8个左右变量,有4个有显著性差异,还有两个有interaction。
Goodness-of-fit test P value 远大于0.05,是好的。
但是有个问题ROC曲线中AUC只有0.61,不是太好。
用的data, sample size比较大(30k以上),大部分的variables是categorical变量。
试了很多变量,AUC总是0.60-0.61左右,加入的变量多点,好像会稍微高点。
本来以为是因为有些变量的某些Group sample size太小,会有影响,所以干脆把一些
group何并了。但是发现好像还是差不多。
现在不知道该怎么办了,所以来请教大家。谢谢!
G******2
发帖数: 579
39
【 以下文字转载自 Quant 讨论区 】
发信人: Gigi2012 (Gigi), 信区: Quant
标 题: Re: 请问multi variate linear regression 选择risk factor 问题 (
发信站: BBS 未名空间站 (Fri Apr 10 01:32:27 2015, 美东)
他们没有report p value 和t statistics .我还在想是我不懂的原因,一般来说我先
看p value. 不过我可以要求report
R square 看起来是model 的。
给我的sad code 打不丶开。我家电脑没有sas.
说是用的Bayesian schawz criteria selection. 跟我平常用的stepwise 和backwards
selection 不一样。不懂呀。
最小的SBC 和最大的RSQ的variable 被淘汰了,说intuitive judgement 不make
sense 是个dummy variable
用了两个variable 说 SBC 最小值,然后rsq 也最大。然后multivara... 阅读全帖
z**********e
发帖数: 91
40
来自主题: Statistics版 - data science 面试求教
回归?Lasso Ridge?这是最直接的想法。。
选feature看有没有multicollinearity,stepwise或者PCA(extraction)?
复杂点可以考虑regression tree,SVR甚至Bayesian regression什么的。。
我也就是把统计课上学的东西可能相关的大概列了一列。。。
E**********e
发帖数: 1736
41
来自主题: Statistics版 - PCA拟合问题
pca是不能用来剔除变量的,但可以用来降维,降维后的新变量里包含了降维前所有的
变量,也就是新变量是以前旧变量的linear conbination。 mitbbs 上好多人多不懂,
就说用来选变量。很多面试官也不懂,听到回答说pca就觉得行了。
此变量非彼变量。 如果要用来选significant variabels,还是老老实实用基本方法,
统计基本课上交的帅选。 univariate screen, stepwise, multiple regression,
local k-neightbor searching, ridge, lasso。当然还有一些我也没学过,fiter,
wrapper是么的。 有些特别情况,可能有特别的方法。
E**********e
发帖数: 1736
42
来自主题: Statistics版 - PCA拟合问题
pca用来降维, 但是pca也可以用做regression啊。 你可以plot scree。 选top N个新
变量其中eigen value(或variance) 之和比上所有eigen value 之和大于一个设定值
,比如95%。 那么这95%包含的top N个新变量就可以用来做regression。 余下的5% 的
变量其实对model 贡献就很小或者可以忽略了。如果你要是光想选features的话,
pca是不适合的。
那这样的话, 可以用 stepwise, forward, backward, univariate screeing, 还
有一些像, k-neighbor local search, annealing, genitic 算法是么的。
e*********g
发帖数: 77
43
来自主题: Statistics版 - PCA拟合问题
95%没用的,我都选到99.8%了,可精度还是不能达标,还是需要剩下几个fraction 只
有1e-4的维度。
stepwise等算法python有模块吗?哪一个快一些?
n**********0
发帖数: 66
44
来自主题: Statistics版 - PCA拟合问题
我没有上过这个课,自学的。我的理解是用eigenvalues可以先帮助你去掉一部分
dimension,当然还不够的,后面可以用一些variable selection的方法,比如lasso,
ridge啥的都可以试试,实在不会还可以stepwise,还可以用MSE cross validate一下。
n**********0
发帖数: 66
45
来自主题: Statistics版 - PCA拟合问题
如果只要stepwise, R 就可以M, 比如step()
EA
发帖数: 3965
46
用proc genmod,里面没有selection选项,大家怎么做啊?
o*s
发帖数: 623
f*******6
发帖数: 103
48
已知v1很重要
能不能在保留v1的同时
backward forward stepwise 选择其他变量?
s******r
发帖数: 27

发帖数: 1
50
来自主题: Statistics版 - 土人请教stepwise
you can define "include them together"
you can use GAM
首页 上页 1 2 3 4 (共4页)