由买买提看人间百态

topics

全部话题 - 话题: aic
首页 上页 1 2 3 4 5 6 7 (共7页)
z**********i
发帖数: 12276
1
来自主题: Statistics版 - 一个理论题
这样理解可以接受.
但两个MODEL是完全相同的COVARIATES,它们的AIC就和-2LL一样了.
A*******s
发帖数: 3942
2
Subset Selection in Regression这本书讲了不少细节,不过我觉得内容有点老。网上
有电子书。
简单来说GLM的automatic selection都是基于likelihood的,一般来说是likelihood
ratio test with pre-specified significance level,当然也可以用AIC,BIC,
cross validation之类的。

leaps
forward
n**m
发帖数: 156
3
来自主题: Statistics版 - 用glimmix run logit model
有没有人知道在proc glimmix里怎么跳出 likelihood ratio or AIC, 谢谢
c****y
发帖数: 3592
4
stepAIC实在太SB了
1. 公式一定要分开打,比如A[,1]~A[,2]+A[,3]+A[,4],不能直接说A[,1]~A[,2:4]
2. 不能改标准,我不想用AIC想用p-value不行
3. 没有一个inclusion的output告诉我最后哪几个变量被归入方程了
4. 最重要的,如果没有合适的变量,这种情况应该给我空集,而它竟然是把所有变量
都归入方程给我结果
R别的方程用下来都可以,怎么这么普遍的功能这么傻逼呢
s*******o
发帖数: 392
5
来自主题: Statistics版 - logistic regression结果释疑,解读
没错,楼上的,就是靠maximum likelihood搞得,还有aic 以及-2log
s*******o
发帖数: 392
6
来自主题: Statistics版 - logistic regression结果释疑,解读
没错,楼上的,就是靠maximum likelihood搞得,还有aic 以及-2log
s*******o
发帖数: 392
7
我用sas做backward selection, logistic regression,最后的model的自由度是12个
variable,下边是结果截图:
AIC 和sc出现相对矛盾的结果,我degree of freedom也不高啊,而且我的数据有500多行左
右,-2log likelihood应该已是是intercept with covariate还是优于仅有intercept吧,
大家批评一下。
a***g
发帖数: 2761
8
假如你min可以选出来15个左右的参数,接着再验证,再然后用aic之类的看看
反正又不是写论文,公司用的不必很fancy管用就行,土法上马也可以吧
呵呵


run
s*********e
发帖数: 1051
s******a
发帖数: 472
10
没有看懂
m*********n
发帖数: 413
11
我本来挺想仔细看一下的
但code是image的,分辨率低还撞色(黑色蓝色),
我上次提议的时候态度不好,但这次我想再试试
楼主能不能直接给code?在blog里。
s*********e
发帖数: 1051
12
对不起。
我想想办法吧。
w**********y
发帖数: 1691
13
深底色的可以试试这种配色方案:
http://studiostyl.es/schemes/son-of-obsidian
m*********n
发帖数: 413
14
多谢,
统计版还是颇有人愿意好好discuss一些非找工/考证/旋转专业的问题的。
就sas enhanced editor自带的颜色就挺好。
s*********e
发帖数: 1051
15
看看这样好不好一些?
p***r
发帖数: 920
16
is this SAS or matlab? I feel little bit confused
s*********e
发帖数: 1051
17
是matlab.
b****w
发帖数: 71
18
来自主题: Statistics版 - 面试问题求教(更新了啊)
多谢大家回帖,我针对我之前没有说清楚的地方进行了一点补充。
面试官很Nice,一步步引导我啊,可惜我还是不知道如何解。。又悲剧了一个phone
interview啊。下面是两道新鲜出炉的面试题,请教大家
1.针对同一个data set,现有两个model A,B,可能是用不同的方法做出来的,DV是一样的,IV没说。 已知outcome(A)=100,outcome(B)=80, var(A)=25,var(B)=49,并且
两个Model的error都是iid的,先要把两个model结合起来,赋不同的weight, minimize
variance.怎么弄?我当时说是不是就是求Min var(w1*A+w2*B),他说不是。我真不
知道是如何结合。而且我觉得应该是要用到error iid这个条件
2.这个简单点,但当时我已经秀逗了,完全转不了脑子了,嗨。。只能怪经验太少以求
安慰了
具体我就不说了,反正我得到最后的一步就是binominal, (20,n)*(0.15)^n*(0.85)^(
20-n)=0.12,求n.那个(20,n)就是20 choose n,我不知道怎么答。这个... 阅读全帖
y*****w
发帖数: 1350
19
It seems survreg() in R and PROC LIFEREG in SAS run the same type of
survival analysis. However, when I ran both of them on a survival data, I
got different results. Both were set as exponential distribution, and have
right censored data. See below. Could anybody tell me why the results are
different? Did I miss specifying any important parameters in R? Thanks!
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
The R code:
survFit <- survreg(Surv(time, event, type="right") ~... 阅读全帖
b*********n
发帖数: 1938
20
来自主题: Statistics版 - 新鲜热乎的面经
我猜是aic , bic之类。
A*******s
发帖数: 3942
21
来自主题: Statistics版 - 请教SAS高手关于lasso...
你这个seed是做cross validation用的么?如果想要确定的结果,数据量大的话就用
aic/bic,数据量不大的话就用press,不一定要用CV吧。
A*******s
发帖数: 3942
22
来自主题: Statistics版 - 请教SAS高手关于lasso...
press难道不是closed form solution of leave-one-out CV?
AIC/BIC也是asymtotically equivalent to CV的
s*********I
发帖数: 22
23
来自主题: Statistics版 - 请教SAS高手关于lasso...
哈哈,没完全明白您的意思,不过看上去很厉害的样子 :)刚学统计一个月,很多东
西还是云里雾里。 也就是说如果如果selection criteria 选择press 或 AIC BIC,
得到的效果类似CV,但是可以产生确定model (不需要seed)。 对吗? 谢谢!
y********0
发帖数: 638
24
来自主题: Statistics版 - 也报个offer吧.
boston地区小公司的market analyst..工资待遇都不高.只有
20分钟的车程,准备从了.
非美国fresh ms,毕业之后没工作,当了两年家庭主妇,两娃大妈.
数学,EE背景转的统计.
5月底拿到绿卡,开始找工作,一共两个interview,第一个onsite之后,半个
小时考代码,结果挂掉. 回来痛定思痛,考了SAS两证.
9月拿到第二个interview,四轮面试,reference check了两个礼拜,
备受煎熬..刚收到HR的信,给了offer..待遇也不苛求了,本来就是为了
重出江湖.
心得: fresh ms真心难找工作,大家有点耐心.还有本人虽然志大才疏,
但善于总结,虽然总结能力不强. 还有communication,这个我从来都
没出现过问题,属于很会讲故事那种.我觉得这个是性格的关系. 如果
你觉得英语限制了你,这个就得平时下功夫..我平常每天背课文,基本
面试的时候都没出现词不达意的情况.
关于技术,这个就不多说了,大家都差不多. 面试前多总结各种类型的问题.
譬如model selection,包含普通的linear regression的模型... 阅读全帖
y********0
发帖数: 638
25
来自主题: Statistics版 - 也报个offer吧.
1.代码主要针对project的,我有两个project都是sas的.
问了一些proc genmod和很多GEE的问题.
2.问了时间序列里的information criteron, AIC的表达式之类的.
3.还问了点predictive modelling,这些我没接触过,基本上就大体说
了把数据分组,多比较几个model,再improve和测试之类的..
4.问了点spss syntax,好像我也没咋回答,觉得没啥可说的.
5.最后给了个数据文件,让用sas 或者R转换一下,要求使用循环..
我其实用了很多年的C,更prefer R,结果愣是没搞出来.还好SAS
刚考完....
c**i
发帖数: 234
26
来自主题: Statistics版 - help, 关于poisson regression
1.请问除了proc gendom外还有什么proc 可以用?
2.有8个independent variable,但基本都是category variable。我是应该直接用这些
category variable,还是把它们都分成dummy variable (0,1) 好?
3. proc gendom的output中,我应该怎么比较model?我没有看到任何关于AIC, BIC之类
的东西。是不是需要加什么option?
非常感谢!
a****g
发帖数: 8131
27
来自主题: Statistics版 - building prediction models from large dataset
请教各位一下,
这个large dataset跟一般的dataset的model building到底有什么区别?
比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
thanks a lot
a****g
发帖数: 8131
28
来自主题: Statistics版 - building prediction models from large dataset
请教各位一下,
这个large dataset跟一般的dataset的model building到底有什么区别?
比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
thanks a lot
l******h
发帖数: 855
29
来自主题: Statistics版 - 问个logistic model的面试问题
怎么判别两个logistic model那个好?
这么基本的问题。。。。我说Pass。。。。然后对方就一愣。。。。
另外,linear model的话是不是就根据AIC,BIC, R^2,Adjusted R^2之类的?
g******7
发帖数: 1433
30
来自主题: Statistics版 - 问个logistic model的面试问题
logistic 也有AIC吧
y******g
发帖数: 171
31
来自主题: Statistics版 - 问个logistic model的面试问题
AIC, prediction error rate is not for model selection
l******h
发帖数: 855
32
来自主题: Statistics版 - 问个logistic model的面试问题
所以用AIC?
a*******y
发帖数: 105
33
来自主题: Statistics版 - 问个logistic model的面试问题
看Aic, bic,如果model 的变量不一样。如果是nested model, 可以做likelihood
ratio test. 参考 Roc. 可以再看看有无rank order break

★ 发自iPhone App: ChineseWeb 7.8
r*****y
发帖数: 199
34
来自主题: Statistics版 - goodness of fit for non-linear regression
When we do model selection, we use AIC, not sure if its helpful.
D**u
发帖数: 288
35
I am not a expert in the knowledge of testing, just my .02, no guarantee to
be right.
If you want to test for goodness of fit of a linear
regression model. The first one coming to my mind is F-test, and there are
tests like Kolmogorov–Smirnov test could be used also.
And things like residual plots, R square, AIC, DIC... are statistical
measures of the quality of a model, they are not testings, so no power
related to them.

for
.
r********n
发帖数: 6979
36
来自主题: Statistics版 - 新人问个matlab统计方面的问题
这不就是做feature selection么
你可以google一下
方法多了去了
forward, backward, AIC, BIC。。。
你说的这个例子其实就是做一个F-test(anova)
如果用更少predictor的那个model能够得到和更多predictor的model相似的fitness
那就应该选那个predictor比较少的
一般来说这样产生的model更robust
如果你只是先快速检验一下那个model可能会更好一点
可以用这个方法
不过我个人不是太喜欢这么做
因为做出来的model在新的数据里面“不一定”更好
如果愿意多花些时间的话
我一般会先做cross validatiaon或者bootstrapping
重复N次
然后比较两个model在test set里面的fitness
然后选择那个fitness error更低的那个
优点是这样做出来的model一般来说更robust
缺点是花的时间可能是几十倍甚至几百倍
如果你的feature比较多的时候
可以先用uni-variate model, forward, backward等方法找到有限的一些... 阅读全帖
A*******s
发帖数: 3942
37
来自主题: Statistics版 - 为啥做了segmentation后模型fit更差?
明白了,其实根源是你不应该拿每个segment单独的performance,和segmentation之前
基于整个sample的performance来做比较,这个根本就是apple vs. orange。
要拿任何一个statistic(r^2, adj r^2, AIC, BIC, AUC, whatever)来指导
model selection,这些statistics都是对同一个sample得出来的才有意义。
f*******n
发帖数: 2665
38
来自主题: Statistics版 - 到底ROC能不能用来比较不同model
记得logistic regression training的时候老师说过C(就是ROC下面的面积)不能由来
比较不同的model。如果要比较不同的model,应该用AIC,BIC等, 可是SAS EM 中的
model comparison node就有ROC。 很困惑,请指点!
f***l
发帖数: 117
39
谢谢答复。不过我在想是否这样做太麻烦,我有十几个level呢。另外我不肯定每个
level的model和最终cumulative model是否一致。
能否有另外一个方法,就是用和OLS做cross validation的方法一样,来验证Pseudo-R
square的变化,或者AIC的变化,不知可行否?
c*******a
发帖数: 1541
40
RT.非常感谢!Orz..
★ 发自iPhone App: ChineseWeb 8.2.2
z**********i
发帖数: 12276
41
Ods trace on; 看到table的名字 输出到data set.
v*******e
发帖数: 133
42
来自主题: Statistics版 - 报一个Apple的Offer和面经
职位是Marketing Analyst
Base 120K差点
Bonus 15%
RSU 105K over 4 years
No sign in bonus
我:不是engineer, 统计的master, 有7年工作经验。 这个Base和其他中小型公司同类
职位比也不算高,一个我不是engineer, 另外工资是比较我目前公司的pay, 当时想先
搬来湾区所以take了目前公司的low pay。
发个面经给去面试的人参考一下时间流程. 从recuiter联系我到offer一共六周时间:
07/21 Apple recruiter发邮件问我对一个职位有没有兴趣
07/22 Apple recruiter phone screen
07/28 phone interview with hiring manager
08/04 On site interview, 一共三小时,包括recruiter面6个人,每人半小时
08/05 hiring manager回复我的thank you letter, 说所有的人给我的评价都很好,
recruiter会联系我
08/11 recui... 阅读全帖
a***e
发帖数: 1627
43
来自主题: Statistics版 - 双黄包请教一个统计模型选择问题
我有一个变量 X, 能用三种方法来计算,分别称作x1,x2,x3, 现在我想比较哪种方法
fits model better
如果是一般的 linear regression, 那么我的 Y=x1, or Y=x2, or Y=x3,然后比较R
square的大小,选大的。。
但是这个是repeated measurement,所以,我用了mix model,就是同一个人在不同时间
下,测了很多次x1,x2,x3
然后我想用 AIC 来比较三个模型。 model Y=x1 ; Y=x2 ; Y=x3
请问这样对吗〉
T*******I
发帖数: 5138
44
http://www.wuda-alumni.org/forum/A0/p0/html/439.html
zt 贴于2005/10/12 12:23 (武汉大学校友论坛)
(陈希孺,1934年2月11日生于湖南省望城县,1956 年毕业于武汉大学数学系,
后就职于中国科学院数学研 究所。1961年到中国科技大学从事数理统计教学与研究 工
作至今。陈希孺1980年任教授,1981年任博士生导 师,1997年当选为中科院数理学部
院士,现担任中国数理统计学会理事长及中国统计学会副会长等职。)
解放以来特别是改革开放20余年来,我国在发展数理统计学方面取得了很大的成
绩。同时我们也很清楚,与先进国家相比,我们仍有一段不小的差距。我们不难列举出
这一差距的种种表现。笔者认为,差距的存在不是主要问题。重要的在于“运行机制”
(借用一个流行的经济学术语)。“机制”对了。学科的发展走在正确的道路上,进入“
良性循环”,弥合现有的差距就不是难事。
日本可以作为一个例子,从时间上说,日本在这个学科上起步不比我们早。大致
上,日本的数理统计学是二战后“从零开始”发展起来... 阅读全帖
a******9
发帖数: 20431
45
方法太多了 aic Bic CV vif lasso/ridge/elasticnet...看你要干嘛了
g****e
发帖数: 1829
46
来自主题: Statistics版 - GBM in R
GBM一般都要cv。你做个regression都要f-test, bic, aic或者cv,何况gbm。有些经验
值,比如说shrinkage可以用0.001,但cv是标准流程。
E**********e
发帖数: 1736
47
来自主题: Statistics版 - three way anova
如果高级项统计上不重要,当然可以drop掉。如果某个高级项重要,但是相应的一次项
不重要,就要保留一次项。这是统计上基本的东西。还有可以看别的一些metric,像
Rsquare。减去或加上某一项,AIC/BIC变化大不大。

:y~ 1+ a+b+c+ab+ac+bc+abc
y*****w
发帖数: 1350
48
This is all about the number of model parameter estimates.
AICc = AIC + 2k(k+1)/(n-k-1) = 2k - 2lnL + 2k(k+1)/(n-k-1) = 2kn/(n-k-1) -
2lnL
Adjusted R-squared = 1 - (RSS/(n-k-1)) / (TSS/(n-1))
For AICc, assuming a fixed maximum likelihood, the higher the number of
model parameters (k), the larger 2kn/(n-k-1), and thus the larger the AICc;
whereas for adjusted R-squared, while the residual sum of squares (RSS)
always decreases as the number of model parameters increases, at the same
time (n-k-1) d... 阅读全帖
p***r
发帖数: 920
49
Because one of the model you use have missing values in one of the variable,
and records are dropped, rendering smaller AICs
P*****6
发帖数: 273
50
如果用glmnet的话, 好像有elastic net. 它比lasso会保留更多的变量
无论lasso or elastic net, they are biased. 如果你的features小于100的话,AIC
and BIC for generally linear regression may be also OK.
首页 上页 1 2 3 4 5 6 7 (共7页)