由买买提看人间百态

topics

全部话题 - 话题: overfit
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)
s*r
发帖数: 2757
1
high r^2 may be overfitting
"随便拿了一个0.9 corr的var" is confusing. correlation with the outcome
variable or the other predictor.
i remember the standard procedure should be first forward selection, then
back elimination.
d******e
发帖数: 7844
2
你选的variable多R^2当然大,这种明显overfitting的东西怎么可能拿来做model
selection。
要比肯定比Prediction Error啊。
你做做Cross Validation,一般来说,这种几百个variable的情况,Lasso肯定比
Stepwise强。

selection=
的R
n*****s
发帖数: 10232
3
-__-//。。。你自己开始敲错了说越多越小,所以我才confused的。你咋改完自己原帖
又回头来说我
跳过这个,虽然stepwise我发现经常比lasso选择的variable数量多,但是并不一定表
明就是overfit吧。
这样obs少但是variables多的情况,我会用cross validation,不过在这之前,还是应
该clean up你的data base,尽可能先消除multi-col吧。我说的要点其实就是处理
multi-col阶段(还没到variable selection和cross validation),如何根据vif或者
condition index来确定每次去掉/保留哪个variable
s*******y
发帖数: 2977
4
Rsqure大不一定是overfitting,跟你的number of variables and sample size都有关
系。建议看一看Frank Harrell的 regression modeling strategies。
lz的variable很多,建议fit model之前先检查colinearity,对于highly correlated
的variable,keep一个(比如说univariate fitting里rsquare最好的那个),然后再
用stepwise或penalized variable selection.不过2007年好像有个加拿大人写的一篇
文章做了很详细的simulation,比较了backward selection加或不加bootstrapping都
不会给出很好的结果,嘿嘿,eye-dropping conclusions。
f******h
发帖数: 46
5
当然也不是这么简单。比如我一股脑把所有上百个predictor都扔进去给sas自己用
stepwise选,那出来的model必定是存在很大的multicollinearity的overfitted的
model。
我说的"随便拿了一个0.9 corr的var"是指和response的corr有0.9。我都去掉
multicollinearity很大的predictor以后,又从去掉的那些里面随便拿了一个回来,然
后stepwise出来的model反而更好(R^2更大,而选择的predictor数量不多或者更少,
同时被选中的predictor之间也没有过大的multicollinearity)。这就让我感觉前面去
除multicollinearity的步骤是存在很大问题的。。。
e****z
发帖数: 119
6
来自主题: Statistics版 - leave-one-out CV 到底有什么不好?
上课总是听老师说leave-one-out CV 不好,容易overfit,或者under estimate
prediction error什么的,可是一直想不通为啥? 另外如果我不用CV做variable
selection,而是给定model了,只是用来leave-one-out CV评价prediction的好坏,或
者说评价数据的好坏,这样用leave-one-out CV 会under estimate prediction error
???想不通。有没有哪位好心人给讲讲?拜谢。
f****r
发帖数: 1140
7
来自主题: Statistics版 - logistic, overfit了怎么办?
你刚才说啥了?没看到回帖啊?
x*******i
发帖数: 1791
8
来自主题: Statistics版 - logistic, overfit了怎么办?
AIC =
-2loglikelihood+2k
model selection可以基于不同方法。如: -2loglikelihood,LS, 等等。
l***a
发帖数: 12410
9
来自主题: Statistics版 - sample size vs. number of regressors
I think first a power analysis needs to be done to decide the minimum sample
size, I am sure you know it :) Then, I think if you pay real attention to
take care of the multicollinearity and the number of selected predictors, it
will give you a very good chance to avoid overfitting. But remember there
is a rule of thumb that on average one predictor should have at least 10 obs
. Although I don't practically keep this rule all the time, it's still good
to keep it in mind.

training
A*******s
发帖数: 3942
10
来自主题: Statistics版 - 问一个technical question的回答方法
最近一个面试肯定黄掉了,technical question回答得非常不好。有一类问题是,what
's the differences between SVM and Decision Tree? 觉得这类问题太广泛,不知道
该从哪里着手回答。亡羊补牢犹未为晚,我试着组织一下答案,大牛们看看应该从几方
面去比较两种predictive modeling:
1. scale sensitivity
2. problem of high-dimension data
3. computing intensity
4. incorporate nonlinearity
5. outliers, robustness
6. overfitting
还有么?
G*****7
发帖数: 1759
11
来自主题: Statistics版 - 答水泡泡:陈立功是谁教出来的?
你知道什么是overfit么。

计,
一个
统计
l********w
发帖数: 253
12
来自主题: Statistics版 - 答水泡泡:陈立功是谁教出来的?

其实我觉得这是陈老师和其他人争论的核心。他认为他的样本就是全部了,他的model
只要能和他的样本fit得很好就是一个好的model。但事实上统计需要的model是能用在
同类型的数据上的。如果陈老师有两个同类型的样本,他就会发现在第一个样本上fit
得到的model可能和第二个样本fit很差,所以需要cross-validation来估计模型是否
overfit了第一个样本。
j*******2
发帖数: 309
13
来自主题: Statistics版 - Support vector machine的优点是什么
我的想法是,因为它只取决于support vector,所以不会overfit,所以prediction
power比较
高,不知道对不对?
p******0
发帖数: 107
14
减少iteration的步长直到得到非负的值,这样的话,最后的收敛的结果,error非常小
接近0。
这样,如何interpret呢?
暂时不考虑去掉别的non-significant random effect. 这是不是叫overfit了?
请大侠指教。
多谢
y*****n
发帖数: 5016
15
来自主题: Statistics版 - 请教:回归方程中自变量的选取。
从纯粹的学术角度上讲,这种情况最好是把x1和x2组合成一个变量,但是在工作中,一
般是删掉其中一个,原因是:1,做组合费很多时间(如果能利用eminer的varclus
node当然就节省点时间但是出来的组合可能结构复杂不好解释而且可能overfit). 2,
即使做了组合,也会面临如何向business teems 和 management 解释这个新变量的直
观定义。3。即使过了前面两关,在implement的时候也不方便,需要提取更多的变量,
进行更多步骤的更复杂的计算,有些production tool可能根本实现不了。
s********p
发帖数: 637
16
来自主题: Statistics版 - How to transform predictor variable?
受教了,很有启发
我就回复一点,既然你提到了我上面说的“写macro把各种常用的transformation都做
一遍,然后用自动选个walds最大的。这样做的问题是所有的transformation可能都很
烂”,我就解释一下。你说的,我同意,如果所有的transformation都很烂的话
,就基本能决定这个变量没有什么太多用或可以由其他变量替换,不必过多纠结。我一
般是在50个变量左右的时候进行变换筛选,实际上,对于比较重要的变量,10次有5次(大约吧)能找到比较好的变换,对modeling 很有帮助。
我不觉得我的方法有多好,不fancy,又没什么理论,虽然简单,但实际工作中却是有效。想想,如果常用的3,40个简单变换都不能比较好的拟合,那种假设存在的transformation还有什么意义?我虽然反驳过yuxuxin,但我的看法和他还是基本一致的,变量本身如果很不significant,基本上就不要过多纠结了,除非某些原因非要用这个不可。我这几年做的上百的model基本都是这个样子的。
我以前看过一本书,好像叫database marketing什么的,作者用遗传算法控制参数... 阅读全帖
p******r
发帖数: 1279
17
来自主题: Statistics版 - 也给fresh master打打气!
面试很tough,先是电话面试,而且不是先打电话约个时间,而是突然就cold call然后
开始问问题,问我做过哪些project,finding是什么;还问我如何不用统计术语来解释
R square。
然后是onsite,5个人轮流面试,每个人1小时,又是sas coding又是统计模型的一些东
西,中间还和这5个面试官一起吃午饭。我知道吃午饭肯定也是面试的一部分,还好表
现的还不错。
几个要点给大家分享一下:
1. sas里那个retain的statement大家一定要牢记,这个被问到的概率非常大
2. regression模型的一些东西,包括开始的outlier,model selection,
multicollinearity, overfitting等
3. time seires的东西大家有时间就自己稍微看一看学一学,最好是修一下这个课,我
很后悔没修time series的东西,导致后来只能自学。
4. 还有其他的就是一些发挥了,有个面试官给了我一堆图表让我解释每一张图表的
take-away是什么,这个其实就只能凭你自己真实的理解力和理解速度了。
5. 如果要面con... 阅读全帖
n**********r
发帖数: 104
18
【 以下文字转载自 JobHunting 讨论区 】
发信人: nightdreamer (我白天睡觉), 信区: JobHunting
标 题: 报两个offer-updated-附面试心得
发信站: BBS 未名空间站 (Tue Apr 5 20:57:40 2011, 美东)
个人背景
fresh PhD,经济,非牛校
offer情况
两家都sponsor H1B
offer1:
一家大房贷公司,HR上周口头offer,现在在等我回复。
待遇 85K base, no sign-on bonus
职位 senior
offer2:
保险公司,这家情况有点复杂,我是周一去面试的,面试前告诉HR已有offer了,而且
向他披露了offer的详情,大老板面我的时候也提到了这件事。
今天HR给我打电话说准备要我了,现在他在准备proposal
职位associate(我想都差不多吧这个)
待遇 85Kbase+7500 sign-on bonus
我现在比较困扰的是,offer2里HR只是提出的proposal还要等审批,而offer1明天就要
答复了。明天应该怎么答复offer1呢... 阅读全帖
r******m
发帖数: 369
19
借楼主的帖子问一下,如果用PCR, principle component regression的话,以后如果
有要用这个模型来predict的话,X也要做一样的线性变换是把,可是这样的话感觉会有
overfitting的问题啊。请熟悉PCR的同学回答一下。
s*****9
发帖数: 108
20
不会吧,用了pc,x的维度下降了,出现overfit的几率减小了啊
F****n
发帖数: 3271
21
PCR creates coefficients for X from coefficients of principal components by
weighting on loadings.
Off course it has the potential of overfitting, but so do other regression
methods.
l***o
发帖数: 5337
22
来自主题: Statistics版 - classification 问题 求教!!
这问题问得太大了,天下没一个人能答得好。。。
何况这和你的数据有关,除非你不怕overfitting,否则那个方法预测最好是完全依赖
于data的。
logistic regression是最好的model完全可能啊。。。
A*******s
发帖数: 3942
23
来自主题: Statistics版 - classification 问题 求教!!
乱说一句,logistic loss长得本来就挺像hinge loss. 如果logistic没有overfitting
的话,表现差不多是正常的吧。你的数据p多少N多少?
d******e
发帖数: 7844
24
来自主题: Statistics版 - classification 问题 求教!!
这俩真没啥差别,logistic regression还有计算上和多类别的优势

overfitting
A*******s
发帖数: 3942
25
你问的压根就不是一个统计或者科学问题,还要大家回答,太强人所难了吧。
我认真回你一句,任何一本nonparametric/semiparametric model的统计教科书都说了
为啥要假设连续,不过你得先学学啥叫degree of freedom啥叫overfitting. 对于你基
础这么差的,还喜欢自以为是地乱用一堆random measure,measurable space,
functional等名词,我看比较难。
A*******s
发帖数: 3942
26
陈大师既不懂啥是cross validation,甚至也不懂啥是validation,我猜他就只有一个
training sample,拼命overfit,然后宣称自己的model更好。
A*******s
发帖数: 3942
27
真是夏虫不可语冰... 果然和我说的一样嘛,就是拼命overfit一个training sample,
不做任何validation和cross validation。
陈大师你不妨加入狂多的high order terms and interaction terms, 相信我,这方法
一定会比你的所谓三分回归fit的更好。你试试就知道了,哈哈。你大可以再宣称发现了新的统计学地平线,千万别告诉别人这方法是我告诉你的。

计的一个加权平均数。这就是说,每个临界点的估计值都是一个100%地充分的且由权重
校正后的无偏统计量,正如我们计算任何样本的加权均数或算术均数一样。有哪位对样
本均数做cross validation的?说出来让我们开开眼界?
算出来的统计量更充分的统计量。在这种情形下,CV就没有了任何意义。难道我们能用
以一系列不充分的统计量作为标准去验证一个充分统计量?难道我们能够用一组残疾人
作为标准去验证一个无残疾的人?
T*******I
发帖数: 5138
28
很显然,你没有看懂我的方法。
我的方法中用来构造随机临界变量的模型拟合方法都是现行的已经考虑了如何克服
overfitting的算法以及其它一切成熟的算法。我仅仅只是把它们组合在一起完成一次
“statistical survey”以便对每个随机样本点成为临界点的“重要性”——即权重进
行测量,然后再用此权重在临界点的可测空间里计算临界点的加权期望。在得到临界点
的加权期望估计后,再由该期望估计决定样本的临界空间,然后在各临界空间里建回归
模型。这是因为期望的临界模型只能对应于期望的临界点而不可能对应于任何其它。
事情就是这么简单。这就是我为什么拒绝使用最优化和强制连续性假设的根本原因。

现了新的统计学地平线,千万别告诉别人这方法是我告诉你的。
A*******s
发帖数: 3942
29
连validation都不做的居然奢谈克服overfitting... 老陈,你还是赶紧向接生婆索赔
吧,学桑兰。
A*******s
发帖数: 3942
30
CV关model fitting啥事?CV是用来评价一个model是不是overfit的,是用来估计
generalized error的,是用来指导model selection的,说了你也不懂吧。
C*********g
发帖数: 3728
31
来自主题: Statistics版 - 陈大师的两大硬伤和两大法宝
你说的很有道理,交流必须是双向的。
就比如你谈到overfitting,我是在Vapnik的书里读到的。以他的水平,可以高屋建瓴
地谈问题,直截了当的说level of algorithm complexity must match level of data
complexity. 我当时就拜服得五体投地。
但是,很多统计科班出身的Ph.D,恐怕一辈子也不可能说出这么牛叉而通俗易懂的话来
。Vapnik的东西,能完全啃下来的,也不见得有多少人。
Vapnik自己也是师承n代数学家,外加n年苦功。换一个Frequencist来,估计理解也
不可能一样。
而对应的其他专业的科研人员,不客气地说,很多Science/Nature 文章的作者,对于
统计学的理解,还停留在大学一年级上。老陈不是太差。
所以,统计科班出身的Ph.D和其他专业的交流,不是一件本该和谐的事情。责任不是单
方面的。
A*******s
发帖数: 3942
32
来自主题: Statistics版 - 陈大师, 我很好奇
给你再多的data都没有用,你只会拼命地overfit一个sample。
l********w
发帖数: 253
33
来自主题: Statistics版 - 陈大师, 我很好奇

这是说到点子上了,大师认为不需要用cross-validation去验证他的方法就是因为他认
为只要overfitting他的sample就对了。
s*****r
发帖数: 790
34
来自主题: Statistics版 - 陈大师, 我很好奇
put it simple, using your example before, you can't even be sure whether you
should include the covariate x in your model. you think you should and get
a significant estimate, what if it is just by chance?
Let me give you an example:
you are a NIU professor in a university and you are teaching a class of 200
students who graduated from 2 high schools, approximately same number of
male and female, and from each school.
Now it is final time and you give the exam. you have one good TA to grade
the ... 阅读全帖
A*******s
发帖数: 3942
35
来自主题: Statistics版 - 陈大师, 我很好奇
老陈,我说了一万遍了,我再说一遍。
CV与model fitting没啥关系的,它只是拿来估计generalized error的一个手段。你完
全可以build model based on the whole sample,CV的目的是告诉你,如果你碰到另
外一个sample from the same population,你这个model的error有多少,有没有
overfitting。
另外我说老陈,我觉得你又把sufficient statistic的含义弄错了,不要乱用。
A*******s
发帖数: 3942
36
来自主题: Statistics版 - 陈来错地方了
my point is he need to have some datasets to prove his algorithm works. i
believe his model tries to overfit the data and had asked him to do a
validation. however he neither knew what is validation nor even tried to
learn it. One year passed he still don't know validation and don't think it'
s necessary. I don't think he is making any effort to communicate with other
people. He is just repeating what he believes.
e**y
发帖数: 51
37
来自主题: Statistics版 - 陈来错地方了
这也是我所说的,希望他能找一个统计学家,把自己的想法说清楚,然后用统计学的语
言来说明自己的东西。你说的overfit,我觉得对。毕竟他那里用的参数有点多,过程
有点复杂,validation是对的。

it'
other
s*****r
发帖数: 790
38
来自主题: Statistics版 - 陈大师为什么不回答我的问题呢?
你的什么分段回归正好可以用上呀。
发信人: shinder (suibian+shinder), 信区: Statistics
标 题: Re: 陈大师, 我很好奇
发信站: BBS 未名空间站 (Wed May 18 09:59:15 2011, 美东)
put it simple, using your example before, you can't even be sure whether you
should include the covariate x in your model. you think you should and get
a significant estimate, what if it is just by chance?
Let me give you an example and it is perfect for your theory:
you are a NIU professor in a university and you are teaching a class of 200
students who graduated fro... 阅读全帖
g********r
发帖数: 8017
39
来自主题: Statistics版 - 陈大师的意思我终于有点领会了
嗯。superPC什么的也都走初筛的路子。我个人总是觉得这样可能丢掉关键信息。可是
没有办法判断其他信息是真的还是overfit。。。头疼啊。
T*******I
发帖数: 5138
40
我和她/他玩的不是单纯的simulation,而是真枪实干地分析一个实际样本(如果他/她提供的数据是有实际背景的话)。当然,我既不怕人人谈虎色变的overfitting问题,也不怕与他/她玩simulation,因为我的方法中没有任何假设条件或人为的限定。
A*******s
发帖数: 3942
41
大师快赶在世界末日之前搞出来,要不我们这群粉丝会死不瞑目的。

她提供的数据是有实际背景的话)。当然,我既不怕人人谈虎色变的overfitting问题
,也不怕与他/她玩simulation,因为我的方法中没有任何假设条件或人为的限定。
T*******I
发帖数: 5138
42
我对goldmember在其“陈大师,民科与否,在此一战”中的数据进行了三分回归分析,结果如下两图所示。第一种分割使用的fullwise model是简单的线性回归;第二种分割使用的则是三次多项式模型。可见,全域模型越准确,对两个临界点的估计也越接近样本真实。但我们需要记住的是,不可能得到一个与样本所示的临界点(大约是40,70)相等的临界点,因为样本仅仅是总体的一个随机子集。把一个样本的实际临界点估计得精准无误可能就意味着overfitting。当然,如果我们能够找到一个比三次多项式更好的全域模型来描述该样本数据,估计的结果就会更精准,但绝对不会恰好等于“样本基础上的”最佳临界点。
在本分析的方法学中,两个临界点具有实际的决策意义。
以下是用简单线性模型拟合的三分回归模型组:
The SAS System
22:15 Wednesday, June 1, 2011 1
Segment=1:Low
Parameter Estimates
... 阅读全帖
A*******s
发帖数: 3942
43
搞了这么久,说了这么多,就搞出来一个linear和一个polynomial?

,结果如下两图所示。第一种分割使用的fullwise model是简单的线性回归;第二种分
割使用的则是三次多项式模型。可见,全域模型越准确,对两个临界点的估计也越接近
样本真实。但我们需要记住的是,不可能得到一个与样本所示的临界点(大约是40,70
)相等的临界点,因为样本仅仅是总体的一个随机子集。把一个样本的实际临界点估计
得精准无误可能就意味着overfitting。当然,如果我们能够找到一个比三次多项式更
好的全域模型来描述该样本数据,估计的结果就会更: 精准。
间可以轻而易举地得到,而无需通过一个bootstrapping过程,因为每个临界点都存在
着200个随机实测点和200个相应的权重。
D**g
发帖数: 739
44
您老光管fit出个curve,model diagnosis 管不管?

,结果如下两图所示。第一种分割使用的fullwise model是简单的线性回归;第二种分
割使用的则是三次多项式模型。可见,全域模型越准确,对两个临界点的估计也越接近
样本真实。但我们需要记住的是,不可能得到一个与样本所示的临界点(大约是40,70
)相等的临界点,因为样本仅仅是总体的一个随机子集。把一个样本的实际临界点估计
得精准无误可能就意味着overfitting。当然,如果我们能够找到一个比三次多项式更
好的全域模型来描述该样本数据,估计的结果就会更: 精准。
间可以轻而易举地得到,而无需通过一个bootstrapping过程,因为每个临界点都存在
着200个随机实测点和200个相应的权重。
d******e
发帖数: 7844
45
都说了你不懂overfitting了,可你偏偏不信邪。
你所谓的二分三分,乃至四分五分,每加入一段都会增加模型的复杂度。
只有一段的时候,你只有p个变量,两段时2p个,... ...随着模型复杂度的上升,你的
对样本的fit会越来越好,终于,当你选择的段数是n/2的时候,你可以达到对训练样本
的完美fit(任意两点确定一条支线)。
不指望你能看懂,spline的强制连续和平滑假设都不过是一种model的regularization
,大家通常都不认为这个假设是完全正确的,但因为这两个假设可以很少的控制模型的
复杂程度,所以在实际使用中通过控制bias variance trande off一样可以得到不错的
性能。
你所谓的这种不连续的分段线性模型,会随着variable数量上升,很快死掉。想想只有
几百个数据,而有上万个variable的时候,哪怕是普通的linear model fit都是
rediculous的。你这种分段fit,那就totlally wrong了。

方法依然是灵敏的,导致结果发生偏差是由于其它因素造成的,即一个尽可能好的全域
模型的定义。
,改进本样本估计的方... 阅读全帖
T*******I
发帖数: 5138
46
让我们就事论事。
从goldmember的数据来看,如果它是来自总体的一个随机样本,我们首先要弄明白我们
想要从中得到什么?在我看来就是两个变量间的关系及其在整个空间上的可变性的描述
,由此需要找到关系模型及其可能发生改变的临界点,从而找到根据关系改变进行决策
的依据。除此之外,我们还想要得到什么?
对于我们要认识的那个不可知的总体,该样本就是我们所能拥有的关于它的全部信息。
除此之外我们没有任何其它可资利用的信息。如果在方法论中事先给定一个连续性的假
设,这将是一个错误,因为总体并没有给予你这个确定性,因而你根本不可知,从而又
怎能事先假设它就是一个连续的过程?你需要做的是找到关系和临界点,并对连续性做
出概率推断。
尽管从数学的角度你可以假设一个样本可以被分成n/2甚至n段,但从统计学的角度,这
样的假设是荒谬可笑的,因而是根本不需要被考虑在内的。
在没有做出连续性检验之前,我是不知道我的分段模型是否是连续的。正如实例检验的
结果告诉我的那样,在低端临界点处,两个模型不连续是显著的,而在高端临界点处可
以认为在总体中的两段模型是连续的,尽管它们在样本中看起来是离断的。
在我看来,o... 阅读全帖
n*********y
发帖数: 474
47
多谢支持,我现在就想换到东部有好学校的地方工作,同时读MBA
因为我不是统计出身的,现在做的实际上也不是什么统计模型,就是简单的商业模型,
往统计上靠还不如直接奔商,我做统计长远来看没什么竞争力。现在与其说是作统计,
不如说是做大型数据的“商业挖掘”。reporting的成分更大一点。
不过其实银行作“统计”用的统计模型并不多,也不复杂,复杂了就“overfitting”
了。据我所知,collections和fraud主要用logistic regression,也用点decision
tree?有个什么TRIAD软件是FICO那边来的。loss forecasting就是time series,算
ALLL和reserve。credit decision主要是decision tree,还有各种simulation。
Stress testing也是time series,不过一般是mixed model。Basel就自成一派,每个
组都做,把basel的东西消化到各个环节中去。具体到model,有by channel, by
portfolio, by state, by FIC... 阅读全帖
A*******s
发帖数: 3942
48
来自主题: Statistics版 - 弱问个categorical variable有关的问题
continuous-
pros: simple, only 1 df
cons: may not have linear relationship, doesn't make sense sometimes
catogorical-
pros: fit data better, makes sense
cons: for m-level variable, u have m-1 df, could be overfitting. when m is
too large, cannot have stable estimates for different intercepts. hard to
implement it in production
something in between-
treat it as ordinal/categorical and do binning, grouping or clustering
levels by using bivariate relationship (between Y and X). CART, CHAID,
Greenac... 阅读全帖
s********0
发帖数: 2625
49
来自主题: Statistics版 - [Q]One method with missing value
overfitting?
A*******s
发帖数: 3942
50
backward could have larger chance of overfitting or even sometimes perfect
separation in logistic regression tho
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)