T*******I 发帖数: 5138 | 1 Hi, A大侠,
我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用?其决定模型的
逻辑基础是什么?我问过SAS的Support Center,专家们说,当你用一个全样本空间建
单一的一个logistic模型时,尽管SAS系统也输出AIC的结果,但这个AIC没有任何意义
,即使在变量选择性的基础上(例如逐步回归)建立模型时,模型的确定也不是由最小
的AIC决定的,而是由进入或剔除变量的临界概率值决定的。因此,这个回答搞得我晕
头转向。既然如此,AIC在logistic回归分析中究竟起什么作用?望你能够一个比较有
说服力的解释。多谢了。
顺便请教你的回答中的几个术语的含义:什么是train error? 什么是test error?
如何理解model的overfit as well as the penalty to overfit? 如果一个model被判
定overfit,如何确定针对overfit的penalty的随机测量?多谢! |
|
y**********g 发帖数: 2728 | 2 【 以下文字转载自 Military 讨论区 】
发信人: yuzhengsheng (俞正声), 信区: Military
标 题: 高考是一种overfitting的classification
发信站: BBS 未名空间站 (Tue Feb 5 11:31:29 2013, 美东)
身边的生活经验告诉我们,高考考的很好的,往往最后混的不如那些考的一般的。
高考是一种overfitting的classifier,prediction准确性很差。往往是那些考了80
多分的最后混的如鱼得水,让那些考满分的情何以堪?那些被高考classify 为优秀人
才的学生,到了社会上发现自己不是优秀人才,每到夜深人静的时候,扪心自
问,滴血哭泣!问题就在于高考是个overfitting的classifier! |
|
A*******s 发帖数: 3942 | 3 呵呵,说错的你就没必要知道了。
基本上,model越复杂,train error就越少,但是test error 会成U型,比对应最低点
更复杂的model就是overfit了。
对于logistic,有些goodness of fit statistics本来就有penalty to overfit, 比如
说AIC。 |
|
A*******s 发帖数: 3942 | 4 致T大师,
不要叫我大侠,折寿啊。
AIC,BIC都是goodness of fit statistics,就是衡量几个model哪个fit得更好呗。我
觉得sas专家的意思是,sas的AUTOMATIC model selection只能stepwise/forward/
backward。Goodness of fit stat肯定不能作为AUTOMATIC model selection的标准,
因为你得比较2^n个模型才行。但如果你只有几个模型可以比较,而且是用人脑而不是
用电脑做选择,为啥不能用AIC呢?
train error就是对于training data而言,test error就是对于test data而言。你看
楼上给出来的AIC公式就知道penalty是怎么样的了。我不大了解有啥普遍的方法是衡量
overfit的,看AIC的公式好像这个penalty也是拍脑袋想出来的:). 我平时一般用cross
validation来避免overfit。
error? |
|
|
A*******s 发帖数: 3942 | 6 刚才说错了,应该是test error开始变大的就是overfit了。 |
|
x*******i 发帖数: 1791 | 7 logistic 为啥会overfit呢?
不太理解。 |
|
A*******s 发帖数: 3942 | 8 只要predictor够多,就肯定overfit吧。 |
|
t*******r 发帖数: 22634 | 9 对于 overfit 这个问题,关键还是在于这个是 “有限小灶” 而不是 “另起炉灶”。
或者拿 USMC 做比方,USMC 的那种空地紧密协同,地面分队把飞机当大炮使,直接用
来轰眼前的碉堡机枪火力点。这从常规陆军空军配置的角度看,的确是 overfit。
但这个 overfit 的原因,就是因为 USMC 是战略级快速反应部队,抢滩时重型大炮坦
克还在半路呢。而且就算那些重型玩意儿能按时运到,多半也上不了滩头。这种非对称
作战的要求,使得这种 overfit 成为合理且必须的。
另一方面,USMC 并不干所有的事儿,抢滩完毕后,就把滩头交给后续陆军海军,USMC
自己回家过圣诞。所以这 overfit 也就不会造成问题。 |
|
T*******I 发帖数: 5138 | 10 这个overfitting的问题确实纠缠我。让我问你一个问题:对任何一个连续型随机变量的期望估计,例如,对一个服从正态分布的连续型随机变量计算其算术平均数,那么,这个均数是overfitting的吗?我可能是孤陋寡闻,以前从未听说过。如果你回答说“是的”,那么,我的分段回归分析的方法论就存在这个问题。如果你的回答是“否“,那么,我的方法论就不存在这个问题。等你回答我的这个问题后我再详细解释给你听。
老实说,我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领域的文献,发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关,我估计的是样本的期望临界点,即是用全部样本估计的一个充分的期望估计,没有任何样本信息的损失,正如我们用一个正态随机变量的全部观察值计算其算术均数一样。 |
|
r**********g 发帖数: 22734 | 11 其实咱这么说吧,DNN是新的编程语言,好比高级语言刚出现的时候,把寄存器,中断
都隐藏了,java出来,把内存分配啥都隐藏了,dnn把整个图灵机都隐藏了。什么
overfit,其实大家都在overfit以前人脑overfit现在电脑自己overfit.
高级语言刚出来你有范型,继承各种幺蛾子吗?现在也是一样,不是dnn是hype,而是
刚起步。未来的方向就是纯描述性编程。我要搞个技术,如此这般的需求,电脑你去办
吧。还很遥远,但是会有那一天。
ground |
|
c********s 发帖数: 12 | 12 求实习合租 在seattle amazon, from 5.20-8.15. 有兴趣站内联系。
我去年圣诞节开始申请实习。 投了大概30多家公司, 只有四家公司给了我面试,
linkedin, amazon,discover,bloomberg。 作为一个烂校统计phd,找实习的时候还
是挺纠结的。 第一个月的时候, 我主要投了大公司, 招intern的research lab。 基
本没有回应。 有一个linkedin的lab找我面试, 问了很多engineering的问题, 就自
然挂了(非马工)。 然后很久都没有面试和消息。 中途拿到不少据信, 连个面试都
没有给我。
到了二月初, 我就着急了, 连着投了好几个公司包括discover, amazon, 还有
bloomberg。 discover 是risk management, amazon是找人内推的research
scientist的实习, bloomberg是quant developer intern。 amazon面试了我3轮, 全
部技术面没有任何behavior的题目, 最后给了我offer。 discove... 阅读全帖 |
|
h********3 发帖数: 2075 | 13 没有说出regularization的,基本上不大可能过。
cross-validation是估计accuracy的variance,但并不是解决overfit的办法。
cross-validation也不能让你知道是否overfitting。比如,这个P(Y|X)就是random产
生,任何一个model最好的accuracy就是0.5,给你再多的training数据都是这样,你怎
么通过cross-validation知道你的model是否overfitting呢? |
|
i****e 发帖数: 451 | 14 这个要看overfitting怎么定义了
假设你的数据足够多,signal/noise足够大,那用一个简单的线性模型就不如用个
smoothing spline之类的,因为后者显然比前者空间大,并且你的情况也允许你用。这
个情况很多人叫做underfitting。其实就是approximation error 和 estimation
error的tradeoff
如果你的overfitting的定义是test error 显著大于 training error的话,那只要你用了什么优化,做了点功的话,一般都overfit了。不过这个定义太局限了,好像没什么人用 |
|
b********0 发帖数: 339 | 15 Overfitting 在交易中可定义为回报分布的蜕化。譬如说仅从结果的统计看年回报大于
50%的概率为97%,但考虑到参数优化后这一概率降低为20%,这可以说是Overfitting了
。有人看Variance,但在交易理论中不如以上的看法。
我个人认为,最好的方法还是通过样外结果从新计算统计意义。步进方法就是想取得更
多的样外数据(不断优化本身未必有利)。步进方法本身不是交易策略,而是交易策略
的一个检测手段,可看成是一个发展平台。一个交易策略的真伪可由它来检测,而它本
身并不增加策略的回报或减少策略的风险。
要想增加单位风险上的回报,仍要从策略上下手。增加统计意义要靠大量的时、空分散
。时间分散带来的就是HFT。统计套利成功要靠每天做大量的交易,程序下单难以避免
。这也许是多数业余炒家难以逾越的障碍!
你用了什么优化,做了点功的话,一般都overfit了。不过这个定义太局限了,好像没
什么人用 |
|
s*****e 发帖数: 16824 | 16 这类模型最大的问题都是overfit, 而且一旦overfit了很难查出来。一般来说,要查
overfit,你需要把你的模型放在一个完全独立的数据上再test一次,但是股市中基本
没有这样的数据。 |
|
s******n 发帖数: 6806 | 17 overfitting 就会只适用于一类情况,而且是历史数据中的情况,不能推广到其他情况
,别人变招之后就蒙。这种问题很难修正,只能是权衡利弊,想精确就会有
overfitting,想模型通用就会少了准确度。
不太懂围棋,但看各位和职业的讲解,说狗大局观好,局部计算反而相对弱。可能就是
程序员为了避免overfitting,局部计算稍弱。 |
|
K****n 发帖数: 5970 | 18 其实就是把数据一掰为二,在一组上训练,一组上测试,只要在测试组上能重复训练组
的精度就认为没 overfit
实在不行训练了一个下围棋的程序,拿出来和柯洁下一下就行了,输了就是 overfit,
赢了谁管有没有 overfit |
|
l***o 发帖数: 5337 | 19 大师,一般人在谈overfitting的时候,指的是复杂model带来的问题,不是用均值
去估算mean。对均值估算mean的分析由大数定理给出。
但如果你一定要用overfitting的概念往你的问题上套,我想你可以认为,如果有一个
明显(由其他信息决定)的outlier,而你在求mean时不把它去掉,就会出现
overfitting的问题(怎么这么别扭啊)。就是说,当试图估计population时你一头
扎到你的样本里死活也不出来,完全无视它的随机性(这个词对你深了点)。
我承认我出于娱乐目的看了几天mitbbs统计版,从大师身上找到了些自己水平的优越感。
游戏到此为止了,准备多干正经事。在此奉劝大师一句:以您老的水平(不是说懂不懂
数学什么的,而是逻辑能力和学习能力),不要去试图开山立派,而是要多工作,对给你
工作的人有感恩的心 (我认识好几个能力不错的统计人现在处于半饥饿状态,他们至少
。。。)。
曾经真的想过去JSM开开心,现在觉得自己的想法真没出息。。。 |
|
T*******I 发帖数: 5138 | 20 老实说,我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有
关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领
域的文献,发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关,
我估计的是样本的期望临界点,即是用全部样本估计的一个充分的期望估计,没有任何
样本信息的损失,正如我们用一个正态随机变量的全部观察值计算其算术均数一样。
当一个outlier出现在样本中时,用我的方法,它的权重会接近于0。如果你真正看懂了
我所设计的三分迭代搜索方法以及权重的定义的话,你就会明白这一点。
我觉得我是在遵循概率论的基本概念系统(虽然我不是透彻地理解它)建立自己的算法
,这就是力图为每个随机临界点在全样本空间里(即使用全部实测样本点对每个临界点
进行搜索,亦即,每个实测样本点对期望临界点的贡献全部考虑进来了,没有任何损失
)构建一个可测空间、定义权重及其可测性、计算加权期望估计未知临界点。遗憾的是
,在其他人的方法里找不到这样的分析逻辑和算法。他们根本不考虑临界点的可测空间。
感。
给你
至少 |
|
T*******I 发帖数: 5138 | 21 我看过了,基本逻辑就是那样。
请允许我问你一个问题,什么是overfitting? 这个overfitting指的是谁对谁?是
training model 对 training dataset,还是training model 对 validation dataset
? 根据wiki上的陈述,似乎指的是后一种情形。
“Suppose we have a model with one or more unknown parameters, and a data
set to which the model can be fit (the training data set). The fitting
process optimizes the model parameters to make the model fit the training
data as well as possible. If we then take an independent sample of
validation data from the same population as the traini... 阅读全帖 |
|
r*****d 发帖数: 346 | 22 【 以下文字转载自 JobHunting 讨论区 】
发信人: commanders (commanders2005), 信区: JobHunting
标 题: 报面筋求实习合租
发信站: BBS 未名空间站 (Mon Mar 31 17:37:09 2014, 美东)
求实习合租 在seattle amazon, from 5.20-8.15. 有兴趣站内联系。
我去年圣诞节开始申请实习。 投了大概30多家公司, 只有四家公司给了我面试,
linkedin, amazon,discover,bloomberg。 作为一个烂校统计phd,找实习的时候还
是挺纠结的。 第一个月的时候, 我主要投了大公司, 招intern的research lab。 基
本没有回应。 有一个linkedin的lab找我面试, 问了很多engineering的问题, 就自
然挂了(非马工)。 然后很久都没有面试和消息。 中途拿到不少据信, 连个面试都
没有给我。
到了二月初, 我就着急了, 连着投了好几个公司包括discover, amazon, 还有
bloomberg。 discover 是risk ... 阅读全帖 |
|
r*****d 发帖数: 346 | 23 【 以下文字转载自 JobHunting 讨论区 】
发信人: commanders (commanders2005), 信区: JobHunting
标 题: 报面筋求实习合租
发信站: BBS 未名空间站 (Mon Mar 31 17:37:09 2014, 美东)
求实习合租 在seattle amazon, from 5.20-8.15. 有兴趣站内联系。
我去年圣诞节开始申请实习。 投了大概30多家公司, 只有四家公司给了我面试,
linkedin, amazon,discover,bloomberg。 作为一个烂校统计phd,找实习的时候还
是挺纠结的。 第一个月的时候, 我主要投了大公司, 招intern的research lab。 基
本没有回应。 有一个linkedin的lab找我面试, 问了很多engineering的问题, 就自
然挂了(非马工)。 然后很久都没有面试和消息。 中途拿到不少据信, 连个面试都
没有给我。
到了二月初, 我就着急了, 连着投了好几个公司包括discover, amazon, 还有
bloomberg。 discover 是risk ... 阅读全帖 |
|
c****s 发帖数: 395 | 24 你是怎么着了?这是统计入门的一个很简单的例子,意在教育大家不要只简单的相信
Model,而不分析model背后各种变量的实际联系。
你说的什么overfit是错的,overfit是model中加入的变量过多造成的,和这个两码事。
还好说我是班门弄斧? |
|
u*******g 发帖数: 1808 | 25 老婆的已经2轮都完了,我的一轮还没有消息。她有一些问题没答上或者答得不好,都
能很快过,2天就有消息了。我的马上一周了还没消息,怎么回事?我和老婆背景相似
,但是无论拿的奖学金等级还是发表的文章,我都比老婆强。
本来觉得回答挺完美的,而且面试官是同胞(原来我们组招人我只挺同胞),一定很快
过了。现在回想起来有两个潜在的问题。
大家帮忙分析一下下面的两个问题是不是真的能坏事?如果是,怎么补救?
1.
晚了20多分钟没接到电话,就写信并打电话给recruiter问是不是打了我的其他电话。
面试官后来打过来说找了我3次都是忙音。我就顺着说可能我没有放好电话。
这样是不是让面试官有麻烦了,然后造成得罪人了?
或者觉得我连自己的电话都处理不好造成面试延迟,给严重减分了?(如果是这样
我就冤死了,我的电话可以5条线互相切换,漏掉电话是几乎不可能的,说没放好只是
想找个说辞让大家脸上好看)
2.
我觉得自己可能面试官有交流问题。我自己觉得回答得完美的人家不一定给你credit。
比如说,人家问regression里面好多predictor怎么办?我直接assume面试的人有
machin... 阅读全帖 |
|
d*k 发帖数: 207 | 26 分别说明一下。
M是medium,是题的难度,和feedback无关。每道题都分3档,Eeay, Medium, Hard;
我说的overfit是machine learning里的overfit;
关于题目,没什么特别,说了也对大家没帮助。因为面试官会对每道题针对你的代码,
有一些follow up,那些才是关键,而不是像做leetcode,你写了代码过了oj就行了,
面试官是人,不是OJ。比如归并n个已排序的序列,leetcode上的是链表,我做的时候
只是一个iterator,差不多,但是代码细节上要调整。难度基本都是这种题。这种题就
属于M档。
这个HR和我联系一年多了,如果feedback还可以一定会告诉我的,一直不回说明挂了。
人之常情嘛,唉。 |
|
b***e 发帖数: 49 | 27 我还是觉得所谓overfitting是多虑了。因为预测天气的是要通过气象知识看map,大气
压,云层等等东西。不是大家想想的那种简单的run一个regression就出来的。天气预
报怎么回overfitting啊?我实在有点想不通。 |
|
w********n 发帖数: 4752 | 28 My two cents:
Overfitting arises from two sources:
1. Training data is out-dated and can not represent future.
2. Model is trained too much on training data.
So either getting more new data or reducing model complexity to reduce
overfitting. |
|
S********t 发帖数: 3431 | 29 刚写完篇interview report,还有一篇要写,来罐灌水休息一下。
这里经常有人抱怨说怎么觉得我答的挺好但是悲剧了,是不是某某家bar太高,是不是
没有bug free呀,同时也有人说感觉面的不行啊,什么什么没有想到要interviewer提
醒了才做出来,最后反而拿了offer之类的。
其实你想想,一般interviewer常用的就那么几道备用的题目,要不是准备跳槽的,平
日里谁没事儿想新题或者刷题啊。对interviewer而言,一个题目要做到什么样子算
hire,哪家公司有tmd的具体规定,还不是interviewer根据自己的经验calibrate出来
的。首先是根据interviewer自身的经验,自己遇到这个问题的时候怎么想的,怎么做
的,花了多少时间,处理了哪些tricky的问题。然后面过几个人后慢慢根据
interviewee解答的情况不断的recalibrate,哪些是大家都容易忽略的,哪些东西good
candidate会答上来,扔出去个hint,面试者response的分布,扔个variation/
followup出去,又有些什么反应。
所以你面试的ba... 阅读全帖 |
|
h*i 发帖数: 3446 | 30 overfit是最容易的,能overfit的系统多了去了。问题关键是人要能够驾驭它。
DNN的上亿参数人完全不能驾驭,没法影响,如何用它来编程?这不是更高级的抽象,
反而是更低级的抽象。更高级的抽象是越来越接近人的思维和意识,DNN这种算是神经
元级别的抽象,完全不可被人驾驭,就如人的意识不能控制自己的单个神经元一样,就
是驾驭了也没啥用,因为总体大于个体的和。 |
|
h*i 发帖数: 3446 | 31 一个模型能够overfit这是必要条件,也就是说,这个模型必须足够灵活能涵盖这个领
域所需要的function space。然后再来谈how to deal with overfit的问题。如果连我
说的这个都没有意识到的,ML还没入门,还是纯追星族的水平。
从理论上讲,DNN能干的,一层NN也能干,无非是不知道如何训练而已。现在DNN解决了
backprogatation的一些具体实现问题,但是我们并没有得到任何理论突破。
最后,从大的方面来讲,ANN只是AI的一种办法,适用于解决某些问题,但认为ANN能解
决AI所有问题,那完全就是脑残。这个结论目前还没有任何证据表明是错的。 |
|
l*****8 发帖数: 16949 | 32 我琢磨了半天,感觉你想说的是你推崇不追求低俗目标的素质教育。方法哪就是用(适
当的)难题反复训练,巩固知识。
不过我有个感觉,就是你太追求过程的完美,可能有时会过犹不及。用你们行业的术语
就是overfit了。当然孩子不同,家长也不同,也许对你家这个样本来说,overfit不是
个问题。 |
|
t*******r 发帖数: 22634 | 33 或者简单通俗的说 overfit 的问题。
这个 “有限小灶” 的目的,是建立 “迅速填平阴沟” 的能力,而避免 “学校大灶
” 对自家娃发生 “千军万马栽阴沟” 的情况。
但这 “阴沟” 既然能让 “学校大灶” 的 “千军万马” 给栽了,势必不是个简单的
“阴沟”。其多半是击中了 “学校大灶” 之 “按部就班” 的弱点。
所以这个 “有限小灶”,必然不能像 “学校大灶” 那样 “按部就班”,否则陷入了
“重复基建” 怪圈。
所以这个 “有限小灶” 的战术,必然是更强调 “乱中取胜” 的类似 “非对称型作
战” 的战术。所以就能跟 “学校大灶” 的更强调 ”扎扎实实一步一个脚印” 的 “
对称型作战”,互为补充,并肩作战。
因为 “有限小灶” 是 “乱中取胜” 的 “非对称作战”,所以不管是不是从常规眼
光看的 overfit,如何 outfit “有限小灶”,必然不能全盘照搬 “学校大灶” 的
outfit 模式。因为其 “作战模式” 大相径庭。 |
|
|
p****u 发帖数: 2596 | 35 fit订购来的数据没有用的。overfit的模型对未来没有prediction power。你起码需要
在time horizon上做backtest. 即使这样你要推销给别人,也很少有人信你,因为
backtest照样可以overfit。人家肯定 要重新run backtest,replicate不了你的结果
,肯定不会买你产品。
also, domain knowledge is much much more important than machine learning
skill.
看描述你公司你老板也什么都不懂股票。总之,你这个project很不靠谱,没有任何前
途。 |
|
发帖数: 1 | 36 overfitting是在insample data里预测准确性远高于validation data
backtest 是通过insample train你的模型 放在validation data里做test
所以backtest结果好就排除了overfit基本上 |
|
b*****o 发帖数: 240 | 37 我没有说不行,我是说还没经过检验。我也没说我的经过检验了。没有好的风险控制的
系统都不能说是好系统。半年10倍,用1/5 的资金也有很高的回报,没错. 但关键是要
看它的max drawdown 是多少,如果是50%以上的max drawdown,你敢跟吗?即使是用1/
5 的资金。保住本金是最重要的。 你说的没错,很多系统backTEST 好不能代表就是好
系统,OVERFIT 的所谓好系统多的是,但实战就不行。有两个原因,其一,用的信号过
去有用,用的人太多,已经不管用了;其二,就是OVERFIT,用太多的参数优化
BACKTEST系统。但是一个如果BACKTEST都不行的系统你能保证将来行?可能性不高吧? |
|
b*****o 发帖数: 240 | 38 我没有说不行,我是说还没经过检验。我也没说我的经过检验了。没有好的风险控制的
系统都不能说是好系统。半年10倍,用1/5 的资金也有很高的回报,没错. 但关键是要
看它的max drawdown 是多少,如果是50%以上的max drawdown,你敢跟吗?即使是用1/
5 的资金。保住本金是最重要的。 你说的没错,很多系统backTEST 好不能代表就是好
系统,OVERFIT 的所谓好系统多的是,但实战就不行。有两个原因,其一,用的信号过
去有用,用的人太多,已经不管用了;其二,就是OVERFIT,用太多的参数优化
BACKTEST系统。但是一个如果BACKTEST都不行的系统你能保证将来行?可能性不高吧? |
|
c****t 发帖数: 5452 | 39 你是说overfitting吗, 现在结合大数据所谓深度学习根本不在乎,或者说简直就是在故
意overfitting |
|
n******r 发帖数: 4455 | 40 各种ML study的一个主要目的就是如何尽量避免overfit
故意overfit简直不知道如何说好 |
|
f*****r 发帖数: 754 | 41 你这根本不明白这个“深度学习”的意义所在。
深度学习(主要指深度神经网络)是近年来机器学习/人工智能的很大飞跃。过去的神
经网络通常只用三层,因为太深会引起严重的overfitting。现在可以做到十几层,而
几乎没有overfitting的情况。
这个算法从一开始就在nature/science上发paper,意义/影响深远。
AlphaGo战胜人类顶尖高手的意义在于:在变化过多甚至无法使用任何搜索达到最优解
的情况下,通过学习人类的传统方法以及思路,从而达到比人类更强的高度。不管是大
多数人还是少数人掌握的知识方法,甚至类似棋感这样模糊的概念,机器都可以进行学
习并达到精通,最后再辅以电脑所擅长的搜索,从而在各方面超出人类。
现在人类要做的就是把各种工作/活动归纳抽象成机器可以学习的方式,机器在将来即
可替代人类做绝大多数的工作。而事实上这也是现在已经在进行的活动。
AlphaGo正是通过深度学习告诉了大家,不管是有多难活着多抽象/模糊的方法,机器都
可以学会并且超越人类。 |
|
f*****r 发帖数: 754 | 42 你这根本不明白这个“深度学习”的意义所在。
深度学习(主要指深度神经网络)是近年来机器学习/人工智能的很大飞跃。过去的神
经网络通常只用三层,因为太深会引起严重的overfitting。现在可以做到十几层,而
几乎没有overfitting的情况。
这个算法从一开始就在nature/science上发paper,意义/影响深远。
AlphaGo战胜人类顶尖高手的意义在于:在变化过多甚至无法使用任何搜索达到最优解
的情况下,通过学习人类的传统方法以及思路,从而达到比人类更强的高度。不管是大
多数人还是少数人掌握的知识方法,甚至类似棋感这样模糊的概念,机器都可以进行学
习并达到精通,最后再辅以电脑所擅长的搜索,从而在各方面超出人类。
现在人类要做的就是把各种工作/活动归纳抽象成机器可以学习的方式,机器在将来即
可替代人类做绝大多数的工作。而事实上这也是现在已经在进行的活动。
AlphaGo正是通过深度学习告诉了大家,不管是有多难活着多抽象/模糊的方法,机器都
可以学会并且超越人类。 |
|
m*****0 发帖数: 55 | 43
请问这个的overfit是否就是overflow呢?
能不能elaborate为什么会overfit呢, 我不是特别明白?
谢谢。 |
|
c*****w 发帖数: 50 | 44 convolution enables weight sharing。否则干嘛用convolution,直接上full
connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
还不是最优。 |
|
c*****w 发帖数: 50 | 45 convolution enables weight sharing。否则干嘛用convolution,直接上full
connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
还不是最优。 |
|
w***g 发帖数: 5958 | 46 max_depth从2往上调,一般不应该到10。
这个depth会自适应地长,你可能会发现max_depth=50或者100没有区别,因为
自动长可能也就长到几或者十几,max_depth没发挥作用。
如果样本少维度大,SVR还是可能有优势的。support vector破的就是overfitting,
而XGB的缺点正是overfitting。不过这都是理论。实战时发生短板吊打强项也不奇怪。
我印象中xgboost背后好像没啥像样的理论,感觉就是乱拳打死老拳师。 |
|
发帖数: 1 | 47 等到有人说这不算造假,接下来就趁势宣布2.14亿经费和副部待遇的合理性是不是?
如果这么打算,下面这段需要修正:
“比如一个样品被测了3次,三次基本信号都差不多,但在cross
validation的时候,可能2次分到了training里边一次分到了testing里边,这样
testing的准确度当然很高,但实际来说这是个overfitting的model,classifier的表
现根本没原文那么好?”
为:
“比如共有十几个样品,每一个样品被测了3次,三次基本信号都差不多,但在cross
validation的时候,每一个样品都可能2次分到了training里边一次分到了testing里边
,这样testing的准确度当然很高,但实际来说这是个overfitting的model,
classifier的表
现根本没原文那么好?” |
|
发帖数: 1 | 48 等到有人说这不算造假,接下来就趁势宣布2.14亿经费和副部待遇的合理性是不是?
如果这么打算,下面这段需要修正:
“比如一个样品被测了3次,三次基本信号都差不多,但在cross
validation的时候,可能2次分到了training里边一次分到了testing里边,这样
testing的准确度当然很高,但实际来说这是个overfitting的model,classifier的表
现根本没原文那么好?”
为:
“比如共有十几个样品,每一个样品被测了3次,三次基本信号都差不多,但在cross
validation的时候,每一个样品都可能2次分到了training里边一次分到了testing里边
,这样testing的准确度当然很高,但实际来说这是个overfitting的model,
classifier的表
现根本没原文那么好?” |
|
x****6 发帖数: 4339 | 49 外行问一个弱智问题:你说到hidden layers,我就想到建模时增加变量。在后者变量
多了,最终你能够很好用模型还原数据,但是overfit,模型其实没有用;变量太少,模
型和数据差得远,抓不到主要机制。
那么hidden layers和增加额外变量是不是本质相同呢?按照我的理解,区别在于前者
离散,后者连续。如果是的话,怎么知道Hidden layer没有overfit呢? |
|
e*********6 发帖数: 3453 | 50 再深度学习中,变量数量不是个问题,如果model比较好,可以抓住主要变量之间的关
系,随便一张图片,1024 * 768,如果是彩色的,考虑到红黄蓝三种像素,就有1024 *
768 * 3,超过一百万个像素了。
overfitting是model需要考虑的一个问题,有一系列的办法来阻止overfitting,比如
regularization,dropout等
,模 |
|