第5页 - 关于overfit的讨论汇总 - 话题女王

全部话题 - 话题: overfit

g***e
发帖数: 577

来自主题: Stock版 - free back test tool in python - for quant algos

Thanks for sharing the experience! Such discussion is nice and useful!
This is in a middle of research - I am still exploring this very common
strategy.
I am not sure in this particular case it has overfitted though. The next
step would be test the time frame from any starting point randomly to see
the return/sharpe, in order to avoid the bias of starting time.
On the other hand, it is probably true 90% of research might not end up
finding a profitable strategy - but the outcome is not wasted, ... 阅读全帖

c******a
发帖数: 4400

来自主题: Stock版 - 美股大概率赚钱的一点思路

overfitted experience
may not work next around

r***s
发帖数: 1805

来自主题: Stock版 - 我的系统刚才发出了买入信号

很中肯，很有道理，过去四年是牛市，可能overfitting，我一直在改进，希望能在熊
市有好的表现。

如果
AI

d******4
发帖数: 132

来自主题: Working版 - 最近的一些职场心得

So don't overfit in the work, right?

our

c***z
发帖数: 6348

来自主题: Working版 - 最近的一些职场心得

what is overfit?

d******4
发帖数: 132

来自主题: Working版 - 最近的一些职场心得

the idea of overfitting in machine learning...
:)

j*******y
发帖数: 105

来自主题: NewJersey版 - 严肃认真的求助非吃喝玩乐事宜

NYU 那个可不是文科生能扛的.
Courserea九月份有一个：
https://www.coursera.org/course/stats1
扫了一眼，比较适合不想自虐的.
statistics 这东西，学多了就是overfit.

c****m
发帖数: 824

来自主题: SanFrancisco版 - Google的bar真心高啊 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dek (Above all, don't lose hope), 信区: JobHunting
标题: Google的bar真心高啊
发信站: BBS 未名空间站 (Thu Sep 26 23:48:18 2013, 美东)
在国内和应届生面的。之前全职准备了一个多月，包括：
1. 刷leetcode 2.5遍，后来基本每道题都是5分钟搞定，个别的需要10分钟。快
overfit了。
2. 看很多印度电影，上了一个coursera的印度老师的课，以防碰上三哥。
3. 看了mitbbs，quora，待字闺中和其他各种资源上无数面经，一起讨论了N多面试题。
4. 用国内微软做warm up，成功秒了一个offer，feedback非常好
之后参加google的onsite。
第一轮是一个欧洲某国的大爷，交流出了很大问题，一个简单的意思常常要确认好几遍
。做了三道Medium难度（面试官记录的是M）的题，最后都解决了。但HR后来告诉我，
feedback不好。
第二轮国人大哥，spiral print matrix和一个简... 阅读全帖

c*********o
发帖数: 8367

来自主题: Fishing版 - 有算法专家吗？

you overfitted the train sample, that is why is not working on testing set.
there is no way to get 100%, unless you have some variables directly linked
to the target. get rid of that variable and try again.

r********n
发帖数: 6979

来自主题: Fishing版 - 有算法专家吗？

你选的怎么都是这么容易overfit的model
试试logistic regression
或者像上面的人说的用cross validation或者bootstrapping
对了
你的模型维数高的话还要先做feature selection

d*****g
发帖数: 4364

来自主题: Fishing版 - 有算法专家吗？

typical overfitting
you may want to add controlling item to penalize the object function

w*******9
发帖数: 1433

来自主题: Fishing版 - 有算法专家吗？

所有data mining 的努力就是克服overfitting的问题，所以Goog你的问题general到等
价于“怎么做data mining”, 不是两句话就行的。你说的这些模型都很复杂，所以基
本上不会有太大的差别，主要取决于feature creation/selection，而这只能手动的
case by case解决。

r********n
发帖数: 6979

来自主题: Fishing版 - 有算法专家吗？

weka挺好的
就用它的nominal settings大部分时候效果都不错
不过我估计你的问题维数太高了
这几个model都是出了名的容易overfit

E******w
发帖数: 2616

来自主题: Go版 - 谈谈AlphaGo的算法【转载】

你说的问题我不认同。优势情况下下缓手，是因为它的价值网络判断有很多下法都能赢
棋，而且赢棋的概率很大。这种情况下这些不同下法的优劣差别就会被缩小。机器毕竟
不能暴力搜索所有的变化，不能够有效分辨各种走法的差别，会让自己的优势迅速丢失
（至少丢失到一定范围之内），这对高手来说，就等于留下了抓住机器的一两个失误翻
盘的机会。
另外，神经网络的训练很多时候就是输出对还是错，定了规则以后，网络就是判断某个
走法是否会导致胜利。这基本上是0和1的区别。至于概率的高低，那是大量实验的统计
结果而已。原作者的意思只是需要在胜负的基础上区别大胜和小胜。这只是个原则的建
议，说明比单纯判断胜负要强。但是具体实现不那么容易的。因为有很多大胜的棋是因
为对手犯错或者走无理棋。如果机器学习的时候偏重于这些样本，会导致overfitting
的问题。总之我觉得说起来容易，做起来实际上是很困难的。
综合来说，从Zen的表现和AlphaGo已知的表现，说明这个弱点确实存在。改进方法应该
是有的，但是肯定不是什么短时间就能解决的问题。

说的大部分地方靠谱，个别地方需要纠正一下。

D*******r
发帖数: 2323

来自主题: Go版 - 谈谈AlphaGo的算法【转载】

这个“赢棋的概率”本身就包括了对后面优势丧失的可能性的考虑。比如说，当前有可
以赢棋的两个应手A和B，A和B下一手又各自有5个应手，A下面的五个应手中有三个赢棋
的，两个输棋的，B下面的五个应手中有两个赢棋的，三个输棋的。那么计算机就会选A
吗？不是的，它还会继续计算A的下下一手和B的下下一手。如果A的下下一手又是共五
手，但只有一手能赢棋，而B的下下一手中五手中有4手能赢棋，那么B点的赢棋概率就
比A点大。
实际情况当然不只计算到两手，可能是30手甚至50手，算了30-50手，那赢棋效率最高
的一手其实是已经考虑了优势可能丧失的风险，以及进行了是否需要争取更大的优势的
判断。人在下棋时其实也是一样的考虑方法，在盘面上不确定之处比较多时（换句话说
就是后面丧失优势的可能性比较大时），人会下得更积极争取把优势转为胜势。但是已
经是胜势且进入大官子阶段，人就会避免任何增加风险的应手，选变化最少的保持优势
的应手。
机器不需要暴力搜索完所有的变化，它只需要比人多算10步。就是说它只要比你算得更
深它就会比你更早考虑什么地方可能丧失优势的风险。
zen现在的问题不是它优势下的缓手问题，它的问题... 阅读全帖

c******n
发帖数: 16403

来自主题: Go版 - 哈哈国内专家根据谷歌思路已经山寨了一款粗糙的

此人有作弊的前科
百度作弊事件处罚结果公布：开除负责人吴韧
上周，百度在ImageNet国际计算机视觉挑战赛（ILSVRC）中作弊行为暴露。百度随后承
认了违规行为，并就此事道歉和调查。今日，百度公布事件的调查结果，表示开除此次
参赛的异构计算团队负责人吴韧，决定即刻生效。
公开信内容显示，吴韧-在挑战赛中曾指示初级工程师们每周进行超过2次的提交，违反
了ImageNet规定。解除吴韧之后，异构计算团队将由前Facebook资深科学家徐伟带领。
对于此次作弊事件的背后，百度方面总结如下：
1.最初几个初级工程师曾听到传言说其他参赛组织有多个ImageNet账号，所以他们觉得
多个账号没问题。
2.这个团队成员都是计算机系统工程师，并不是研究计算机视觉的，所以他们不理解避
免overfitting的重要性，且ImageNet的规则在实行本身也有模糊之处。
3.吴韧带领的是一个年轻的工程师团队。他们前期没有同来自百度其他团队带头人或是
图像视觉界前辈进行沟通，提醒他们这种行为是不被允许的。

w*******d
发帖数: 59

来自主题: Go版 - 中国围棋程序“异构神机”拟年内约战柯洁

不是overfitting，模型都是放在训练集上训练好后再放在测试集上测试。百度这么做
，相当于把测试数据也拿来训练模型，然后又放到测试集上测试。等于是作弊

o*****p
发帖数: 2977

来自主题: Go版 - 阿法狗怎么做到每天练习几十万盘棋？

我的印象不是这样。train的时候它不但会引入随机（不然会overfit)，而且是用不
同版本的alphago对弈。

policy
钟。

g*k
发帖数: 1797

来自主题: Go版 - 根本就不是bug 是数学模型跟现实的不吻合

所有data driven models都有overfit的可能，就是只对目前的数据有很好的拟合性，
换一套数据就完全不能拟合了。李早就应该找学计算机的和学统计的好好商量下，找到
计算机的弱点。
自然如果大家怪招都出完了，大概是再无可能击败电脑的了。

I******n
发帖数: 5952

来自主题: Go版 - 锵锵请的港大计算机系主任不懂啊

overfitting啥后果？不容易converge？

m*********n
发帖数: 1819

来自主题: Soccer版 - 低压锅被瓜扇耳光了

本质上讲，这和说巴萨每次在温布利踢欧冠决赛都会获胜一样，是一种data mining 和
data overfitting. 唯一原因是历史不给我们那么多重复的机会，而我们又过度渴望获
得某种规律性。

p**********n
发帖数: 1470

来自主题: Soccer版 - 换下拉维奇我猜是梅西的主意

从短信开始就一直耍大牌了。
从那时开始就走下坡路了。
人一觉得自己是人物了，就不会主动学习新东西继续改进了。
这个我想每个人都是有体会的。
这是进化造成的overfitting.

c*******y
发帖数: 1630

来自主题: Tennis版 - 想不通

说明她们都没有直落两盘赢小威的实力，不能反推说赢小威就得按三盘的套路打。
overfitting

n******r
发帖数: 4455

来自主题: Joke版 - AlphaGo用的不就是Convolutional neural network吗

主要进步不是新model而是实用性。多层神经网络几十年前就有，实用上一直停留在BP
三层网络的水平，主要就是多层网络太容易overfit，实际中很难得到一个实用性的
model。直到06年左右hinton老头等人有了一些理论上的突破，外加海量数据的获得越
来越容易，逐渐就可以训练出有实用性的多层模型了。之前有些benchmark测试，deep
network的结果比第二名好一截，所以现在最热一点不奇怪。
我理解的就是model本身并不重要，要看当前的数据/计算水平能支持到多复杂的有实用
性的model。历史往往都是有重复性的，perception本身出来不久就给否定了，但是几
十年后基于类似idea的SVM成为最流行的model。从理论提出到实际应用也有很长的路要
走，比如说知道E=MC2是一回事，到爆原子弹是另一回事，到搞出核反应堆发电又是另
一回事。

P****i
发帖数: 1362

来自主题: Joke版 - 你们还记得初中语文课文《中国人和机器人下棋》么？ (转载)

那个年代的工程师不懂overfitting

i****n
发帖数: 13151

来自主题: Piebridge版 - 以后不灌水了，改学炒股去了

过分依赖于你的判断力会出问题
这是ML上的overfitting问题

h********m
发帖数: 6049

来自主题: Piebridge版 - 以后不灌水了，改学炒股去了

lol，ML一定要overfit~

i****n
发帖数: 13151

来自主题: Piebridge版 - 以后不灌水了，改学炒股去了

ML = Machine Learning
Overfitting，去狗吧，很多的，一看就懂，嗯

h********m
发帖数: 6049

来自主题: Piebridge版 - 以后不灌水了，改学炒股去了

lol,
ML=Make Love
Overfitting=过度拟合

s**********l
发帖数: 8966

来自主题: ComputerGraphics版 - [心得]图形和图像 ZZ

[心得]图形和图像
发信站: 水木社区 (Thu Dec 18 21:45:24 2014), 站内

既然这个板块是讲这个两个领域，恰巧学在图形（Graph），干在图像（Image），聊聊
两者的异同。一家之言，想到哪儿，写到哪儿，还望指正。

图形是以点线面等3D的元素来描述这个世界，大多数的时候是以矢量的形式来呈现。而
图像是是以2D的一个一个像素来真实的呈现这个世界，多数时候是标量的单个像素的矩
阵表示。图像加上时间维度就成了视频。图像是人眼对于世界最原始的还原，而图形则
是人类对世界的抽象。通俗点，如果要描述一张桌子，拿着相机咔嚓一下就是一张图像
，而图形则要用点线面来构建一个模型，然后加上材质光照来通过一定的模型来渲染而
变成一个图像。

图形的主要内容是建模（Modeling）和绘制（Rendering），建模的代表软件是建筑类
的CAD类的软件，譬如AutoCAD，比较通用的3DMax，Maya等。绘制最著名的软件是
RenderMan，专门用来制作电影的。图形学现在的发展方向是模型编辑，大场景建模，
真实感绘制，非真实感绘制，群体动画，运动捕获，基于物理的仿真等... 阅读全帖

s******e
发帖数: 285

来自主题: CS版 - 问个kernel (machine learning)的问题

逼近任意连续函数任何exponential的kernel都可以啊。
你自己也说了这种boundary较复杂了，难道你连最基本
的overfitting理论都不知道吗？

得。

p****e
发帖数: 2

来自主题: CS版 - 问个kernel (machine learning)的问题

用rbf核的时候，overfitting靠参数来控制

s****i
发帖数: 216

来自主题: CS版 - 问一个machine learning中的基本问题

我是想问个比较浅显的问题,
一般都说maximum likelihood 有overfitting的问题, 所以要加上regularization
term,
我感觉这不就是 bayesian linear regression吗?

old
Bayesian

r********3
发帖数: 2998

来自主题: CS版 - Valiant 是理论大牛

原来你说的是这个啊。我觉得这2点其实很直观的。1)的转化，就是来源于maximum
margin。 2）因为是maximum margin，所以分界面的confidence最大，对看不见的test
sample有最大的兼容度，尽量避免overfitting。
不过，这两点，为啥我觉得是很直观的。

d******e
发帖数: 7844

来自主题: CS版 - em算法里log-likelihood = -inf

overfit数据了，加regularization就OK了。

h*i
发帖数: 3446

来自主题: Programming版 - DNN就是hype (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: hci (海螺子), 信区: JobHunting
标题: DNN就是hype
发信站: BBS 未名空间站 (Fri Feb 19 15:11:57 2016, 美东)
”同一算法解决很多不同的问题“，换个说法，其实就是overfit。尼玛上亿的参数，
当然啥都能fit, 但是，换个数据就都不能用了，要重新训练。学的也都是些奇怪的特
征，没有什么能重用的东西，和人知道的概念更是不沾边。
总的说来，现在DNN解决的都是些人本身就觉得简单的问题，比如知觉，模式识别啥的
，而且必须要有海量的现成的ground truth.人觉得难的问题，大多是没有现成ground
truth的。不说别的，最简单的常识推理，DNN就搞不定。
视觉，听觉, 这些知觉任务，不懂计算机的人都觉得很简单，因为比较而言，它就是人
能干的最简单的任务。
那下棋是不是高大上的任务？其实不是，学过认知心理学的都知道，下棋，要下得好，
其实也主要是知觉任务，就是靠记忆和识别模式，用所谓chunking的策略，一盘棋，常
人看有很多信息，记不住，训练过的棋手... 阅读全帖

l*******m
发帖数: 1096

来自主题: Programming版 - 深度学习真正有实用价值的应用

不过现在DL的train tricks 还是有用的，可以很好的控制overfiting。
DL的泡沫中还是有不少进展（实现），比如computing graph。我预计随着bayesian
learning会有很大发展。

c******r
发帖数: 300

来自主题: Programming版 - 我来科普下深度学习的应用范围吧

dl这些说白了就是个强大的fitter，预测股票这种signal to noise小的东西用不好就
是overfitting，这就是为啥一般金融公司不招寸码工做预测模型

tv

w***g
发帖数: 5958

来自主题: Programming版 - kaggle上那批人太逆天了

这哥们太牛了，他只提交了7个版本。他提交三个版本的时候就已经是前三了。
前面提交190个版本的很可能已经overfit排行榜了。
这人似乎也是自己有个business，所以上真名打广告来了。

n******7
发帖数: 12463

来自主题: Programming版 - kaggle上那批人太逆天了

你好像在这1%test set上稳排第二了
之前的第二掉了不少
之前的第三更是不见了，可见确实overfit了
好像是前三名都有钱？写着"in the money"

w***g
发帖数: 5958

来自主题: Programming版 - kaggle上那批人太逆天了

n******7
发帖数: 12463

来自主题: Programming版 - kaggle上那批人太逆天了

你好像在这1%test set上稳排第二了
之前的第二掉了不少
之前的第三更是不见了，可见确实overfit了
好像是前三名都有钱？写着"in the money"

n******7
发帖数: 12463

来自主题: Programming版 - kaggle上那批人太逆天了

Keras.io 确实有些low啊
之前排第三，现在掉到快50了
琢磨这么一大帮人就忙着overfitting 刷战绩啊
想起以前有个人，每次CS战绩一不好，就立马退出清零重来
不熟悉的人一看这哥们儿老是杀人比被杀多，以为很厉害

w*******x
发帖数: 489

来自主题: Programming版 - 总结一下kaggle比赛

我也没啥经验，做这种比赛，如果想获奖（top 3)，就是拼体力，我在这个比赛上一共
估计花了300小时吧。
有很多比赛运气成分比较大，就是那种给你一个很好的data matrix 让你去fit target
, columns 还是匿名的那种，很难得前几名，noise to signal ratio 太低，前10名
的差异都属于noise。不过也很容易弄个前10%。如果只想弄个kaggle的排名，最适合做
这种。基本上你就拿别人share 的 code里面最好的, 调调参数就可以了，几个小时搞
定（大部分人只会去overfit）。
从我最近做比赛来看，有个好的team mate非常重要，可以互相学习到很多东西。每个
人的想法都不一样，做一下ensemble马上可以显著的提高成绩，并且可以马上互相改进
对方的方法。最近的比赛大部分都是一个team赢的, 很少单个人的。当然如果找的
teammate很差，不会做，还得花半天时间解释那就算了，帮倒忙。我之前也碰到过。
大方向要看运气了，基本的东西大家都会，有些问题你有自己的一些小想法，马上可以
脱颖而出。至于算法，凭感觉吧，把能wor... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天