发帖数: 1 | 1 非故意的,举个例子,
比如某人做了个machine learning的classifier,用个cross validation检测,效果很
好发了一篇paper。由于对数据来源有一些不了解,过了几年之后,发现原来用的数据
,里边有duplication(这是很正常了,现在很多高通量数据一个样品都测两三次,而
对ML来说,尽可能多的搜集数据也是很重要的,如果不是特别小心,的确很有可能出现
这种情况),比如一个样品被测了3次,三次基本信号都差不多,但在cross
validation的时候,可能2次分到了training里边一次分到了testing里边,这样
testing的准确度当然很高,但实际来说这是个overfitting的model,classifier的表
现根本没原文那么好?这种情况算不算造假?需要撤稿吗?随着发文章带来的一系列
benefit,比如PhD degree和绿卡等,是否要被取消? |
|
|
s******s 发帖数: 13035 | 3 gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting
你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把
SNP translate到表达,然后用表达看比较容易点 |
|
n******7 发帖数: 12463 | 4 你这样其实overfit了hyperparameter
这是非常非常常见的一种情况
这里柯洁就是这个hyperparameter
换个xxx可能就不一定成了 |
|
K****n 发帖数: 5970 | 5 but who cares
那就分三块数据
overfit hyperparameter 没有 actionable item |
|
n******7 发帖数: 12463 | 6 柯洁在乎,因为你做一个专门克他的AI,哈哈
一般是分三块,不过overfit这个问题真的是防不胜防 |
|
e*********6 发帖数: 3453 | 7 什么叫做overfit 了hyperparameter? |
|
发帖数: 1 | 8 实验室的千老用十几个参数去拟合五个实验数据,然后告诉老板自己的结果有多好。我
问他不会overfitting吗,千老就表现出一副似懂非懂的样子。在千老的知识体系里,
过拟合就是个不存在的事情,根本就无法理解。你问他,他反倒觉得你是傻逼。在千老
的世界里用十个参数去拟合五个参数是天经地义的。就这样的狗屎科研,居然还能得到
老板的认可,发了paper。千老这个智商,转行码农也就只能写写html、css,也算发挥
自己的长处。 |
|
b*****h 发帖数: 3386 | 9 这个用简单的话讲就是,变量多了,能更好地curve fitting.
不过太多会overfitting, 预测能力有限。如何选择变量,是
个大学科,不是靠阴阳五行这种朴素粗糙的哲学就能探索出来的。 |
|
r****y 发帖数: 1437 | 10 It should be fit with 1/polynomial
Try this, let your data be variable "a"
[p,s] = polyfit(a(:, 1), 1./a(:, 2), 8)
plot(0.4:0.01:1.4, 1./polyval(p, 0.4:0.01:1.4), a(:, 1), a(:, 2), 'd
')
Don't try >10-th order fit, it will overfit your data.
|
|
i*******e 发帖数: 349 | 11 所有有时我更加喜欢做得好的实证文章,能够找到一些有趣而且robust的现象,
blanchard也批评很多模型
为了解释数据而加入ad hoc的假设,比如现在habit formation成为一个很多人默认可
以接受的假设。这样
做出来的simulation,有点像在计量里面用去overfit数据。
说到quantitative match的问题,我和另外一个老师最近花了一个月在想办法
replicate大牛10多年前一
个简单的simulation结果,搞了很久都得不出类似的结果,非常郁闷。
3,宏观经济学另外一个我很不喜欢的东西就是,他的结论其实是事先就知道的,为了
这个结论而去造模型。有一些被认为很好的文章,我的第一反映常常是too good
to be true,match得太好了。其实RBC最早出来的时候就被批成是伪科学,这话
虽然有点过,但也不是完全没有道理。简单讲,世界已经够复杂,如果一个idea可以
qualitaively解释一个现象,已经很好了。现在是看到太多在quantitative上也能
几乎完美地match,我是真的没法相信。宏观还有其他一些我不喜欢的地方, |
|
n******v 发帖数: 2184 | 12 我不知道你做什么污染物,但是1000这个数是crazy的。我的建议如下:
1. 检查两套数据的单位是否一致
2. 在fit model之前,认认真真做exploratory analysis,看看missing data和outlie
r等。
3. 关于variable selection,还是有很多其它options的。最近几年有几篇papers讨论
了如何更好的选择变量,不过这个需要比较强的统计背景。cross validation或许你可
以考虑一下,避免overfitting。 |
|
h***i 发帖数: 3844 | 13 one is overfitting, the other is ok?
同。 |
|
v*******e 发帖数: 11604 | 14 听seminar不如看paper,切身体会。当然seminar也有用处,最大用处是学会读专业词
汇,省得读错。seminar是一种“推”技术,和你自己去search的有目的的读paper还是
有不如的。
你说的婴儿,我亲手养大三个,有第一手资料。是准确率很高,和电脑的区别只是一个
,现在的电脑deep learning程序,没有考虑over fitting问题。而人脑是考虑了的,
理解这个问题我只说一点,那个attractor map network里面的墨西哥草帽,一开始是非
常宽大的草帽,只随着人脑看到更多的数据后草帽才慢慢变小。这解决了overfitting
问题。对于“看”东西的网络来说,这主要需要考虑最后几层。前几层的对应于V1,V2
,V4的网络可以保留现在的,这些需要用不包含你test用的人造物体的大数据先进行训
练。再考虑我前面说的vast dimension representation,你若有心,现在就该顿悟了
。我时间有限,有很多idea,只是没有时间去做,否则很多方向都出文章了。我现在的
主攻方向不在这里,你若顿悟了就去做文章吧!合作亦可,acknowledge... 阅读全帖 |
|
m*****h 发帖数: 2292 | 15 呵呵,我目前不会去做这个方面,我主要精力在做其他领域的大题目,对这个只是有兴
趣而已
搞出deep learning的那几个大牛自己就从来不认为这是去模拟人脑,他们做这个的出
发点就是为了解决工程问题,所以他们都是和facebook这样的公司合作
overfitting
V2 |
|
z****g 发帖数: 1978 | 16 The calculation of ACF an PACF assumes the variance of the innovation is
constant.
when there is dynamics in variance, ACF/PACF itself is wrong. If you still
STICK to
PACF/ACF, we call it overfitting
+ |
|
p******i 发帖数: 1358 | 17 这么说岂不是所有含有unobservable变量的model都是overfit 了? |
|
p****u 发帖数: 2596 | 18 你不要乱说一通了。。
楼主点名了是在问buyside quant。。buyside quant怎么不分析统计规律背后的市场行
为?
不过也不怎么用machine learning overfit。。 |
|
z****t 发帖数: 78 | 19 It should be [0.02,1]. It is easy to construct data sets for both extreme
cases. R^2 of 0.01 and 0.02 is really low, none of the linear model has any
explanatory power. In the case new R^2 is 1, two samples happen to exactly
fit y(t). But obviously it is overfitted. |
|
r****t 发帖数: 10904 | 20 【 以下文字转载自 JobHunting 讨论区 】
发信人: kknd2011 (kknd), 信区: JobHunting
标 题: 投行前台quant跳buy side quant经历
发信站: BBS 未名空间站 (Tue Jan 10 19:12:35 2012, 美东)
找工作两个多月,也积累了不少经验,以前求bless的时候说过拿到dream offer就写经
验和面经。现在拿到了,贡献出来希望以后的xdjm有用。包子发不了,老号伪币用来买
东西了。
1.背景
我以前学计算机的,phd毕业就在一家大投行前台做quant,辛苦做了两年,独立完成了
不少大的项目。结果去年年底效益太滥,公司裁了一堆quant,我也就经历了第一次下岗
。平心而论,虽然我刚开始还是很不爽,但是大投行给的平台还是很好的,而且学到很
多东西。我们组包括我一共走了两个phd。 我后来想想,老板决定谁走,你个人工作上
的能力,薪水只是一部分考量,有的老板很看重谁够political,甚至谁够brown nose的。
我当时的情况很被动,因为去年底很多地方hiring freeze,招人的经常放假进度都挺... 阅读全帖 |
|
w**********y 发帖数: 1691 | 21 忍不了来冒个泡.尼玛,data-driven != blackblox 好不好...
svm, adaboost..是黑盒? 确定么??
svm是标准的非线性变换(kernel trick)和二次优化的应用..
adaboost最开始提出的时候是因为empirical results很好,怎么都不overfit..
后来火起来还是因为理论上面找到了强大支持..adaboost 实际等价于把exponential
loss当作优化目标的additive model.这样才有了logitboost..gradientboost...
听说(?)kinect的核心算法应该是random forest.这也是标准的data driven而非黑盒..
如果非要说黑盒,AI里面的黑盒是Neutral Network, Genetic Algorithm,
Reinforcement Learning这些东西.. |
|
L*******t 发帖数: 2385 | 22 小白继续说。。
而且很多实证都表明,存在overfit的现象。在做研究的时候很多人都选择了模型表现
最好的
一段数据去发表结果。。
finance |
|
b*********e 发帖数: 38 | 23 Trading 是个系统工程,每个细节看起来都那么的简单,基本上只需要一些简单的数学
统计甚至高中的东西就可以了,可是把这些看似简单的细节整合成一套有效的系统,就
没有那么简单了。为什么华尔街不用那些复杂fancy的model?原因也很简单,很多时候
,复杂模型对简单模型improvement可能只有10%,细究的话这10%说不定也是复杂模型
的overfitting.更何况简单模型实战中容易维护的多,出了问题也容易查找。 |
|
L*******t 发帖数: 2385 | 24 小白继续说。。
而且很多实证都表明,存在overfit的现象。在做研究的时候很多人都选择了模型表现
最好的
一段数据去发表结果。。
finance |
|
b*********e 发帖数: 38 | 25 Trading 是个系统工程,每个细节看起来都那么的简单,基本上只需要一些简单的数学
统计甚至高中的东西就可以了,可是把这些看似简单的细节整合成一套有效的系统,就
没有那么简单了。为什么华尔街不用那些复杂fancy的model?原因也很简单,很多时候
,复杂模型对简单模型improvement可能只有10%,细究的话这10%说不定也是复杂模型
的overfitting.更何况简单模型实战中容易维护的多,出了问题也容易查找。 |
|
P*******e 发帖数: 19 | 26 这是一个问题。但是我们不会overfit。也不会去糊弄人,到头来还不是糊弄自己? |
|
|
l********e 发帖数: 220 | 28 你可以试试paper-trading半年看看,paper-trading和live-trading唯一区别是没有
real position,当然market impact model要弄好,总之比backtesting更能看出有没有
overfit,自己会更有信心
的。
valuable。 |
|
P*******e 发帖数: 19 | 29 我的意思是我们的performance很好。overfit还能这么好? |
|
|
E***e 发帖数: 3430 | 31 基本就是老套路
用Brigo书上G2++的模型做了个analytical的pricer
然后用SSE往Swaption surface上fit
Pricer和不止一个商业软件都核对过了,没问题完全正确
可是calibration的结果偏偏很奇怪
HW2F的Correlation (注意不是G2++的)基本都是+1或者-1
完全不reasonable
swaption surface倒是吻合的很好
感觉有严重的overfitting,或者干脆在fit to noise了
swaption price都是从彭博USSV*** Curncy上导出来的
Swaption surface是这样取的:
OptionTerm = 1, 5, 10
SwapTenor = 1, 5, 7, 10, 20
不知有没有前辈可以分享点经验
这到底是什么问题?
需要Cap和Swaption联合calibration么? |
|
l******o 发帖数: 52 | 32 【 以下文字转载自 DataSciences 讨论区 】
发信人: laihaobo (数海扬帆), 信区: DataSciences
标 题: 大数据时代的最大挑战(一)?
关键字: 数据挖掘,过度拟合,“大海捞针”回归法
发信站: BBS 未名空间站 (Sun Aug 24 21:55:49 2014, 美东)
挑战一: 数据挖掘者的陷阱或"愚蠢把戏"。
海量数据,"大数据",和高频数据---由 “Big Data” 说开去之二
这个"愚蠢把戏"是直译。见下文:
http://bit.ly/StpdDtMnrTrck
文中有更加强烈的用词,像”evil data miners”,不过也还有的放矢,我们再做解释
。.此文发表于 The Journal of Investing 2007年第1期。大家可以验证一下此文的出
处:
Leinweber, David J. "Stupid data miner tricks: overfitting the S&P 500."
The Journal of Investing 16.1 (2007): ... 阅读全帖 |
|
|
|
t********t 发帖数: 1264 | 35 直接用available的价格点calibrate sabr当然是误差最小的。但你现在不是要拟合ATM
价格吗,既然没有只能用interpolation。其实只用ATM的初衷是ATM的价格容易获得,
而且比OTM的价格更加准确,用它做calibration不会有overfitting的问题。所以我问
你是不是FX market vol surface |
|
k*******d 发帖数: 1340 | 36 我觉得问题是data driven, black box,容易overfitting. |
|
c**********2 发帖数: 144 | 37 在做一个logistic regression,目前model里有9个variable,当我plot actual vs.
predicted的P(Y=1)的时候,发现在p=0.8-0.9左右是over predict,请问应该怎么找问
题?我不知道如何入手。
还有就是同事常说,如果一个var跟另外一个很correlated,就不能两个都加入,这个
是为了防止overfit吗?
谢谢! |
|
d*******1 发帖数: 854 | 38 从传统统计的观点看, 很多machine learning的东西都是overfitting, sample size
太小, feature太多. 统计和machine learning从历史上就是两个完全不同的领域,只不
过近近些年才开始融合. |
|
A*******r 发帖数: 194 | 39 把你数据分三份。
Training 用来建model.
Validation 用来调整model参数防止Overfit
Test 就是用来检验你的model的。 |
|
R*******s 发帖数: 136 | 40 sample size n=?要使mean square error尽量小的话,leaves约为n^(1/3)
both underfit and overfit could cause bigger MSE. |
|
T******r 发帖数: 265 | 41 1) pca中用什么方法来选择应该用几个factor呢?
2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个
factor
3) 用pca做forecast.如何避免in-sample overfitting的问题呢?
4) 有没有什么关于pca的教程呢 |
|
T******r 发帖数: 265 | 42 我的问题是
1. 我有10,000 explanatory variables 但只有1000 records
2. 我想用pca reduce dimension
3. 然后用factor forecast dependant variable.
4. 我不知道我对这个variation的理解对不对,我想是从大到小选择前几个factors.但
是这样的forecast accuracy 不太好 但如果我用stepwise 选择 factors的话,我觉得
有in-sample overfitting的问题。 |
|
l*******y 发帖数: 22 | 43 不知道你的数据是否都是连续的?
我的经验是,做factor analysis有几个必要的步骤
第一,要有domain knowledge。一般去收集数据的人,心中对于有几个factor都大概有
个底。而且在统计分析完成以
后,并且model is verified statistically,背景知识至少也要能解释你的发现。
其次,如果数据是连续的,首先应当将相关矩阵画出来,(维数小的时候肉眼就可以看
出到底有几个类,比如你用
threshold cut掉一些elements)。如果维数很大,可以用一些基于permutation的算法
将聚类自动调整出来。这两步做完
以后,心里基本上就有个大概的了解了。这两部分虽然简单,其实在实际中很重要。
最后,也就是定量分析阶段,这个时候可以选用的模型就太多了。但是最终选用几个
factor,还是需要用定量分析的办法比
一比的。比如你现在的4个vs7个,就是一个很典型的例子。怎么比呢?方法太多了,比
如aic,bic,似然检验,bayesian
factor。但是直观来看,你variable才10几个,聚类就有7个,overfitting的概率实在 |
|
|
b*******r 发帖数: 152 | 45 1. overfitting.
2. decision tree, like cart. Neural Network could be another try.and many
others.... |
|
y******0 发帖数: 401 | 46 1. Overfitting.
2. For the missing values A or B. Check the the missing ratio. If the ratio
is more than 50%, maybe you should drop this variables. Create indicators
for the missing values and use the indicator in the model as a input
variable either. Impute the missing values using mean, median, regression,
or multiple imputation methods based on the data structures.
It is hard to find the 'best' imputation method, but you have to try. |
|
h***i 发帖数: 3844 | 47 翻翻fan jianqing 的lcal polynomial 就可以了
bandwidth是调节goodness of fit 和overfitting的。 |
|
|
g********r 发帖数: 8017 | 49 如果CV表现一样,还有什么其他鉴定overfitting的办法? |
|
|