s********x 发帖数: 81 | 1 话说cross validation也是一个克服overfitting的方法吧。 |
|
T*****u 发帖数: 7103 | 2 是关于model selection吗。。。error rate不一定是想要的metric,有可能有
overfitting,不但有error rate的结果,还要有confidence,下雨不下雨的天数
balance吗? |
|
w********n 发帖数: 4752 | 3 In practice, you can do anything about data when data is giving.
You need to reduce the complexity of your model to overcome overfitting. |
|
b********0 发帖数: 62 | 4 。。我这个半吊子都知道cross validation是用来判断有没有overfitting的
改进和他就没啥关系了吧。。
另外我这个半吊子能想到的 就是对输入的feature vector用个pca之类的 去噪去
correlation降维。。。 |
|
p*****r 发帖数: 1883 | 5
前半部分是对的,但是PCA对overfitting没有用的,需要一些feature selection来降
低纬度 |
|
t*****3 发帖数: 112 | 6 cross validation画learning curve,如果cross validation error随着数据量的变大
和training error差距始终比较大就说明是overfitting了,反之如果在某个位置交叉
了就是underfitting |
|
p*****r 发帖数: 1883 | 7 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 ht... 阅读全帖 |
|
p*****r 发帖数: 1883 | 8 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
ht... 阅读全帖 |
|
l*******t 发帖数: 79 | 9 Pinterest 电面
1. 多叉树的serialize & unserialize
2. 判断一个graph是不是bipartite
Dropbox电面
1. 1) bool match(string pattern, string data)
test case:
pattern = 'abba', data = 'red blue blue red' true
pattern = 'abba', data = 'red blue yellow red' false
pattern = 'aaaa', data = 'red red red red' true
pattern = 'abba', data = red red red red' false
2) followup,remove spaces
pattern = 'abba', data = 'redbluebluered' true
pattern = 'abba', data = 'redblueyel... 阅读全帖 |
|
h*i 发帖数: 3446 | 10 ”同一算法解决很多不同的问题“, 换个说法,其实就是overfit。尼玛上亿的参数,
当然啥都能fit, 但是,换个数据就都不能用了,要重新训练。学的也都是些奇怪的特
征,没有什么能重用的东西。
总的说来,现在DNN解决的都是些人本身就觉得简单的问题,比如知觉,模式识别啥的
,而且必须要有海量的现成的ground truth.人觉得难的问题,大多是没有现成ground
truth的。不说别的,最简单的常识推理,DNN就搞不定。 |
|
h*i 发帖数: 3446 | 11 ”同一算法解决很多不同的问题“, 换个说法,其实就是overfit。尼玛上亿的参数,
当然啥都能fit, 但是,换个数据就都不能用了,要重新训练。学的也都是些奇怪的特
征,没有什么能重用的东西。
总的说来,现在DNN解决的都是些人本身就觉得简单的问题,比如知觉,模式识别啥的
,而且必须要有海量的现成的ground truth.人觉得难的问题,大多是没有现成ground
truth的。不说别的,最简单的常识推理,DNN就搞不定。 |
|
r*****s 发帖数: 1815 | 12 不可否认dnn目前并没有什么好的应用,除了搜索
但是你说的这些表明你对这玩意一无所知。。还overfit.... |
|
w*********m 发帖数: 4740 | 13 先去把这些概念搞清楚,overfitting, feature selection, confidence interval,
bagging, boosting, deep learning, maximum likelihood, EM algorithm, monte
carlo simulation, gibbs sampling, loss function, gradient descent, etc. |
|
n*****n 发帖数: 1669 | 14 这回到了天才的本质是什么。如果你见过足够多的天才如何做事情,或者见过社会如何
甄别天才,你会发现天才很多时候在磨刀(大麻、梳头、麻将)。而“普通”人则计算
工作量。比较研究所、高科技公司的工作环境、节奏和流水线工人的工作环境、节奏。
一个人,如果不能认识自己,创造性地unlock自己的full potential(大麻、梳头、麻
将),那么TA只是撞了一时的大运、某种overfit训练的产物等等等等。高考状元到美
国卖轮胎,这种例子说明什么?
我码的东西常常匪夷所思。人云亦云的东西费我码什么字。假设我说的是真的:
1、培养孩子成才之路并不是一场赌博。而是一个可以精确定量计算的过程。种水果所
谓斤果斤肥。人掌握新的知识、技能、迸发新的创意,需要多少各种营养,需要多少时
间,是可以度量的。
2、思考题:这对整个社会有何影响。
3、思考题:为何社会不强制添加充足的思维营养,如食盐加碘,饮用水加氟一样。
The fun part is once you realize this,你的人生将没有什么苦恼。因为别人在撞
自己的大运、拼娃的大运,而你已经打开了另一扇大门,置身另一片广阔的天地。天空
... 阅读全帖 |
|
N*********6 发帖数: 2302 | 15 【 以下文字转载自 ComputerGraphics 讨论区 】
发信人: sighfromsoul (三番叟), 信区: ComputerGraphics
标 题: [心得]图形和图像 ZZ
发信站: BBS 未名空间站 (Sat Dec 27 00:58:23 2014, 美东)
[心得]图形和图像
发信站: 水木社区 (Thu Dec 18 21:45:24 2014), 站内
既然这个板块是讲这个两个领域,恰巧学在图形(Graph),干在图像(Image),聊聊
两者的异同。一家之言,想到哪儿,写到哪儿,还望指正。
图形是以点线面等3D的元素来描述这个世界,大多数的时候是以矢量的形式来呈现。而
图像是是以2D的一个一个像素来真实的呈现这个世界,多数时候是标量的单个像素的矩
阵表示。图像加上时间维度就成了视频。图像是人眼对于世界最原始的还原,而图形则
是人类对世界的抽象。通俗点,如果要描述一张桌子,拿着相机咔嚓一下就是一张图像
,而图形则要用点线面来构建一个模型,然后加上材质光照来通过一定的模型来渲染而
变成一个图像。
图形的主要内容是建模(Modeling)和绘制... 阅读全帖 |
|
l*****e 发帖数: 2447 | 16 有一种东西叫智慧成熟度,不容易,也没有必要突击培养。
很多孩子有一定的超前的知识水平,和许多方面的先进技能,但是在像阅读理解这样有
一定综合考查的场合表现不够突出(通常是也很好了,就是其他方面太优秀了,家长期
望值高),这个和阅历和综合能力有关,最本质的解法是让娃多读书多历练--多接触自
然,社会跟人类,然后让岁月静静流淌,冷静地等智慧成熟。国内老师大概管这个叫积
累吧。
多做题可能会有点提高,因为人脑的神经网络会被题目的套路训练得猜也猜出答案了,
但是那个我觉得是overfit了不大有用的出题套路,不是多数家长应该追求的目标。 |
|
b********y 发帖数: 5829 | 17 对,说白了就是非线性统计,弄个人工智能的名字吓人,overfitting的问题避免不了 |
|
|
m********0 发帖数: 2717 | 19 it's first draft back testing script only written in 60 minutes.
of course, I did not use that for real trading.
I have far more complicated code implemented.
but I would say, complication does not necessarily a good thing.
I knew some really example with very good performance but unbelievable
simple.
overfitting is a headache one will meet consistently.
nevertheless, I heard Rentech's system had more than 400
filters/parameters.
pants, no, |
|
m********0 发帖数: 2717 | 20 但是我觉得这个statement暗示,market也就是你研究的东西是static的,
换句话说,market inefficient的原因和程度是不变的。
但这不大成立,所以,这也是我偏爱online learning,而不把overfitting称做
fitting问题。 |
|
f****e 发帖数: 227 | 21 My experience of data mining shows that indeed sophisticated systems
sometimes tend to overfitting the data. And for black box models you don't
know what is going on in there. Just like blindly following GPS may lead you
to a wrong place. So I think simpler but more intuitive ones tend to be
more robust and might be helpful in decision making - not necessarily auto
trading, but as a facilitating tool.
automatic |
|
S******n 发帖数: 1009 | 22 I didn't use machine learning algorithms, which train
a model based on training data, and test the model on
future test data. My system just simply look for
tradable patterns based on domain
knowledge(resistance, breakout, etc).
I don't think there is overfitting of parameters,
because it's not easy to find a parameter working for
such a long time with various market conditions.
The winning rate seems too good to be true, maybe
there are some errors of the system.
works. Just a
train and test t... 阅读全帖 |
|
w*******o 发帖数: 6125 | 23 有个疑问,你为什么特意强调了一下"08年那段,用了data mining之后,drawdown小了很多",08年那段很坏,drawdown很大,应该也是事情过去了之后才知道的吧? 你这个会不会像很多Backtest一样,不知不觉就Overfitting了呢?
sample |
|
v*****k 发帖数: 7798 | 24 首先不是大牛是青蛙,谢谢。
从机器学习的角度来说各种TA无非是训练不同的classifier。
0.量价关系是股市公理。否认这个就不用看下去了。
1. No Free lunch theorem
没有永远好用的单一乃至集合指标
2. occam's razor
指标够用就行。根据本人research经验,多个指标简单voting就“够用”。这个可能各
人有不同标准。
3. 理想状态是有一个系桶不停优化做到对过去data最优,但是
a. 我不是村长,没钱没时间没精力
b. overfitting 不是说不用未来数据就不会产生。
4. 复杂的classifier好用,但是得花费巨量金钱tuning。
5. 至于用什么指标问未眠秋月cww虎谷风湿膏。
6. 为什么我相信这样可以work?因为有大傻蛋的存在。谁是大傻蛋?问王二吧。呵呵 |
|
v*****k 发帖数: 7798 | 25 不要灰心,学习提高自己的TA/FA水平是有出路的。当然要注意控制风险!!
两个都不信的请出门右转去投资版找indexer们或找捂帮主。(以上排名不分先后)
相信系统的同学请出门直走找zijing 金娃 村长 丽丽 副所 PJZH bobcat2010 (以上
排名不分先后)
喜欢FA的同学请出门左转找chinook 可乐 stlstl (以上排名不分先后)。
留下来的同学们请坐好,我来阐述一点我自己粗浅的关于TA的看法。欢迎拍砖
从机器学习的角度来说各种TA无非是训练不同的classifier。
0.量价关系是股市公理。否认这个就不用看下去了。
1. No Free lunch theorem
没有永远好用的单一乃至集合指标或者系统
2. occam's razor
指标够用就行。根据本人research经验,多个指标简单voting就“够用”。这个可能各
人有不同标准。
3. 理想状态是有一个系桶不停优化做到对过去data最优,但是
a. 我不是村长,没钱没时间没精力。复杂的classifier好用,但是得花费巨 量金
钱tuning。
b. overfitting ... 阅读全帖 |
|
|
c***1 发帖数: 3281 | 27 好专业啊。
里面有好几个词不懂。
你用了什么优化,做了点功的话,一般都overfit了。不过这个定义太局限了,好像没
什么人用 |
|
v*****k 发帖数: 7798 | 28 this is what I meant.我不应该用overfitting这个词。更糟糕的是你甚至并不能保证
training和testing的data在一个概率空间内。 |
|
w**********y 发帖数: 1691 | 29 Data in the same probability space. Omg. Could pls stop using stat
terminologies if you really don't understand them.
this is what I meant.我不应该用overfitting这个词。更糟糕的是你甚至并不能保证
training和testing的data在一个概率空间内。
★ Sent from iPhone App: iReader Mitbbs Lite 7.20 |
|
r******n 发帖数: 4522 | 30 回测、优化的目的是找到将来会大量重复出现的模式,overfitting就是系统盈利多数
来自于偶然事件。所以首先量一定要上去,最好day trading, 什么一年才做几笔的就
别折腾了,不如烧香拜佛管用。另外使用的历史数据得过滤掉特殊时段。还有最后的结
果也得过滤,当天进出,单笔盈利超过ATR多少的都做不得数,这个就是去掉一个最高
分,一个最低分的道理。想长期稳定赚钱得靠市场常态,而不是狗屎运,这点国内媒体
太误导散户了,鼓吹XX股神都是全扑某垃圾股一夜暴富。个股偶然性太大,除非你能同
时买几百个,否则就得选index, ETF, Forex这些80%处于常态的。
Walking forward很多交易工具都已经作为可选的优化办法,但也只能告诉你这么干不
行,而没法知道怎么样才行。
至于FA/TA,我觉得就像中医跟西医,TA好像西医,普通人都能学会,一般毛病都能看
看,不会太离谱但也神不了。FA是中医,得要天分,多数人都是在忽悠自己,极少数能
解决疑难杂症。两个都掌握宏观上FA,技术上TA那才是真牛人。 |
|
s******s 发帖数: 13035 | 31 介个我都是外行。不过好歹模型出来了,公开run个一年
看增长吧。找一堆历史数据fit了半天,是人都能overfit出
一爆牛的模型吧。
fund |
|
m****e 发帖数: 336 | 32 典型的overfitting,完美解释现有数据,预测未来毫无用处。 |
|
t****y 发帖数: 27 | 33 obviously, you are overfitting your model in training data set... |
|
t*******l 发帖数: 3662 | 34 你开玩笑吧,如果就是简单的把一个HMM甩到哪里,就指望能预测明天的股票?
我都敢和你打赌,我这不会TA的看看盘前的大盘和个股,都能轻轻松松beat你模型预测
的当天的结果,信不信
这就好比指望用Hidden Markov Model能预测今天的天气一样没谱。仅仅通过历史数据
,我敢肯定准确率一定不如我睡前看看月亮,预测明天气来的准。
HMM唯一(有点绝对了)的成功的应用就是语音识别,这是因为人的发音的hidden
states是存在的,大部分的问题不具有这样的underpinning theory, 有可能是问题复
杂HMM根本model不了,有可能是是很多重要的hidden state观察不了,也有可能是
model对数据overfitting你没办法知道。 |
|
N****p 发帖数: 1691 | 35 黑盒子 Graham和Elder都讲了无数次了 overfit近期数据 不能针对新情况调整
多数是赚很多次小钱 然后亏几次大钱 就全部赔进去了 准确率确实是>80% 总体还是亏
的 准确率又有何用
有一个公认的简单准确又免费的预测系统 Elder Impulse 只要红变绿 马上买 绿变红
马上取利
系统极其简单 只用EMA13和MACD 准确率也极高 但是不能consistent BEAT大盘 又有
何用? |
|
B*********e 发帖数: 86 | 36 algorithm trading wont be taken serious unless you have a trading record
winning real money
There are many forex gurus out there posting amazing trading performance,
however, anyone following their "strategy" is/will be bleeding
the problem is there are too many ways to create an overfitting/biased
algorithm than you can image |
|
s***o 发帖数: 77 | 37 兄弟,不想打击你,ib的数据本身就是就不是真是的数据,你用这个非真实数据做出的
系统如何用在真实的市场里呢?这本身就是一个矛盾。其次,如果你只是有几个策略,
但是没有backtest过,那我可以免费帮你测测,其实也不用测了,结果我可以保证你最
多50%的成功率,加入你说你有策略backtest成功率大于50%,那我几乎可以100%告诉你
,你的策略overfitting,用在未来市场里不会work的。 |
|
j*****n 发帖数: 20 | 38 又到我来回复大家的问题的时候了。
首先,感谢大家的发言。我觉得每个发言都有意义。
还是像我之前所说,希望我能抛砖引玉,大家都能有所收获。
我的邮箱是:[email protected]
/* */
12、兄弟,不想打击你,ib的数据本身就是就不是真是的数据,你用这个非真实数据做
出的
系统如何用在真实的市场里呢?这本身就是一个矛盾。其次,如果你只是有几个策略,
但是没有backtest过,那我可以免费帮你测测,其实也不用测了,结果我可以保证你最
多50%的成功率,加入你说你有策略backtest成功率大于50%,那我几乎可以100%告诉你
,你的策略overfitting,用在未来市场里不会work的。
答:ib的实时数据大概250ms一个,不是真实的tick data,甚至有可能不是exact
snapshot,但是对能在IB上盈利的策略来说效果已经不错了。
可能对数据量需求大的portfolio交易,需要多开几条线,load balance一下。
另外,你可以subscribe别的数据源,同时在IB上做execution.
后半部分我不知道该怎么回答。
13、用ib的数... 阅读全帖 |
|
S****8 发帖数: 401 | 39 你都担心overfit了,那这两个还就只差一个比例系数能说明啥?我概率学的不好,没
看懂你这
TA的思路
[在 guvest (我爱你老婆Anna) 的大作中提到:]
:我去年做过大规模关联搜索,
:有两对股票的关联度让人惊讶的很高。
:........... |
|
S****8 发帖数: 401 | 40 你都担心overfit了,那这两个还就只差一个比例系数能说明啥?我概率学的不好,没
看懂你这
TA的思路
[在 guvest (我爱你老婆Anna) 的大作中提到:]
:我去年做过大规模关联搜索,
:有两对股票的关联度让人惊讶的很高。
:........... |
|
a*******3 发帖数: 220 | 41 崩盘历史上就这么多次,多找几组不同的参数总有能fit出来的。 总觉得这个属于数据
处理中典型的overfit |
|
a***m 发帖数: 5037 | 42 这叫 overfitting
简单直观的例子,
你观察到5个点的位置(事实上来自一条直线),
你想知道第6个点 在什么位置。
你可以构造出无限条曲线(非直线),都能完美通过这5个点的,
如果你用这样的曲线,预测第六个点,结果全都是错的。 |
|
a***m 发帖数: 5037 | 43 你说的没错,模型是越简单,越不容易overfitting, 但过于简单了会 underfitting
我的例子主要跟你解释,为什么一个模型尽管能完美拟合数据,但也可能对预测毫无意
义。 |
|
发帖数: 1 | 44 你说的overfit并不是lz的问题,lz是做backtest,而不是insample test,当然lz也可
能本意是做backtest做成了insample test
underfitting |
|
a***m 发帖数: 5037 | 45 backtest很牛 预测又没用 最常见的问题就是 模型参数过多 overfitting
不对吗? |
|
D*********e 发帖数: 646 | 46 经过一段时间分布改变,参数甚至整个模型都不适用这是很正常的吧,跟overfitting
不是一个概念 |
|
y********n 发帖数: 4452 | 47 感觉AI还在非常初期的阶段。阿法狗根本不会下围棋,只是用了个policy network剪了
很多不必要的branch的下子点,再用穷算算了几十部后的局势而已。
其他玩游戏都是overfitting,因为每个游戏的重复性非常高,所以根本不是AI,是每
步都乱走,然后走对了,就采用,慢慢的一步步破关。
AI可以做的很expert,不过要hardcode很多东西,不可以只用神经系统就可以了。 |
|
j**s 发帖数: 1518 | 48 数据越少,越需要用简单的模型防止overfitting啊
想要增加数据点,可以把上证的成分股加进来,或者去淘宝买更精细的数据
跟你nvda赚的钱相比,买数据花不了几个钱 |
|
E***r 发帖数: 1037 | 49 参数太多,overfit了呗。
就像引力理论一箩筐,但所有符合观测结果的理论中,还是广义相对论最简单,所以被
奉为圭臬。
但股市是人造品,规则都是人定的,涨跌也都是信心和恐惧的反应,所以不存在简单的
描述和预测股市的模型。 |
|
g***e 发帖数: 577 | 50 Thanks for sharing the experience! Such discussion is nice and useful!
This is in a middle of research - I am still exploring this very common
strategy.
I am not sure in this particular case it has overfitted though. The next
step would be test the time frame from any starting point randomly to see
the return/sharpe, in order to avoid the bias of starting time.
On the other hand, it is probably true 90% of research might not end up
finding a profitable strategy - but the outcome is not wasted, ... 阅读全帖 |
|