由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问一个机器学习的问题
相关主题
新鲜 A家电面经,并吐槽请问面试被问到 machine learning 问题时
投行前台quant跳buy side quant经历精简版wlab电面面经,攒rp
G家电面一些细节,大家帮忙分析一下(update一下)请教Amazon电面如何准备
Google的bar真心高啊SE/Data scientist找工作总结[F/G/L/T/D/P/U…]
非统计轉 data science 难度系数?感谢板上帮忙,报个G,T,A,Bloomberg面经
一个面试题(predictive model)报面筋求实习合租
投行前台quant跳buy side quant经历offer 选择 facebook apple medallia dropbox
我也报一个面试经历吧报一些面经...
相关话题的讨论汇总
话题: validation话题: model话题: data
进入JobHunting版参与讨论
1 (共1页)
l**********r
发帖数: 47
1
面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了
p*****r
发帖数: 1883
2

如果你真会,会至少说出来regularization。

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

r*g
发帖数: 186
3
降低模型复杂度
有证明说复杂度提高需要的sample volume是指数上涨的?忘了
我能回答的也就是cross validation了

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

o*******4
发帖数: 313
4
Split data 3 ways: train, eval, validation. Train & tune your model using
the validation set, and only use eval for evaluation, never tune parameters
on the eval set.
t*****3
发帖数: 112
5
增加training数据或者regulerization调lambda

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

m**********0
发帖数: 18
6
regularization, bagging, early stopping, add more training data
w********n
发帖数: 4752
7
reduce the complexity of the current model.

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

w********n
发帖数: 4752
8
try a simpler model.

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

w********n
发帖数: 4752
9
In practice, you can do anything about data when data is giving.
You need to reduce the complexity of your model to overcome overfitting.

【在 r*g 的大作中提到】
: 降低模型复杂度
: 有证明说复杂度提高需要的sample volume是指数上涨的?忘了
: 我能回答的也就是cross validation了

r*g
发帖数: 186
10
我也全忘了 刚搜了一下
E(R(fn) - R(f)*) < O(sqrt(Vf) * sqrt(log(n)/(n)))
fn是有n个data时候你设计的classifior
V(f)是这个classifior的复杂度
R(fn)是risk, R(f)*是f类classifior的最优risk
他的期望的bound是随着sqrt(Vf)的增加而增加的
这就是理论上为什么不能把classifior的复杂度设置的太高的原因
因为你无法控制error的上限

【在 w********n 的大作中提到】
: In practice, you can do anything about data when data is giving.
: You need to reduce the complexity of your model to overcome overfitting.

相关主题
一个面试题(predictive model)请问面试被问到 machine learning 问题时
投行前台quant跳buy side quant经历wlab电面面经,攒rp
我也报一个面试经历吧请教Amazon电面如何准备
进入JobHunting版参与讨论
w********n
发帖数: 4752
11
My two cents:
Overfitting arises from two sources:
1. Training data is out-dated and can not represent future.
2. Model is trained too much on training data.
So either getting more new data or reducing model complexity to reduce
overfitting.

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

b********0
发帖数: 62
12
。。我这个半吊子都知道cross validation是用来判断有没有overfitting的
改进和他就没啥关系了吧。。
另外我这个半吊子能想到的 就是对输入的feature vector用个pca之类的 去噪去
correlation降维。。。

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

p*****r
发帖数: 1883
13

前半部分是对的,但是PCA对overfitting没有用的,需要一些feature selection来降
低纬度

【在 b********0 的大作中提到】
: 。。我这个半吊子都知道cross validation是用来判断有没有overfitting的
: 改进和他就没啥关系了吧。。
: 另外我这个半吊子能想到的 就是对输入的feature vector用个pca之类的 去噪去
: correlation降维。。。

l**********r
发帖数: 47
14
面试官说是linear regression的模型,还能进一步简化模型么?感觉已经很简单了啊
w********n
发帖数: 4752
15
You can use lasso to choose feature

【在 l**********r 的大作中提到】
: 面试官说是linear regression的模型,还能进一步简化模型么?感觉已经很简单了啊
L********d
发帖数: 3820
16
regularization, feature selection ....

【在 l**********r 的大作中提到】
: 面试官说是linear regression的模型,还能进一步简化模型么?感觉已经很简单了啊
h********3
发帖数: 2075
17
没有说出regularization的,基本上不大可能过。
cross-validation是估计accuracy的variance,但并不是解决overfit的办法。
cross-validation也不能让你知道是否overfitting。比如,这个P(Y|X)就是random产
生,任何一个model最好的accuracy就是0.5,给你再多的training数据都是这样,你怎
么通过cross-validation知道你的model是否overfitting呢?

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

t*****3
发帖数: 112
18
cross validation画learning curve,如果cross validation error随着数据量的变大
和training error差距始终比较大就说明是overfitting了,反之如果在某个位置交叉
了就是underfitting

【在 h********3 的大作中提到】
: 没有说出regularization的,基本上不大可能过。
: cross-validation是估计accuracy的variance,但并不是解决overfit的办法。
: cross-validation也不能让你知道是否overfitting。比如,这个P(Y|X)就是random产
: 生,任何一个model最好的accuracy就是0.5,给你再多的training数据都是这样,你怎
: 么通过cross-validation知道你的model是否overfitting呢?

r*g
发帖数: 186
19
看你这个语境 那就是regularization了

【在 l**********r 的大作中提到】
: 面试官说是linear regression的模型,还能进一步简化模型么?感觉已经很简单了啊
l*******m
发帖数: 1096
20
这面试官明显不懂ml

【在 l**********r 的大作中提到】
: 面试官说如果一个机器学习的model 过拟合了,要怎么改进,我想到了说 cross
: validation再重新训练,感觉面试官很不满意,应该怎么改进呢?想不到其他方法了

l**********r
发帖数: 47
21
请问为什么这么说?

【在 l*******m 的大作中提到】
: 这面试官明显不懂ml
m****s
发帖数: 1481
22
为了装B

【在 l**********r 的大作中提到】
: 请问为什么这么说?
1 (共1页)
进入JobHunting版参与讨论
相关主题
报一些面经...非统计轉 data science 难度系数?
You are calibrated against candidate pool一个面试题(predictive model)
DNN就是hype投行前台quant跳buy side quant经历
Facebook Intern面经我也报一个面试经历吧
新鲜 A家电面经,并吐槽请问面试被问到 machine learning 问题时
投行前台quant跳buy side quant经历精简版wlab电面面经,攒rp
G家电面一些细节,大家帮忙分析一下(update一下)请教Amazon电面如何准备
Google的bar真心高啊SE/Data scientist找工作总结[F/G/L/T/D/P/U…]
相关话题的讨论汇总
话题: validation话题: model话题: data