s****h 发帖数: 3979 | 1 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
是专业(文科,理科,工科)
预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
用什么model最合适?
多谢。 |
j*******g 发帖数: 331 | 2 I don't think this is enough to build a model. Which company are you working
for, I don't think you can get anything out of this limited resource
【在 s****h 的大作中提到】 : 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成 : 是专业(文科,理科,工科) : 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行) : 用什么model最合适? : 多谢。
|
s****h 发帖数: 3979 | 3 In general,这个是不太靠谱。
不过,这是一道面试题,可能刚好这些数据能找到些关系。
所以给了这么一组数据,要求的就是利用这些条件。还要判断哪些factor的影响更大。
好些年没弄过Machine Learning的东西了,比较了解的也就是神经网络/遗传算法之类
的。都用不上。
这个好像是要用连续变量的bayes network,或者logisic regression,或者HMM?
working
【在 j*******g 的大作中提到】 : I don't think this is enough to build a model. Which company are you working : for, I don't think you can get anything out of this limited resource
|
j*******g 发帖数: 331 | 4 听上去好像他们要用regression的方法啊 具体怎么实现regression 就有很多种办法了
… 我的意思是也许该想想这样的公司 他们有足够的resource来让你解决问题吗
【在 s****h 的大作中提到】 : In general,这个是不太靠谱。 : 不过,这是一道面试题,可能刚好这些数据能找到些关系。 : 所以给了这么一组数据,要求的就是利用这些条件。还要判断哪些factor的影响更大。 : 好些年没弄过Machine Learning的东西了,比较了解的也就是神经网络/遗传算法之类 : 的。都用不上。 : 这个好像是要用连续变量的bayes network,或者logisic regression,或者HMM? : : working
|
s****h 发帖数: 3979 | 5 我把变量的需要预测的东西名字换了。
他们给的是几组数据,每组数据都有几个连续变量,几个离散变量,做classifier分类。
所有的数据都是已经分好类的。他们要求的是用这些数据做training set,找出分类的
方法。
没有给test set,也许他们自己有test set,拿面试者的结果去test结果好不好。呵呵。
【在 j*******g 的大作中提到】 : 听上去好像他们要用regression的方法啊 具体怎么实现regression 就有很多种办法了 : … 我的意思是也许该想想这样的公司 他们有足够的resource来让你解决问题吗
|
h*****7 发帖数: 6781 | 6 用CART的变种
【在 s****h 的大作中提到】 : 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成 : 是专业(文科,理科,工科) : 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行) : 用什么model最合适? : 多谢。
|
h********3 发帖数: 2075 | 7 一般来说,用logistic regression配合regularization有比较好的效果。
http://en.wikipedia.org/wiki/Multinomial_logistic_regression
【在 s****h 的大作中提到】 : 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成 : 是专业(文科,理科,工科) : 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行) : 用什么model最合适? : 多谢。
|
B*******6 发帖数: 103 | 8 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就
p<=1. 是这样的吗?
【在 h********3 的大作中提到】 : 一般来说,用logistic regression配合regularization有比较好的效果。 : http://en.wikipedia.org/wiki/Multinomial_logistic_regression
|
m*********r 发帖数: 119 | 9 最基本的 logistic regression 应该是可以的
或者NN也是可以的
实际中应该和几种模型比较看看哪个更好预测吧? |
j*******g 发帖数: 331 | 10 I found this very helpful to me when I try to understand Lp ball
http://www.stanford.edu/~montanar/RESEARCH/FILEPAP/MMLP.pdf
160;
【在 B*******6 的大作中提到】 : 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据 : feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 : p<=1. 是这样的吗?
|
|
|
c***z 发帖数: 6348 | 11 maybe you can also consider survival analysis, since there might be time
censoring in your data |
h********3 发帖数: 2075 | 12 可以从Bayesian Learning的角度去看。
regularization就是加了一个prior。
而L1就是Laplace distribution的prior,L2是Normal distribution的prior。
Lp里面,p越大, prior distribution越圆滑(看看密度分布图就知道了)。
如果只是为了做feature selection,一般流行的做法是L1,也就是LASSO,因为
Lapalce distribution很尖,这样得到的coefficient没那么圆滑或者模凌两可。
160;
【在 B*******6 的大作中提到】 : 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据 : feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 : p<=1. 是这样的吗?
|
B*******6 发帖数: 103 | 13 数学上我大概知道个意思。
实际应用上我的感觉是信号处理用L2比较多, feature selection尤其是text用L1或者
以下的比较多, L infinite的我没有经验, 在什么方面会用到L infinite呢?
【在 h********3 的大作中提到】 : 可以从Bayesian Learning的角度去看。 : regularization就是加了一个prior。 : 而L1就是Laplace distribution的prior,L2是Normal distribution的prior。 : Lp里面,p越大, prior distribution越圆滑(看看密度分布图就知道了)。 : 如果只是为了做feature selection,一般流行的做法是L1,也就是LASSO,因为 : Lapalce distribution很尖,这样得到的coefficient没那么圆滑或者模凌两可。 : : 160;
|
r*****d 发帖数: 346 | 14 decision tree, random forest 都很切题,而且能知道哪些predictors最有效,
multinomial model(就是那个prior选狄理克雷分布的model)(multi-class
logistic regression是不是同一个model?)请大牛科普。
neural network (sorry i should say deep learning:) 也很切题,就是那个判断数字
0-9 hand writing的model
虽然这里predictors有实数有离散,但肯定不是问题
【在 s****h 的大作中提到】 : 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成 : 是专业(文科,理科,工科) : 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行) : 用什么model最合适? : 多谢。
|
t*********h 发帖数: 941 | 15 any classifier would make sense. try logistic regression 4 example
【在 s****h 的大作中提到】 : 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成 : 是专业(文科,理科,工科) : 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行) : 用什么model最合适? : 多谢。
|