由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - data science 面试求教
相关主题
【JOBS】我们公司的job opening (Data mining in San Diego)NY Data Scientist, Finance Credit
有没有面过machine learning相关职位的牛牛们Google intern 求host match
如何阻止烙印来我们组急招Lead Sr. Machine Learning Algorithm Engineer in Ads
报面筋求实习合租新鲜 A家电面经,并吐槽
Machine learning / data science 面经以及一些总结onsite 归来, bad experience
回馈版面,Amazon onsite面经新码工请教如何处理修bug和开发features (转载)
Adobe内部推荐的机会F-1 to Green Card
大家来讨论一下 software engineer-machine learning || data mining 的要求把。Yahoo面试题
相关话题的讨论汇总
话题: regression话题: feature话题: data话题: science话题: 数据
进入JobHunting版参与讨论
1 (共1页)
m*******4
发帖数: 34
1
本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是
聊的实验室项目, 他们挺感兴趣。
我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我
发了个 data science challenge.
预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位
置, 距离城里多远,有数字类型的, 也有categorical 的。
然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。
要求一周内做出来,
提交代码。描述模型, 选的什么软件, 什么包
何种算法, 怎样选feature, 为什么
怎样分析模型的 accuracy , 用什么方法,为什么选这个方法
那个feature 影响高, 那个影响低, 用什么方法找的。
数据有错误, 要求清洗, 哪些清洗时必要的
---------------------------------
我们实验室就是用用 naive bayes, SVM 啥的。 没人真懂。
我觉得这是回归不是分类。 我上统计课的时候知道些线性回归的皮毛。
觉得此题对版上的人来说是小菜一碟, 特来讨教
z****3
发帖数: 782
2
svn regression, or maybe just linear regression

【在 m*******4 的大作中提到】
: 本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是
: 聊的实验室项目, 他们挺感兴趣。
: 我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我
: 发了个 data science challenge.
: 预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位
: 置, 距离城里多远,有数字类型的, 也有categorical 的。
: 然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。
: 要求一周内做出来,
: 提交代码。描述模型, 选的什么软件, 什么包
: 何种算法, 怎样选feature, 为什么

p*******g
发帖数: 809
3
If the feature number is huge, then it is a high-dimensional regression
problem after suitably dealing with the category data.
The questions are common in regression. You can easily find these answers (
principles, codes, etc) from a regression textbook and internet. But if you
know little about regression models, one week may be not enough.
p*****r
发帖数: 1883
4
房价预测模型主要还是要靠feature engineering,做好不容易,楼主的基本知识和实
战经验可能一周
补不回来,我建议把基本的流程走一遍就好,比如随便挑个模型,做个regression,做
一下cross validation
然后用它的评价函数评价一下结果什么的。然后老实和人说自己不是建模专家但是有基
本功喜欢学习之类的

you

【在 p*******g 的大作中提到】
: If the feature number is huge, then it is a high-dimensional regression
: problem after suitably dealing with the category data.
: The questions are common in regression. You can easily find these answers (
: principles, codes, etc) from a regression textbook and internet. But if you
: know little about regression models, one week may be not enough.

c*******m
发帖数: 522
5
用decision tree。random forest or boosting tree 这两个现在是最popular的了。
网上有现成的library。结果也好分析。
m********4
发帖数: 20
6
建议regression和random forest都用一下,比较一下结果。random forest工业界用的
还是挺多的,结果一般也会比其他的model要好,不过解释性不强

【在 m*******4 的大作中提到】
: 本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是
: 聊的实验室项目, 他们挺感兴趣。
: 我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我
: 发了个 data science challenge.
: 预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位
: 置, 距离城里多远,有数字类型的, 也有categorical 的。
: 然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。
: 要求一周内做出来,
: 提交代码。描述模型, 选的什么软件, 什么包
: 何种算法, 怎样选feature, 为什么

C*****5
发帖数: 67
7
Canonical correlation for both multi-linear regression and data mining? Or
decision tree or random forest or clustering?
p*********g
发帖数: 116
8
搭车问,
如果遇到数据里, 数据里有的行,缺失 1,2 个feature,
不同的行, 可能缺失不同的feature, 怎么处理?
G******n
发帖数: 289
9
impute. 方法很多,看你的数据了,可以用feature mean replace missing value

【在 p*********g 的大作中提到】
: 搭车问,
: 如果遇到数据里, 数据里有的行,缺失 1,2 个feature,
: 不同的行, 可能缺失不同的feature, 怎么处理?

p*********g
发帖数: 116
10
如果丢失的是 categorical 的feature 怎么办呢?
给点参考资料吧

【在 G******n 的大作中提到】
: impute. 方法很多,看你的数据了,可以用feature mean replace missing value
c*******m
发帖数: 522
11

如果用boosting是可以handle missing value的。你可以看看最近比较火的library,
xgboost。

【在 p*********g 的大作中提到】
: 搭车问,
: 如果遇到数据里, 数据里有的行,缺失 1,2 个feature,
: 不同的行, 可能缺失不同的feature, 怎么处理?

1 (共1页)
进入JobHunting版参与讨论
相关主题
Yahoo面试题Machine learning / data science 面经以及一些总结
linkedin Data Scientist回馈版面,Amazon onsite面经
我的面经回馈本版Adobe内部推荐的机会
Open Position (Junior to middle level) (Not A,G,M,F,L)大家来讨论一下 software engineer-machine learning || data mining 的要求把。
【JOBS】我们公司的job opening (Data mining in San Diego)NY Data Scientist, Finance Credit
有没有面过machine learning相关职位的牛牛们Google intern 求host match
如何阻止烙印来我们组急招Lead Sr. Machine Learning Algorithm Engineer in Ads
报面筋求实习合租新鲜 A家电面经,并吐槽
相关话题的讨论汇总
话题: regression话题: feature话题: data话题: science话题: 数据