data science 面试求教 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - data science 面试求教

相关主题
● 【JOBS】我们公司的job opening (Data mining in San Diego)	● NY Data Scientist, Finance Credit
● 有没有面过machine learning相关职位的牛牛们	● Google intern 求host match
● 如何阻止烙印来我们组	● 急招Lead Sr. Machine Learning Algorithm Engineer in Ads
● 报面筋求实习合租	● 新鲜 A家电面经，并吐槽
● Machine learning / data science 面经以及一些总结	● onsite 归来， bad experience
● 回馈版面,Amazon onsite面经	● 新码工请教如何处理修bug和开发features (转载)
● Adobe内部推荐的机会	● F-1 to Green Card
● 大家来讨论一下 software engineer-machine learning \|\| data mining 的要求把。	● Yahoo面试题

相关话题的讨论汇总
话题: regression话题: feature话题: data话题: science话题: 数据

进入JobHunting版参与讨论

1

(共1页)

m*******4 发帖数: 34	1 本人CS硕，最近在面开发的职位。前几天电面一家公司，本来面后端开发的，但是聊的实验室项目，他们挺感兴趣。我们实验室是做识别的，所以会用到很多classifier. 就聊聊ML的东西。　结果给我发了个　data science challenge. 预测房价，给了几万条training数据，有房价， feature 比如房屋类型，地理位置，距离城里多远，有数字类型的，也有categorical 的。然后又有几万条数据同样类型的feature，没房价，让建模型预测。要求一周内做出来，提交代码。描述模型，选的什么软件，什么包何种算法，怎样选feature, 为什么怎样分析模型的 accuracy , 用什么方法，为什么选这个方法那个feature 影响高，那个影响低，用什么方法找的。数据有错误，要求清洗，哪些清洗时必要的 --------------------------------- 我们实验室就是用用 naive bayes, SVM 啥的。没人真懂。我觉得这是回归不是分类。我上统计课的时候知道些线性回归的皮毛。觉得此题对版上的人来说是小菜一碟，特来讨教
z****3 发帖数: 782	2 svn regression, or maybe just linear regression 【在 m*******4 的大作中提到】 : 本人CS硕，最近在面开发的职位。前几天电面一家公司，本来面后端开发的，但是 : 聊的实验室项目，他们挺感兴趣。 : 我们实验室是做识别的，所以会用到很多classifier. 就聊聊ML的东西。　结果给我 : 发了个　data science challenge. : 预测房价，给了几万条training数据，有房价， feature 比如房屋类型，地理位 : 置，距离城里多远，有数字类型的，也有categorical 的。 : 然后又有几万条数据同样类型的feature，没房价，让建模型预测。 : 要求一周内做出来， : 提交代码。描述模型，选的什么软件，什么包 : 何种算法，怎样选feature, 为什么
p*******g 发帖数: 809	3 If the feature number is huge, then it is a high-dimensional regression problem after suitably dealing with the category data. The questions are common in regression. You can easily find these answers ( principles, codes, etc) from a regression textbook and internet. But if you know little about regression models, one week may be not enough.
p*****r 发帖数: 1883	4 房价预测模型主要还是要靠feature engineering，做好不容易，楼主的基本知识和实战经验可能一周补不回来，我建议把基本的流程走一遍就好，比如随便挑个模型，做个regression，做一下cross validation 然后用它的评价函数评价一下结果什么的。然后老实和人说自己不是建模专家但是有基本功喜欢学习之类的 you 【在 p*******g 的大作中提到】 : If the feature number is huge, then it is a high-dimensional regression : problem after suitably dealing with the category data. : The questions are common in regression. You can easily find these answers ( : principles, codes, etc) from a regression textbook and internet. But if you : know little about regression models, one week may be not enough.
c*******m 发帖数: 522	5 用decision tree。random forest or boosting tree 这两个现在是最popular的了。网上有现成的library。结果也好分析。
m********4 发帖数: 20	6 建议regression和random forest都用一下，比较一下结果。random forest工业界用的还是挺多的，结果一般也会比其他的model要好，不过解释性不强【在 m*******4 的大作中提到】 : 本人CS硕，最近在面开发的职位。前几天电面一家公司，本来面后端开发的，但是 : 聊的实验室项目，他们挺感兴趣。 : 我们实验室是做识别的，所以会用到很多classifier. 就聊聊ML的东西。　结果给我 : 发了个　data science challenge. : 预测房价，给了几万条training数据，有房价， feature 比如房屋类型，地理位 : 置，距离城里多远，有数字类型的，也有categorical 的。 : 然后又有几万条数据同样类型的feature，没房价，让建模型预测。 : 要求一周内做出来， : 提交代码。描述模型，选的什么软件，什么包 : 何种算法，怎样选feature, 为什么
C*****5 发帖数: 67	7 Canonical correlation for both multi-linear regression and data mining? Or decision tree or random forest or clustering?
p*********g 发帖数: 116	8 搭车问，如果遇到数据里，数据里有的行，缺失 1，2 个feature, 不同的行，可能缺失不同的feature，怎么处理？
G******n 发帖数: 289	9 impute. 方法很多，看你的数据了，可以用feature mean replace missing value 【在 p*********g 的大作中提到】 : 搭车问， : 如果遇到数据里，数据里有的行，缺失 1，2 个feature, : 不同的行，可能缺失不同的feature，怎么处理？
p*********g 发帖数: 116	10 如果丢失的是 categorical 的feature 怎么办呢？给点参考资料吧【在 G******n 的大作中提到】 : impute. 方法很多，看你的数据了，可以用feature mean replace missing value
c*******m 发帖数: 522	11 如果用boosting是可以handle missing value的。你可以看看最近比较火的library， xgboost。【在 p*********g 的大作中提到】 : 搭车问， : 如果遇到数据里，数据里有的行，缺失 1，2 个feature, : 不同的行，可能缺失不同的feature，怎么处理？

1

(共1页)

进入JobHunting版参与讨论

相关主题
● Yahoo面试题	● Machine learning / data science 面经以及一些总结
● linkedin Data Scientist	● 回馈版面,Amazon onsite面经
● 我的面经回馈本版	● Adobe内部推荐的机会
● Open Position (Junior to middle level) (Not A,G,M,F,L)	● 大家来讨论一下 software engineer-machine learning \|\| data mining 的要求把。
● 【JOBS】我们公司的job opening (Data mining in San Diego)	● NY Data Scientist, Finance Credit
● 有没有面过machine learning相关职位的牛牛们	● Google intern 求host match
● 如何阻止烙印来我们组	● 急招Lead Sr. Machine Learning Algorithm Engineer in Ads
● 报面筋求实习合租	● 新鲜 A家电面经，并吐槽

相关话题的讨论汇总
话题: regression话题: feature话题: data话题: science话题: 数据

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)