m*******4 发帖数: 34 | 1 本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是
聊的实验室项目, 他们挺感兴趣。
我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我
发了个 data science challenge.
预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位
置, 距离城里多远,有数字类型的, 也有categorical 的。
然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。
要求一周内做出来,
提交代码。描述模型, 选的什么软件, 什么包
何种算法, 怎样选feature, 为什么
怎样分析模型的 accuracy , 用什么方法,为什么选这个方法
那个feature 影响高, 那个影响低, 用什么方法找的。
数据有错误, 要求清洗, 哪些清洗时必要的
---------------------------------
我们实验室就是用用 naive bayes, SVM 啥的。 没人真懂。
我觉得这是回归不是分类。 我上统计课的时候知道些线性回归的皮毛。
觉得此题对版上的人来说是小菜一碟, 特来讨教 |
z****3 发帖数: 782 | 2 svn regression, or maybe just linear regression
【在 m*******4 的大作中提到】 : 本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是 : 聊的实验室项目, 他们挺感兴趣。 : 我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我 : 发了个 data science challenge. : 预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位 : 置, 距离城里多远,有数字类型的, 也有categorical 的。 : 然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。 : 要求一周内做出来, : 提交代码。描述模型, 选的什么软件, 什么包 : 何种算法, 怎样选feature, 为什么
|
p*******g 发帖数: 809 | 3 If the feature number is huge, then it is a high-dimensional regression
problem after suitably dealing with the category data.
The questions are common in regression. You can easily find these answers (
principles, codes, etc) from a regression textbook and internet. But if you
know little about regression models, one week may be not enough. |
p*****r 发帖数: 1883 | 4 房价预测模型主要还是要靠feature engineering,做好不容易,楼主的基本知识和实
战经验可能一周
补不回来,我建议把基本的流程走一遍就好,比如随便挑个模型,做个regression,做
一下cross validation
然后用它的评价函数评价一下结果什么的。然后老实和人说自己不是建模专家但是有基
本功喜欢学习之类的
you
【在 p*******g 的大作中提到】 : If the feature number is huge, then it is a high-dimensional regression : problem after suitably dealing with the category data. : The questions are common in regression. You can easily find these answers ( : principles, codes, etc) from a regression textbook and internet. But if you : know little about regression models, one week may be not enough.
|
c*******m 发帖数: 522 | 5 用decision tree。random forest or boosting tree 这两个现在是最popular的了。
网上有现成的library。结果也好分析。 |
m********4 发帖数: 20 | 6 建议regression和random forest都用一下,比较一下结果。random forest工业界用的
还是挺多的,结果一般也会比其他的model要好,不过解释性不强
【在 m*******4 的大作中提到】 : 本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是 : 聊的实验室项目, 他们挺感兴趣。 : 我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我 : 发了个 data science challenge. : 预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位 : 置, 距离城里多远,有数字类型的, 也有categorical 的。 : 然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。 : 要求一周内做出来, : 提交代码。描述模型, 选的什么软件, 什么包 : 何种算法, 怎样选feature, 为什么
|
C*****5 发帖数: 67 | 7 Canonical correlation for both multi-linear regression and data mining? Or
decision tree or random forest or clustering? |
p*********g 发帖数: 116 | 8 搭车问,
如果遇到数据里, 数据里有的行,缺失 1,2 个feature,
不同的行, 可能缺失不同的feature, 怎么处理? |
G******n 发帖数: 289 | 9 impute. 方法很多,看你的数据了,可以用feature mean replace missing value
【在 p*********g 的大作中提到】 : 搭车问, : 如果遇到数据里, 数据里有的行,缺失 1,2 个feature, : 不同的行, 可能缺失不同的feature, 怎么处理?
|
p*********g 发帖数: 116 | 10 如果丢失的是 categorical 的feature 怎么办呢?
给点参考资料吧
【在 G******n 的大作中提到】 : impute. 方法很多,看你的数据了,可以用feature mean replace missing value
|
c*******m 发帖数: 522 | 11
如果用boosting是可以handle missing value的。你可以看看最近比较火的library,
xgboost。
【在 p*********g 的大作中提到】 : 搭车问, : 如果遇到数据里, 数据里有的行,缺失 1,2 个feature, : 不同的行, 可能缺失不同的feature, 怎么处理?
|