由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 怎么处理categorical variable有很多个level的
相关主题
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!![Data Science Project Case]Future Income predicting
PCA 可以用在mixture of continuous 和categorical variables (转载)报面筋求实习合租 (转载)
大家对于有很多value的categorical feature都怎么处理?[Road map] From ClickStream to ConsumerInsight
predict的时候对于test data,要不要standardized?用10-fold cross-validation 之后怎么挑Model?
我现在有一个15个variable的回归模型。 有什么系统性的方法去借版面问个machine learning的问题
有没有大牛来classifiy一下 PCA用法吗?我觉得neural network应用范围不大啊
请教大家一个做feature的问题大数据时代的最大挑战(一)?
Project :advertersiment click predictionSE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)
相关话题的讨论汇总
话题: variable话题: level话题: 很多话题: 处理
进入DataSciences版参与讨论
1 (共1页)
m******n
发帖数: 453
1
直接做出那么多个dummy?比如50个州
那是相当于引进了很多个变量吧
这会overfit的吧?
t******g
发帖数: 2253
2
大概可以做个grouping,就是把很多category group到一起,在nlp里面有个比较常用
的方法是one hot encoding
s*********h
发帖数: 6288
3
数据够大就不用担心。
regularization就是派这个用处的。
用标准的train,validate,test流程可以控制overfit

【在 m******n 的大作中提到】
: 直接做出那么多个dummy?比如50个州
: 那是相当于引进了很多个变量吧
: 这会overfit的吧?

s****h
发帖数: 3979
4
hash?
比如按hash function a,搞出3个categories
比如按hash function b,搞出3个categories
这样总共就是6个额外的变量,而不是50个?
N**N
发帖数: 1713
5
fyi
http://www.willmcginnis.com/2016/02/24/beyond-one-hot-sklearn-t

【在 m******n 的大作中提到】
: 直接做出那么多个dummy?比如50个州
: 那是相当于引进了很多个变量吧
: 这会overfit的吧?

g****e
发帖数: 1829
6
Try to standardize the data and use group average as a predictor instead of
dummy. This will make the model more robust.

【在 m******n 的大作中提到】
: 直接做出那么多个dummy?比如50个州
: 那是相当于引进了很多个变量吧
: 这会overfit的吧?

1 (共1页)
进入DataSciences版参与讨论
相关主题
SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)我现在有一个15个variable的回归模型。 有什么系统性的方法去
feature selection的方法求教有没有大牛来classifiy一下 PCA用法吗?
一个面试题(predictive model) (转载)请教大家一个做feature的问题
time sliced classification modelsProject :advertersiment click prediction
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!![Data Science Project Case]Future Income predicting
PCA 可以用在mixture of continuous 和categorical variables (转载)报面筋求实习合租 (转载)
大家对于有很多value的categorical feature都怎么处理?[Road map] From ClickStream to ConsumerInsight
predict的时候对于test data,要不要standardized?用10-fold cross-validation 之后怎么挑Model?
相关话题的讨论汇总
话题: variable话题: level话题: 很多话题: 处理