m******n 发帖数: 453 | 1 直接做出那么多个dummy?比如50个州
那是相当于引进了很多个变量吧
这会overfit的吧? |
t******g 发帖数: 2253 | 2 大概可以做个grouping,就是把很多category group到一起,在nlp里面有个比较常用
的方法是one hot encoding |
s*********h 发帖数: 6288 | 3 数据够大就不用担心。
regularization就是派这个用处的。
用标准的train,validate,test流程可以控制overfit
【在 m******n 的大作中提到】 : 直接做出那么多个dummy?比如50个州 : 那是相当于引进了很多个变量吧 : 这会overfit的吧?
|
s****h 发帖数: 3979 | 4 hash?
比如按hash function a,搞出3个categories
比如按hash function b,搞出3个categories
这样总共就是6个额外的变量,而不是50个? |
N**N 发帖数: 1713 | 5 fyi
http://www.willmcginnis.com/2016/02/24/beyond-one-hot-sklearn-t
【在 m******n 的大作中提到】 : 直接做出那么多个dummy?比如50个州 : 那是相当于引进了很多个变量吧 : 这会overfit的吧?
|
g****e 发帖数: 1829 | 6 Try to standardize the data and use group average as a predictor instead of
dummy. This will make the model more robust.
【在 m******n 的大作中提到】 : 直接做出那么多个dummy?比如50个州 : 那是相当于引进了很多个变量吧 : 这会overfit的吧?
|