由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请教大家一个做feature的问题
相关主题
DS需要会的手艺 真不少凑热闹转发一篇自己写的博文,轻拍
机器学习需要自己搞算法吗Project :advertersiment click prediction
PRML书上附录697页的矩阵求导是不是写错了?[Data Science Project Case] Parsing URLS
data science 面试求教公司招DATA SCIENTIST
怎么处理categorical variable有很多个level的请推荐一个NLP的data set (转载)
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!text mining中的relation extraction
请问这样的数据应该用什么样的模型适合。借版面问个machine learning的问题
feature selection的方法求教求职要求clearance
相关话题的讨论汇总
话题: 问题话题: feature话题: title话题: dummy话题: manager
进入DataSciences版参与讨论
1 (共1页)
s********0
发帖数: 51
1
现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
_ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
呢?
还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
一个。可是这样的问题如何通过算法来实现呢?
E*********g
发帖数: 185
2
query类似的名字,
或者match之后,直接把manxxxger等都改成manager
先unique title看一下大概的pattern

is

【在 s********0 的大作中提到】
: 现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
: 公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
: 会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
: _ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
: 会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
: manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
: 实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
: 呢?
: 还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
: 一个。可是这样的问题如何通过算法来实现呢?

s********0
发帖数: 51
3
谢谢你的回复!有的时候问题还要稍复杂一点儿,比如两个title是一个意思,比如HM
和hiring manager,但是这样就比较难用match找到。

【在 E*********g 的大作中提到】
: query类似的名字,
: 或者match之后,直接把manxxxger等都改成manager
: 先unique title看一下大概的pattern
:
: is

n*****3
发帖数: 1584
4
简单的 做个dictionary
or 直接 NLP

HM

【在 s********0 的大作中提到】
: 谢谢你的回复!有的时候问题还要稍复杂一点儿,比如两个title是一个意思,比如HM
: 和hiring manager,但是这样就比较难用match找到。

E*********g
发帖数: 185
5
对啊,只有几千个,加一个column就好
又不是几百万个

【在 n*****3 的大作中提到】
: 简单的 做个dictionary
: or 直接 NLP
:
: HM

l*******s
发帖数: 1258
6
关于这些title问题
1. 用edit distance等方法合并同类项
2. 上网找个常用title缩写,自己弄个hash
3. 跑个histogram啥的,找出那些个看上去很奇怪的,往往就是某些写错的或者缩写的
title。手工加入hash
4. 麻烦些,弄个Naive Bayes,加入上下文信息弄个classifier,然后online
learning啊EM啊,最后自动判断合并同类项。
5. 找外面的Vendor。他们有些公司特别擅长做这个。
s********0
发帖数: 51
7
非常感谢楼上几位的回复!那么除了合并一些level之外,对于这类问题还有没有别的
建议呢?现在做了一些diagnosis的工作,发现用glmnet的方法,即使penalty = 0,
training 和 testing的error仍然都非常的高,似乎模型有严重的under fitting。
Random Forest也试过,结果也不好。
E*********g
发帖数: 185
8
如果假设不成立, 再怎么调数据也没有用啊
你能预测出超过20%, 你就了不起了
G***n
发帖数: 877
9
这个问题很难啊,就是数据预处理, 但没有什么好办法。找找相关资料吧,看看怎么
cluster level 的。或者做个语意网络。

is

【在 s********0 的大作中提到】
: 现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
: 公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
: 会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
: _ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
: 会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
: manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
: 实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
: 呢?
: 还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
: 一个。可是这样的问题如何通过算法来实现呢?

h*********d
发帖数: 109
10

is

【在 s********0 的大作中提到】
: 现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
: 公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
: 会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
: _ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
: 会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
: manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
: 实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
: 呢?
: 还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
: 一个。可是这样的问题如何通过算法来实现呢?

1 (共1页)
进入DataSciences版参与讨论
相关主题
求职要求clearance怎么处理categorical variable有很多个level的
说说最近的一次面试,兼告诫国人紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!
[Data Science Project Case] Topic Learning请问这样的数据应该用什么样的模型适合。
求职求内推feature selection的方法求教
DS需要会的手艺 真不少凑热闹转发一篇自己写的博文,轻拍
机器学习需要自己搞算法吗Project :advertersiment click prediction
PRML书上附录697页的矩阵求导是不是写错了?[Data Science Project Case] Parsing URLS
data science 面试求教公司招DATA SCIENTIST
相关话题的讨论汇总
话题: 问题话题: feature话题: title话题: dummy话题: manager