m******r 发帖数: 1033 | 1 想想日常生活中,这种例子挺多的。 比如消费能力随年龄的曲线,年轻的时候,想消
费,没钱;年老的时候,估计也就花花401k,还是没钱。 还是在年龄的中间段消费最多
,是典型的inverted_u_shape.
以前还做过一个项目 是关于某中档产品的销售。目测了一下客户信用记录和购买某产
品的关系。 信用记录低的,买不起该产品;信用记录搞的,不屑该产品 。 (有钱就
是任性).
recency变量也是一样。 客户在不久前购买过类似产品的,就别指望别人再买; 如果
客户在很久很久以前买过类似产品的,人家估计也把你早忘了.
软件产品也是一样,在试用期,各种功能click少的,说明对该产品没兴趣;click多的
,十有八九不知道怎么用这款软件。 只有多不多,少不少的,才会convert.
我试验过几种方法处理这种u_shape 变量,都不太成功。贵版高人多, 请多多赐教。
下面谈谈我失败的教训。
1.不管三七二十一. 上来就回归. 最多处理一下outlier. 这种方法虽然粗糙,其实也
work.
2.变成categorical variable. 一两个变量可能还行,如果有好几十个变量都是这种(u
shape) 就傻眼了. 结果是一堆binary variable, 还要考虑interation. 此路不通.
3 spline regression. 理论上可行。 试验了一次, 结果出来的结果无法解释。 比如
我预想25岁,60岁左右是cutoff point, 软件做出来的偏偏是40岁。 放弃.
4. 変量変换. 加上X^2 term做回归, 效果也不好。
5 更fancy的 树啊,森林啊,svm什么的都没试。 谁试验过的,可以说说。 |
h*****m 发帖数: 955 | 2 我没遇到过,不过一般sample size很大的时候,我就自己选cut off,然后做
piecewise的。一般先考虑Parsimony |
m******r 发帖数: 1033 | 3 谢谢楼上回答。
还有其他答案吗? 有其他人碰到过类似问题吗? 还是我点儿背, 全让我碰上了? |
m*****n 发帖数: 3644 | |
m******r 发帖数: 1033 | 5 多谢回复。 如果只是一两个重要变量,分组做是正解。 造一个model tree,比如少年
组,中年组,老年组;新客户,老客户等等。 问题是我现在碰到大量的变量,都是这
种U形状, 我不太明白应该怎么做。
我觉得这是个有实际意义的问题。 随便找本专业书,金融,经济,电子,机械,很多
领域的基本曲线都是这个样子,S shape, U shape, inverted U shape。
形状如W shape的曲线, 在书本里还是少数,因为没法研究 比如股票。
【在 m*****n 的大作中提到】 : 分组做。
|
m*****n 发帖数: 3644 | 6 我能想到的
1,加平方项
2,加interaction X1*X2
3,分组。可以根据X1分n组,可以根据X1,X2分n*m组
4,找出对y影响最大的1个、2个变量,对他们进行分组
5, 3和2的组合。不需要对所有的x都加平方项,也不需要都交互项。从行业知识或者文
献找出影响最大的1-2个x,进行处理。 |
m******r 发帖数: 1033 | 7 第五点很有道理。 我在实际工作中,用的方法是'东拼西凑法'。 先弄一个简单的回归
模型,看看大概齐差不多,有那么个意思。 然后一点一点往里加个平方项,乘积项,
看看性能能改变多少。
但这样手工作业太慢了,也没什么理论基础 意思不大。所以想见识见识大家有什么牛X
的方法。
文: 献找出影响最大的1-2个x,进行处理。
【在 m*****n 的大作中提到】 : 我能想到的 : 1,加平方项 : 2,加interaction X1*X2 : 3,分组。可以根据X1分n组,可以根据X1,X2分n*m组 : 4,找出对y影响最大的1个、2个变量,对他们进行分组 : 5, 3和2的组合。不需要对所有的x都加平方项,也不需要都交互项。从行业知识或者文 : 献找出影响最大的1-2个x,进行处理。
|