由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 实际工作中,你们碰到U_shape的曲线,是怎么建模的?
相关主题
网上哪位比较熟悉分段回归的,能否简单介绍一下其基本的方法论?临界回归模型的连续性
Re: 关于肖手术的最新review (转载)can someone please translate this into english for me?
已知两组数据,x,y 要找出function, f(x)=y小结:尘埃基本落定
how to fit a continuous monotonic piecewise linear spline on some messy data using SASlogistic regression用LASSO选择变量合适吗?
有无可能做出多变量模型调整后的restricted cubic spline图?An R Question: Joint Model for Longitudinal and Survival D
抓狂!为啥选出来的predictor都这么差和不很懂统计和DESIGN且不愿接受新东西总以为自己是对的老板工
Need a help for a paper, Thanksbaseline function for Cox PH model
Two more papers needed. Thankshelp on spline regression
相关话题的讨论汇总
话题: shape话题: 变量话题: 产品话题: 曲线话题: 客户
进入Statistics版参与讨论
1 (共1页)
m******r
发帖数: 1033
1
想想日常生活中,这种例子挺多的。 比如消费能力随年龄的曲线,年轻的时候,想消
费,没钱;年老的时候,估计也就花花401k,还是没钱。 还是在年龄的中间段消费最多
,是典型的inverted_u_shape.
以前还做过一个项目 是关于某中档产品的销售。目测了一下客户信用记录和购买某产
品的关系。 信用记录低的,买不起该产品;信用记录搞的,不屑该产品 。 (有钱就
是任性).
recency变量也是一样。 客户在不久前购买过类似产品的,就别指望别人再买; 如果
客户在很久很久以前买过类似产品的,人家估计也把你早忘了.
软件产品也是一样,在试用期,各种功能click少的,说明对该产品没兴趣;click多的
,十有八九不知道怎么用这款软件。 只有多不多,少不少的,才会convert.
我试验过几种方法处理这种u_shape 变量,都不太成功。贵版高人多, 请多多赐教。
下面谈谈我失败的教训。
1.不管三七二十一. 上来就回归. 最多处理一下outlier. 这种方法虽然粗糙,其实也
work.
2.变成categorical variable. 一两个变量可能还行,如果有好几十个变量都是这种(u
shape) 就傻眼了. 结果是一堆binary variable, 还要考虑interation. 此路不通.
3 spline regression. 理论上可行。 试验了一次, 结果出来的结果无法解释。 比如
我预想25岁,60岁左右是cutoff point, 软件做出来的偏偏是40岁。 放弃.
4. 変量変换. 加上X^2 term做回归, 效果也不好。
5 更fancy的 树啊,森林啊,svm什么的都没试。 谁试验过的,可以说说。
h*****m
发帖数: 955
2
我没遇到过,不过一般sample size很大的时候,我就自己选cut off,然后做
piecewise的。一般先考虑Parsimony
m******r
发帖数: 1033
3
谢谢楼上回答。
还有其他答案吗? 有其他人碰到过类似问题吗? 还是我点儿背, 全让我碰上了?
m*****n
发帖数: 3644
4
分组做。
m******r
发帖数: 1033
5
多谢回复。 如果只是一两个重要变量,分组做是正解。 造一个model tree,比如少年
组,中年组,老年组;新客户,老客户等等。 问题是我现在碰到大量的变量,都是这
种U形状, 我不太明白应该怎么做。
我觉得这是个有实际意义的问题。 随便找本专业书,金融,经济,电子,机械,很多
领域的基本曲线都是这个样子,S shape, U shape, inverted U shape。
形状如W shape的曲线, 在书本里还是少数,因为没法研究 比如股票。

【在 m*****n 的大作中提到】
: 分组做。
m*****n
发帖数: 3644
6
我能想到的
1,加平方项
2,加interaction X1*X2
3,分组。可以根据X1分n组,可以根据X1,X2分n*m组
4,找出对y影响最大的1个、2个变量,对他们进行分组
5, 3和2的组合。不需要对所有的x都加平方项,也不需要都交互项。从行业知识或者文
献找出影响最大的1-2个x,进行处理。
m******r
发帖数: 1033
7
第五点很有道理。 我在实际工作中,用的方法是'东拼西凑法'。 先弄一个简单的回归
模型,看看大概齐差不多,有那么个意思。 然后一点一点往里加个平方项,乘积项,
看看性能能改变多少。
但这样手工作业太慢了,也没什么理论基础 意思不大。所以想见识见识大家有什么牛X
的方法。

文: 献找出影响最大的1-2个x,进行处理。

【在 m*****n 的大作中提到】
: 我能想到的
: 1,加平方项
: 2,加interaction X1*X2
: 3,分组。可以根据X1分n组,可以根据X1,X2分n*m组
: 4,找出对y影响最大的1个、2个变量,对他们进行分组
: 5, 3和2的组合。不需要对所有的x都加平方项,也不需要都交互项。从行业知识或者文
: 献找出影响最大的1-2个x,进行处理。

1 (共1页)
进入Statistics版参与讨论
相关主题
help on spline regression有无可能做出多变量模型调整后的restricted cubic spline图?
R里面 GAM()的问题抓狂!为啥选出来的predictor都这么差
Who has the ebook: smoothing spline ANOVA model by Gu Chong?Need a help for a paper, Thanks
spline regressionTwo more papers needed. Thanks
网上哪位比较熟悉分段回归的,能否简单介绍一下其基本的方法论?临界回归模型的连续性
Re: 关于肖手术的最新review (转载)can someone please translate this into english for me?
已知两组数据,x,y 要找出function, f(x)=y小结:尘埃基本落定
how to fit a continuous monotonic piecewise linear spline on some messy data using SASlogistic regression用LASSO选择变量合适吗?
相关话题的讨论汇总
话题: shape话题: 变量话题: 产品话题: 曲线话题: 客户