实际工作中，你们碰到U_shape的曲线，是怎么建模的？ - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 实际工作中，你们碰到U_shape的曲线，是怎么建模的？

相关主题
● 网上哪位比较熟悉分段回归的，能否简单介绍一下其基本的方法论？	● 临界回归模型的连续性
● Re: 关于肖手术的最新review (转载)	● can someone please translate this into english for me?
● 已知两组数据,x,y 要找出function, f(x)=y	● 小结：尘埃基本落定
● how to fit a continuous monotonic piecewise linear spline on some messy data using SAS	● logistic regression用LASSO选择变量合适吗？
● 有无可能做出多变量模型调整后的restricted cubic spline图？	● An R Question: Joint Model for Longitudinal and Survival D
● 抓狂！为啥选出来的predictor都这么差	● 和不很懂统计和DESIGN且不愿接受新东西总以为自己是对的老板工
● Need a help for a paper, Thanks	● baseline function for Cox PH model
● Two more papers needed. Thanks	● help on spline regression

相关话题的讨论汇总
话题: shape话题: 变量话题: 产品话题: 曲线话题: 客户

进入Statistics版参与讨论

1

(共1页)

m******r 发帖数: 1033	1 想想日常生活中，这种例子挺多的。比如消费能力随年龄的曲线，年轻的时候，想消费，没钱；年老的时候，估计也就花花401k,还是没钱。还是在年龄的中间段消费最多，是典型的inverted_u_shape. 以前还做过一个项目是关于某中档产品的销售。目测了一下客户信用记录和购买某产品的关系。信用记录低的，买不起该产品；信用记录搞的，不屑该产品。（有钱就是任性）. recency变量也是一样。客户在不久前购买过类似产品的，就别指望别人再买；如果客户在很久很久以前买过类似产品的，人家估计也把你早忘了. 软件产品也是一样，在试用期，各种功能click少的，说明对该产品没兴趣；click多的，十有八九不知道怎么用这款软件。只有多不多，少不少的，才会convert. 我试验过几种方法处理这种u_shape 变量，都不太成功。贵版高人多，请多多赐教。下面谈谈我失败的教训。 1.不管三七二十一. 上来就回归. 最多处理一下outlier. 这种方法虽然粗糙，其实也 work. 2.变成categorical variable. 一两个变量可能还行，如果有好几十个变量都是这种(u shape) 就傻眼了. 结果是一堆binary variable, 还要考虑interation. 此路不通. 3 spline regression. 理论上可行。试验了一次，结果出来的结果无法解释。比如我预想25岁，60岁左右是cutoff point, 软件做出来的偏偏是40岁。放弃. 4. 変量変换. 加上X^2 term做回归, 效果也不好。 5 更fancy的树啊，森林啊，svm什么的都没试。谁试验过的，可以说说。
h*****m 发帖数: 955	2 我没遇到过，不过一般sample size很大的时候，我就自己选cut off，然后做 piecewise的。一般先考虑Parsimony
m******r 发帖数: 1033	3 谢谢楼上回答。还有其他答案吗？有其他人碰到过类似问题吗？还是我点儿背，全让我碰上了？
m*****n 发帖数: 3644	4 分组做。
m******r 发帖数: 1033	5 多谢回复。如果只是一两个重要变量，分组做是正解。造一个model tree,比如少年组，中年组，老年组；新客户，老客户等等。问题是我现在碰到大量的变量，都是这种U形状，我不太明白应该怎么做。我觉得这是个有实际意义的问题。随便找本专业书，金融，经济，电子，机械，很多领域的基本曲线都是这个样子，S shape, U shape, inverted U shape。形状如W shape的曲线, 在书本里还是少数，因为没法研究比如股票。【在 m*****n 的大作中提到】 : 分组做。
m*****n 发帖数: 3644	6 我能想到的 1，加平方项 2，加interaction X1X2 3,分组。可以根据X1分n组，可以根据X1，X2分nm组 4，找出对y影响最大的1个、2个变量，对他们进行分组 5, 3和2的组合。不需要对所有的x都加平方项，也不需要都交互项。从行业知识或者文献找出影响最大的1-2个x，进行处理。
m******r 发帖数: 1033	7 第五点很有道理。我在实际工作中，用的方法是'东拼西凑法'。先弄一个简单的回归模型，看看大概齐差不多，有那么个意思。然后一点一点往里加个平方项，乘积项，看看性能能改变多少。但这样手工作业太慢了，也没什么理论基础意思不大。所以想见识见识大家有什么牛X 的方法。文: 献找出影响最大的1-2个x，进行处理。【在 m****n 的大作中提到】 : 我能想到的 : 1，加平方项 : 2，加interaction X1X2 : 3,分组。可以根据X1分n组，可以根据X1，X2分n*m组 : 4，找出对y影响最大的1个、2个变量，对他们进行分组 : 5, 3和2的组合。不需要对所有的x都加平方项，也不需要都交互项。从行业知识或者文 : 献找出影响最大的1-2个x，进行处理。

1

(共1页)

进入Statistics版参与讨论

相关主题
● help on spline regression	● 有无可能做出多变量模型调整后的restricted cubic spline图？
● R里面 GAM（）的问题	● 抓狂！为啥选出来的predictor都这么差
● Who has the ebook: smoothing spline ANOVA model by Gu Chong?	● Need a help for a paper, Thanks
● spline regression	● Two more papers needed. Thanks
● 网上哪位比较熟悉分段回归的，能否简单介绍一下其基本的方法论？	● 临界回归模型的连续性
● Re: 关于肖手术的最新review (转载)	● can someone please translate this into english for me?
● 已知两组数据,x,y 要找出function, f(x)=y	● 小结：尘埃基本落定
● how to fit a continuous monotonic piecewise linear spline on some messy data using SAS	● logistic regression用LASSO选择变量合适吗？

相关话题的讨论汇总
话题: shape话题: 变量话题: 产品话题: 曲线话题: 客户

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)