由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 感慨一下,学校的知识在实际工作中好苍白,求教两个困惑我许久的实际问题
相关主题
求助:即将遭遇统计的第一个电话面试[合集] odds ratio >999.99
找工作总结 [下]请问关于LOGISTIC REGRESSION FORWARD VS BACKWARD
model的predictors之间有multi-colinearity怎么办?[合集] 请教关于Logistic Regression的问题
Principal Components Analysis 中 factor 选择的问题问个logistic regression的问题。
【大包子】Factor data analysis再问个SAS LOGISTIC REGRESSION的问题。
请教:回归方程中自变量的选取。logistic, overfit了怎么办?
data science 面试求教[R] How to stratify data in R?
PCA拟合问题one question about variable selection in SAS
相关话题的讨论汇总
话题: impression话题: ctr话题: 广告话题: test话题: 实际
进入Statistics版参与讨论
1 (共1页)
p****e
发帖数: 165
1
学统计也好些年了,但是觉得学校学的运用不到实际工作中,以前学课程整天和
regression/distribution/hypothesis test打交道,实际工作数据根本无法满足这些
模型的前提条件。说说我的两个被困扰很久的问题吧:
1. Valid "Impression" Size
比如我希望评价我公司投放的不同广告的表现(比如CTR为一个衡量标准),
impression(表示广告呈现的数量),clicks (表示呈现的广告被点击), CTR:
click-through rate (=clicks/impression)我有不同的广告,相对应的就有不同的
impression, clicks, click-through rate (CTR)
现有A/B两种广告:
A: impression不够,只有10次,被点击了1次,CTR=10%,
B: impression有1000次以上,被点击10次,CTR=1%。
如果只按CTR排序,马上得出A表现好,可是这是在不充分的impression下才有的。
问题就出来了,我现在有A/B/C/.....大概几千种广告,每个impression不一,怎么样
设定一个impression threshold使得我进行CTR的比较有意义?
比如画出所有广告A/B/C...的impression distribution, 然后只保留impression某个
值以上的进行CTR比较.
2. Cluster customer buckets (用户分类预测模型)
比如我们掌握用户信息(收入,性别,年龄,偏好,家庭住址等等30多项),以及这个
用户最后有没有购买我们的产品(有=1,没有=0),假设有用户数据10万个
看过去可以用logistic regression, 可以30多项的items实在不知道如何归类。
参考了一些材料:
1)有建议用principal component analysis or cluster analysis来把+30 items 归类
成 <30 items,然后用logistic regression
2)有建议用decision tree analysis
3)有建议给每个客户算出propensity score,然后排名
但很遗憾都没有找到以上这些模型在用户数据中得具体运用。
感慨一下, 在学校decision tree/PCA/propensity score/logistic reg 都学过,但那
些都是老师的假设数据和例子,一到实际工作中这些知识怎么就活不起来呢?不知道前
辈们有没有什么类似于统计知识在商业数据中运用的实例的书推荐一下。
当然,前辈如果能回答一下我上面两个问题就最好了,万分感谢!
c****s
发帖数: 395
2
第一个先按大中小等等分组
组内再比较吧
第二个30十几个vairables还算好的吧
先explore一下
再stepwise一下吧

【在 p****e 的大作中提到】
: 学统计也好些年了,但是觉得学校学的运用不到实际工作中,以前学课程整天和
: regression/distribution/hypothesis test打交道,实际工作数据根本无法满足这些
: 模型的前提条件。说说我的两个被困扰很久的问题吧:
: 1. Valid "Impression" Size
: 比如我希望评价我公司投放的不同广告的表现(比如CTR为一个衡量标准),
: impression(表示广告呈现的数量),clicks (表示呈现的广告被点击), CTR:
: click-through rate (=clicks/impression)我有不同的广告,相对应的就有不同的
: impression, clicks, click-through rate (CTR)
: 现有A/B两种广告:
: A: impression不够,只有10次,被点击了1次,CTR=10%,

A*******s
发帖数: 3942
3
第一个不懂,不过这个完全是行业知识,和统计没啥关系。
第二个可以考虑variable clustering

【在 p****e 的大作中提到】
: 学统计也好些年了,但是觉得学校学的运用不到实际工作中,以前学课程整天和
: regression/distribution/hypothesis test打交道,实际工作数据根本无法满足这些
: 模型的前提条件。说说我的两个被困扰很久的问题吧:
: 1. Valid "Impression" Size
: 比如我希望评价我公司投放的不同广告的表现(比如CTR为一个衡量标准),
: impression(表示广告呈现的数量),clicks (表示呈现的广告被点击), CTR:
: click-through rate (=clicks/impression)我有不同的广告,相对应的就有不同的
: impression, clicks, click-through rate (CTR)
: 现有A/B两种广告:
: A: impression不够,只有10次,被点击了1次,CTR=10%,

g*********r
发帖数: 2847
4
关于第二个,俺不是做统计的,不过最近在做一个类似的research project。
俺们的variables有几百个,大致思路就是先精简(当然你30+就不用了),然后对于
non-numeric的考虑转化成一些dummy variables,随后risk adjusted,trending 等一
系列处理,接着stepwise,之后具体问题具体分析吧
i****e
发帖数: 46
5
1. 没做过第一个,不过要是我有这个concern的话,就给impression做个outlier分析
,去掉那些极端小的size。
2。 要做missing value check,有太多missing的variable要扔掉,其余的要
imputation,有些变量要做transform, convert continuous variable to
categorical/dummy variable。可以做variable clustering。然后 univariate
analysis,然后stepwise logistic regression。

【在 p****e 的大作中提到】
: 学统计也好些年了,但是觉得学校学的运用不到实际工作中,以前学课程整天和
: regression/distribution/hypothesis test打交道,实际工作数据根本无法满足这些
: 模型的前提条件。说说我的两个被困扰很久的问题吧:
: 1. Valid "Impression" Size
: 比如我希望评价我公司投放的不同广告的表现(比如CTR为一个衡量标准),
: impression(表示广告呈现的数量),clicks (表示呈现的广告被点击), CTR:
: click-through rate (=clicks/impression)我有不同的广告,相对应的就有不同的
: impression, clicks, click-through rate (CTR)
: 现有A/B两种广告:
: A: impression不够,只有10次,被点击了1次,CTR=10%,

s*r
发帖数: 2757
6
question 1:
run a fisher exact test, you see the difference
between 1% and 10% is not significant

【在 p****e 的大作中提到】
: 学统计也好些年了,但是觉得学校学的运用不到实际工作中,以前学课程整天和
: regression/distribution/hypothesis test打交道,实际工作数据根本无法满足这些
: 模型的前提条件。说说我的两个被困扰很久的问题吧:
: 1. Valid "Impression" Size
: 比如我希望评价我公司投放的不同广告的表现(比如CTR为一个衡量标准),
: impression(表示广告呈现的数量),clicks (表示呈现的广告被点击), CTR:
: click-through rate (=clicks/impression)我有不同的广告,相对应的就有不同的
: impression, clicks, click-through rate (CTR)
: 现有A/B两种广告:
: A: impression不够,只有10次,被点击了1次,CTR=10%,

z******n
发帖数: 397
7
对于第一个问题,从实用的角度来讲,是不是这样描述问题更有意义?
假设存在某个CTR的值,例如5%,超过这个值的广告被业界认为是成功的,然后作如下
检验:
H0:CTR_i >= 5%
这个检验很简单,大样本时可以用正态近似,小样本时用二项检验查表,每个广告算个
p-value,然后用bonferroni correction或者其他多重检验校正,这样可以得到一批“
成功”的广告列表
对于比较多个proportion间的差异,理论上可以用Marascuillo test,但是这个检验的
零假设太无聊,更遑论chi-sq test for homogeneity of proportion了
对于这个方法选出的广告,再做两两比较(还要做多重检验校正),这时的问题是得出
的结论可能是矛盾的,比如A比B好,B比C好,但A不比C好之类的。但其实问题不大。

【在 p****e 的大作中提到】
: 学统计也好些年了,但是觉得学校学的运用不到实际工作中,以前学课程整天和
: regression/distribution/hypothesis test打交道,实际工作数据根本无法满足这些
: 模型的前提条件。说说我的两个被困扰很久的问题吧:
: 1. Valid "Impression" Size
: 比如我希望评价我公司投放的不同广告的表现(比如CTR为一个衡量标准),
: impression(表示广告呈现的数量),clicks (表示呈现的广告被点击), CTR:
: click-through rate (=clicks/impression)我有不同的广告,相对应的就有不同的
: impression, clicks, click-through rate (CTR)
: 现有A/B两种广告:
: A: impression不够,只有10次,被点击了1次,CTR=10%,

p****e
发帖数: 165
8
感谢回答,但不理解的是fisher exact test我印象中是在样本容量小的时候用的,我
案例中的impression都是million以上的,怎么查出1-10% difference?
比如如下这个是SAS中Fisher exact test的一些指标,此时样本是60:
Fisher's Exact Test
Cell (1,1) Frequency (F)
Left-sided Pr <=F
Right-sided Pr >= F
table probability (P)
two-sided Pr <=P
Sample Sice = 60

【在 s*r 的大作中提到】
: question 1:
: run a fisher exact test, you see the difference
: between 1% and 10% is not significant

p****e
发帖数: 165
9
感谢givemeoffer回答,很明确的方法。
但能否再追问一下,“risk adjusted", "trending"是什么方法?
另外,你用什么软件来做这样的project?
感谢!

【在 g*********r 的大作中提到】
: 关于第二个,俺不是做统计的,不过最近在做一个类似的research project。
: 俺们的variables有几百个,大致思路就是先精简(当然你30+就不用了),然后对于
: non-numeric的考虑转化成一些dummy variables,随后risk adjusted,trending 等一
: 系列处理,接着stepwise,之后具体问题具体分析吧

p****e
发帖数: 165
10
哇,大牛出山了!感谢回答。
我有个疑问,就是H0假设后,用什么检验来求每个广告的p-value? t-test?
谢谢啦

【在 z******n 的大作中提到】
: 对于第一个问题,从实用的角度来讲,是不是这样描述问题更有意义?
: 假设存在某个CTR的值,例如5%,超过这个值的广告被业界认为是成功的,然后作如下
: 检验:
: H0:CTR_i >= 5%
: 这个检验很简单,大样本时可以用正态近似,小样本时用二项检验查表,每个广告算个
: p-value,然后用bonferroni correction或者其他多重检验校正,这样可以得到一批“
: 成功”的广告列表
: 对于比较多个proportion间的差异,理论上可以用Marascuillo test,但是这个检验的
: 零假设太无聊,更遑论chi-sq test for homogeneity of proportion了
: 对于这个方法选出的广告,再做两两比较(还要做多重检验校正),这时的问题是得出

g*********r
发帖数: 2847
11

俺不是做统计的,所以统计上的术语啥的俺也不懂,其实都不是啥复杂的东西。
risk adjustment 估计你这里用不上。health insurance里面会用risk score来衡量哪
些人群患病几率更大。
trend 就是说,假如去年你产品卖了100件,每件100块,今年随着市场推广,物价上涨
等等种种因素,预期的销售量和销售额都会有变动,就需要通过trending使今年的和去
年的具有可比性。
至于软件,俺们用的SAS

【在 p****e 的大作中提到】
: 感谢givemeoffer回答,很明确的方法。
: 但能否再追问一下,“risk adjusted", "trending"是什么方法?
: 另外,你用什么软件来做这样的project?
: 感谢!

z******n
发帖数: 397
12
你样本这么大,用z-test就行了,和t-test差不多的结果

【在 p****e 的大作中提到】
: 哇,大牛出山了!感谢回答。
: 我有个疑问,就是H0假设后,用什么检验来求每个广告的p-value? t-test?
: 谢谢啦

1 (共1页)
进入Statistics版参与讨论
相关主题
one question about variable selection in SAS【大包子】Factor data analysis
logistic regression结果释疑,解读请教:回归方程中自变量的选取。
a sas logistic modeling questiondata science 面试求教
问大家一个propensity score matching 的问题PCA拟合问题
求助:即将遭遇统计的第一个电话面试[合集] odds ratio >999.99
找工作总结 [下]请问关于LOGISTIC REGRESSION FORWARD VS BACKWARD
model的predictors之间有multi-colinearity怎么办?[合集] 请教关于Logistic Regression的问题
Principal Components Analysis 中 factor 选择的问题问个logistic regression的问题。
相关话题的讨论汇总
话题: impression话题: ctr话题: 广告话题: test话题: 实际