由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - update 市场统计问题,sales/K
相关主题
市场统计问题,sales/Kqqplot和非参检验
Paired T-test Assumption not Satisfied问个goodness of fit的问题
急请教一个问题:histogram分布的形状how to estimate distance between two distributions? Thanks
两个数列,评价他们是否吻合用啥方法最好如何同时测试2000组数据是否正太分布
[合集] 如何检验normality??想要描述不同种类的random variables之间的correlation有可能吗?
how to determine data fit some distribution? thanksKolmogorov-Smirnov Test Statistic
which nonparametric test shoud I do能用模型拟合或预测debt collection吗?
Kolmogorov-Smirnov test for discrete distributionsnormality check
相关话题的讨论汇总
话题: 折扣话题: group0话题: 并行话题: wilcoxon话题: 数据
进入Statistics版参与讨论
1 (共1页)
T*******8
发帖数: 260
1
之前的帖子被我错误操作给删啦~~做个summary继续请教
两个group,group1给了折扣卷size=n,group2没给size=m。
group1有a个人有消费记录和他们的总消费额b,group有c个人有消费记录和他们的总消
费额d。其他人没有消费,消费额为0。
现在想相比较这两个组的sales per K (例如group1的sale/K=b*1000/n)是不是
significant different。想看看给了折扣卷的这组的sales/K 是不是在统计意义上是
多过另一组的。
我想的是用t-test,但是不知道怎么计算varance什么的。
请专家们看看有什么好办法。
-------------------------------------------------------------------
---------------------------------------------------------
发信人: catforfish (catforfish),
发信站: BBS 未名空间站 (Thu May 15 23:00:15 2014, 美东)
就相当于是比较两组数据:1000*b, 1000*d,b,d分别是size n和m的vector
就是two sample ttest,比较mean是否相同吧
如果假设两组方差一样,有现成的公式 大概把两组数据pool在一起然后算个方差
如果假设方差不一样,一般就是用large sample property了,最后是个渐进normal
dist
--------------------------------------------------------------------
-----------------------------------------------------------
发信人: Target008 (tageite)
谢谢楼上的高手。不过我们不想用所有的data计算Var,1个M的data,太费时间了,有
没有省时间的办法?另外就算用所有的data,数据里很多数据都是0(,这样的数据会
不会有问题啊
--------------------------------------------------------------
--------------------------------------------------------------
发信人: catforfish (catforfish),
发信站: BBS 未名空间站 (Sat May 17 09:28:25 2014, 美东)
你用并行运算吗?var可以并行,var = 所有xi^2的mean - 所有xi的mean,mean大概就
是个sum,你可以几个服务器跑不同部分的data,然后combine一下,并行就不怕数据大
了。
如果有missing的,有可能有问题,比如hidden bias,那些有折扣卷的并且消费的人本
来就有更大可能买东西。这个更可能出现在你formulate group0 和group1的时候,就
是拿到折扣卷的人本来就更倾向于买东西,如果是这样,要用casual inference,比如
matching control and treat
T*******8
发帖数: 260
2
谢谢楼上的高手。
我们的数据就是有很多销售数据是0,大概90%都是吧。这样的数据算Var很不靠谱吧~~
另外楼上能不能多说说casual inference? 这个能不能比较出sales per/K 啊?
如果不行,还有其他方法么?
我们已经知道有折扣卷的人更倾向于消费(但是问题是他们用了折扣卷,当个消费额可
能会比没有卷的人少一些,所以只能比整体的销售额,用每千人的消费额比较)。现在
就是不知道怎么能找出是不是在统计意义上有根本的差别。
c***z
发帖数: 6348
3
K-S
or just plot the histogram with density
c********h
发帖数: 330
4
如果好多是0,就别用ttest了,可以用wilcoxon signed rank test。
你知道折扣券都折扣吗,比如如果是九折,我觉得可以test 是否sales per k in
group0大于group 1的0.9倍?也可以把折扣券的除以0.9?看看用了折扣卷后是不是更
boost消费
如果已经知道有bias,最好先match一下。把group0和group1消费活跃度差不多的用户
Match在一起。

【在 T*******8 的大作中提到】
: 谢谢楼上的高手。
: 我们的数据就是有很多销售数据是0,大概90%都是吧。这样的数据算Var很不靠谱吧~~
: 另外楼上能不能多说说casual inference? 这个能不能比较出sales per/K 啊?
: 如果不行,还有其他方法么?
: 我们已经知道有折扣卷的人更倾向于消费(但是问题是他们用了折扣卷,当个消费额可
: 能会比没有卷的人少一些,所以只能比整体的销售额,用每千人的消费额比较)。现在
: 就是不知道怎么能找出是不是在统计意义上有根本的差别。

T*******8
发帖数: 260
5
K-S 是Kolmogorov-Smirnov Goodness-of-Fit Test么?
histogram with density我也想过,但是对还是想做一下significant test。
wilcoxon signed rank test这个办法我还没试过。感觉会是个解决办法。现在要想想
结果怎么解释比较好,而且不知道跑起来要多久了,希望不要take forever~~如果跑12
个小时能跑下来的话,也还行。我的电脑已经被弄歇菜了一次了~
c********h
发帖数: 330
6
可以先跑一小部分数据,看看结果.
你的数据如果90%是0的话,应该还可以吧,wilcoxon基本就是先rank下control和
treated difference。如果很多是0的话,就只需要rank非零的部分就可以了
不过我觉得,还是要先match一下,不然not comparable

12

【在 T*******8 的大作中提到】
: K-S 是Kolmogorov-Smirnov Goodness-of-Fit Test么?
: histogram with density我也想过,但是对还是想做一下significant test。
: wilcoxon signed rank test这个办法我还没试过。感觉会是个解决办法。现在要想想
: 结果怎么解释比较好,而且不知道跑起来要多久了,希望不要take forever~~如果跑12
: 个小时能跑下来的话,也还行。我的电脑已经被弄歇菜了一次了~

T*******8
发帖数: 260
7
数据是unbalance的,估计做wilcoxon有点问题,差太多,10倍的差别,match可以做,
这个没问题。
K-S是不是比较合适啊。
1 (共1页)
进入Statistics版参与讨论
相关主题
normality check[合集] 如何检验normality??
请问 Kolmogorov–Smirnov (KS) statistic。how to determine data fit some distribution? thanks
如果比较两个curve的形状是不是类是, 用什么方法which nonparametric test shoud I do
如何计算两个分布的相似度Kolmogorov-Smirnov test for discrete distributions
市场统计问题,sales/Kqqplot和非参检验
Paired T-test Assumption not Satisfied问个goodness of fit的问题
急请教一个问题:histogram分布的形状how to estimate distance between two distributions? Thanks
两个数列,评价他们是否吻合用啥方法最好如何同时测试2000组数据是否正太分布
相关话题的讨论汇总
话题: 折扣话题: group0话题: 并行话题: wilcoxon话题: 数据