T*******8 发帖数: 260 | 1 两个group,group1给了折扣卷size=n,group2没给size=m。
group1有a个人有消费记录和他们的总消费额b,group有c个人有消费记录和他们的总消
费额d。其他人没有消费。
现在想相比较这两个组的sales per K (例如group1的sale/K=b*1000/n)是不是
significant different。想看看给了折扣卷的这组的sales/K 是不是在统计意义上是
多过另一组的。
我想的是用t-test,但是不知道怎么计算varance什么的。
请专家们看看有什么好办法。
PS. 每个人的消费额也是有的。 |
c********h 发帖数: 330 | 2 就相当于是比较两组数据:1000*b, 1000*d,b,d分别是size n和m的vector
就是two sample ttest,比较mean是否相同吧
如果假设两组方差一样,有现成的公式 大概把两组数据pool在一起然后算个方差
如果假设方差不一样,一般就是用large sample property了,最后是个渐进normal
dist |
T*******8 发帖数: 260 | 3 谢谢楼上的高手。
不过我们不想用所有的data计算Var,1个M的data,太费时间了,有没有省时间的办法?
另外就算用所有的data,数据里很多数据都是0(没有消费记录),这样的数据会不会
有问题啊 |
c********h 发帖数: 330 | 4 你用并行运算吗?var可以并行,var = 所有xi^2的mean - 所有xi的mean,mean大概就
是个sum,你可以几个服务器跑不同部分的data,然后combine一下,并行就不怕数据大
了。
如果有missing的,有可能有问题,比如hidden bias,那些有折扣卷的并且消费的人本
来就有更大可能买东西。这个更可能出现在你formulate group0 和group1的时候,就
是拿到折扣卷的人本来就更倾向于买东西,如果是这样,要用casual inference,比如
matching control and treat |