R*****d 发帖数: 620 | 1 有两组参加fitness的人:中年与青年。
1)对比两组人的职业状况:全职,半职,失业者,学生。(单一选项)
预计青年中全职者参加健身的比率要高于中年中全职者的比率;中年健身者中半职者的
比率高于青年中半职者的比率。(各种职业状况的比率在两组人种都要比较一下)
2)怎样找到健身中心的:社交媒体,朋友介绍,健身老师,张贴广告,。。共8-10项。
假设青年中使用社交媒体找到健身中心的比率高于中年者的比率。其余各种方式也都需
要比较。
这样的情况是Chi-Square, Independent T-test 还是用one-way ANOVA比较好,然后用
post hoc 比较frequency,看是否达到了statistic significance. 选项很多,但只有
两组人。
谢谢! |
H**********f 发帖数: 2978 | 2 binomial/multinomial count数据,比较两组的频率应该用chisq test或者fisher
exact。t test和anova适用于连续型数据,跟这不搭嘎 |
R*****d 发帖数: 620 | 3 谢谢回答。
我先用了 crosstab chi-square, 但chisq只给一个总和的significance, 不区分每组
里category的frequency 是否大到统计上的区别(statistic significane, p<.05,
etc.)
比如chisq只说明青年和中年总体上职业比率的不同,但不能说明是全职方面的比率不
同,还是半职比例的不同,并且是否大到统计意义上的不同。
两组人在同一个变量下:employment status, 然后两组人选择不同的回答:全职,半职
,失业者。。。。不知道是否需要先select cases 用spss, 然后用chiqs.
谢谢!
【在 H**********f 的大作中提到】 : binomial/multinomial count数据,比较两组的频率应该用chisq test或者fisher : exact。t test和anova适用于连续型数据,跟这不搭嘎
|
H**********f 发帖数: 2978 | 4 可以针对每一个职业类型做检验,比如全职,那就把除了全职的其他类型当做一类,数
据pool到一起,做全职vs非全职检验得到p值。然后对其他职业都同样做一遍。最后多
个p值做多重检验校正 |
R*****d 发帖数: 620 | 5 谢谢回答!
并非是要做全职vs非全职的检验。
主要想了解同类职业状况在不同人群中比例的差异。比如在同一个健身房里青年人中40
%有全职工作,而中年健身者中全职工作的只有18%,想得出这两者的比例差异达到了
statistically significant different的结论. 在同一健身房里观察了3年,每年这两
组人的职业比例差异都大到significantly different,所以想得出结论说年轻人中有
全职工作的健身者比中年人的比率高。
用同样的方法也可以作年轻人比中年人更多通过social media找到健身房。这样的情况
可以用select cases, 然后把同是全职的两组年龄的人进行比较,看proportation大的
程度,这样可以吗?
谢谢!
【在 H**********f 的大作中提到】 : 可以针对每一个职业类型做检验,比如全职,那就把除了全职的其他类型当做一类,数 : 据pool到一起,做全职vs非全职检验得到p值。然后对其他职业都同样做一遍。最后多 : 个p值做多重检验校正
|
R*****d 发帖数: 620 | 6 自己顶一下吧,希望有人能帮我回答以下。
谢谢。
40
【在 R*****d 的大作中提到】 : 谢谢回答! : 并非是要做全职vs非全职的检验。 : 主要想了解同类职业状况在不同人群中比例的差异。比如在同一个健身房里青年人中40 : %有全职工作,而中年健身者中全职工作的只有18%,想得出这两者的比例差异达到了 : statistically significant different的结论. 在同一健身房里观察了3年,每年这两 : 组人的职业比例差异都大到significantly different,所以想得出结论说年轻人中有 : 全职工作的健身者比中年人的比率高。 : 用同样的方法也可以作年轻人比中年人更多通过social media找到健身房。这样的情况 : 可以用select cases, 然后把同是全职的两组年龄的人进行比较,看proportation大的 : 程度,这样可以吗?
|
m*****n 发帖数: 3575 | 7 比较各组平均值是否有显著性差异
就是ANOVA
一个经典问题是班上男生的身高是不是平均比女生高
和你的应用场景接近吧?
【在 R*****d 的大作中提到】 : 自己顶一下吧,希望有人能帮我回答以下。 : 谢谢。 : : 40
|
R*****d 发帖数: 620 | 8 谢谢回答:)
和我说的场景不太接近。身高是连续数值(continuous data),和职业身份(
employment status)是categorical data,所以我觉得用chi-square 应该比较好。
【在 m*****n 的大作中提到】 : 比较各组平均值是否有显著性差异 : 就是ANOVA : 一个经典问题是班上男生的身高是不是平均比女生高 : 和你的应用场景接近吧?
|
B******y 发帖数: 9065 | 9
40
你其实应该首先说明你的零假设是什么,就省得别人一开始在ANOVA或是卡方检验纠缠
了。
根据你的描述,你希望的是比较比例的差异,所以卡方检验应该是首选。因为你划分的
类别太细,有可能得用Fisher Exact Test来取代卡方检验。
不过,这些讨论只限于教科书上的范围;也就是虽说理论上你可以这么做,但在实践中
却未必可取。一个明显的例子是LS建议是全职vs非全职的检验,非常合理,而你却还想
细化。通常上2X2 Contingency Table用卡方或Fisher Exact Test,可以延伸到CXR(C
,R>2),但最好不要分类太多,一般3或4就可以了。像你前面那个例子:社交媒体,
朋友介绍,健身老师,张贴广告,。。共8-10项,也就8-10个类别,卡方检验也就非常
不敏感了。如果总体卡方不显著,你也没有必要往下做两两比较;如果总体卡方显著,
你再做两两比较,找到的差异组未必是你期望的。另外一点,划分太多的类别其结果很
难解释,最后往往都到了难以自圆其说的地步。
卡方检验受样本大小的影响也很大。青年人中40%有全职工作,而中年健身者中全职工
作的只有18%,只观察了1个月的数据卡方显示差距不显著。继续观察3年,两个比例不
变,但卡方检验却显示差距显著了。换句话说,只有你肯耐心的等下去,差异都可以让
你等出个显著来。。。
总体来说,感觉你的这个抽样调查设计并不合理,有了结果,列表出来就可以了。试图
用P值,显著性什么的来解释太过牵强了,未必让人信服。
【在 R*****d 的大作中提到】 : 谢谢回答! : 并非是要做全职vs非全职的检验。 : 主要想了解同类职业状况在不同人群中比例的差异。比如在同一个健身房里青年人中40 : %有全职工作,而中年健身者中全职工作的只有18%,想得出这两者的比例差异达到了 : statistically significant different的结论. 在同一健身房里观察了3年,每年这两 : 组人的职业比例差异都大到significantly different,所以想得出结论说年轻人中有 : 全职工作的健身者比中年人的比率高。 : 用同样的方法也可以作年轻人比中年人更多通过social media找到健身房。这样的情况 : 可以用select cases, 然后把同是全职的两组年龄的人进行比较,看proportation大的 : 程度,这样可以吗?
|
R*****d 发帖数: 620 | 10 非常感谢!回答的真是太全面了,明白是怎么回事,下一步该怎么作了。
你介意有空时帮我看一下另外一个关于scatter plot的提问吗?在这里:http://www.mitbbs.com/article_t0/Statistics/31402375.html
像你说的,我虽然跟踪了4个学年,但是 r squaired value 每年都在0.20左右,我觉
得没必要按每学期来作一个scatter plot, 干脆把4年的数据放在一起做个总体的
scatter plot,表现两个变量间没什么correlation. 你觉得怎样?
非常感谢热心回答,祝周末快乐!
(C
【在 B******y 的大作中提到】 : : 40 : 你其实应该首先说明你的零假设是什么,就省得别人一开始在ANOVA或是卡方检验纠缠 : 了。 : 根据你的描述,你希望的是比较比例的差异,所以卡方检验应该是首选。因为你划分的 : 类别太细,有可能得用Fisher Exact Test来取代卡方检验。 : 不过,这些讨论只限于教科书上的范围;也就是虽说理论上你可以这么做,但在实践中 : 却未必可取。一个明显的例子是LS建议是全职vs非全职的检验,非常合理,而你却还想 : 细化。通常上2X2 Contingency Table用卡方或Fisher Exact Test,可以延伸到CXR(C : ,R>2),但最好不要分类太多,一般3或4就可以了。像你前面那个例子:社交媒体,
|
o**y 发帖数: 1084 | 11 response有2个,variables 是categorical, 用loglinear model analysis?
可以用frequence table先看下数据 |