由买买提看人间百态

topics

全部话题 - 话题: chisq
首页 上页 1 2 (共2页)
w*******9
发帖数: 1433
1
来自主题: Statistics版 - test count data distribution in SAS
It's a good idea but the chisq stuff is quite sensitive to the bins you use.

UNIVARIATE
,
l*********s
发帖数: 5409
2
x is normal, x^2 is scaled chisq, which has a closed form mgf
l*********s
发帖数: 5409
3
to use Chisq, each cell observation number must be greater then 5.
g**********y
发帖数: 423
4
来自主题: Statistics版 - 生物统计问题求教
我得到这个数据
CellTypeI CellTypeII CellTypeIII
Hypermethylated 5400 1600 500
Hypomethylated 450 1500 150
用Fisher exact test or chisq test只能说明 methyaltion和CellType是相关的。
但是不能表明CellType中的哪种enriched with hyper or hypo-methylation。
显然,CellTypeI中Hypermethylated的数目比较多,要用什么test来说明
CellTypeI is significantly enriched with Hypermethylation。
另外 Is CellTypeII enriched with Hypomethylation?
Thanks!!!
D******n
发帖数: 2836
5
来自主题: Statistics版 - 请教个简单的统计问题(包子)
chisq test.
z**********i
发帖数: 12276
6
来自主题: Statistics版 - 请教个基本的统计问题
数据:
group class count
1 1 35
1 2 13
1 3 47
1 4 365
2 1 230
2 2 400
2 3 370
2 4 4000
我想比较2个group 在这4个CLASS中,COUNT是否有差异.
用了
PROC FREQ DATA=ONE;
WEIGHT=COUNT;
TABLES GROUP*CLASS/CHISQ;
RUN;
这样,得到了OVERALL P VALUE.但如果我想知道具体是哪个CLASS有差异,应该用什么呢?
多谢!
a****g
发帖数: 8131
7
来自主题: Statistics版 - sample size calculation请教
我用nQUERY
我尝试着用one sample chisq-test
with null hypothesized rate as .05
alternative proportions 分别为。1, 。15, 。20,
然后取最保守的值
你觉得这个方法有什么问题吗?谢谢
z**********i
发帖数: 12276
8
把你的数据转换一下,类似这样的CODE可以.
proc freq data=;
weight count;
tables * /chisq ;
run;
n**m
发帖数: 156
9
来自主题: Statistics版 - 问一个chisq-test的问题
现在手里有个survey。
是一个survey问题,有5个答案选项,问control和treatment。这个问卷一年里一共问
了11次。
research manager让我求average count,然后做test比较control和treatment。
我用average count做了chi-sq test,比较出来的结果p-value大概0.1。
然后我自己test,又做了一个count sum,把11次的问卷count加起来,然后比较,发现
chi-sq statistics乘了11倍,p-value变成<.0001
sumcount的数据像这样
1 2 3 4 5
treatement 500 700 1300 600 50
control 300 400 1300 400 46
请问一下我这么做有什么问题吗?
a****g
发帖数: 8131
10
来自主题: Statistics版 - 问一个chisq-test的问题
这里的问题是你如何justify你为什么要做average 或者 做sum
n**m
发帖数: 156
11
来自主题: Statistics版 - 问一个chisq-test的问题
做average的话是和原来的sample size保持一致
我考虑做sum的话是觉得,如果把这个考虑成poisson分布的数据的话,sum才是真真收
集到的count数据啊。
不过11次重复做的时候,里面是不是有相关性之类的问题,这个我有点晕。
s*r
发帖数: 2757
12
来自主题: Statistics版 - 问一个chisq-test的问题
如果每一次是independent的,那么sum的结果比较接近正确
如果你是对同一群人问11次,那么average的结果比较接近正确,你看到的巨小的p-
value是因为你在把correlated response 当初independent的过程中underestimate
standard error
t**c
发帖数: 539
13
来自主题: Statistics版 - 问一个chisq-test的问题
我觉得这个问题用3-way table比较合适,把时间作为一个变量 (= 1 ... 11)。
用SAS, PROC FREQ ....; TABLES TIME*GROUP*CHOICE/CMH;
用Breslow-Day Test来检验GROUP 和 CHOICE之间的关系对各个level的时间来说是否一
致。如果一致,CMH test会给出overall GROUP和CHOICE之间是否独立。
不过我试了一下,貌似当变量如果不止2个level的话,SAS不会给出Breslow-Day Test
的结果。不知道别的软件可不可以。
z******n
发帖数: 397
14
来自主题: Statistics版 - 问一个chisq-test的问题
用CMH是正解,不过a nonsignificant CMH statistic suggests either that there
is no association or that no pattern of association has enough strength or
consistency to dominate any other pattern.因此没有必要用BDT,BDT对每个组的样
本量有要求,而且零假设是检验2×2表的odds ratio在不同的组间有无差异,因此对于
一般2×K的表没有定义。别的软件也不会有相关输出

Test
z******n
发帖数: 397
15
来自主题: Statistics版 - 问一个chisq-test的问题
求和明显没道理,同一批人,相关是必然的。这样做相当于变相增大样本量,p-value
减小意料之中
n**m
发帖数: 156
16
来自主题: Statistics版 - 问一个chisq-test的问题
恩,求和没道理

value
s*r
发帖数: 2757
17
来自主题: Statistics版 - 问一个chisq-test的问题
哪里说是同一批啦 我看数字变化那么大,说不定每次都是新人

value
s*r
发帖数: 2757
18
来自主题: Statistics版 - 问一个chisq-test的问题
cmh也要求 independent sample
D*********2
发帖数: 535
19
来自主题: Statistics版 - 问一个chisq-test的问题
RE.
p***r
发帖数: 920
20
来自主题: Statistics版 - 问一个chisq-test的问题
U need clearly define the experiment unit and repeated measurement then you
know which method is right

★ 发自iPhone App: ChineseWeb - 中文网站浏览器
z******n
发帖数: 397
21
来自主题: Statistics版 - 问一个chisq-test的问题
呃,我选择性忽略了。。。那就有问题了。。。
n*****n
发帖数: 3123
22
来自主题: Statistics版 - 假设检验的问题
Suppose X,Y are independent.
By central limit, large number, and slutsky, we have, under H0,
mnD^2/((m+n)S(1-S)) --> chisq(1) in distribution.
For example if alpha=0.05, we reject the null if
mnD^2/((m+n)S(1-S))>3.84
a***e
发帖数: 1627
23
Year gap Total Group 1 group2 group3 p-value
1 515(82.1) 216(81.8%) 233(85%) 66(74.2%) <0.0001

2 90(14.4%) 42(15.9%) 33(12.0%) 15(16.9%) 0.564

3 22(3.5%) 6(2.3%) 8(2.9%) 8(9.0) <0.0001
请问sas,用什么方法求得p-value啊?
我用chisq, proc freq, anova。。方法用尽了,怎么都求不出这个0.564.。。请大家
帮忙啊
双黄包
a***e
发帖数: 1627
24
我觉得是不是要比较的是 在同一年份中,null hypothesis 是说三个group的
proportion 假设是相同的。。但是不是应该用chisq吗?
但是三个group,我定义的是(33.333,33.333,33.334)。。。
可是根本得不到这个p-value答案
a***e
发帖数: 1627
25
可是我用chisq 这三个year gap 都是小于 0.0001的

value
a*****9
发帖数: 1315
26
我正好碰到同样的问题, 不过处理的是survey data 更烦
如果只是求各自的p-value 就用proc logistic
model ( ref= )
where ( 限定你要比较的组)
我求过, 应该可以得到预想的值。
如果用proc freq / chisq ,得到的是整体的p, 不一样。
你可以放狗搜, 很多paper
k*******a
发帖数: 772
27
来自主题: Statistics版 - 请教:怎么估计样本方差的方差
如果 Y是normal的话
(n-1)Sy^2/SIGMAy^2 ~ Chisq(n-1)
可以从中求出 var(Sy^2) 是 SIGMAy^2 的函数
b*****n
发帖数: 685
28
简单就用chisq,要不就smirnov
b*****n
发帖数: 685
29
简单就用chisq,要不就smirnov
s*******e
发帖数: 370
30
来自主题: Statistics版 - 想问一下怎么看p-value
想问问应该看那个p-value呢?
我想看看某种病的发病率每年是不是升高。code如下。
proc genmod data=p;
CLASS ID ;
model case=year /dist=nb link=log offset=logpop type3;
repeated SUBJECT=ID/TYPE=AR(1) CORRW;
run;
但是结果有2个p-value可以看。 一个是GEE parameter estimate那里,另外一个是
Score Statistics For Type 3 GEE Analysis。
应该看哪个呢?
非常感谢!
Analysis Of GEE Parameter Estimates
Empirical Standard Error Estimates
Standard 95% Confidence
Parameter Estimate Erro... 阅读全帖
k*******a
发帖数: 772
31
来自主题: Statistics版 - 新手问一个很基础的SAS code问题
假设 你又一个categorical variable X 和 一个 categorical Gender
你要比较 X的每个level里面 Male 的proportioan是否 一样
proc freq;
table X*gender /chisq;
run;
P*****r
发帖数: 554
32
来自主题: Statistics版 - 请教两个binomial dist.的比较
LRT or chisq?
l********w
发帖数: 101
33
来自主题: Statistics版 - 请教两个binomial dist.的比较
frequency tables+chisq?
g******2
发帖数: 234
34
来自主题: Statistics版 - 请教两个binomial dist.的比较
chisq test still has minimum cell count requirement, so fisher's exact test
might be better.
e**p
发帖数: 4259
35
来自主题: Statistics版 - 生统的Dr.PH是什么样的一个水平?
老板在我休假的时候,招了个Dr.PH in biostatistics,印度人,是那种带有方向(
southern之类的)的学校毕业的,不知道是州立的还是community college,我没有参加
面试。
她上班第一天,我问她会什么,说dissertation做的是missing data, 比较normal
distribution,chisq distribution, T distribution data,用multiple imputation
的方法来做,有啥优缺点。。。然后问她,用什么软件做的,她说用的是SAS,data哪
来的,simulate的,时间关系,我没有继续问她毕业论文的问题
然后问她,除了SAS,会其他软件么?说会R,我问,会METLAB,C++等么,回答“不会
”,然后继续问,会unix,linux操作系统么,回答'不会';然后继续问,SAS会macro么
,不会;sql呢,她问,是不是sequence?
我继续问,知道prediction model么,说不知道,一脸茫然,然后给她提示,说天气预
报的预测模型;还是一脸茫然,然后给她讲breast c... 阅读全帖
T*******I
发帖数: 5138
36
来自主题: Statistics版 - 生统的Dr.PH是什么样的一个水平?
在很多人看来,统计学的水太深了,而一些人则搅混了这趟深水,令很多人望而却步。
其实,统计学原本是一件简单的事情,就是按照某种哲学思维解决关于认识世界的问题
。这也就是说,任何一个从事某一领域(例如天文、气象、物理、化学、 生物、政治
、经济、教育、医学、农学、体育,等等,当然,搞经典式纯数学的人可以被除外)的
研究和探索的人都应该是一个统计学家。
会不会unix,linux或者METLAB,C++都不重要。在一般情况下,SAS的语言、函数库和统
计模块等的综合应用可以为构建新的统计算法提供充分的解决方案。根据个人经验,
SAS的MACRO在构建新统计方法时是用得很多的,可以节省大量的时间和空间。
你问她“知道prediction model么?”我想如果你问题“知道regression model么”,
她应该会回答说知道。至于对估计的model参数的validation,这个问题我在此前和版上
的几位大佬们有过切磋。我的一个基本观点是,统计学应该是尽可能用全部的数据(即
从外部世界获得的全部经验事实)建立结论体系,而不是从已经得到的全部经验事实中
再随机地抽取一部分建立模型,然后用剩... 阅读全帖
z******n
发帖数: 397
37
如果局限到linear reg的score test,大致可以有一个比较全面的回答。欢迎指正
假设y x1 x2都已经中心化和标准化
y=b1*x1+ b2*x2 + e
记T1^2为 y=c1*x1 + e的score statistic (数值上大致等于Wald stat的平方)
T_2^2 为 y=c2*x2 + e的score statistic
简单计算表明H0: b1=b2=0的score statistic有形式
T= (T1^2 - 2*r*T1*T2 + T2^2)/(1-r^2)
r是correlation(x1, x2)
所以对于绝大部分情况,给定T1^ 和 T2^2充分大,且 r < 0时,你的回答应该是对的
。如果r > 0,则不一定,因为r对于分子分母的影响是同向的。这也是为什么对于两个
负相关的因子,联合起来考虑通常能提高power;对于正相关的情形,则未必,因为检
验统计量的增大(甚至减小)未必能抵消df增大的影响。
对于独立的情形,r=0,这时候T=T1^2 + T2^2 ~ chisq(df=2),大概也是对的,要看具
体的significant t... 阅读全帖
z******n
发帖数: 397
38
这种情况我在4楼有讨论,结论仍然是各种情况都可能发生。下面是对应于你提到的情
况的一个数值例子
set.seed(29)
library("mvtnorm")

n<-100
rho<--.9
bet<-c(.1,.1)
sigma<-matrix(c(1, rho, rho, 1), ncol=2)
x<-rmvnorm(n, sigma=sigma)
e<-rnorm(n,sd=.5)
y<-x%*%bet+e

data<-data.frame(y, x)
colnames(data)<-c("y", "x1", "x2")

pv.x1<-summary(mdl)$coefficients["x1", "Pr(>|t|)"]
pv.x2<-summary(mdl)$coefficients["x2", "Pr(>|t|)"]
pv.jnt<-anova(mdl0, mdl, test="Chisq")[2, "Pr(>Chi)"]
> c(pv.x1, pv.x2, pv.jnt)
[1] 0.03195767 ... 阅读全帖
c********h
发帖数: 330
39
Asymptotic equivalent吧
一个应该是score test,另一个是likelihood ratio test taylor展开,渐进分布都一样
b*****e
发帖数: 5
40
谢谢楼上的,可是还是不明白呀,能具体说说吗?null应该是good fit,我印象中score
test, 不都应该是H0: theta=theta0 之类的吗,stat是s(theta0)^2/I(theta0), 那
theta0在这种情况下是什么呀?
另外你说的LRT taylor展开是什么呀,我只见过likelihood一阶导展开,你说的是LRT
statistic 展开?那是around什么展开呢,很困惑呀。。。
A****t
发帖数: 141
41
这只是同一个test statistic的两个不同写法,都是pearson chi square. 第一个应该
是(o_ij-e_ij)^2/e_ij对i,j求和。如果是binomial dist那每个covariate class对应
两种responses所以对j求和,你就会发现跟第二个式子是一样的
c********h
发帖数: 330
42
你做goodness of fit也是h0: theta = theta0,theta0是在h0的dist下,在每一个区
间内的概率
LRT那里面会有个log,就是对log展开,扔掉一个little op项
这两个检验,还有Wald test都是asymp equivalent,极限分布一样

score
LRT
b*****e
发帖数: 5
43
非常感谢,对binomial的情况我明白了. 那如果in general, 把Pearson's 写成(y_i-
mu_i_hat)^2/(V(mu_i_hat)/w_i) 加和,其中V是variance function, w_i 是weight,
那跟(o_i-e_i)^2/e_i对i求和还一样吗?(这时只有i没有j对吗?)
谢谢!!
b*****e
发帖数: 5
44
万分感谢你的回答!那是不是对binomial,每个theta0(我后面用的是pi_i_0)就是相应
的yi/ni,因为与data完全吻合相当与good fit?就是saturated model. 你说的展开是
否为:对每个i, logL(pi_i_0)=logL(pi_i_hat)+0+1/2*(pi_i_0-pi_i_hat)^2*logL''
(pi_i_hat) +...得到LRT stat 约等于 (pi_i_0-pi_i_hat)^2*-logL''(pi_i_hat), 然
后能得到pearson里的(y_i-n_i*pi_i_hat)^2/(n_i*pi_i_hat*(1-pi_i_hat))?可是我
好像得不到这个结论呢。因为LRT里是-logL''(pi_i_hat)=yi/pi_i^2 + (ni-yi)/(1-
pi_i)^2,没有expectation代入mle,是observed info; 如果是取了expectation再代入
mle,就是wald's test的分母,倒是可以得到结论。 你说的score test难道是等同于(O_
i-E_i)^2/E... 阅读全帖
c********h
发帖数: 330
45
来自主题: Statistics版 - chi-square test问题
frequency
chisq-test的来源就是看frequency
f***l
发帖数: 117
46
来自主题: Statistics版 - chi-square test问题
谢了,才发现chisq-test不是scale invariant的
c********h
发帖数: 330
47
性别,年龄这种的在 population应该每年都有年报,还有个州的
你可以用你的sample做个goodness of fit test,可以用chisq test,也可以用k-s
test
r*******L
发帖数: 65
48
非统计专业菜鸟提问
two way table的两个变量之间知道用proc surveyfreq chisq 检测相关性,但是同样
的survey,不同时间的结果,想要进行比较,看看相关性有无变化,用什么code啊?好
像multi way table只是给出最后两个变量的相关性,前面的变量都是作为control因子
的。谁来帮着解答一下?
a*******g
发帖数: 80
49
来自主题: Statistics版 - sensitivity and specificity
最近课题
1要评估诊断方法,我计算了sensitivity 和 specificity,有没有什么staistics 可
以综合评估这个诊断方法 比如把这两个%加起来 感觉有点扯啊
2 我们想比较这个诊断方法在不同病人身上的表现 我打算计算每个小组的
sensitivity 和 specificity 然后分别有chisq检验 可以吧 因为各小组病人不重叠(
比如 男病人和女病人) 满足indenpendent原则 但是如果病人在不同小组有重叠该怎么
检验呢 比如胖的病人和男的病人 其中必然有些男胖病人 该怎么办
2如果比较不同的诊断方法 1和2 病人都是同一群 该用什么检验方法 mcnemar 比较
paired data 但和这个没关呀
听听大拿们的建议
多谢!
首页 上页 1 2 (共2页)