d******e 发帖数: 7844 | 1 你这完全是跟我抬杠。
你看applied statistics里学的regression是什么难度的你就知道了。ANOVA就是整天
Design Matrix。
至于说Optimization,Functional Analysis和Differential Geometry,Master Level
是没有这种课程的。
根本
differential
optimization? |
|
g***o 发帖数: 230 | 2 I am just saying these courses are the most useful ones for machine learning
research. Never took applied statistics before, you might be right on the
ANOVA stuff...
Level |
|
g***o 发帖数: 230 | 3 I am just saying these courses are the most useful ones for machine learning
research. Never took applied statistics before, you might be right on the
ANOVA stuff...
Level |
|
a***n 发帖数: 404 | 4 谢谢哦~
看了下内容,好像大部分内容也都学过了,从基本的统计到后面的ANOVA等等,不过看
生物的东西我比较头大啊,呵呵。还是对于 Bayesian 抨击 null hypothesis的文章比
较感兴趣,或者不知道有没有什么别的方法可以取代 hypothesis test, 尤其是point
hypothesis test. 假定 point null hypothesis 永远都会被拒绝的话。 |
|
d*****u 发帖数: 17243 | 5 统计里面有这两大阵营。
在自然科学和社会科学领域,长期以来几乎是frequentist的天下,
好多做实验的人对bayesian analysis一无所知
而计算机专业好多人似乎一点也不懂frequentist的东西
有的连基本的t-test, anova都不知道
人工智能里的模型也确实都是bayesian的东西
大家怎么看 |
|
g*****l 发帖数: 424 | 6 【 以下文字转载自 DataSciences 讨论区 】
发信人: greatel (灵致), 信区: DataSciences
标 题: 数据科学之江湖兵器谱
发信站: BBS 未名空间站 (Sun Oct 9 16:57:10 2016, 美东)
【注】原发于微信公众号:data_wisdom
数据江湖,风起云涌。各路英豪,群雄逐鹿。
这是一个数据科学最好的时代,也是数据江湖最乱的时代。
那么在这么一个特殊的江湖里面浪,有什么兵器是值得我们去关注的呢?这篇文章列举
了一些常用方法(刀剑),并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。
数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然,这并不代表数据科学(统计学)的全部。虽
然他并没有提出自己的详细总结,但是有志于学习数据科学的同学不妨初步有个印象,
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域,很多人都会在日常的数据实践中用到。多学有益于身心健康。
首先需要说明的是,这些技术... 阅读全帖 |
|
|
f**y 发帖数: 138 | 8 Is it easy to implement 'anova (analysis of variance)' or 'glm (general
linear model)' with those blas or lapack libs? |
|
d****n 发帖数: 1637 | 9 //please skip if you think it is too simple
download link:
http://ben.klemens.org/pdfs/gsl_stats.pdf
Preface xi
Chapter 1. Statistics in the modern day 1
PART I COMPUTING 15
Chapter 2. C 17
2.1 Lines 18
2.2 Variables and their declarations 28
2.3 Functions 34
2.4 The debugger 43
2.5 Compiling and running 48
2.6 Pointers 53
2.7 Arrays and other pointer tricks 59
2.8 Strings 65
2.9 ¸ Errors 69
Chapter 3. Databases 74
3.1 Basic queries 76
3.2 ¸ Doing more with queries 80
3.3 Joins and sub... 阅读全帖 |
|
c*******o 发帖数: 8869 | 10 good statistician也得依赖软件的精度啊, 要不跑个简单的anova都要每次把sum of
square自己算一遍, 那还干不干别的了? |
|
R******s 发帖数: 16 | 11 Hi, All,
I would like to join this family. As a new member, I wish everybody has a
wonderful career journey and would like to share my experience with you in
the future.
I would like to ask help as well, if you have some experience in the loss
development factor (LDF) analysis. Recently I got a project regarding how
to grouping the territorial LDFs. One idea is based on ANOVA, however, I don
't know how to start it. Have you guys has such experience, what do you
usually do?
Thanks a lot! |
|
d*********u 发帖数: 8 | 12
在分析一组数据,有一个统计小问题.
我的假设是:sum of A, B, C 越大 ,变量Z越大。A,B,C是interval 变量(1 to 10) ,
D是numerical 数值形变量. 但是 ANOVA, correlation, regression 都没什么发现
. 这种情况下应该怎么办? 比如用log 转换 一下? 谢谢! |
|
c**a 发帖数: 94 | 13 一组实验数据6个条件,用 one-way ANOVA 和post test comparison 比较的时候, 任何
两组之间都
没有显著差异, 但是如果用paired t-test比较其中两组 (柱状图看上去差异比较大的
两组) ,p< 0,05.
哪个比较才是对的呢?? |
|
M*P 发帖数: 6456 | 14 one-way ANOVA对。
但是你可以尝试argue你看到的显著性,但是那就要看你的审稿人的水平了。 |
|
s*****0 发帖数: 357 | 15 我总算看明白他的意思了,他其实说得也没什么大问题。因为象t test and ANOVA要考
虑的只是differences between means,CLT让这些test在其样本本身不符合高斯分布也
能work well。
但invoke CLT有一个条件,样本不能太小。不过话说回来,又回到原来的discussion,
即test的robustness被进一步证明而已,不是说t statistic不需要normality
assumption。
其实这么说更直观简洁:如果没有非常weird的分布样本数不小于10-15既可放心使用t-
test;如果有weird的分布所需要的样本数要更大才能invoke CLT,否则只能上
nonparametric。 |
|
D********g 发帖数: 533 | 16 one way ANOVA如果结果没有显著性 那么post-hoc的分析就是不对的。Tukey-Kramer或
者Fisher t test都是不适合用的
对于你的这个情况 可以考虑单单就用student t test比较mean好了。一般来说也可以
接受。 |
|
D********g 发帖数: 533 | 17 我觉得pair comparison如果只是简单的两两条件t test的话 你的type I error的几率
显然是1-(1-alpha)^m (假设m次比较)
但是pair comparison,比如Tukey,在比较两两之间时 不是用的各自的standard dev
而是用的model MSe,所以你的alpha不用做相应调整 就是0.05就够了。这是Tukey-
Kramer方法的优势所在。(All pair comparison) 当然前提是所有的样本符合正态分布
而且equal variance.
而且这个的前提是ANOVA的null hypothesis被reject 也就是model parameter至少一个
不是0.否则的话Tukey没有意义。
err
leve
H0为
Xalpha,
率就
typ |
|
p*****m 发帖数: 7030 | 18 几位统计大牛说的后来我已经跟不上了 为了方便Bio的同志们活学活用 我先抛砖引玉整
几个结论出来好了 如果有问题几位大牛请指正我可以随时加到原帖里面 咱们就不说理
论只说应用吧
从最初的讨论讲起
1 multiple comparison
1.1>多组数据比较均值需要用到ANOVA 如果p
即所有两两比较的均值里至少应该有一组均值不相同。
1.2>此时可以用post hoc test鉴定均值不相同的数据组。这里便涉及到多重比较的cor
rection问题。首先要明确的是不应该简单的用pair-wise test比如student t-test来比
较全部或者部分的组合 因为这样会导致type I error的增大。相应的,应该用某种方法
调整alpha level,比如bonferroni correction(不需要假设pair-wise comparison之
间是否有相关性 认为type I error等于检验次数Xalpha level,因此相应的要把alpha
除以检验次数,是否可以认为是最保守的correction |
|
y***i 发帖数: 11639 | 19 【 在 peoplem (我爱我家) 的大作中提到: 】
玉整
http://graphpad.com/faq/viewfaq.cfm?faq=1081
补充一下,prism的网站上说是,哪怕anova不显著,依然可以用Tukey, Scheffe,
bonferroli等 test检查是否有某个是显著的。
cor
来比
方法
alpha
种
tte
(
违反
查了一下书
中心极限定理说:任何分布,在样本数趋于无穷时,其均值都符合正态分布。
我的理解是:这说明我样本数非常大时,无论分布如何,哪怕是严重违背正态分布,都可
以用ttest。不仅仅是有少数outlier的情况.
科班的同学评价一下这个理解对不对?什么样的样本数算是非常大?
te |
|
t*d 发帖数: 1290 | 20 他在讨论ANOVA中的multi test, q value 在这里没啥用吧。 |
|
d*******a 发帖数: 518 | 21 First, plots are very important in diagnosis and model specification.
Plots can identify problems that no diagnostic tests can do in some cases.
在做所有统计分析前,先看data,plot经常比analysis更重要
所以如果是我,在做 ANOVA 之前,先看看一些plot,看看一些基本的assumption 是否
明显背 violated。
第二,仍然是做analysis 之前,仔细考虑一下 experimental design 是很重要的,it
may help identify some random effects, and improve your statistical model.
A two sample t-test is an easy thing to do, but not necessarily the right
one.
e.g. sometimes a paired-t-test is more reasona |
|
D******n 发帖数: 2836 | 22
很多,11门,
基础课当然是probablility 和 statistical inference, 应用的当然就是,linear
regression。
comparis
regression,anova,design of experiments.
SAS and/or R |
|
|
m******f 发帖数: 4352 | 24 读完大作以后,以前不懂得一个问题,豁然开朗了。佩服。
顺便问一句,目前的统计应用方面工具很杂,one way anova, t-test , 什么whiteney
...
总是搞不清楚。有没有一个解析方法把这些都统一起来,让人便与理解? |
|
D**g 发帖数: 739 | 25 补充一下correlation的误用。生物试验或医学研究里经常会有这种情况:同一SUBJECT
(人,老鼠或者well of 细胞)在N条件下重复测定同一种东西。比如膜片钳做例子通道
,在同一膜片上梯度增加某种离子浓度,然后看通道电流的变化,如此做N个膜片,然
后想看电流跟离子浓度是否相关。如果用一般的回归或ANOVA方法求r是错误的。这里需
要区分WITHIN SUBJECT effect 和 between subject effect。 两者回答的问题是不同
的。有兴趣的请参见:
BMJ 1995;310:446 (18 February)
Statistics notes
Calculating correlation coefficients with repeated observations: Part 1--
correlation within subjects
BMJ 1995;310:633 (11 March)
Statistics notes
Calculating correlation coefficients with repeated observat |
|
|
w******e 发帖数: 1187 | 27 if no need to be super accurate, just do several points for standards and
compare them w/ your sample.
if need to be accurate, may need to consider: 1. the linear range;
2. incubation time;
3. sample condition;
etc
you can also use scatchard plot to get linear curves and use ANOVA |
|
s******y 发帖数: 28562 | 28 I am now very confused about the terms of the statistical tests.
Usually, when we are comparing the mean values for two groups, we will
look at the error bar (SEM) and the difference of the mean values.
If the difference of the mean values are greater than 2x SEM (avarage SEM)
then we usually say these groups are significantly different with P<0.05.
Now the question is: what kind of statistical test are such "rules of
error bar" ? Are they a derivative of the unpaired t-test? Or ANOVA test?
Or o |
|
|
p*****m 发帖数: 7030 | 30 2way anova应该是可以的呀 factor1是treatment factor2是time point,然后你就看
factor1先不显著就行了 也可以就factor1做个posthoc看哪个显著 |
|
s******y 发帖数: 28562 | 31 I am confused because in the Two-way ANOVA there is no way to input the
error bar for the curve. Does it mean when I use this test I don't need
the error bar information? |
|
s*****0 发帖数: 357 | 32 If this is the case, definitely NO 2-way ANOVA.
I do not know your data or what kind of questions you want to answer through
the statistical test, but I will give you one example, and you try to apply
to your own case.
Suppose you have 10 healthy subjects who are under phase I trial and their
PK/PDs need to be recorded. Each individual has his own PK curve (time
series), and now you want to summarize all the information.
You CANNOT treat different data points on a curve as independent and use " |
|
s*****0 发帖数: 357 | 33 SAS,我以为人人都能认得,呵呵.好久不接触别的统计软件了,挑个最顺手的写写,你只要
把那些input data换成你自己的数据就行了.
统计模型是multivariate ANOVA (or MANOVA), 你要想深入了解,查查MANOVA+repeated
measure. 你想要的效果和答案全在里头,p-value就是那个reviewer想看的. |
|
s*****0 发帖数: 357 | 34 No, you don't give the reviewer SAS code but only the model and p-value. SAS
is for Sunnyday. There is no
need to provide formula in the article, just mention name T-test, ANOVA,
linear regression etc.
stats |
|
m*******r 发帖数: 4468 | 35 I think she conclude that "the difference is significant" without citing
which statistic test was used. So you are right, she just need to be more
specific about which was the statistic test was used to calculate the
level of significance, may it be T-test or ANOVA. It looks like to me
thats all the reviewer is asking for, which is a fair ask to me.
SAS |
|
C*********u 发帖数: 811 | 36 using ANOVA to calculate the p value. if p<0.05, it is significant. |
|
y****2 发帖数: 65 | 37 确实是估计每一个marker的effect,我只是用我的PC跑过几百个的marker。
计算量大我总觉得不是难题吧。
对于每个marker只是做个ANOVA,然后有显著性的marker才放在一起,在模型里估计每
个marker效应。
几百万个SNP么?不知道哎。。。
模型肯定比计算的难度更重要点儿。 |
|
x******m 发帖数: 736 | 38 computation should not be a big issue for million snps if you just run anova
. ppl usually run this on linux cluster. it will be done in couples of hours
. |
|
z*******a 发帖数: 165 | 39 比如我实验有3个group, A,B, C, A是control, 我就是要比较B和C, 但是作图的时
候把A, B, C都放上去, 这样我能不能用t-test比较B和C, 而不用one-way ANOVA
呢? |
|
s******s 发帖数: 13035 | 40 只要比B和C的化,更本不需要做A,也不需要Anova.
我猜你是一个0浓度A, 中浓度B,高浓度C,然后比浓度影响? |
|
s*****0 发帖数: 357 | 41 把三组人群的一些baseline characteristic 比如年龄,性别,抽烟(如果是肺癌之类
), 饮食(如果食道癌之类)等
等做个Anova, 看看除了你的snp以外有无其它诱发因素,最后把都significant的
factor 试试fit logistic model, 看看其
中snp的相对贡献。
你的study不是replicative而是exploratory, 不用拘泥于adjusted p, 只是最后得出
结论时要有所保留。文章还是投跟
该疾病相关的杂志,能被接受的可能性很大,毕竟你的study size 不小。如果能把机
理搞明白,并且在另一个
cohort上复制你的multivariate model以及单个snp的significance,下一篇直接上
nature genetics. |
|
e****l 发帖数: 204 | 42 可以到下面的网站看一下:
http://zoonek2.free.fr/UNIX/48_R/all.html
Statics with R
这个教程包含了很多应用的例子。基本上只要看了里面的前四章,就对R有了个大概的感
觉了。
1. Introduction to R
2. Programming in R
3. From Data to Graphics
4. Customizing graphics
后面的十来章就是具体的统计应用方法。看起来有点困难。等有时间在慢慢看吧。
5. Factorial methods: Around Principal Component Analysis (PCA)
6. Clustering
7. Probability Distributions
8. Estimators and Statistical Tests
9. Regression
10. Other regressions
11. Regression Problems -- and their Solutions
12. Generalized Linear Models: lo... 阅读全帖 |
|
h******3 发帖数: 190 | 43 I also think taking a course in statistics is the most helpful. If you
cannot do that, maybe you can read in data from the lab, and do t test,
anova etc. or plot graphs. and start from there. |
|
c*********t 发帖数: 340 | 44 ls正解.但是FWER是讲如果你的tests的purpose和content相近的情况(比如anova那种
情况下的pairwise comparison)
As noted by Hochberg and Tamhane (1987), "If these inferences are unrelated
in terms of their content or intended use (although they may be
statistically dependent), then they should be treated separately and not
jointly" (p. 6). (wiki)
如果文章当中的hypotheses不是这种情况,就没有FWER一说,FDR更适用,没有那么
Stringent |
|
|
o*p 发帖数: 177 | 46 Do you have a justified sample size per group?
Otherwise all analysis will not make sense.
(2
one- |
|
|
a*********f 发帖数: 101 | 48 我也觉得生物应该不算理科。除了做晶体结构,生物信息,流行病学的。生物现在的水
平,落后物理化学几百年。 |
|
s******s 发帖数: 13035 | 49 理科只要能够提出假设,能做实验验证或者证伪就行了,生物很符合啊。
落后物理化学几百年这个是错误的思想。只能说生物量化程度上比较差,
原因是太复杂。宏观经济学量化很强,但是没法设计实验证实,其实这个
才是真的不能算是理科 |
|
O******e 发帖数: 4845 | 50 那物理化学也落后数学千把来年吧。你看古人的数学造诣已经非常厉害啦 |
|