l***y 发帖数: 4671 | 1 我认为你俩都是经典错误 :D
错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
全错误的用法。没有任何假设检验可以说明这个问题。
假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
误决策所带来的损失(alpha)。
所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接
的经济损失。在学术上,会导致把研究资源投入到把不显著的差异上,错误立项,惨淡
收场。
换而言之,只要肯加大 sample size,总能通过 t-test,但是对于决策来说没有意义。
而你的统计思想是对的,数学上是不成立的。你说的是在做 classification 时的
false p... 阅读全帖 |
|
l***y 发帖数: 4671 | 2 我认为你俩都是经典错误 :D
错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
全错误的用法。没有任何假设检验可以说明这个问题。
假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
误决策所带来的损失(alpha)。
所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接
的经济损失。在学术上,会导致把研究资源投入到把不显著的差异上,错误立项,惨淡
收场。
换而言之,只要肯加大 sample size,总能通过 t-test,但是对于决策来说没有意义。
而你的统计思想是对的,数学上是不成立的。你说的是在做 classification 时的
false p... 阅读全帖 |
|
C*******e 发帖数: 4348 | 3 本科时候学的生统已经全忘光光了
求教一下问题应该选择哪种statistic test:
4个group
每个group样本大小已知
分别是a, b, c, d
每个样本各有normalized value X
所以每个group里有个通过样本算的平均值和Standard Deviation
每个group做box plot以后都是比较偏的分布
比较其中2个group的X值significantly higher than the other two groups
1.用什么test?
2.样本数小于多少就不适用?
先谢~ |
|
l**********8 发帖数: 10 | 4 不过前提是每个group的样本数怎么着都得上10吧 |
|
C*******e 发帖数: 4348 | 5 其实一共是6个group
样本数是20, 25, 4, 11, 11, 6
是不是就是说4,6的两个group就不能用这样的test了 |
|
t*d 发帖数: 1290 | 6 关键是没有好的 readout。你说得这个试验说明不了问题,一个是样本数太少,二是
blood cell 和 皮肤细胞不一定是合适的 readout。要找到好的readout可能就需要几
代人的时间。 |
|
a****d 发帖数: 1919 | 7 刚看到这部分,还是持保留意见:
“在上述重大发现的基础上,课题组与普罗吉生物科技发展有限公司合作,攻克一系列
技术难题,成功研发出性能稳定的“Hsp90α定量检测试剂盒”。此后,在以中国医
学科学院肿瘤医院为组长单位的多家医院共同参与下,完成了世界上首个以Hsp90α
作为肿瘤标志物的临床试验,总样本数达2347例,成功证明了Hsp90α是肺癌相关肿
瘤标志物,可用于患者病情监测和疗效评价。这种试剂盒2013年获得国家第三类(最高
类别)医疗器械证书,并通过了欧盟认证,获准进入中国和欧盟市场。
同时,Hsp90α肿瘤标志物具有广谱的特性,用于肝癌、乳腺癌、结直肠癌
等其他多个瘤种的临床试验将在近期完成。如能得到验证,试剂盒还可在多种常见肿瘤
中应用。
罗永章说,与其他肿瘤检测手段相比,肿瘤标志物更方便快捷,成本也大大降
低。只需取一滴血,即可通过这种试剂盒检测血浆中Hsp90α的含量。如果含量超出
正常值范围,建议采取其他手段进一步确认。有些肿瘤患者尽管并未表现出相关症状,
但其Hsp90α含量可能已经升高,如果再进行深入检查,就可能被确诊为肿瘤,这能
使患者早日接受治... 阅读全帖 |
|
T****i 发帖数: 15191 | 8 你楼下说的对。不过即使你说的对,很多人在用SEM的原因也是因为差异太小,用SD的
话,error bar 都有重叠了。如果增加样本数,显然他们不愿意做。所以三个样本就用
SEM。这也是为什么很多结果重复性差的一个原因。 |
|
T****u 发帖数: 424 | 9 RT-PCR 结果的计算方法
未名 三楼楼长 03-25-2011
RT-PCR 技术已经推广了有些年头。但从众多已发表的文章中不难看出,很多试验
者的计算多多少少都存在问题。甚至,有些介绍算法的文章都存在明显的错误。因
此,有必要对试验人员讲解计算方法。这样不仅可以尽可能避免计算错误,也能更
好地理解RT-PCR 原理。以下讲解只针对单色RT-PCR,也就是说,在任意一个
well 里,只能用一对primers 检测一个样品。
一、RT-PCR 到底要测什么?
RT-PCR(这里,RT 指 real-time。区别于rt:逆转录)是量化基因表达的一种方
法。如果说western blot 是针对蛋白水平,RT-PCR 就是针对mRNA 水平。
基因表达在蛋白水平上,已经经过了多个数量级的放大。或者说一个mRNA 模板
分子可以翻译出无数蛋白分子。所以,蛋白可以很容易地用抗体探测到。但
mRNA 数目太少,直接用探针检测有困难。所以必须要人为放大扩增才能检测
到。这就是PCR 的目的。
不管是先做逆转录得cDNA,再做PCR,还是逆转录+PCR 一气呵成,RT-PCR 归
根结底是以m... 阅读全帖 |
|
|
w****a 发帖数: 1623 | 11 可以做一个很简单的实验来看看着凉跟感冒有没有关系。大家晚上睡觉把暖气开小点,
被子少盖点,或者出去跑步到出汗,然后再脱掉点衣服让风吹一吹,把老婆孩子都带上
增加样本数,过几天大家都来这儿报一报有没有感冒。 |
|
i*********s 发帖数: 97 | 12 当然不能进行充分统计,统计的意义本身就在于不必穷其所有。治病也是一样,能治好
90%的人就已经很足够了。医学其实是一门技术,无论西医中医,作为技术它要求的是
有效性而不是知道所有的原理,所以研究的对象不是要研究所有的影响因素的影响,更
多的时候是是否有效。
30是统计学研究的结果,而不是funding,实际上临床试验的病例数要远大于这个数字
。30是下限,低于这个样本数,统计结果的可靠性就受会怀疑。
统计的意义不是说这个东西就是这样,而是说我得出的这个结论的可信度是多少,结论
是错误的是可能的,只不过这个可能性要小于5% |
|
D*******l 发帖数: 5462 | 13 既然证据确实,是需要处理。
现在伪神医是很多。这个是否是真神医,还要时间考验。
我这里有一真实案件,还没有结束,注意时间。
先帖这么多,差不多1年的帖,有很多回复。现在共有13页,每页100个回复,无数祝福
。我选些重点的帖,名称人物,地方我多用代码了。
-----------------------------------------------------------------------
2009-09-29, 23:29 【求助】XXX爱妻病重命危,拜求各种验方土方偏方。有万一可能
,也望赐方!
目前的情况是:
确认是胰腺癌,晚期,肿块包住两条动脉,大夫说无法进行手术,并且癌细胞已经扩散
。。。。。。
2009-09-30, 00:36
胰腺癌据说是最痛苦的一种癌症。
2009-09-30, 07:55
感谢大家!在原本美好的佳节给大家添堵。我目前还行,让医生一起骗着老婆。医生说
就半年左右时间,快就一两月。医生说这病只有结果,过程就是病人痛苦的。在西医改
变不了结果时,我只有先听医生的先化疗,等痛苦一少骗她说快好了,回家调养。到家
后看病情再决定化疗一事,我会赌中... 阅读全帖 |
|
c****n 发帖数: 21367 | 14 你对医生的期望值太高了 :)
我们人类如今的医学水平大概是什么样子呢?
根据美国的统计数据,1950年的时候,医院里抢救不过来死掉的,
对尸体biopsy检验的结果,病人活着时候的诊断准确率是49%,
2000年的时候,是51%。两次样本数好几千,而且都是大城市医院
不是什么蒙古大夫诊所。
为家里长辈求医的过程中,国内某顶尖医院的管业务的副院长说,
内科医师,初诊准确率40%是正常的,60%就肯定是名医了。
我相信中医也不会比这个数据好多少。科学不是神迹。无论是
诊断还是治疗,人类目前的医疗,除了少数疾病以外,都主要靠人类
自身的恢复能力。你期望的"average医生让95%的一般病例些许好转"
是没戏的。事实是,一般病例完全不看医生正常生活,自然有好转
的概率有70%,医生的努力更多在于稳定病人的生命体征,试探各种
已知可能性,祈祷病人的身体坚强恢复。
无论中医西医,医德好医术高的医生,往往都虚怀若谷兢兢业业。
说什么都能治的,偏执认为人类医学很神奇,病人不相信医生就是
挑衅的,只能说对医学还缺乏足够的客观认识。 |
|
h***y 发帖数: 710 | 15 心肌梗塞只有西医能治,中医不能治,为什么西方国家那么多人死于心计梗塞?
颅脑损伤只有西医能治,中医不能治,为什么西方国家那么多人死于颅脑损伤?
西医不能百分百治好的例子拿出来显摆你中医牛x吗?事实拿不出来你就给我狡辩吧!
我跟你讲了咱们说有大量数据支持的病例,起码有最基本的样本数和对照吧?你倒好,
开口闭口就是那个小孩的例子,我知道你说哪个小孩?我还说我昨天用西医治好十几个
中医束手无策的晚期癌症呢,可是这样辩论有意思吗?! |
|
e***y 发帖数: 4307 | 16 fft的frequency resolution是fs/n,n是number of samples,样本数越大resolution
越好。注意这个n不是nfft
spectral leakage也有些影响 |
|
a*****h 发帖数: 176 | 17 CV = Cross Validation
我认为 n>=3 是让你的样本数足够多, 不是说能不能得到 standard error。 如果n=1
你也能得到 standard error. |
|
h***n 发帖数: 276 | 18 多谢回答。
不过当我使用中心极限定理时,在贝努利实验下去估计真实概率p,得到的所需要样本数
目n是形如下面的式子
n>=p*(1-p)*f(tolerance to real p)
好像结论和你的相反,真实概率离1/2近的反而要多些?
还有既然大家收敛速度有快慢,如何理解Glivenko-Cantelli theorem 给出的uniform
convergence的结论呢? |
|
j********z 发帖数: 3242 | 19 发信人: firework81 (goldblessH), 信区: Belief
标 题: 和非基谈谈概率
发信站: BBS 未名空间站 (Thu Aug 28 22:15:18 2008)
看了某位非基的大作"活不下去的细菌",不禁喷饭,看来这为仁兄来基本的概率问题都没
学好,其中关于中彩票的讨论充满了似是而非的错误结论.下面我就替他的数学老师,免
费上一堂高一概率习题课
Q1.如果每一次投注赢六合彩的概率是p,那么一个人每次买一注,连续中奖两次的概率是
多少?
A:这为非基的答案是p*p,恭喜你,答对了
Q2.同样的条件,请问每期六合才有人中奖的概率是多少呢?
A:这位非基文中的答案是p,这其实是错误的.正确的答按是这取决于那一期总共有多少
人投注,为了使问题简单,我们假设有N人买了彩票,每个人仅投一注,那么至少有一个人
中奖的概率应该是
p2=1-(1-p)^N, 如果p很小,我们可以取一阶近似p2=N*p;
Q3:这两道题说明了什么呢?
说明对于小概率事件,其发生的概率和样本数目成正比,所以样本数越大,小概率事件发
生的基率越大,反之越小.
Q4.思考题,如何从概率论的角度看待 |
|
w******o 发帖数: 442 | 20 请问如果要确定正态分布的参数(sigma和average的误差小于2%)需要多少个样本点? |
|
|
p********m 发帖数: 325 | 22 教授,您这是概率题,还是求总题呀?
鸳鸯就俩才恩爱,仨都不行,您这100对搞到一起,得掐多大的架呀:)
要是概率题,您的样本数好像也太小了,这种6 sigma 的鸳鸯,您说得多少对里才能出
一双呀。
俺爱统计呀,就爱它用数据说话的毫不含糊,吹歪楼的毫不在乎。 |
|
y******n 发帖数: 269 | 23 这话说得很含糊,未必正确。一期二期的都是主要针对安全性,都病人数量没有统计分
析上的要求。但三期要主攻有效性了,双盲设计是减少Bias,而且病人数量的招募一定
要先做Power Analysis,就是根据以前试验(Pilot Studies)的数据和事先限定的
Power和Significance Level来确定该试验的总样本数。
假阴性这个应该是个统计名词,False Negative,用非统计的语言讲,就是如果新药其
实比旧药好,但统计结论却是2者没有区别的这种错误的可能性。样本数量少了,假阳
性的可能其实比假阴性还大,因为样本少了更有可能拒绝原假设。但本人的观点是样本
数量和阴性阳性的关系不大,但出现错误的可能的确是增大了。 |
|
y******n 发帖数: 269 | 24 这话说得很含糊,未必正确。一期二期的都是主要针对安全性,都病人数量没有统计分
析上的要求。但三期要主攻有效性了,双盲设计是减少Bias,而且病人数量的招募一定
要先做Power Analysis,就是根据以前试验(Pilot Studies)的数据和事先限定的
Power和Significance Level来确定该试验的总样本数。
假阴性这个应该是个统计名词,False Negative,用非统计的语言讲,就是如果新药其
实比旧药好,但统计结论却是2者没有区别的这种错误的可能性。样本数量少了,假阳
性的可能其实比假阴性还大,因为样本少了更有可能拒绝原假设。但本人的观点是样本
数量和阴性阳性的关系不大,但出现错误的可能的确是增大了。 |
|
S*******e 发帖数: 85 | 25 取决于课题方向,老板的面子,自己的人际关系和运气。但一般来说,烂。准确地说,
比生物强一点,对在美的中国人来说是第二烂的专业。博士毕业的基本出路就是博士后。
我的样本数大概15-20,所认识的中国博士生还没有一个毕了业就直接去工业界的,也
许和我们的学校比较渣有关。
薪水取决于公司职位和地点,一般来说,物理所能找到的工业界职位都挣不了多少钱。
6-8万浮动。
去金融界的另算。 |
|
R****i 发帖数: 2387 | 26 我这里也是,样本数8。
两例4胎,2胎,剩下都是1胎。 |
|
b******9 发帖数: 8 | 27 最近在做一些数据挖掘方面的研究
想请教一下各位你们在做数据分类的时候
1. training data的里的sample有多少,
2. samples 用多少的磁盘存储空间呢?
3. 一般用什么软件来做?
4. 要用多久来生成一个分类器?
5. 有没有其他反面的问题,比如说速度太慢等
非常感谢,如果有了包子一定请大家吃包子的
不好意思,在统计版也发了 |
|
|
|
|
e*******e 发帖数: 1144 | 31
training data当然越多越好,除非algorithm不能handle large data.
samples有多大就用多大磁盘.当然可以使用高效的数据结构,比如稀疏数据用链表类的
结构存可以不用存0.
matlab, R, SAS, C, C++, Java, Python。看具体的应用和数据的大小了。
取决于具体的算法。线形分类器和决策树比较快。
取决于具体算法。
这个发CS版可能更合适。 |
|
j********z 发帖数: 3242 | 32 发信人: firework81 (goldblessH), 信区: Belief
标 题: 和非基谈谈概率
发信站: BBS 未名空间站 (Thu Aug 28 22:15:18 2008)
看了某位非基的大作"活不下去的细菌",不禁喷饭,看来这为仁兄来基本的概率问题都没
学好,其中关于中彩票的讨论充满了似是而非的错误结论.下面我就替他的数学老师,免
费上一堂高一概率习题课
Q1.如果每一次投注赢六合彩的概率是p,那么一个人每次买一注,连续中奖两次的概率是
多少?
A:这为非基的答案是p*p,恭喜你,答对了
Q2.同样的条件,请问每期六合才有人中奖的概率是多少呢?
A:这位非基文中的答案是p,这其实是错误的.正确的答按是这取决于那一期总共有多少
人投注,为了使问题简单,我们假设有N人买了彩票,每个人仅投一注,那么至少有一个人
中奖的概率应该是
p2=1-(1-p)^N, 如果p很小,我们可以取一阶近似p2=N*p;
Q3:这两道题说明了什么呢?
说明对于小概率事件,其发生的概率和样本数目成正比,所以样本数越大,小概率事件发
生的基率越大,反之越小.
Q4.思考题,如何从概率论的角度看待 |
|
E*******s 发帖数: 994 | 33 1 不要断章取义。我举例说的是ECE的图像处理方向,从来没说图像处理等于EE。其他
“烧不留神就是一个烂方向”我不清楚.也许这边的ECE方向比较集中在这一块,导致我
的例子比较片面。但我从来没有把图像处理这一个方向的job market和整个统计比。
2. 我不知道你们学校ee ranking有多"高",工作不好找的原因我就不清楚了。我们各自
所说的都是样本数很小的个例,我也希望你不要generalize到EE整个行业上。另外,统
计和quant基本是两码事,以现在街上的情况学统计的还能找到IB工作的,我对此的估
计比较保守
3.最后很抱歉雷到你,请接受我的道歉。 |
|
x***2 发帖数: 946 | 34 计算binomial模型,已知先验概率,然后有一个样本数很大的数据
比如,非常大的m, n
使得p^m * (1-p)^n非常小
即使做log transform 也还是极端数据,得到的quantile分布概率像 0 0 0 0 0 1 0 0
0
这样情况下,可不可以分割数据,做多次bayes?
还有没有比较好的方法? |
|
l*******a 发帖数: 116 | 35 知道这里大多是统计学高手,估计这个问题在这里问不太适合
但是我实在是desperate了,查了半天,也没查到一点线索。。所以就来这里碰碰运气
了。。。
是这样:
很多生物学实验,比如说PCR,Western,常规的做法也是几乎所有paper里的做法是:
样本数不少于
3,如果有significance,n=3就行了,如果不到,再加n.
可是,从统计学的观点看,这样应该是不对的吧,应该用sample size analysis 来决
定样本量够不
够的吧。。。。。但是run sample size的话,往往会出一个很惊人的大数值n,这显然
是不实际的,
那怎么才能justify n=3的实验结果呢? |
|
D*a 发帖数: 6830 | 36 不好意思,没看懂。。。
看样子是这么个公式没错了。。。
variance在实际操作上的意义是什么呢?
比如为了调查一个比例,同样是取30个样本,反映一个20% 的比例应该比反映一个10%
的比例更准确才对阿,怎么这个公式算出来样本数反而是降低呢
your |
|
b******9 发帖数: 8 | 37 最近在做一些数据挖掘方面的研究
想请教一下各位你们在做数据分类的时候
1. training data的里的sample有多少,
2. samples 用多少的磁盘存储空间呢?
3. 一般用什么软件来做?
4. 要用多久来生成一个分类器?
5. 有没有其他反面的问题,比如说速度太慢等
非常感谢,如果有了包子一定请大家吃包子的 |
|
|
c*******7 发帖数: 2506 | 39 从error message看是你的模型参数多于样本数造成的。试试不要放那么多参数进去先
。。。 |
|
l*********s 发帖数: 5409 | 40 to use Chisq, each cell observation number must be greater then 5. |
|
|
l*********s 发帖数: 5409 | 42
Thank you for the correction! |
|
g*****y 发帖数: 6325 | 43 chi square test 的前提是让你的data 越接近 chi-square distribution 越好。
这样必须靠增大sample size 来实现。
), |
|
l***o 发帖数: 5337 | 44 这时你test的实际样本数是N而不是3N.你的P值会有偏差,但因为缺少信息,无法有效
修正。一个极端
的例子是你每一对(3:3)的均值都是一样的,但实际A里的真实数据是-100, 0,
100, 而B里的
是+1000000000000000, 0, -100000000000000, 就是无论是方向还是variance都不
一致,
可你用均值无法检测到。 |
|
g********r 发帖数: 8017 | 45 n是样本数。p是维数。做生物的p都几万,n只有几百。自然而然就把两者关系翻过了,
否则没法做。没你那么多哲学上的思考。
你说“没有这些随机点的存在,就不构成一个切实的样本空间。”在这种情况下是有意
义的。因为p》》n所以实际数据支持的维数只有几百。如果考虑p维,covariance
matrix是degenerate的。
我不是科班出身的。上面说的可能有误。 |
|
s*****r 发帖数: 790 | 46 what do you mean by "没有比这个期望更好的了"? what if you got one more data
point? is it better? what if you have a set of data, I have another set of
data, which average is better? if you mean all possible values by "全样本数
据", what is the 算术均数 of that from a 正态分布? how many points you are
averaging?
one minor question: what is the probability you observe the best 算术均数?
is it more likely than any other numbers?
cross
来的是一个极不可靠、极不稳定的随机点模型。 |
|
l***o 发帖数: 5337 | 47 一般entry level的,5w左右吧。
样本数很小,而且是几年前的数据,仅供参考。 |
|
W**********E 发帖数: 242 | 48 衡量一个分级系统。每个研究个体取样,分总的样本量N和其中的阳性样本量n。
然后根据总样本量-N 和其中的阳性样本数-N1来给研究个体分级,结果变量为生存
时间。具体: 如果分1,2,3,4级,那么1组平均生存时间应该最长,2组其次,
3组要短,4组最短
当然是每个个体样本总量取的越多,阳性样本的数量也越精确,那么分级也准确。
现在问题是研究个体取总样本量比较费精力和金钱,如何能计算一个所需要的最小总样本量然后分级精确差得不多?
有无一个思路? 想着用hypergeometric distribution LIKELIHOOD和SIMULATION。实
际数据也有。数据格式:
ID TOTAL_N POSITIVE_N SURVVIALTIME CENSOR
111 5 1 100 1
112 6 0 90 0
113 10 3 30 1
....
30个伪币求助 |
|
d***d 发帖数: 99 | 49 我们觉得我们这么多专业的样本数,足够收敛你sb的概率到1了,而且还是强收敛。 这
个例子希望能帮助你理解。 |
|
p********a 发帖数: 5352 | 50 ☆─────────────────────────────────────☆
TNEGIETNI (lovewisdom) 于 (Tue Oct 11 20:01:18 2011, 美东) 提到:
朋友告诉我说他要来,还有Harvard的Carl Morris等,$200的Registration fee对我来
说不是一笔小数目。我其实并不欣赏他的bootstrap法,曾公开批评过这个方法的逻辑
错误。如果去,我跟他讲什么呢?版上的恶朋好友可否给点建议?谢谢。
☆─────────────────────────────────────☆
angelsun (安吉笋) 于 (Tue Oct 11 20:38:46 2011, 美东) 提到:
在哪里?什么时候?讲座是什么topic的?
☆─────────────────────────────────────☆
statcompute (statcompute) 于 (Tue Oct 11 23:51:23 2011, 美东) 提到:
$200 for a lecture by Efron? it i... 阅读全帖 |
|