关于置信区间的讨论汇总 - 话题女王

全部话题 - 话题: 置信区间

M******e
发帖数: 4179

来自主题: Automobile版 - 根据置信区间, 最确信安全的三款车Pilot/ML/Yukon

根据置信区间中死亡率的最大数值，选出的最“确信”安全的三款车：Pilot/Benz M/
Yukon，在95%的置信水平下，这几个车的最大可能死亡率是所有车中最小的。
Honda Pilot 4wd 2 (0-7)
Benz M 4wd 3 (0-10)
GMC Yukon 4wd 4 (0-11)
本次report中，所有0死亡率的车型，其exposure均只有十几万，所以其置信区间都很
大。
注：根据iihs,置信区间的置信水平是95%

e****e
发帖数: 677

来自主题: Statistics版 - 关于二项式分布的置信区间

对于二项式分布的置信区间，我有两种理解
1 就是假设观察到的概率为p，从而推出理想状况某confidence level下的概率的置信
区间为[p-a1,p+a2]
比如
2 就是已知理想状况的概率为p，但是实际测量后某confidence level下得到的概率的
置信区间为[p-a1,p+a2]
哪种理解是对的？

R********n
发帖数: 519

来自主题: Statistics版 - 请问回归结果的置信区间

比如根据已经有的数据得到了回归系数beta，这个时候如果来了一个新点x_new，但是
没有y_new，我可以得到估计的y_est = x_new'*beta，这个时候，怎么得到y_est的置
信区间呢？
回归时可以得到beta的95%置信区间，但是感觉用这个区间去算y_est的置信区间不太合适
或者，可以看回归的时候的mse，取s=sqrt（mse），（近似认为回归误差是高斯分布），
然后认为y_est的95%的区间就是y_est加减2*s？(还是此处应该用t-distrubtion?)
谢谢～～

d*****y
发帖数: 26

来自主题: Statistics版 - 请教：怎么求（X/Y）的均值的置信区间？

请教： X和Y是两个独立的变量，各采样若干，假设数据符合正态分布，怎么求X/Y的均值的置信区间呀？我需要做X/Y的均值的置信区间的error bar graph. 我用SPSS，有计算方法也行，
多谢啦

e*****m
发帖数: 320

来自主题: EE版 - 如何估计传递函数中参数的置信区间？

时不变系统，假定有一组输入x(t)和输出y(t)已知。系统的传递函数未知。
通过一些其他知识和方法，可以估计系统的传递函数为：
h(t)=Aexp(-t/B) 其中A B为待定参数。
估计出来的h(t)与x(t)卷积，产生的y_estimate(t)必然与y(t)有一些误差。
按照一定的评判标准，必然可以得到一个最优值，获得A_estimate和B_estimate
这里面的问题是：有没有办法获得A_estimate和B_estimate这两个估计值的置信区间？
谢谢！

m****y
发帖数: 74

来自主题: EE版 - 如何估计传递函数中参数的置信区间？

如果样本多的话也许可以证明估计是一致有效的，那么可以近似成正态，然后就能给出
大概的置信区间了

G********t
发帖数: 334

来自主题: Statistics版 - 在线急问：关于PROC LIFETEST的置信区间问题！！

用的KM方法，想要Product-Limit Survival Estimates的置信区间！为什么输出里面没
有？用了CONFTYPE= ALPHA= 的OPTION都没用？请高人指教！在线等！！谢谢！！

j*****t
发帖数: 83

来自主题: Statistics版 - 请问如何在Proc autoreg算系数（parameter)的置信区间

Proc reg 的model statement里面有一个option "CLB"直接计算估计出来的系数的置信
区间。
proc autoreg有没有类似的option?察看了帮助，没有找到，难道要我手动写公式算么？
谢谢各位SAS达人

f****y
发帖数: 346

来自主题: Statistics版 - 请问一个置信区间的问题

两个人做同样的事情：在A，B两种压力环境下分别作实验，每种压力重复20次，两个人
共测了4组数据，每组都有20个点，并符合weibull分布,两人的四组数据的均值用FA1，
FB1，FA2，FB2，分别表示。
现在用指数关系来拟合加速试验的结果，得出FA1=FB1*(B/A)^6.3;FA2=FB2*(B/A)^7.4;
请问，如何判定6.3和7.4在统计上有没有差别呢？或者说，如何根据现有数据求指数的
置信区间？

j******4
发帖数: 6090

来自主题: Statistics版 - 请问一个置信区间的问题

统计新人的拙见：
检测这两个有没有差别可以用Hypothesis Test,但是要是求置信区间的话，你得确定一
个值来求吧。
用test的话，关键是确定df和stdev，如果根据你的数据服从weibull分布，那这个数据
的均值和stdev都知道了，不过我看不懂后面的两个式子是在做什么，这样处理原数据
的话，不知道后面应该如何处理了。求高人。。。

i****f
发帖数: 979

来自主题: Statistics版 - 用univariate 求方差的95%置信区间该怎么option

对不起我写错了，是求方差的95%置信区间

c*****1
发帖数: 3240

来自主题: History版 - [合集] 夏商周断代工程--考古界的烂尾楼

☆─────────────────────────────────────☆
dangran (当当当) 于 (Wed Aug 8 04:17:40 2012, 美东) 提到:
2012年6月，芝加哥大学东亚语文系教授夏含夷质疑“夏商周断代工程的成果报告简本发
表十年后仍无繁本，恐怕将来也不太可能发表。”
2002年“夏商周断代工程”关键数据在美国“亚洲学协会”年会被质疑“站不住脚”
中国政府在上世纪末只花了上千万人民币、只搞了五年“夏商周断代工程”，就于2000年
10月验收了“夏商周断代工程”的工作成果《夏商周断代工程1996―2000年阶段成果报告
(简本)》，并对其颁发“全国十大科学进步奖”。这个研究结果看似光鲜，但其中的数据
经不起质疑，戳破了之后“断代工程”的成员还死不认账。
2002年4月4日至7日，美国“亚洲学协会”的年会在美国华盛顿召开。会议专门邀请了“
工程”的学者来美讨论。在会议上，美方与会学者蒋祖棣以自己带去的计算机和OxCaI序
列程序当场对“工程”以同样程序处理的若干碳-14数据重新进行验算，结果明显与“工
程”的有差距。中国方面参加会议的“工... 阅读全帖

l****u
发帖数: 529

来自主题: Biology版 - 问个统计学的问题

A and C 之间可能会有significant difference.
你可以想象三条曲线，没有相交，A 在上，C 在下，B 在中间，A 置信区间的lower
bound 与B 置信区间的 upper bound 有部分重合（A 和 B 没有significant
difference），并且 B 置信区间的lower bound 与C 置信区间的 upper bound 有部分
重合（B 和 C 没有significant difference），但是 A 的置信区间与 C 的置信区
间却没有任何重合，这就说明A和C有significant difference.

l*******y
发帖数: 222

来自主题: QueerNews版 - 谁在编造谎言? 分析wql的所谓证据(part 1)

写了一个更详细一些的，请四处转发。在wql造谣的时候随时跟帖。
wql举了一些学术文献中的例子，来证明环境和教育对性向有影响。这里我以他举的一
个证据为例，说明wql是怎样歪曲事实的。事实是，他既没有读原始文献，也不懂统计
学，抓住一个数字就想当然的认为证明了他的观点。
下面进行具体的分析。先摘一段他的原文,全文见
http://www.mitbbs.com/article/SanDiego/31626371_3.html
==============================================================
环境和教育会影响儿童性取向，这是有研究证明的。我没有时间一一翻文献，就从“同
性恋科学家”的结论是没有影响的综述里面找证据。
下面列的是gay supporter “scientist”的一片文章：
Children of Lesbian and Gay parents: a review of the literature.
Marriage and Family Review, 1999, 29: 57-75
......
在他列举的支持... 阅读全帖

l*******y
发帖数: 222

来自主题: LosAngeles版 - 谁在编造谎言? 分析wql的所谓证据 (转载)

【以下文字转载自 QueerNews 讨论区】
发信人: lightgrey (greylight), 信区: QueerNews
标题: 谁在编造谎言? 分析wql的所谓证据
发信站: BBS 未名空间站 (Sat Oct 1 17:55:04 2011, 美东)
写了一个更详细一些的，请四处转发。在wql造谣的时候随时跟帖。
wql举了一些学术文献中的例子，来证明环境和教育对性向有影响。这里我以他举的一
个证据为例，说明wql是怎样歪曲事实的。事实是，他既没有读原始文献，也不懂统计
学，抓住一个数字就想当然的认为证明了他的观点。
下面进行具体的分析。先摘一段他的原文,全文见
http://www.mitbbs.com/article/SanDiego/31626371_3.html
==============================================================
环境和教育会影响儿童性取向，这是有研究证明的。我没有时间一一翻文献，就从“同
性恋科学家”的结论是没有影响的综述里面找证据。
下面列的是gay supporter “s... 阅读全帖

l*******y
发帖数: 222

来自主题: SanDiego版 - 谁在编造谎言? 分析wql的所谓证据 (转载)

【以下文字转载自 QueerNews 讨论区】
发信人: lightgrey (greylight), 信区: QueerNews
标题: 谁在编造谎言? 分析wql的所谓证据
发信站: BBS 未名空间站 (Sat Oct 1 17:55:04 2011, 美东)
写了一个更详细一些的，请四处转发。在wql造谣的时候随时跟帖。
wql举了一些学术文献中的例子，来证明环境和教育对性向有影响。这里我以他举的一
个证据为例，说明wql是怎样歪曲事实的。事实是，他既没有读原始文献，也不懂统计
学，抓住一个数字就想当然的认为证明了他的观点。
下面进行具体的分析。先摘一段他的原文(全文见
http://www.mitbbs.com/article/SanDiego/31626371_3.html)
==============================================================
环境和教育会影响儿童性取向，这是有研究证明的。我没有时间一一翻文献，就从“同
性恋科学家”的结论是没有影响的综述里面找证据。
下面列的是gay supporter “... 阅读全帖

g********d
发帖数: 4174

来自主题: SanDiego版 - 谁在编造谎言? 分析wql的所谓证据 (转载)

x*u
发帖数: 50

来自主题: History版 - 夏商周断代工程--考古界的烂尾楼

这位哥们，你恰好说反了。比如68%置信区间从2800-3200的话，95%就可能从2500-3500
。夏商周的人用68%置信区间就是为了缩小可能的年份从而得到唯一解。如果用95%置信
区间那么可能的年份就太多了，从而得不到唯一解。而不是你所说的夏商周的人用95%
置信区间来有调节的余地。

s*****n
发帖数: 2174

来自主题: Statistics版 - 到底怎样正确理解confidence interval才好

传统的Frequencist的解释大体是:
1. 真值是fixed, but unknown.
2. 根据一组样本, 计算一个95%置信度的置信区间
3. 如果你(理论上)重复抽样很多次(比如N次), 每次都计算一个相应的置信区间. 那么
95%的情况下, 置信区间会覆盖住真值. 或者说真值(确定不变的)落在置信区间(根据样
本变化)之间.
最重要的是: "假如我们可以重复这个抽样很多次..."

f*******e
发帖数: 4531

来自主题: SanDiego版 - 谁在编造谎言? 分析wql的所谓证据 (转载)

不明白你们这些人的逻辑。
数据最早的出处来源于gay supporter，wql只不过指出了数据及推论的不严谨，你们就
跳出来说他不懂统计。
本来用一个小样本推出最初的结论就比较牵强，两边的解释都有可能，唯一的办法是增
加样本，你们不在这方面下功夫，反而去指责提出相反结论的人，简直让人抓狂。且不
说从正态分布的角度来讲，他的质疑完全合理，因为3%完全出于正态分布的边缘，是一
个不正常的统计现象，有基本统计常识的人都知道，这样的数据容易受到质疑。
另外，楼主帖子自己提到置信区间是6.5%，应该注意到3%是处于置信区间之外的。
现拷贝原贴如下：
那么在这个文献中，有82个样本，10%是gay(原文中是9%)。置信区间是什么呢? 计算后
是10% +- 6.5%. 原文中也计算了,得到了3%-16%。那么假设人群中的一般比例是3%, 如
wql所言，可否证明这个比例提高了呢? 甚至可以说变成了3倍呢? 当然不能。因为3%落
在这个区间之内。要想得到确切的结论，必须加大样本，缩小区间。此外事实上gay的
普通比例是没有定论的，至少有3%到6%，高的估计有10%。那么综述文献的结论有问题
么? ... 阅读全帖

H**********f
发帖数: 2978

来自主题: Military版 - 不存在某人0.6%的白人基因

哎呀我去还在纠结这问题？让哈尔滨佛学院遗传学博士给解个惑
先在网上搜图，关键词population stratification principal component analysis，
能看到一些散点图，每个个体在以主成分为轴的平面上是一个点，而且能发现这些点组
成一些cluster，其反映人群结构，比如白人黄人黑人构成3个cluster。如果有个人是
白黄各50%混血，那么那个人的位置就大概在白黄两个cluster的中间。所以可以根据位
置来计算祖先成分。同时这里回答个问题，混血就是混血，而不是有一半概率属于某个
人群。
但这种人群分析都有一个问题就是统计不确定性。所谓0.6%的白人基因，这0.6%只是点
估计，其还有置信区间，比如95%置信区间是0%白人祖先到0.8%，其中接进0%的可能性
是很大的。这种不确定性大小取决于你做这个人群分析所使用的参考人群的人数是否够
多，或许更重要的，是你所选择分析的遗传位点是否足够多，包含足够的遗传信息。商
业化的所谓人群测试讲究成本，肯定不会测很多的遗传位点，不确定性肯定不小，但他
们只告诉你个点估计，不告诉你置信区间。
所以，总之别太当回... 阅读全帖

c*******h
发帖数: 1096

来自主题: Faculty版 - hypothesis testing 快过时了

且不说 hypothesis testing 在各个具体背景下的重要意义，就这一概念而言，它本身
是一个严谨的科学态度，不应该有异议。Hypothesis testing 跟大数据这两个概念，
本身就是 apples and oranges，没有可比性。如果非要从科学观去评论，我倒要批评
一下趋之若鹜的大数据研究。就像 Michael Jordan 说的，大家看到大数据、深度学习
等热门课题一下子造就了很多应用，提高了很多预测准确率，却忽略了数字背后的可靠
性，没有一个好的理论框架去解释为什么一个方法 work 或者不 work，这是极端危险
的。
举一个具备理工背景的人都懂的例子，线性回归。我们看 Wikipedia 的这张图：
https://en.wikipedia.org/wiki/Linear_regression#/media/File:Anscombe%27s_
quartet_3.svg
线性回归做的事情就是给你一堆点，你把大致通过这堆点的直线斜率和截距算出来。现
成的软件到处都有，最傻瓜的只需要你按一下按键结果就出来了。但是很明显，上面这
张图只有左上角的那个情况最 ... 阅读全帖

c****n
发帖数: 21367

来自主题: ChineseMed版 - 牛奶喝愈多，骨折率愈高

西医搞的统计就是个joke，还非说自己是科学。商业社会，忽悠呗
我从试验理论的角度仔细想了一下，明白了比对试验在医学上
的问题所在。以前物理学搞比对试验，那是因为抽象模型里什么都是一样的，
模型极其简要，总共就没几个variable。比较的就是control variable
对outcome的影响。
放到医学上来，比对有个鬼用。人和人能一样嘛？现在的假设就是，
性别，年龄有影响，其余的因子，经济条件许可就做，不许可就忽略，
这不是纯忽悠人么？人用药的影响因子可多了去了，不说可以量化的
显变量就无数（营养条件，生活习惯，地域，季节etc etc），还有
系统的隐变量怎么算。除非人能被精确的抽象到当年物理学的原子模型
那种程度，能有效的隔离绝大部分噪声（相对于模型）因素或者突出化
模型变量，否则上比对试验，比个啥嘛？
一家俩双胞胎，基因基本趋同，发育的历程不同成年以后身体条件还很
不一样呢。说药物作用，咋比对啊？
数学上说起来，就是连抽样结果有偏无偏都不知道，连多做这样的实验
是减小置信区间还是扩大置信区间都不知道（不独立的多次实验均值
不一定减小置信区间），抽啥样呢？还把结论奉为圭臬，

o******e
发帖数: 1761

来自主题: ChineseMed版 - 请大家看看这个方子，给我父亲医治肺癌用

西医的统计方式
西医搞的统计就是个joke，还非说自己是科学。商业社会，忽悠而已。
我从试验理论的角度仔细想了一下，明白了比对试验在医学上的问题所在。以前物理学
搞比对试验，那是因为抽象模型里什么都是一样的，模型极其简要，总共就没几个
variable。比较的就是control variable 对outcome的影响。
放到医学上来，比对有个鬼用。人和人能一样嘛？现在的假设就是，性别，年龄有影响
，其余的因子，经济条件许可就做，不许可就忽略，这不是纯忽悠人么？人用药的影响
因子可多了去了，不说可以量化的显变量就无数（营养条件，生活习惯，地域，季节
etc etc），还有系统的隐变量怎么算。除非人能被精确的抽象到当年物理学的原子模
型那种程度，能有效的隔离绝大部分噪声（相对于模型）因素或者突出化模型变量，否
则上比对试验，比个啥嘛？
一家俩双胞胎，基因基本趋同，发育的历程不同成年以后身体条件还很不一样呢。说药
物作用，咋比对啊？
数学上说起来，就是连抽样结果有偏无偏都不知道，连多做这样的实验是减小置信区间
还是扩大置信区间都不知道（不独立的多次实验均值不一定减小置信区间），抽啥样呢
？

i****x
发帖数: 17565

来自主题: Automobile版 - 老色狼呕血推荐的福克斯走下神坛

嗯，来了个懂行的
decon就是个自以为是的烂校小本，知道点皮毛就来卖弄，更深层的东西我根本就懒得
给他提。而且他在论坛上一向如此，这非常可悲。不是每个人在所有方面都有知识，但
大多数人至少能意识到自己在某些方面只知皮毛，不会到处嘚瑟。
他开始说什么这个统计没有normailization，后来我明白他以为条件概率公式的分母就
是normalization，其实那个是“率”字的定义里就有的，跟normalization毫无关系。
所谓normalization指的是奔驰和丰田死亡数不可以直接比较，因为丰田车总数远多于
奔驰。而他解决所谓normalization问题的方法更可笑，搞出个什么贝叶斯公式，我都
没法解释贝叶斯跟这个问题有多么风马牛不相及。
然后他又开始纠结什么概率和统计的差异，其实我一眼就看得出他根本没理解什么是统
计。假设福克斯死亡率是个伯努利随机变量，这是概率模型，但概率不可能知道，而现
实中的福克斯死亡率是个样本统计，这个死亡率就是概念中的“真实死亡概率”的无偏
估计量，这个估计量自然不准确，但解决办法是构造置信区间而不是什么
normalization和贝叶斯都公式... 阅读全帖

i****x
发帖数: 17565

来自主题: Automobile版 - 老色狼呕血推荐的福克斯走下神坛

z********o
发帖数: 18304

来自主题: TrustInJesus版 - 自由派基督徒的定义

网上的非学术性估算，没必要要求5%的置信区间。
你还没回答我的问题：
你估算一下，一个概率为0.8左右的概率事件，做20多次随机试验，以95%的置信水平来
看置信区间是多少？

d*****n
发帖数: 3033

来自主题: History版 - 夏商周断代工程--考古界的烂尾楼

比如我们挖出来一堆土层。
从地表到地下跨度200年。
真是年代在2000左右。
95%的方法是取所有的按照固定比例加权，
这样的出来的结果就是2000+-100，1990+-100，或者2010+-100，
总之无论怎么玩差别很小。
但是68%的方法是取不同地方的土按不同比例加权。
这样出来的结果是1910+-10 或者 1920+-10，或者1930+-10 或者。。。。
一直到2090+-10，置信区间只有10，可选择区间却有200.
想要什么年份都可以给你算出来。
----------------------------------------------------------------------
这两个方法是用完全不同的程序不同的参数来计算得出结果。
不是简单测量一下然后根据测量误差来取置信区间。

3500

Z*****l
发帖数: 14069

来自主题: paladin版 - 法医秦明小说全5卷

我国的刑法，对刑事责任年龄有如下分法：（1）不满14周岁的人，对任何犯罪都不负
刑事责任。（2）已满14周岁不满16周岁的人，犯故意杀人、故意伤害致人重伤或者死
亡、强奸、抢劫、贩卖毒品、放火、爆炸、投毒罪的，负刑事责任。除上述罪名外，不
予刑事处罚。（3）已满14周岁不满18周岁的人犯罪，从轻或者减轻处罚。（4）已满16
周岁的，犯任何罪，都负刑事责任。但犯罪时未满18周岁，不适用死刑。
另外，强奸罪中有述，与不满14周岁的女性发生性关系，无论是否自愿，均按强奸
罪论处。
既然有了这些法律规定，就涉及一个“法律年龄”的问题。随着户籍制度管理的严
格化，我们的身份证上的年龄都和生理年龄是吻合的。但是在一些边远地区或是因为一
些特殊缘故，还是有很多人的生理年龄和户籍年龄不符，也有一些没有经过户籍登记的
人口。如果这些人犯罪或者被强奸，他们的年龄该如何判断呢？法医“蜀黍”们因为此
需要，而发现了骨龄鉴定这项技术。
这项技术主要是根据人体骨骼发育中骨骺[注]愈合的程度来进行骨骼生理年龄的判
断。骨骺愈合时间自13岁开始自25岁完成，法医“蜀黍”们通过阅读各个年龄阶段人... 阅读全帖

t*****r
发帖数: 2542

来自主题: History版 - 夏商周断代工程--考古界的烂尾楼

为啥文章说不能用68%的置信区间?
需要95%置信区间自己算就不行了？

c*****1
发帖数: 3240

来自主题: History版 - 夏商周断代工程--考古界的烂尾楼

我没看过全本的断代工程报告，只看过部分文章，不过工程中C14年代学这块不是你所
想象那样
考古学资料要跟文献对应起来，如何对应是关键，其实你转的两篇文章也是强调这点
比如根据晋侯苏钟年代判定上不论是置信区间选择95%还是68%都不影响对于历王三十三
年的确定，因为铭文有明确记载。
但是就武王克商这点来说，影响更大的是考古资料与历史对应起来，现在的问题是先周
考古还没有特别明确的出土文物跟武王克商事件对应起来。这是误差可能的最大来源，
工程在这方面的贡献是发现丰镐先周遗址的转型，殷墟的衰落，燕，晋都城遗址的兴起
从C14测年上有很强的连续性。如果要把他们联系起来选择95%的置信区间显然比68%置
信区间更容易，如你所说range比较大。而选择68%还能link起来说明了C14测年的准确
性。
btw，回到争论之始，断代工程是分为不同项目的，武王克商只是一个重要的节点，不
同时代的精确度是不同的，大体上武丁之前是一个范围，武丁到先周是一个范围，而克
商后的西周年代从文献到考古都吻合的很很好，所以这至少是非常好的一个结果，是不
是有更好的结果，让时间来解决。

b******a
发帖数: 588

来自主题: Military版 - 生物专业人士对方舟子和转基因的看法。

不是这样的，临床试验在逻辑上是严谨的，是建立在统计的基础之上的。临床试验结果
的有效和无害都是在置信区间内而言的，而置信区间不能是100%，而且临床试验的样本
不可能无限大，所以临床试验的结果并不是一个绝对有效和无害的结果。
俺是搞疫苗的，以疫苗为例，几千人的临床试验里可能一个有副作用的样本都没有，但
结论绝不是100%无害，即使是99.999999%无害。当进入市场之后疫苗是注射给正常人群
的，几百万上千万的人里就会有几十或几百人有副作用。但这不是临床试验本身的问题
，而是我们目前的科学水平还没有更好的方法来解决这个问题。

d********a
发帖数: 3698

来自主题: Military版 - 蒙古人恨中国人的原因

我们先做一个假设，如果中国北方真的发生了大规模的民族融合，那么突厥语民族（匈
奴、突厥）、蒙古语民族（鲜卑、契丹、蒙古）、满语民族（女真、满州），应该和汉
族有相同的共有Y染色体类型分布。

但我们研究R1a1、C3c、O2b三个染色体类型，却发现，汉族人中找不到这三种类
型的Y染色体。

首先说C3c，复旦大学生命科学院金力院长的数据库里有560多个北方汉族样本、
1200多个南方汉族样本（2004年时），里面居然没有一个C3c，而在外蒙地区的蒙古人
中，这个比例为17%，在哈萨克族人中为12%，在图瓦人中24%，也就是在突厥语和蒙古
语民族人口中出现频率都特别高！而560多个汉族和1200多个南方汉族人群样本中，竟
然没有一个是C3c，基本排除了历史上突厥语、蒙古语民族和汉语人群的大规模融合，
至少在父系上的Y染色体中找不到证据。
其次再说R1a1，这个是中亚突厥语民族特有基因，在乌兹别克人中为20.1%，在维
丶吾丶尔族人为16%，在Hkoton人中为80%以上，而在汉族人中，没有发现R1a1，汉族人... 阅读全帖

f***e
发帖数: 5443

来自主题: Military版 - 南外F比女外F可恶一万倍

中国汉族血统还是很纯的，基因学证明中国历史上北方的民族融合几乎不存在
我们先做一个假设，如果中国北方真的发生了大规模的民族融合，那么突厥语民族
（匈奴、突厥）、蒙古语民族（鲜卑、契丹、蒙古）、满语民族（女真、满州），应该
和汉族有相同的共有Y染色体类型分布。
但我们研究R1a1、C3c、O2b三个染色体类型，却发现，汉族人中找不到这三种类型
的Y染色体。
首先说C3c，复旦大学生命科学院数据库里有560多个北方汉族样本、1200多个南方
汉族样本（2004年时），里面居然没有一个C3c，而在外蒙地区的蒙古人中，这个比例
为17%，在哈萨克族人中为12%，在图瓦人中24%，也就是在突厥语和蒙古语民族人口中
出现频率都特别高！而560多个汉族和1200多个南方汉族人群样本中，竟然没有一个是
C3c，基本排除了历史上突厥语、蒙古语民族和汉语人群的大规模融合，至少在父系上
的Y染色体中找不到证据。
其次再说R1a1，这个是中亚突厥语民族特有基因，在乌兹别克人中为20.1%，在
Hkoton人中为80%以上，而在汉族人中，没有发现R1a1，汉族人中有将近1%的R1和P，但
不是R1a1，而是他们... 阅读全帖

s*****n
发帖数: 1998

来自主题: Military版 - 现代基因学研究证明：中国汉人的血统还是很纯的

中国汉族血统还是很纯的，现代基因学研究证明历史上北方的民族融合几乎不存在
我们先做一个假设，如果中国北方真的发生了大规模的民族融合，那么突厥语民族
（匈奴、突厥）、蒙古语民族（鲜卑、契丹、蒙古）、满语民族（女真、满州），应该
和汉族有相同的共有Y染色体类型分布。
但我们研究R1a1、C3c、O2b三个染色体类型，却发现，汉族人中找不到这三种类型
的Y染色体。
首先说C3c，复旦大学生命科学院数据库里有560多个北方汉族样本、1200多个南方
汉族样本（2004年时），里面居然没有一个C3c，而在外蒙地区的蒙古人中，这个比例为
17%，在哈萨克族人中为12%，在图瓦人中24%，也就是在突厥语和蒙古语民族人口中出现
频率都特别高！而560多个汉族和1200多个南方汉族人群样本中，竟然没有一个是C3c，
基本排除了历史上突厥语、蒙古语民族和汉语人群的大规模融合，至少在父系上的Y染色
体中找不到证据。
其次再说R1a1，这个是中亚突厥语民族特有基因，在乌兹别克人中为20.1%，在Hko
ton人中为80%以上，而在汉族人中，没有发现R1a1，汉族人中有将近1%的R1和P，但不是
R1a1，而是... 阅读全帖

发帖数: 1

来自主题: Military版 - 昨天有一个大陆汉人基因的帖子那里去了？

我们先做一个假设，如果中国北方真的发生了大规模的民族融合，那么突厥语民族
（匈奴、突厥）、蒙古语民族（鲜卑、契丹、蒙古）、满语民族（女真、满州），应该
和汉族有相同的共有Y染色体类型分布。
但我们研究R1a1、C3c、O2b三个染色体类型，却发现，汉族人中找不到这三种类型
的Y染色体。
首先说C3c，复旦大学生命科学院数据库里有560多个北方汉族样本、1200多个南方
汉族样本（2004年时），里面居然没有一个C3c，而在外蒙地区的蒙古人中，这个比例为
17%，在哈萨克族人中为12%，在图瓦人中24%，也就是在突厥语和蒙古语民族人口中出现
频率都特别高！而560多个汉族和1200多个南方汉族人群样本中，竟然没有一个是C3c，
基本排除了历史上突厥语、蒙古语民族和汉语人群的大规模融合，至少在父系上的Y染色
体中找不到证据。
其次再说R1a1，这个是中亚突厥语民族特有基因，在乌兹别克人中为20.1%，在Hko
ton人中为80%以上，而在汉族人中，没有发现R1a1，汉族人中有将近1%的R1和P，但不是
R1a1，而是他们在1.5万年前的远亲，中亚突厥人的R1a1出现在1600±400年，对... 阅读全帖

n******g
发帖数: 17225

来自主题: USANews版 - 一点儿统计不懂？抽样的标准误收敛得很快

分母是根号n,n是样本量。
标准误收敛得很快，置信区间就变小得很快，足以保证38%的置信区间下届也比30%的置
信区间上届高了。

h***i
发帖数: 89031

来自主题: USANews版 - 1980年10月民调卡特43%里根37%

商业民调，11月份就不是收钱搞民调了，是树立信誉了
否则信誉没有了，以后就不能卖钱了
但是向英国脱欧那样，如果是置信区间内输，就搞成置信区间内赢，背后金主的利益太大

b*****o
发帖数: 715

来自主题: Automobile版 - 省油+reliable，除了烤肉拉还有什么选择？

谢谢你的回复。价格的确是我没查仔细，多谢纠正。
这两张数据表格我也见过，所以才有了ford focus和烤肉拉接近的印象。
但是这两张表格从数据分析角度远远不能让人信服。
我不懂车，但是我的专业是做大规模数据分析的。从数据本身来看，有这么几个问题：
（1）没有数据源（数据如何采集的），即使是原网站http://www.carproblemzoo.com/也没有写。甚至连这是US的数据还是global的数据也没有写。下面的分析我只能假设数据是真实可靠的，以及是US的数据。
（2）我之所以说要10年才能看出问题来，不但是基于对于车reliability的理解（这可
能不对），也是对数据置信区间的考虑。如果只看最近两年的数据，你会发现ford
focus的故障数由2011年的7爆增到2012年的101。这是不是说2012的focus就很差呢？
可能是，但是更大的可能是由于数据采集时间太短，样本数太少，所以根本没法做出有
效的统计推断。从某种意义上说，不论这个数是10，50，还是100，在统计上都是没太
大意义的。如果要做出有效的推断，只能看更老年份的数据。当然，烤肉拉09，10年的
车明显... 阅读全帖

i****x
发帖数: 17565

来自主题: Automobile版 - 老色狼呕血推荐的福克斯走下神坛

原来normalization是去除noise用的，佩服佩服，我第一次听说。
不过你在记得不少大一概率术语的同时，听说过一门叫统计的学科么？统计里有个叫最
大似然估计的东西听说过么？另一个叫置信区间的玩意听说过么？你看到原帖统计数据
死亡率后面那个括号了么？那个就是置信区间。
这些应该够你查几天百度百科了。

i****x
发帖数: 17565

来自主题: Automobile版 - 老色狼呕血推荐的福克斯走下神坛

s****r
发帖数: 31686

来自主题: Automobile版 - 苏八如 legacy DP

置信区间和神车阿考得一样嘛，所谓额外的安全拢强度有个屁用处
置信区间早看见了，懒的说，怕斯巴鲁托儿看不懂。人家要是看懂了也不会这这里扯什
么更安全的淡了

D***0
发帖数: 5214

来自主题: Automobile版 - 2016 small SUV的问题指数

好问题。关于差别大不大这个问题，我们可以用统计检验来说明。我添加了最简单的
binomial test的结果。列表里面有95%置信区间，和跟业界平均lsl指数的差异检验的
pvalue。一般说，95%置信区间之间不存在重叠，那么这两个样本差异是很大的，比如
equinox的0.01到0.02跟cx-5的0.11到0.15是有很大差别，但是Rouge的0.0238, 0.0359
跟Forester的0.0296, 0.0483差别就不大了。

c**********o
发帖数: 359

来自主题: Automobile版 - 2016 small SUV的问题指数

这位网友很好学，赞一个！置信区间的计算，关键在标准误差的估计上。楼主用的是
binomial测试，标准误差就是p*(1-p)/N 然后开根。p是百分比，N是样本量（保有量）
。有了标准误差，95%的置信区间就是差不多p加减2倍（1.960倍）的标准误差。
楼主算的2016年的。laoselang算的是2017年的，不一样。2017 还没结束，所以2016年
的更完整些，我个人认为更有借鉴意义。

t*****r
发帖数: 2542

来自主题: PhotoGear版 - 纽约时报：学习代数有必要吗？ (转载)

硬是有人在历史版说68%的置信区间比95%置信区间大
中国数学都学得太少

M******n
发帖数: 43051

来自主题: Joke版 - 做物理的小女孩zz (转载)

还有这个
做滴定的小男孩
在一个下着土的春天的中午，一个饥寒交迫的小男孩，手里拿着一根破旧的碱式滴
定管，在实验室里走着。
他问同学：“兄弟，千分之四的误差行么？”
结果被踹了出去：“不行！重做。”
再一次：“老师，能让我做下一个实验了么？就差0.2毫克。”
“谁还做滴定啊，都在做校准。”
可怜的小男孩就这样不断的在重复。
他实在滴不动了，疲乏地缩在一个墙角里。他不敢回宿舍，因为他没有做出一组数
据。宿舍里也很恐怖，分析试题可以从许多角度跑进眼睛里。
他冻得发抖，需要温暖。哪怕一个三位有效数字的温暖也好。
他的一双手几乎冻僵了。太冷了。他决定做一次滴定。
“噗！”终点做出来了，像一团温暖、光明的火焰，小男孩觉得像普化实验一样。
终点得那么橙，那么暖，那么美！这是怎么回事呢？
滴定管空了，普化实验室也不见了。他坐在那儿，手中只有用过的滴定管。
他又滴了一管，变成一朵粉红色的光焰。
他发现自己坐在本巨大的实验报告下，比去年见到的那本实验报告还要大，还要美
丽。它每一页有几千个吻合的数据。小男孩把双手伸过去，滴定管又空了。几千个数据
都变成了明亮的星星。这些星星中有一颗落下来，在天空中划出一... 阅读全帖

g*****g
发帖数: 6798

来自主题: Biology版 - 一款很实用的Excel统计插件，可以代替SPSS、SAS、MiniTab

[统计分析] 一款很实用的Excel统计插件，可以代替SPSS、SAS、MiniTab
SPSS, SAS, Excel, MiniTab, 插件
一个可以代替SPSS、SAS、MiniTab等专业统计软件的Excel统计插件！直接整合到Excel
中，提供大多数统计工具的应用。
个人免费使用，不需要注册，对于单位使用的，注册后享受更多的功能。

1、本插件提供的基本统计功能有：
1. 1、数据处理：从Access数据库获取数据、行列互换、空行空列的删除、线性变换、
排秩。
1. 2、描述统计及相关图形：描述统计、图形化汇总、点距图。
1. 3、图表：直方图、散点图、矩阵图、点图、概率图、置信区间图、单值图、线条图
、条形图、饼图、区域图，功能和MiniTab相类似。
1. 4、表格：相依表、单变量计数、交叉分组表和卡方、卡方拟合优度检验（单变量）
、卡方检验（双向表）、描述性统计、Ridit检验。
1. 5、各种分布的概率计算和图形：二项分布、泊松分布、超几何分布、指数分布、正
态概率计算、正态概率图、正态P-P图、正态分位数-分位数图。
1. 6、多达7种正态性检验方法：安德森... 阅读全帖

o******e
发帖数: 1761

来自主题: ChineseMed版 - 有几个中药正在美国接受ＦＤＡ测试

cocoon 说统计的第三部分：
西医的统计方式
西医搞的统计就是个joke，还非说自己是科学。商业社会，忽悠而已。
我从试验理论的角度仔细想了一下，明白了比对试验在医学上的问题所在。以前物理学
搞比对试验，那是因为抽象模型里什么都是一样的，模型极其简要，总共就没几个
variable。比较的就是control variable 对outcome的影响。
放到医学上来，比对有个鬼用。人和人能一样嘛？现在的假设就是，性别，年龄有影响
，其余的因子，经济条件许可就做，不许可就忽略，这不是纯忽悠人么？人用药的影响
因子可多了去了，不说可以量化的显变量就无数（营养条件，生活习惯，地域，季节
etc etc），还有系统的隐变量怎么算。除非人能被精确的抽象到当年物理学的原子模
型那种程度，能有效的隔离绝大部分噪声（相对于模型）因素或者突出化模型变量，否
则上比对试验，比个啥嘛？
一家俩双胞胎，基因基本趋同，发育的历程不同成年以后身体条件还很不一样呢。说药
物作用，咋比对啊？
数学上说起来，就是连抽样结果有偏无偏都不知道，连多做这样的实验是减小置信区间
还是扩大置信区间都不知道（不独立的多次实验均值

g*****a
发帖数: 97

来自主题: Mathematics版 - 一个关于非线性regression的误差计算的问题

这样一个函数，y=a*x^n*(b+c)+c
x和y是实验的结果（已知），a,n,c是已知参数，要求b的值。
如果不考虑a,n,c的误差的话，用curve fitting求b的值还是不难的。
但是如果考虑a,n,c的误差，比如说90%置信区间是（a1， a2）,(n1, n2),(c1,c2)的
话，怎么求b的90%的置信区间呢？
谢谢！

g**r
发帖数: 425

来自主题: Statistics版 - 到底怎样正确理解confidence interval才好

这个置信区间，其实还是个随机变量。
把下限当一个随机变量，上限当一个随机变量，其实你估计的两个值，还是两个点估计。
给定了点估计和方差后，这个所谓的置信区间不增加任何信息量，只给外行一个实际值
应该落在这个里面的错觉。好像老祖宗FISHER是很反对这个做法的，只坚持用他的P-
Value。
这个是贝叶斯学派攻击FREQUETIST的最常见的攻击点之一。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天