关于均数的讨论汇总 - 话题女王

i***s
发帖数: 39120

随着一名15岁男孩熬夜写作业课堂猝死事件引发热议，学生的学习压力再度成为关注焦点。昨天，APP阿凡题发布了《全国中小学生学习压力调查》（以下简称《调查》），记者看到，此份调查报告覆盖全国31个省市自治区，根据该平台2000万用户一年积累的学习行为大数据得来。报告显示，我国中小学生平均每天写作业达3小时，是全球均数的2倍，普遍睡眠不足7小时。其中，南京的中小学生有四成写作业都要写到每晚9点-10点，甚至有8.89%的南京学生要做到夜里12点以后。而南京的熬夜指数为15.2%，也就是15.2%的南京中小学生晚上做作业要熬夜到23点以后。
18岁前累计写作业
达10080小时
该调查显示，面对又多又难的作业，孩子只能牺牲睡眠时间来完成作业。
中国学生平均每天写作业时长是全球均数的2倍，每天睡眠时间却少了1.5小时。
调查数据表明，26.4%的学生每天写作业耗时2小时，44.9%的学生耗时3小时，28.7%的学生耗时4小时。
平均每个学生每天写作业时长为3小时，相当于法国的3倍，日本的4倍，韩国的6倍。以一个孩子为基准，一年上学9个月，算上假期写作业时间共计300天，每天3小时，一共12年，累... 阅读全帖

f******o
发帖数: 706

来自主题: Chinese版 - 中国资本外逃形势严峻年均数百亿美金漂出国门

中国资本外逃形势严峻年均数百亿美金漂出国门
中国引以为骄傲的吸引外资的成绩，水份很大，而大量的外逃资
本也在很大程度上抵消着引资的净值。如不有效防范该逃资恶潮，将
引发严重金融危机。
是引资大国，也是逃资大国
从统计数字来看，中国大陆自1994年起已连续6年成为世界上仅
次于美国的第二大引资国。仅“九五”期间吸收的外商投资就将达到
2900亿美元，较“八五”同期增长80％。外资已成为大陆经济生活中
的一支重要力量。
然而，就在外来资本源源不断拥入大陆的同时，国内资本也在加
速实现外逃。所谓资本外逃，是指一国居民出于安全动机、避税动机
或其他动机而将财富转移到本国政府管辖之外的行为。它是国家货币
管理当局明文禁止的资本流出活动。20世纪80年代，由于当时中国大
陆实行严格的外汇管制，外逃资本的规模较小，每年只有几亿至十几
亿美元；90年代以来，随着大陆经济开放程度的扩大，加上其他方面
的原因，资本外逃现象日益浮出水面，且有愈演愈烈之势。
1995年大陆已是世界第八大资本输出国。除了政府批准的对外直
接投资和证券投资以外，还存在大量灰色的资本外逃。1993年至1996
年，每年的资本外逃

T*******I
发帖数: 5138

来自主题: Statistics版 - 恭请luckyjet (tejykcul)回答二个问题

尽管你已经表示不再继续讨论，我还是有几个问题要请教。
问题一：

http://www.mitbbs.com/article_t1/Statistics/31376105_0_4.html
对不起，我不太明白你的表示符号!=的含义，可否请你解释一下。
此外，你的
expectation of (一个样本的平均）!= 一个可知的存在
与我的
（一个样本的算术均数 = 一个可知的存在）
似乎说的不是一回事，因为
一个样本的算术均数 =/= expetcation of (这个样本的算数均数）。
这里, =/=表示 “不等于”。
问题二：
居然浪费时间和民科讨论这些，我还真是无聊
http://www.mitbbs.com/article_t1/Statistics/31376145_0_2.html
在我们的前述讨论中曾出现过三个基本概念，样本均数，总体均数，样本均数的期望。
其中，你反复使用的术语是样本均数的期望，或expectation of (一个样本的平均）or
expectation of sample mean, 而我使用的是sample mean.
我们都知道，如果一个样... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 恭请luckyjet (tejykcul)回答二个问题

1. 我说那是大数定理的另一个表达形式，是指的以下一段完整的话，而不仅仅是其中
的那个等式：
“如果一个样本来自所定义的总体，那么，这个样本的统计测度，例如，一个连续型随
机变量的算术均数就是这个总体的算术均数的一个随机变异性的抽样表达。无数个此类
样本的算术均数的平均值应该会以无穷小的差异性收敛在总体均数之上，也即你试图在
数学上予以证明的
expectation of (一个样本的平均）= 总体均数”
你说这个不需要证明，他的原话在这里：
simply using indication function and some basic assumption could prove
expectation of (sample mean) = population mean.
其实，数理统计中试图证明的是：
sample mean = population mean
但这个命题是不可能被证明的。
2. 别忘了我在后面还有一个条件语句：除非我们把这个样本的算术均数定义为是对总
体均数的样本估计值。
我们可以做到用全部原始样本观察... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 恭请luckyjet (tejykcul)回答二个问题

我注意到文本中的总体均数的符号表明它是总体均数的估计值等于样本均数，也即样本
均数被定为为总体均数的估计值，即
population mean 的估计值 = sample mean
但这不是一个证明，而是一个定义。在这个定义下才有了高斯的概率密度函数和曲线等
数学描述，因为高斯的概率密度函数采用了源于样本而后扩及总体的算术平均数和方差
等基本概念。因此，这虽然是一个严格的假设基础上的逻辑演绎的结果，但却是从高斯
的概率密度函数推导过来的，因而是一个从假设开始的自证。此外，高斯的概率密度函
数仅对理想化的绝对正态曲线成立，一旦偏离正态，它就不再成立。

B******y
发帖数: 9065

来自主题: Statistics版 - 来，做道题

两样本均数比较，经t检验，差别有统计学意义时，P值越小，说明
A两样本均数差别越大
B两总体均数差别越大
C越有理由认为两总体均数不同
D越有理由认为两样本均数不同
E拒绝H0时犯错误的概率越小
据说是中山大学考研的一道选择题。我不知道标准答案，希望听听大家的看法。

w*********g
发帖数: 30882

来自主题: Military版 - 贫富分化严重威胁社会稳定多数网民称对执政当局不满

美国家庭收入、正态分布、基尼系数以及“占领华尔街”
来源: 浒卄于 2011-10-23 12:49:14 [档案] [博客] 旧帖] [转至博客] [给我悄悄话
] 本文已被阅读：52次字体：调大/调小/重置 | 加入书签 | 打印 | 所有跟帖 | 加
跟贴 | 查看当前最热讨论主题有统计学知识的读者，可以略过下面两段有关平均数、
中位数和正态分布的概念，自己径直去研究、分析美国家庭收入的数据（见下面列表）。
中位数和平均数都是描述一组数据的集中趋势的特征数。但是它们描述的角度和适用范
围各有不同。中位数是一组数据的中间值，代表了中等水平。由于中位数在一组数据的
数值排序中处于中间位置，它扮演着该组数据的“分水岭”的角色。在某些情况下，用
平均数来代表数据整体水平是有局限性的，比如说，个别极端（过大、或过小的）数据
会对平均数产生较大的影响，而这些少量的极端数据对中位数的影响则往往不太明显。
正态曲线的基本特征：它是钟形的，尾部在中心左右两边（无限）延伸；正态分布是沿
着平均值对称的；在正态分布中，中位数和平均数同是一个值。
从下面的列表可以看出，自从1967年以来，美国家庭... 阅读全帖

U*E
发帖数: 3620

来自主题: RisingChina版 - 贫富分化严重威胁社会稳定多数网民称对执政当局不满

T*******I
发帖数: 5138

来自主题: Statistics版 - 弱问一个概念

首先指出你没有说清楚你的问题，因为在你的问题中混淆了有关概念。
一般来说，当我们计算一个样本的standard deviation（中文翻译是标准差）时，这个
standard deviation指的是该样本中所有点对其分布的期望位置的标准离差，而不是说
它是sample mean的标准离差。这是一个衡量整个样本中各样本点的随机变异性的统计量。
而对于standard error of mean（中文翻译是均数的标准误）来说，它指的是当从同一
个总体中多次抽样时，你就会得到多个样本，而每个样本包含一定数量的个体观察单元
，此时，各样本均数本身就成为一个随机点，因而各样本均数就会构成一个随机分布，
而这个分布同样也有一个期望位置，因此，根据上面计算一个样本的standard
deviation的相同逻辑，我们也可以计算多个样本均数构成的分布的随机变异性，这个
变异就被称为standard error of mean，以便与前面的standard deviation相区别。
然而，问题是，通常情况下我们不会对同一个总体进行多次抽样（这在经济上、时间上
、环境上可能都不允许），而是仅用一次抽

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师的意思我终于有点领会了

t-test是检验样本均数的方法，而样本均数（在我看来）仅对正态性分布是一个无偏的
期望估计，而对非正态性分布来说则是一个有偏估计。这就是t-test对MDA的p值测量中
较大误差的来源。
例如，如果你要比较的两个组的分布分别是左偏的和右偏的，则左偏的样本均数会向峰
的右侧漂移，而右偏的会向左侧漂移，从而两个均数间的差异性就减小了。
因此，如果有一种办法能够将各自的期望估计都“尽可能地”还原到其分布的峰顶处
（那里才是真正的分布期望所在），那么，两个期望间的差距才是真实的差距。
而p值的计算与上述差距有关。

t*d
发帖数: 1290

来自主题: Statistics版 - 怎么分辨 standard error 和 standard deviation？

多谢大家的回复。
没想到 standard error 和 standard deviation 的定义在这个版上也会有争议啊。
比如一个服从标准正态分布变量的 standard deviation 就是 1。一个来自标准正态分
布的样本，如果把它的均数作为一个随机变量的话，它的 standard deviation 就是 1
/n^0.5，其中 n 为样本大小，对吧？那么这个均数的 standard deviation 也就是样
本的一个 standard error，对吧？由于样本均数是总体均数的一个 estimator，所以
我的理解是 standard error 就是 estimator 的deviation。
有些场合，比如meta-analysis 的文献中，很多提到用 inverse-variance-weighting
的方法。由于没有明确指明，我就不明白这个variance 用的是样本本身的variance，
还是estimator 的variance？inverse-variance-weighting 方法的中心思想就是根据
各个 study 的可靠性来做个加权... 阅读全帖

u***************r
发帖数: 11227

来自主题: Returnee版 - unidentified_title

发信人： MZL05(YAHO), 信区： Returnee
标题：全国家庭均住房面积超120平你拖后腿了吗
发信站： BBS未名空间站(Wed Jul 12 13:02:41 2017,GMT)
今天继续谈谈房地产的数据问题，数据的不透明是导致中国房地产乱象的主要根源
之一。
国家统计局最近发布的文章显示： 2016年全国居民人均住房建筑面积为40.8平方
米，城镇居民人均住房建筑面积为36.6平方米，农村居民人均住房建筑面积为45.8平方
米。其中，城镇、农村居民人均住房建筑面积分别比2012年增长了11.1%和23.3%，年均
增长分别为2.7%和5.4%。
对于人均住房建筑面积40.8平米这个数字，很多人吐槽被“平均”了。按照这个数
据，一个三口之家，平均居住面积应该超过120平米，很多人觉得自己拖了后退。
令我比较意外的是，国家统计局对大家的吐槽做出了公开回应。因为大多情况下，
外界对统计数据的吐槽，国家统计局一般不会回应。能够迅速回应社会的关切，这的确
是值得点赞的进步。根据国家统计局信息景气中心副主任潘建成的说法，“当一组数
据的差距... 阅读全帖

r*****y
发帖数: 53800

来自主题: Basketball版 - 美媒激论姚明名人堂资格争议：数据能否说明一切

新浪体育讯　北京时间7月12日，在姚明退役的消息传出来之后，关于他最热门的话题
之一就是，姚明日后是否有资格进入名人堂？虽然杰夫-范甘迪旗帜鲜明地表示了支持
，不过，在《Dime》看来，无论是能进还是不能进，正反两方面似乎都有足够的理由，
以下就是详细内容。
反方
单纯地从篮球角度出发的话，姚明并不够资格。诚然，他的确是个伟大的标志性人
物，不过他的贡献更多是在建立起了中美互相了解的桥梁，而在篮球场上，他的贡献还
不足以能进入名人堂。或许，以非篮球运动员的身份，姚明更有可能入选名人堂。
如果不是姚明，让我们来假设一下，有这样一个球员。他在NBA待了9年，只打了8
个赛季。8年中，只有2个赛季是全勤。在他的职业生涯中，他只打了486场比赛，缺战
170场。4次杀入季后赛，但只有1次跨过了首轮。而且，他从来没有杀入过总决赛，甚
至从来没有进入过分区决赛。有过8次全明星，生涯场均数据是19分9篮板。5次进入联
盟最佳阵容，2次第二阵容，3次第三阵容。除掉身上的光环之外，这样一个球员能进入
名人堂吗？
姚明的八个赛季中，生涯高潮出现在2005-2008，2006-2007赛季场均得分25.0是... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 答水泡泡：陈立功是谁教出来的？

我应当承认这一点，因为你所说的这个CV是在你的概念系统下的概念。
在我的方法中没有CV这个概念，因为所有临界点都是由可测空间里的全部样本点对临界点
的期望的加权贡献估计的，因而是最稳定可靠的，且是唯一的期望，何来需要对它们做CV
一说？难道说我们需要对一个样本均数本身做CV? 果真如此，岂不荒谬？
鉴于我们俩对关于临界回归分析中CV的理解不一致，恳请你谈谈你的CV的基本分析逻辑是
怎样的，算法如何，应该如何理解它。谢谢。
顺便解释一下我的方法中临界点的可信区间是一个非对称区间的原因。首先，我的CI与一
般用样本均数估计总体均数时的CI没有本质的区别，差别仅仅在于我的CI是一个经过加权
和非对称处理过的而已。之所以要做非对称校正，是因为临界点在被分割变量上其两侧的
密度分布可能不一致。这是与一般正态分布下估计CI

T*******I
发帖数: 5138

来自主题: Statistics版 - 如何处理这样的missing value？

让我们看一个具体的实例。
假设100个被抽样的个体有10个在被测变量上发生missing，你是愿意用90个个体的均数
去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
均数？假设这是一个单变量情形，且被测变量是连续型的。

T*******I
发帖数: 5138

来自主题: Statistics版 - 如何处理这样的missing value？

不妨让我们从单变量情形谈起。请说说你的见解。在这个例子中，除了均数替代法外，
你还有什么其它办法给那10个missing cases赋可变的、相互不同的值？
我考虑过用那90个计算一个均数和标准差，然后假设那10个missing values也与这90个
同分布，所以，用90个cases的均数和标准差来随机模拟出10个数来替代那些missing
values。这可以是一种选项，但假设的条件也是显而易见的，而且这样做与不做结果没
有显著的差别。

T*******I
发帖数: 5138

来自主题: Statistics版 - 如何处理这样的missing value？

我不想和你绕弯子。我的例子和问题如下：
“假设100个被抽样的个体有10个在被测变量上发生missing，你是愿意用90个个体的均数
去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
均数？假设这是一个单变量情形，且被测变量是连续型的。”
按照基本数据信息，我们确实没有关于missing pattern的信息，从而也就无法对
missing values进行弥补，也就只能用那90个数据的统计量作为最终结果。
再说到missing patterns，或许在多变量条件下有可能获得关于它们的一定程度的认识。
但请别忘了，如果那些values不是missed的话，data patterns可能是另外的表现形式。
其实，我在关于本LZ的第一个回帖中已经清楚地展示了missing values的性质：
a MISSING value = an UNKNOWN value
我愿意在此给出一个不等式：
a THEORETICAL estimate based on data missing pattern =/= a real random
measur... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

我的三分法中的两个临界点是用全样本数据及其对临界关系的可变贡献（权重）来估计的一个加权平均数。这就是说，每个临界点的估计值都是一个100%地充分的且由权重校正后的无偏统计量，正如我们计算任何样本的加权均数或算术均数一样。有哪位对样本均数做cross validation的？说出来让我们开开眼界？
任何来自实际样本的一个training sample都不可能给我们一个比由全部实际样本计算出来的统计量更充分的统计量。在这种情形下，CV就没有了任何意义。难道我们能用以一系列不充分的统计量作为标准去验证一个充分统计量？难道我们能够用一组残疾人作为标准去验证一个无残疾的人？

A*******s
发帖数: 3942

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

真是夏虫不可语冰... 果然和我说的一样嘛，就是拼命overfit一个training sample，
不做任何validation和cross validation。
陈大师你不妨加入狂多的high order terms and interaction terms, 相信我，这方法
一定会比你的所谓三分回归fit的更好。你试试就知道了，哈哈。你大可以再宣称发现了新的统计学地平线，千万别告诉别人这方法是我告诉你的。

计的一个加权平均数。这就是说，每个临界点的估计值都是一个100%地充分的且由权重
校正后的无偏统计量，正如我们计算任何样本的加权均数或算术均数一样。有哪位对样
本均数做cross validation的？说出来让我们开开眼界？
算出来的统计量更充分的统计量。在这种情形下，CV就没有了任何意义。难道我们能用
以一系列不充分的统计量作为标准去验证一个充分统计量？难道我们能够用一组残疾人
作为标准去验证一个无残疾的人？

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学难学吗？

对不起，我不太明白你的表示符号!=的含义，可否请你解释一下。
此外，你的
expecation of (一个样本的平均）!= 一个可知的存在
与我的
（一个样本的算术均数 = 一个可知的存在）
似乎说的不是一回事，因为
一个样本的算术均数 =/= expecation of (这个样本的算数均数）。

T*******I
发帖数: 5138

来自主题: Statistics版 - 【友情提示】TNEGIETNI就是一民科

临床统计只是卫生医学统计领域比较特征性的一个应用范畴。
要说样本对总体的代表性，那确实不是一个可以被证明的话题，而是信心 or faith。
我们只能说，当使用样本数据构造一个统计测度时，我们相信在相应的总体中也存在一
个同质的总体测度，而这个样本测度是总体同质测度的一个随机表达。例如样本均数和
总体均数。但总体均数是不可知，也不可被计算出来的，因为总体中个体数通常被认为
是无限大的或在有限时间内不可穷尽的或不可确定的。

仰"么

T*******I
发帖数: 5138

来自主题: Statistics版 - 【友情提示】TNEGIETNI就是一民科

T*******I
发帖数: 5138

来自主题: Statistics版 - 恭请luckyjet (tejykcul)回答二个问题

第一个问题的答案是总体和样本谁先被定义取决于一个统计认知行为的具体过程。一般
而言是总体的定义在先, 但有时是样本先进入认知行为的主体范畴, 总体的定义其后得
到确定。
一般而言, 总体有什么参数是在得到样本后才逐渐清晰的。一个样本测度会对应一个总
体中的同质参数。没有样本测度便没有总体参数的概念。
至于你在这里定义的那个奇怪的总体均数的估计公式, 你应该知道, 样本点的序列编号
是可以任意改变的。所以, 你的这一测度定义不是唯一。
如果是我, 如果总体是正态的, 我可以定义总体均数的样本估计算法如下:
样本均数=(x_max - x_min)/2
这个例子告诉人们, 不同的idea将带给人们不同的统计计算公式和结果。我们需要在众
多ideas中选择较好的或最好的。
最后, 我的上述回答与任何高深的数学知识都没有关系, 除了使用了简单的四则运算技
术以外。

]

c*******v
发帖数: 2599

来自主题: History版 - 哇靠，终于日月轮回宋朝大坑打败了打炮坑

我后来回复了.那个是第一段的.跟我说的没关系.
我说的都是按地点分开算的.因为我认为估计全国均数,
显然没有估计某城市某地区均数的资料准确.

一万贯，中人十家这种句子别人问了半天被你华丽丽地直接忽视掉，就这种逻辑基
础你还是就别发言了。

a********6
发帖数: 14468

来自主题: Military版 - 独裁狂人卡扎菲有五毛军队力挺不是没有原因的

说的有道理，不过中国的形势不同，中国放弃了社会主义，仍然有5毛，只不过比例不
大。
好像利比亚人均GDP大约1.5万美元。
均数重要，但标准差更重要，据说利比亚人民富裕程度比较平均，标准差不大。或者说
标准差相对于均数不大，也就是CV (Coefficient of Variance) 不大。

s****n
发帖数: 8912

来自主题: Military版 - 影帝丰功伟绩：鄂尔多斯现状：曾经家家放贷如今户户讨债

核心提示：鄂尔多斯民间借贷“崩盘”之后，当地流传俗语称“曾经鄂尔多斯家家放贷
，如今鄂尔多斯户户讨债。”至今，鄂尔多斯人仍面临人均数套房闲置、民间借贷垮塌
、煤炭市场重创等种种难题。
“曾经，鄂尔多斯家家放贷；如今，鄂尔多斯户户讨债。”人来了又去，这里热闹与冷
清交加。难以回避的是，房地产停滞、豪车甩卖，无不是鄂尔多斯资金断裂困境的缩影
。至今，人均数套房的闲置、民间借贷的垮塌加上煤炭市场的重创等种种难题还摆在鄂
尔多斯人的眼前。鄂尔多斯民间借贷“崩盘”产生的“综合征”形形色色，改变了鄂尔
多斯人的生活和心态。
一推再推不收房
“收了房，就要交很多税费”
鄂尔多斯市民王阿姨的失眠如今已好了很多。去年，在得知钱要不回来时，王阿姨整宿
整宿地睡不着觉。不过，现在她知道宽慰自己了：“就当这50万没挣。况且借钱的朋友
也说了，眼下是没钱，不过要房就给抵房、要车给抵车。”王阿姨不再期待利息，只盼
着把本金拿回来就好。“其实房和车我们都不缺，就是想要现金。”让王阿姨犹豫抵房
的一个关键原因是，“现在抵债的房子还没完工，甚至是没开建的期房，风险更大。”
这几天，王阿姨两年前在东胜区中心买的一套三居室... 阅读全帖

l***y
发帖数: 1166

来自主题: Military版 - 别吹瑞士工资了

这不很正常，说过多少遍了，谁告诉你平均数之上和之下的人是55分的啊。
事实上大部分分布高于平均数的都是少数人。
最简单的例子100个人共有100元，平均每人1元，其中99人总共9.9元（每人0.1），剩
下1人90.1元。
只有1人高于均数。当然是远高于。
换言之，越是贫富不均，高于均数的人越少。

5000

发帖数: 1

来自主题: Military版 - 台湾人均住房44.55平方米大陆40平方米

国家统计局：住房面积人均40.8㎡不存在“被平均”
2017年07月10日 18:12:46
来源：中国之声
原标题：刚刚，国家统计局独家回应：“全国人均住房面积40.8平方米”不存在“被平
均”
刚刚，国家统计局给中国之声发来了独家回应，以下为回应全文：
近期，有网友针对国家统计局发布的“2016年全国居民人均住房建筑面积为40.8平方米
”提出质疑，认为自己“被平均”。
国家统计局信息景气中心副主任潘建成今天（10日）对中国之声表示，“当一组数据的
差距特别大，尤其是特别高的那部分数据比较多的时候，中位数和平均数的差距就会拉
大，但不是‘被平均’这个概念，中位数和平均数是两个不同的代表平均水平的数据，
只不过说，你要如何去理解。目前发布的40.8平方米的平均数是那种算术的平均数，而
人们一般感觉上更能接受的是中位数”，潘建成强调，这是不同的统计指标的应用问题
，它不存在是不是“被平均”的问题，对此，要理性去分析。
潘建成说，算术的平均数包括地域之间的平均、大中小城市之间的平均、城乡的平均、
大面积和小面积的平均，这个平均数往往是用于测算总的平均，估算总的面积，估算总
的房地产的发... 阅读全帖

发帖数: 1

来自主题: Military版 - 国家统计局：住房面积人均40.平方米，低于台湾

k******e
发帖数: 8870

来自主题: Immigration版 - [合集] EB1A NOID--请大家看看还有救没？

☆─────────────────────────────────────☆
iamgrass (iamgrass) 于 (Thu Jul 5 23:41:05 2012, 美东) 提到:
今天忽然收到NOID的信件，网上状态还是initial review。这是2进攻了，请了版上著
名的律师。
是tsc xm 0106.给了33天，信件是26号寄出的，今天才收到，10天过去了。请xdjm给
点注意。谢谢！
claim 了老三样，承认了符合三项。但small percentage没有达到。
1. 提出我审稿的一个中文杂志不enjoys a distinguished international reputation
. Thus the bneficiary's editorial position of this journal is questionable.
我知道我的审稿是弱项，总数虽多（60+提交时），但多数是垃圾杂志，还有中文凑数
的。感觉死定了。有好的建议吗？谢谢先。
2. 我10篇文章，他拿推荐人发了100或50多篇跟我比。‘uscis cannot c... 阅读全帖

p*********e
发帖数: 32207

来自主题: Basketball版 - 01年季后赛的76人同92年季后赛的公牛

01年76人队中头号核心是AI
季后赛场均数据 32.9分4.7篮板6.1助攻2.4抢断0.3盖帽
队中二号人物mutombo 13.9分13.7篮板0.7助攻0.7抢断3.1盖帽
PER(player efficiency rating)值两者分别为22.5跟19.7
http://www.basketball-reference.com/teams/PHI/2001.html
92年公牛对中头号核心MJ
季后赛场均数据 34.5分6.2篮板5.8助攻2抢断0.7盖帽
二号人物pippen 19.5分8.8篮板6.7助攻1.9抢断1.1盖帽
PER值两者分别为27.2跟20.1
http://www.basketball-reference.com/teams/CHI/1992.html
如果AI相对mutombo可以叫独立带队,那MJ相对pippen更可以叫独立带队
结果呢?
AI不过是打进总决赛,MJ拿下了总冠军.

s******n
发帖数: 7166

来自主题: Basketball版 - 林现在失误怎么下来的

我看有报道说SB想让林进首发打2号位, 该不是最近都是一直打分卫,所以失误才变少的
吧. 要是这样太悲哀了,林打分卫没前途的,身体受限制. 其实要打分卫也应该是菜鸟去
打,这厮好像就知道跳投,没什么组织能力.

近几场林书豪发挥不错，多次在关键时刻帮助球队力挽狂澜，逐渐赢得了主教练斯科特
的信任。昨天战胜雄鹿的赛前，斯科特公开表示有意让林书豪回到首发阵容，但具体时
间待定。斯科特同时暗示，他打算让林书豪和乔丹-克拉克森一起出场，前者的位置是
得分后卫位置。
改打2号位？那意味着林书豪的触球机会将大大减少，成为一名纯粹的得分手，这
显然是林书豪本人所不愿见到的结果。“老实说，我偏爱打双能卫，火箭当年就是这样
使用我的，大学时候我也是打这个角色。”林书豪说。
本赛季以来，斯科特一直对林书豪的组织表现颇有微词，他认为林书豪在传球决定
环节上存在问题，为此还多次公开批评了他，甚至一度将他雪藏。截至目前，林书豪本
赛季一共出场了56次，其中首发23场，最近的36场比赛，他一共才获得3次首发机会。
美国的数据网站指出，当林书豪打首发时，他的命中率为44.9%，场均数据为11.6
分5次助攻；当他出... 阅读全帖

l**k
发帖数: 45267

来自主题: Basketball版 - 火箭会在今后很多年都是强队

kobe 25岁的时候是２００３吧？
http://www.basketball-reference.com/players/b/bryanko01.html
根据这里的Play Offs Per Game统计表，２００３的季后赛场均数据是３２分／５助／
５板／.43
哈登今年的场均数据是27分／7助／6板／.44
你觉得后者的数据高一个档次？

u***************r
发帖数: 11227

来自主题: Basketball版 - unidentified_title

发信人： GYCS(天空之城), 信区： Basketball
标题：试论乔丹能否成就八连冠伟业
发信站： BBS未名空间站(Tue Aug 22 10:23:36 2017,GMT)
八连冠伟业也并非是前无古人，但确实是后无来者。凯尔特人的这一项神迹，恐怕要算
是最难以被打破的记录了。当然，八连冠也有客观条件的因素。比如那时联盟的球队总
共还不足十支，再加上绿军本身的全明星阵容，竞争压力要比现在小得多。现代篮球别
说是八连冠，就是三连冠都很难做到。马刺甚至一个连冠都没有。至今为止，公牛之后
的近20年来也只有湖人曾做到过三连冠。那么曾经两度三连冠，且又恰好在连冠中间选
择退役的乔丹能否做到？也就是说，如果乔丹不在90年代选择退役，他能否完成八连冠
伟业？
说起乔丹，他是在篮球界被誉为神一样的男人。其不但统治了90年代，更是把内线鼎盛
时期的四大中锋都踩在脚下。从此打破了得内线者得天下的传统。而在四大中锋之后，
内线球员尤其是中锋也就随着没落。那么在90年代就真的无人可以挑战乔丹的权威吗？
恐怕又不尽然。至少就有一位具备这样的资本。他就是位列90年代四大中锋之首的大梦
——奥拉朱旺。... 阅读全帖

c*********a
发帖数: 977

来自主题: NBA版 - 湖人将为奥尼尔退役34号球衣(ZZ HC)

就在今天，NBA传奇中锋沙奎尔-奥尼尔(Shaquille ONeal)宣布了他正式退役的决定，
而就
在这一消息公布后不久，湖人队方面就对外表示，球队计划退役奥尼尔在湖人时期身穿的
34号球衣。
“我们还没有制定关于此事的具体日程表，但我们可以向你保证，一定会退役他的球衣。
”湖人队发言人约翰-布莱克在一封电子邮件中写道。
39岁的奥尼尔已经在NBA中效力了长达19个赛季，在1996-2004赛季的8年间，他一直效
力于
湖人，并帮助湖人在00、01、02连续三年夺多总冠军，他期间也三获总决赛MVP，以及
一次
常规赛MVP。
奥尼尔的职业生涯场均数据为23.7分10.9篮板2.5助攻以及2.3次封盖，投篮命中率为58
.2
%，而他在湖人时期的场均数据更是达到了27分11.8篮板3.1助攻2.5封盖。
奥尼尔也将成为湖人队史上第八位得到球衣退役殊荣的球星，在此之前的七人分别是威尔
特-张伯伦(13号)、埃尔金-贝勒(22号)、盖尔-古德里奇(25号)、魔术师约翰逊(32号)
、卡
里姆-阿卜杜尔-贾巴尔(33号)、詹姆斯-沃西(42号)以及杰里-韦斯特(44号)。
对于奥尼尔的退役... 阅读全帖

z**********i
发帖数: 9546

来自主题: NBA版 - 詹姆斯各阶段数据对比《虎扑转载》

https://bbs.hupu.com/20023555.html
[美国JRs之声]詹姆斯各阶段数据对比
由肥肥酱油麦发表在虎扑篮球·湿乎乎的话题 https://bbs.hupu.com/vote
LeBron James' Comparison: Regular Season / Playoffs / NBA Finals /
Elimination Games (i.imgur.com)
勒布朗-詹姆斯数据对比：常规赛 / 季后赛 / 总决赛 / 面临淘汰的生死战。
[–]Wolves BandwagonGrease_the_Witch 367 指標 15小時前
the only thing this graphic could use is the sample size of games, I think.
really fine work, OP
一点个人愚见啊，这张图如果能够补充上不同类型比赛的样本数量的话就完美了
楼主，做得真的很棒！
[–]CelticsCapnjack84 2 指標 4小時前
Also, like to see some comparison... 阅读全帖

L*****y
发帖数: 60

来自主题: MiddleSchool版 - 中小学生每天作业3小时反讽了谁

每天作业3小时是对教育现实的反讽
近日，某机构发布了《全国中小学生学习压力调查》（以下简称《调查》），记者看
到，此份调查报告覆盖全国31个省市自治区，根据该平台2000万用户一年积累的学习行
为大数据得来。报告显示，我国中小学生平均每天写作业达3小时，是全球均数的2倍，
普遍睡眠不足7小时。（11月26日《现代快报》）
客观的评价源自数据说话。看到我国我国中小学生平均每天写作业达3小时的调查数据
，恐怕很多人想不到，因为这不过是写作业时间，如果算上中小学生的课外辅导与培训
，那么可以得出的是，我国的中小学生基本都在满负荷学习。
我国中小学生写作业时间是全球均数的2倍、法国的3倍、日本的4倍、韩国的6倍。以一
个孩子为基准，一年上学9个月，算上假期写作业时间共计300天，每天3小时，一共12
年，累计要花费1万多个小时。满负荷学习带来的健康损伤是不言而喻的，前段时间一
个十五岁少年因为写作业熬夜，第二天猝死，其父亲在写文章追思。现实来看，要追思
的恐怕不仅是家长。
数据显示，面对孩子每天写不完、不会写的作业问题，父母们也表示很无奈。44.9%的
父母会直接劝孩子放弃，32.7%的父母... 阅读全帖

s*****0
发帖数: 357

来自主题: Biology版 - 请教一个简单的数据统计问题

这都什么乱七八糟的。要这么说所有的statistical test都得用non-parametric才行，
因为也只有non-parametric才没有
任何normality的假设。
什么时候mean都可以算出来，但一组严重不normal的数据算均数的一开始就错了，因为
均数没有什么实际意义，相反中
值才有意义，怎么可能还上t test? 做parametric的统计检验当然会有data
distribution的假设，这样的假设当然有生活中
的认同，比如在人群中取身高，有几个姚明几个mini-me？大部分人不还在中间，而且
逼近正太，凭什么说不能用
normality的假设？而之所以要大样本也是为了避免抽样误差而让它接近实际生活中的
分布。

the
generating
not

T*******I
发帖数: 5138

来自主题: ChineseMed版 - 统计的学问

这句话适合你自己。
统计学家从来不会将一个H0假设建立在一个绝对的确定性等式上，因为统计面对的问题
是绝对的不确定。
那个H0假设就是在假定两个样本均数的绝对之差中由个体变异引起的抽样误差大到不可
忽视，而不是说，它们所来源的各自总体的期望绝对相等。
你很可能在写这篇文章之前甚至没搞清楚那两个样本均数之差是由什么构成的。而你对
那个H0的理解表明了你的确定性数学思维在统计领域的残余痕迹。
关于你所谓的“文科统计”。其实，你可能不知道，任何一个统计方法的诞生都首先是
一个文科思维而非数学思维。正是这个文科思维过程形成了统计算法以及决定了如何应
用数学计算技能。因此，只有正确的思维逻辑才会带给我们一个正确的统计方法，而一个
错误的逻辑必然带给我们一个错误的统计方法。
此外，你很可能不知道统计学的诞生并非在数学领域，而是在人文科学领域。

T*******I
发帖数: 5138

来自主题: Statistics版 - 答水泡泡：陈立功是谁教出来的？

在我的方法里，每个期望的临界点都被处理为一个随机变量，且被定义在被分割变量的
一个可测空间（这应该是概率论中的基本概念了）里。由此，每个随机临界点的期望估
计必然伴随着一个可信区间。这个思路就是经典的统计思路。如果没有可信区间，临界
点就成了一个由所有被测点的共同期望所估计的、不变的随机点估计。
反观现有的方法论，它们不是把临界点这个随机现象定义在一个可测空间里，而是定义
在一个联立方程组的共解之上。这是一个孤立的随机点估计，没有可信区间，除非采用
bootstrap法。按照我在文章里指出的那样，这个联立解不是一个随机变量，意味着以此
方法估计的临界点也不是一个随机变量，既然它不是由一个随机变量获得的估计，那么，
它怎么可以被称为是一个statistic(统计量)？这岂不是真真地颠覆了统计学么？
在我看来，CV不应该是被用来做模型选择的，因为除了期望临界点外，没有比它更好的
了。这就好比用一个连续型随机变量的抽样均数对总体均数作期望估计并需要一个可信
区间一样，这里已经没有了任何其它更好的选择。临界点的可信区间不过是用来作为控
制空间关系变异时的参考范围而已。

T*******I
发帖数: 5138

来自主题: Statistics版 - 答水泡泡：陈立功是谁教出来的？

Hi, every friend,
非常感激你们持续地倾注你们的热情和关注。我这几天可能处于一种癫狂的状态。好在，
终于走了出来。
我所使用的概念系统今天中午前后总算基本完成了。它们就在那个wiki网页里。是的，
那里是一个特别的地方，本不应该由我来这样做。但实在没办法，没人能够担此大任。
于是，我不得不化名行事。
我在系统里引入了尺度空间（scale space）的概念。这是13年前思考分段回归问题时就
已经形成了的概念。尺度空间就是当前概率论系统中的“样本空间”。我认为这是一个
严重的概念抽象错误。但是，它对概率论的理论形成影响不大，却人们在引用这些概念
思考统计学的一些问题时容易引起混淆和冲突。是到了必须被纠正的时候了。
样本空间只能是一个样本本身。
引入这个概念后，理解其它方面就易如反掌。
另外引入的概念是被测空间（measured space），它就是样本空间，也就概率空间。当
然，此时的概率空间定义在样本空间与尺度空间作为一个整体的的空间上。没有脱离尺
度空间样本空间存在，反之亦然。
我把可测空间还给了总体空间。那是一个可测但不可直接被概率化的空间。
我还引入了可连续空间以... 阅读全帖

s*****r
发帖数: 790

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

what do you mean by "没有比这个期望更好的了"? what if you got one more data
point? is it better? what if you have a set of data, I have another set of
data, which average is better? if you mean all possible values by "全样本数
据", what is the 算术均数 of that from a 正态分布? how many points you are
averaging?
one minor question: what is the probability you observe the best 算术均数?
is it more likely than any other numbers?

cross
来的是一个极不可靠、极不稳定的随机点模型。

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师，　我很好奇

这个overfitting的问题确实纠缠我。让我问你一个问题：对任何一个连续型随机变量的期望估计，例如，对一个服从正态分布的连续型随机变量计算其算术平均数，那么，这个均数是overfitting的吗？我可能是孤陋寡闻，以前从未听说过。如果你回答说“是的”，那么，我的分段回归分析的方法论就存在这个问题。如果你的回答是“否“，那么，我的方法论就不存在这个问题。等你回答我的这个问题后我再详细解释给你听。
老实说，我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领域的文献，发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关，我估计的是样本的期望临界点，即是用全部样本估计的一个充分的期望估计，没有任何样本信息的损失，正如我们用一个正态随机变量的全部观察值计算其算术均数一样。

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师，　我很好奇

这样吧。我们讨论一个抽象的样本。看看你的cross validation应该如何实现。
假设我手里只有150人的学生总评成绩和几个影响因素。我做三分回归分析。分段前，
我用逐步回归法在全部样本基础上建了一个多因素模型。然后以该模型为基本结构进行
三分法的数据迭代。如果总评成绩服从正态分布，我可以断定两个临界点应该以均数为
对称分布。于是以均数为界在两边各假设存在一个临界点。将全部数据排序后同步由远
端向中心方向开始搜索，每迭代一次就建一组三分模型。所以，如果sample size=150,
迭代次数可以达到75次，从而得到75个权重测量结果，每个权重对应于一对被迭代的点
。显然，搜索的过程就是为每一侧的临界点构建了一个可测空间，例如，低段临界点的
可测空间是[min(X), mean(X)]，其中包含75个原始观察值；而高段的则是[mean(X),
max(X)]，也包含着75个原始观察值。于是，以权重和这两组75个观察值计算每一侧的
临界点的期望估计。从而将原始样本分解为三个子空间，最后在每个子空间内建一个临
界模型。于是，原来搜索临界点时的临界模型都是随机的“点”模型，不是我们需... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学难学吗？

统计学难学吗？

迷茫，工作也找不到稳定的。于是想转行，在朋友的指导下，说统计好找工作，于是转
了统计。现在读了一年，感觉功课好难，好多们都要补考，真心桑不起。之前数学也丢
了很多年，统计基本也没什么基础。现在还不知道能不能顺利毕业。看着版上的人说，
统计工作也不好找，心里也很难过，似乎感觉这个转行的决定是错误的。但是又能怎么
样呢?只能顺着走下去了。实在不行，就回国吧，唉。不知道版上有没有转行统计找到
工作的经验呢？给点鼓励吧。
看了这个帖子，我感到有点悲哀。我想说的是，统计学难吗？问这个问题好比在
问：用一把尺子给一个人测量身高难吗？
真心地认为，统计学里一切行为就是在用一把尺子测量某个对象。这原本是最简
的人类认知行为了，却被一帮高深的学者们搞得连拥有博士后经历的人都无法理解了。
【在 gaetano (pazzo) 的大作中提到: 】 →_→原来统计也有民科啊8
既然我被gaetano判定为统计学里的民科，那么，我想请问，t-test的诞生与现
在所谓的概率论和数理统计理论有关吗？或者说，t-test这个方法是从现在人们所熟悉
... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学难学吗？

一个统计测量行为还需要被证明吗？例如，计算一个连续性随机变量的抽样平均数，就
是在测量它的抽样分布的一个中心点所在测量尺度上的位置，就像一个人拿着一把身高
尺测量一个人的身高值一样。再如，t-test中的概率判断也是通过在t-尺度与概率尺度
之间的对应关系找到一个概率度量而作出的判断。这些都是简单的测量行为，需要被用
数学的方式予以证明吗？我看你要么是你以前的统计学教授们没有告诉你这个简单事实
，要么就是你脑子有病没有认识到这个事实。
关于t-test和概率论谁先出生，去找戈赛特的文章，并看看发表日期，最好仔细读读其
中与概率的关系。
关于Biometrika杂志的诞生可以告诉你Pearson投稿数学期刊以及为何要自办这个杂志
的经历，因为他无法在当时正规的数学期刊上发表自己的研究成果。
由于总体的分布期望永远不可知，没有人能够以数学的已知概念、定理和逻辑来证明一
个来源于该总体的样本的算术均数是关于这个总体的分布期望的无偏估计，因为没有人
能够证明：
（样本的算术均数 = 一个可知的存在）=（总体的分布期望 = 一个不可知的存在）
或者，简单地：
一个可知的存在 ... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学难学吗？

这种斗嘴毫无意义。你我都知道样本均数是一个可知量, 但总体均数是不可知量, 所以
, 这两者1间是否相等不存在一个需要被证明的问题。

T*******I
发帖数: 5138

来自主题: Statistics版 - 【友情提示】TNEGIETNI就是一民科

诚实地说, 我只知道样本的均数如何计算, 但不知道样本均数的期望值是如何被计算出
来并被证明等于那个你永远不可知的总体均值的。

仰"么

T*******I
发帖数: 5138

来自主题: Statistics版 - 【友情提示】TNEGIETNI就是一民科

诚实地说, 我只知道样本的均数如何计算, 但不知道样本均数的期望值是如何被计算出
来并被证明等于那个你永远不可知的总体均值的。

仰"么

R*****0
发帖数: 146

来自主题: Statistics版 - 恭请luckyjet (tejykcul)回答二个问题

1、你说“expectation of (一个样本的平均）= 总体均数”这是大数定理的另一个表
达形式？拜托先好好读懂大数定理的内容。一个样本的平均的期望=总体的期望，这确
实显而易见，谁跟你说要证这个了？这哪里体现“大数”了？
2、你说“我们没有办法由这个样本本身得到关于它的算术均数的期望值的估计”。怎
么没有办法？样本均值就是一个估计，样本的第一个观测值也是一个估计，样本所有奇
数个观测值的均值又是一个估计。
3、!=是“不等于”的常见写法之一。别跟我争常见与否，它比你的大多数理论都常见。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天