第2页 - 关于数据分布的讨论汇总 - 话题女王

全部话题 - 话题: 数据分布

发帖数: 1

来自主题: DataSciences版 - 【专业分析】“数据科学”专业为什么在美国这么火？！

在各种媒体经常看到的关键词就包括大数据，数据科学，人工智能，机器人和区域链等
。其实，这些高大上的名词中，离一般人最近（接地气）的就是数据科学。数据科学
可以理解为一个大概念。它包括侧重理工科的纯数据分析，也包括很实用的商业分析和
营销分析。数据科学的核心就是利用各种量化手段和工具，例如数学，统计学，计量经
济学，数据挖掘和计算机科学等，从现有的数据（大数据）中，挖掘发现新知识，以
便用于商业分析和商业决策。根据2011年美国麦肯锡公司的预测，到2018年美国大概
短缺19万与数据科学有关的工作岗位。您如果到美国有关招聘网站包括领英（LinkedIn
）去搜索一下，您的确会发现现在有许多数据科学和数据分析的工作机会。由于供求
关系，数据科学的工作岗位给的工资也不低，10万美元年薪很常见。这个工资水平通常
是工程类毕业生工作5年以后才能够拿到的水平。
IT技术的突破，就业市场的靓丽，和媒体的渲染，数据科学这鼓热风吹到各个角落，包
括美国大学。美国大学尤其是私立大学，对市场需求相当敏感。在过去10年，美国高
校陆陆续续开办200多个研究生层次与数据科学有关的专业。尤其是最近几年... 阅读全帖

S*******h
发帖数: 7021

来自主题: Chicago版 - AA是如何割华人的肉 - 让数据说话 (转载)

【以下文字转载自 USANews 讨论区】
发信人: Scania88 (Scania88), 信区: USANews
标题: AA是如何割华人的肉 - 让数据说话
发信站: BBS 未名空间站 (Sun Jul 31 03:15:33 2016, 美东)
有不少华人没有意识到AA对华人的巨大损害，反倒认为在公平教育方面维权是小题大做
，无端闹事，只顾眼前小利而忽略AA可能带来的好处。现在我们让数据说话，看看华人
享受公平教育的机会是如何在听上去高大上，实际上阴险无比的 AA 法案下被牺牲掉的。
以我们县为例，2014年全县公立学校注册学生的人口分布，包括（小学，初中，高中）:
32.0% 白人(非拉丁裔) (初中高中则均为32.9%）
27.4% 拉丁裔
21.4% 非裔
14.4% 亚裔
4.6% 多族裔
白人学生可能不少上了私立学校，所以在公立学校学生中的必例没那么高。
到现在为止，质优班以统一考试（自愿报考），学校推荐（老师评价和平时成绩结合）
，学生自己写 personal statement 等因素综合录取。
现在来看2013-2014学年度初中的的各类质优班（文理... 阅读全帖

S*******h
发帖数: 7021

来自主题: NewJersey版 - AA是如何割华人的肉 - 让数据说话 (转载)

S*******h
发帖数: 7021

来自主题: Seattle版 - AA是如何割华人的肉 - 让数据说话 (转载)

S*******h
发帖数: 7021

来自主题: Texas版 - AA是如何割华人的肉 - 让数据说话 (转载)

b*****d
发帖数: 61690

来自主题: Military版 - 报告称全国每分钟6人确诊癌症地域分布明显

癌症发病地域分布特点本报制图何将
本报讯(记者李秋萌)我国近20年来癌症呈现年轻化及发病率和死亡率“三线”走高
的趋势。昨天，记者从全国肿瘤登记中心发布的《2012中国肿瘤登记年报》中获悉，每
分钟就有6人确诊为癌症。同时，癌种也呈现地域化特点，如胃癌集中在西北及沿海。
男性死亡率高于女性
这是我国首次发布肿瘤发病情况登记年报，数据来源于24个省的72个监测点，覆盖
8500万人。年报显示，每年新发肿瘤病例约为312万例，平均每天8550人，全国每分钟
有6人被诊断为癌症。
恶性肿瘤发病率全国35岁至39岁年龄段为87.07/10万，40岁至44岁年龄段几乎翻番
，达到154.53/10万；50岁以上人群发病占全部发病的80%以上，60岁以上癌症发病率超
过1%，80岁达到高峰。
全国肿瘤死亡率为180.54/10万，每年因癌症死亡病例达270万例。我国居民因癌症
死亡的几率是13%，即每7至8人中有1人因癌死亡。
肿瘤死亡率男性高于女性，为1.68:1。
肺癌居癌症死亡首位
从病种看，居全国恶性肿瘤发病第一位的是肺癌，其次为胃癌、结直肠癌、肝癌和
食管癌，前10位恶性肿瘤占全部恶性... 阅读全帖

z*m
发帖数: 3227

来自主题: ChinaNews版 - 统计局首次公布收入中位数城镇1.9万农村6千元 (转载)

【以下文字转载自 Military 讨论区】
发信人: umner (jhq), 信区: Military
标题: 统计局首次公布收入中位数城镇1.9万农村6千元
发信站: BBS 未名空间站 (Sat Jan 21 02:19:16 2012, 美东)
http://biz.cn.yahoo.com/ypen/20120121/827149.html
统计局首次公布收入中位数
城镇居民：19118元农村居民：6194元
国家统计局昨天兑现了17日在国务院新闻办发布会上的承诺，首次公布了城乡居民收入
的中位数。国家统计局昨天发布《2011年城乡居民收入增长情况》报告显示，2011年农
村居民人均纯收入中位数为6194元，2011年城镇居民人均可支配收入中位数为19118元
，两者均较上年有所增长。
农村居民收入中位数增19.1%
报告显示，2011年农村居民人均纯收入中位数为6194元，也就是说，有一半的农民纯收
入低于这个数。该数据比上年增加995元，增长19.1%。农村居民人均纯收入中位数比人
均纯收入低783元，但增速高1.2个百分点。
此前数据显示，2011年全国农... 阅读全帖

u***r
发帖数: 4825

来自主题: Military版 - 统计局首次公布收入中位数城镇1.9万农村6千元

http://biz.cn.yahoo.com/ypen/20120121/827149.html
统计局首次公布收入中位数
城镇居民：19118元农村居民：6194元
国家统计局昨天兑现了17日在国务院新闻办发布会上的承诺，首次公布了城乡居民收入
的中位数。国家统计局昨天发布《2011年城乡居民收入增长情况》报告显示，2011年农
村居民人均纯收入中位数为6194元，2011年城镇居民人均可支配收入中位数为19118元
，两者均较上年有所增长。
农村居民收入中位数增19.1%
报告显示，2011年农村居民人均纯收入中位数为6194元，也就是说，有一半的农民纯收
入低于这个数。该数据比上年增加995元，增长19.1%。农村居民人均纯收入中位数比人
均纯收入低783元，但增速高1.2个百分点。
此前数据显示，2011年全国农村居民人均纯收入6977元，比上年增加1058元，增长17.9
%。剔除价格因素影响，实际增长11.4%，增速同比提高0.5个百分点。
>>解读
工资性收入贡献率大
国家统计局表示，2011年，工资性收入对全年农村居民增收的贡献率达50.3%。工资性
收入快速增长主... 阅读全帖

S******8
发帖数: 24594

来自主题: USANews版 - AA是如何割华人的肉 - 让数据说话

有不少华人没有意识到AA对华人的巨大损害，反倒认为在公平教育方面维权是小题大做
，无端闹事，只顾眼前小利而忽略AA可能带来的好处。现在我们让数据说话，看看华人
享受公平教育的机会是如何在听上去高大上，实际上阴险无比的 AA 法案下被牺牲掉的。
以我们县为例，2014年全县公立学校注册学生的人口分布，包括（小学，初中，高中）:
32.0% 白人(非拉丁裔) (初中高中则均为32.9%）
27.4% 拉丁裔
21.4% 非裔
14.4% 亚裔
4.6% 多族裔
白人学生可能不少上了私立学校，所以在公立学校学生中的必例没那么高。
到现在为止，质优班以统一考试（自愿报考），学校推荐（老师评价和平时成绩结合）
，学生自己写 personal statement 等因素综合录取。
现在来看2013-2014学年度初中的的各类质优班（文理 Magnet, Gifted & Talented 等
）族裔的分布：
白人：32.8%
拉丁：5.6%
非裔：7.9%
亚裔：45.4%
多族裔：8%
2013-2014学年度高中的的各类质优班族裔的分布：
白人：41.9%
拉丁： 7.6%
非裔： 7.0... 阅读全帖

z*m
发帖数: 3227

来自主题: Returnee版 - 统计局首次公布收入中位数城镇1.9万农村6千元 (转载)

J****T
发帖数: 29

来自主题: EE版 - 学土木的苦逼有一事求EE大侠指导

谢谢LS的回复.
我简要说说我的问题和想法, 我要处理的是雷达观测的降雨数据,通常数据空间分布是
polar形状的, 就是两条直线一夹角和一段弧线那种, 为了方便数据输入到水文模型,
都会把数据分布转成规则的Cartisian形状分布,就是正方形格点. 问题就是在转换过程
中这是一个能量均化,涉及能量损失的过程,理论上说, 转化后格点的分辨率越小, 能量
损失越多, 比如1km网格的就比250m网格的损失多.
我想做的用功率谱比较Information content的损失量, 因为序列长度都是一样的(一个
洪水过程,10天左右), 取样频率相同(1分钟), 因为雨量输入到水文模型, 水文模型相
当于一个low pass filter, 如果有模型这好比较, 直接输入降雨就知道差异, 但是没
有特定水文模型的情况下, 如何去判定不同分辨率雨量的能量大小, 然后去判断输入到
水文模型后出来的结果差异. 或者说如何去找出一个universal的初步判定方法, 是我
比较感兴趣的研究.

J****T
发帖数: 29

来自主题: EE版 - 学土木的苦逼有一事求EE大侠指导

d***y
发帖数: 263

来自主题: Engineering版 - 请教关于数据拟合

代国内友发贴，多谢！
推测一组数据为某分布，要拟合求出对应分布函数的参数值
观察值该如何计算？
一般好像都是先对数据分组
然后计算各组对应概率或相对概率
然后以此为观察值来拟合
但是这种做法的拟合结果很大程度上依赖于分组的组距和组数
我想问一下能不能用累积概率作为观察值来做
（当然拟合的函数也要改成对应分布的累积概率函数）
这样对分组的方法依赖较小，而且好像也不太受数据中噪声的干扰
哪位能替我解答一下，这样做有没有问题？
是不是存在样点之间不独立的问题？

a*****c
发帖数: 2086

来自主题: Military版 - 双十一又要到了，让我们看看这次淘宝在大规模数据上表现如何

有些人啊，没有真正的去做过一个project，没有深入去参与其中的开发，就在那里想
当然的发表评论。真正做下去了才知道会碰到多少问题需要去考虑去解决的。一个短时
间内承受巨大交易量，要做到不能当机，让用户不感到速度变慢，购物历史和更新记录
不能冲突，背后采用怎样技术才能支撑，我还是贴个淘宝技术的科普吧。
【编者按】对于淘宝网而言，2012年的“双十一”是一个交易里程碑，是一个购物狂欢
日，在这个“神棍节”里，淘宝创下191亿元的交易额，在交易的背后隐藏着哪些复杂
技术？
你发现快要过年了，于是想给你的女朋友买一件毛衣，你打开了www.taobao.com。这时
你的浏览器首先查询DNS服务器，将www.taobao.com转换成ip地址。不过首先你会发现
，你在不同的地区或者不同的网络（电信、联通、移动）的情况下，转换后的IP地址很
可能是不一样的，这首先涉及到负载均衡的第一步，通过DNS解析域名时将你的访问分
配到不同的入口，同时尽可能保证你所访问的入口是所有入口中可能较快的一个 (这和
后文的CDN不一样)。
你通过这个入口成功的访问了www.taobao.com的实际的入口IP... 阅读全帖

m******8
发帖数: 2153

来自主题: QueerNews版 - 美国人口普查数据:同性恋伴侣家庭分布和增长状况

2010年的美国人口普查数据显示，最近20年以来，美国同性恋伴侣家庭的数量呈显著增
长趋势，许多同性恋伴侣家庭也从传统的“同性恋聚居地”分散到了范围更广的全美各
地城镇。
到本周为止，美国人口普查局已陆续公布了去年普查所获得的各州人口最新数据，
加州大学洛杉矶分校威廉姆斯学院（Williams Institute）的人口统计学专家分析了普
查数据中同性恋伴侣的分布情况，为人们提供了有史以来最清晰的、有据可依的相关数
据全景图，尽管目前的普查数据在技术上还不能完全准确和全面的反映同性恋家庭的真
实全貌。
根据普查数据，目前已被统计的全美各地同性恋配偶的总数为901,997对，比十年
前增加了50%。不仅在绝对数量上有明显增加，同性配偶的地理分布也正呈现分散化趋
势，而不是多年前集中于被认为是“同性恋聚居地”的少数一些城市，一些老年同性伴
侣更愿意选择到自己喜爱的小城市定居，因为很多小城市的社会已不再像从前那样观念
保守。
近年来，同性恋者被社会接纳和认可的程度已发生了巨大变化，已有越来越多的同
性恋者愿意公开性倾向或公开与同性伴侣的关系，人口普查所呈现的同性伴侣增多的现
象似乎反映了这一... 阅读全帖

l*******o
发帖数: 12469

来自主题: CS版 - EM 算法

俺觉得EM作为一种参数估计的渐进方法需要事先假设数据分布的嘛，否则你从什么地方
可以开始猜那些参数呢？如果你已经知道了数据分布，你可以两个分布的参数都用EM算
法得到，在比较那个分布的误差小点。但似乎这两种分布可以用更直接的方法估计参数
吧？

c***s
发帖数: 70028

来自主题: Headline版 - 中国最新人口流动数据曝光都在往这几个城市跑

6年前的2009年，一场世界金融风暴袭来，东莞的出口加工制造业深受重伤，随后掀起了一场波澜壮阔的产业转移浪潮。与之相伴的，是农民工们回乡就业的新闻，不断出现在网络上。那个传说中的世界工厂，就此衰落了吗？
调查数据告诉我们，在过去几年，东莞流入人口200万，比内陆任何一个城市增加的人口都要多，东莞的制鞋服装厂搬走了，旁边深圳不堪高地价压力的高端制造业又搬过来了，比如华为和大疆创新的新生产基地，都聚集在东莞松山湖周边，这里离深圳市中心的高速公路也不过大半个小时的车程，往来交流相当方便。而深圳白领到东莞置业，正在和二十年前的香港人到深圳买房一样，成为新的流行趋势。
以下是最近五年的一二线城市人口流入情况：
注：数据来自各地政府统计公报或人口普查数据。单位：万人。
如果和中国人口密度图结合，就是以下这个分布：
人口流入呈现三个规律——
第一，高度集中在三大都市圈。
人口流入超过100万的13个城市，三大都市圈就占了8个，长三角有沪苏，珠三角有广深莞佛，渤海湾有京津。
长三角上海+苏州+杭州+南京+宁波+无锡+常州=流入863万人。
珠三角广州+深圳+东莞+佛山=流入796万人。
渤海湾北京+天... 阅读全帖

M********t
发帖数: 5032

来自主题: Joke版 - 高德地图：女司机更倾向于准时回家而男司机则去... 快科技 teikaei 21小时14分钟前女司机简直就是马路杀手，一个女司机就可以毁掉一个十字路口…… 女司机真的这么不靠谱吗？高德地图用大数据证明了女司机开车更靠谱！ 7月27日，高德地图联合交通运输部科学研究院、阿里云、清华同衡规划设计研究院、易车等权威机构正式发布了《2016年第二季度中国主要城市交通分析报告》。数据显示，2015年女性注册车主比例只有28.2%，与男性的71.8%相比明显偏低。但从年龄分布上看，女司机更为年轻，35岁前拥有车的比例为61%，比男司机高出8%。而从男女喜欢的车型可以看出，女司机更偏爱紧凑和中小型的车，而男士更爱SUV等大型车。为什么说女司机开车比男司机更靠谱呢？数据显示，女司机在急加速、急刹车、超速方面次数均低于男司机，文明驾驶行为明显更好。有趣的是，节假日，女司机更倾向于准时回家，出行目的地也多数与购物相关，而男司机则主要去公司、酒店、洗浴桑拿等场所。 http://static.cnbetacdn.com/article/2016/0727/7724dd966754042.jpg http://static.cnbetacdn.com/article/2016/0727/eaeaa071c8b1dfb.jpg http://static.cnbetacdn.com/article/2016/0727/8f7ee2c9a9cefc0.jpg http://static.cnbetacdn.com/article/2016/0727/350e45b139e190c.jpg

高德地图：女司机更倾向于准时回家而男司机则去...
快科技
teikaei
21小时14分钟前
女司机简直就是马路杀手，一个女司机就可以毁掉一个十字路口…… 女司机真的这么
不靠谱吗？高德地图用大数据证明了女司机开车更靠谱！ 7月27日，高德地图联合交通
运输部科学研究院、阿里云、清华同衡规划设计研究院、易车等权威机构正式发布了《
2016年第二季度中国主要城市交通分析报告》。
数据显示，2015年女性注册车主比例只有28.2%，与男性的71.8%相比明显偏低。但从年
龄分布上看，女司机更为年轻，35岁前拥有车的比例为61%，比男司机高出8%。而从男
女喜欢的车型可以看出，女司机更偏爱紧凑和中小型的车，而男士更爱SUV等大型车。
为什么说女司机开车比男司机更靠谱呢？数据显示，女司机在急加速、急刹车、超速方
面次数均低于男司机，文明驾驶行为明显更好。
有趣的是，节假日，女司机更倾向于准时回家，出行目的地也多数与购物相关，而男司
机则主要去公司、酒店、洗浴桑拿等场所。

m*********s
发帖数: 368

来自主题: Mathematics版 - [合集] 如何产生一个均匀分布于球面上的点集? (转载)

☆─────────────────────────────────────☆
apisurf (apisurf) 于 (Tue Sep 20 23:30:56 2005) 提到:
发信人: apisurf (apisurf), 信区: Statistics
标题: 如何产生一个均匀分布于球面上的点集?
发信站: BBS 未名空间站 (Tue Sep 20 23:29:53 2005), 转信
我的问题是这样的:
现在我的数据点(20个左右)分布在一个球面上,看起这些点
好象有趋势是几个点聚集在一起形成一些
族.但不知是否有真正这样的趋势.
所以想模拟产生一个数据点集(也是20个),希望这些点能均匀
分布在一个球面上,重复多次,看看会产生多大的族.
不知是否有这样的公式?
我现在想法是产生的点(x,y,z)如下:
x=r*cos(sigma)*cos(phi)
y=r*cos(sigma)*sin(phi)
z=r*sin(sigma)
其中r为球半径,sigma为仰角,phi为方位角.
每个模拟点这样产生,在0..360之间随机取一个sigma和一个
phi,这样sig

a***n
发帖数: 404

来自主题: Mathematics版 - 请教：表征数据集中度的统计量~~

比如从一段时间采集来的数据，有些数据是集中在一段时间内出现的，有些数据是长时
间均匀分布的。
举个例子：
walmart卖的牙膏的日销售量就是常年基本均匀分布的，但是圣诞树就一般是集中在12月
左右这个时间段销售量比较大。
什么统计量比较适合表征这两种数据的这种特性呢？就是说数据的locality特性。注
意，不一定是集中在一个范围内，如果在多个离散的范围内有很强的集中性，这个统计
量要求也要有很强的表达，所以用standard deviation估计不行。比如某个商品夏天和
冬天销量都很强，其他时候没人买，这样的商品也要能区别于牙膏这样的均匀态的商品。
有啥统计量可以搞定这个么？
谢谢。

p*********g
发帖数: 116

来自主题: DataSciences版 - 如何证明某个feature 没用，分组的分布和总体分布相同

比如我有10000个数据，一个feature是categorical 的，
有比如5个值，我按这5个值，把数据分成5组，发现这五组基本和总体有非常接近的
的mean, stdev。
能不能说这个feature对总体分布没影响，或者是没用的feature。
另外怎么证明，这5组和总体有同样的分布，这个过程怎么做？

p*****c
发帖数: 20445

来自主题: Military版 - 2010年第六次全国人口普查主要数据公报[1]（第1号）

这个是局长的发布令，和公报1的信息绝大部分重复，但也有其它角度数据，比如"汉族
人口占91.51%，比2000年人口普查的91.59%下降0.08个百分点；少数民族人口占8.49%
，比2000年人口普查的8.41%上升0.08个百分点"
第六次全国人口普查主要数据发布
（2011年4月28日）
中华人民共和国国家统计局局长马建堂
以2010年11月1日零时为标准时点的第六次全国人口普查，在党中央、国务院的正
确领导下，在中央各部门和地方各级人民政府的大力支持下，在全国新闻媒体的积极配
合下，经过近千万普查人员的奋力拼搏和十三亿各族人民的积极参与，人口普查顺利完
成现场登记、复查和事后质量抽查等工作，现将快速汇总的主要数据予以公布。
一、人口总量
这次人口普查登记的全国总人口为1339724852人，与2000年第五次全国人口普查相
比，十年增加7390万人，增长5.84%，年平均增长0.57%，比1990年到2000年的年平均增
长率1.07%下降0.5个百分点。数据表明，十年来我国人口增长处于低生育水平阶段。
二、家庭户规模
这次人口普查，31个省、自治区、直辖市共有家庭户401... 阅读全帖

l*******n
发帖数: 8388

来自主题: EB23版 - 从timeline数据估算3C下几个月进度+FY14 3C使用名额

昨天一时心血来潮，去看timeline，download 下来后随便sort了一下。看了数据，有
了一些初步是想法，供广大网友讨论。粗略想法，请数据控和大牛们指正，请网友们随
便comment。我会再根据大家意见修改。
------------
最后结论：如果以2.5K 的quota来计算， 3C跃进会到 12年7月，左右3个月，即（12.
4， 12.10）
如果以3K 的quota来计算， 3C跃进会到 12年10月，左右3个月，即（12.7， 13.1）
请君自选
------------
NOTE：这里只分析了primary applicant的分布。counting dependent最多只是稍微改
变一下每年的数据。因为timeline上面只有700个entry，而我是根据PD 的
distribution来估计每年有多少绿了，多少pending。assume每年的人添加dependent
的比例是一样的，counting dependent对分析的影响不大。因为作为降级总量的5K，
还是不变的。
只有总量5K改变的情况下，排期才会有较大的改变。
具体分析如下：
t... 阅读全帖

l*******n
发帖数: 8388

来自主题: EB23版 - 从timeline数据估算3C下几个月进度+FY14 3C使用名额

h*i
发帖数: 3446

来自主题: Programming版 - java真是让人纠结

有两种分布式的。
一种叫数据分布，就是你说的这种，用Storm之类的技术，把数据分成小片小片的数据
流送到各个结点处理。
另一种叫计算分布，数据不动，代码分到各个结点上处理不同的数据，把结果再合起来
。比如Hadoop。

k*z
发帖数: 4704

来自主题: DataSciences版 - 能解决这个问题的才是真正的数据科学家

从大数据，到分布存储计算，到业务模型设计，到防机器人刷票，恶意攻击，分布式访
问。。。。。。
前淘宝工程师发帖:铁道部购票网站几乎是奇迹(图)
2014年01月12日19:05:48 [新闻大杂烩]
1月11日起，12306网站开始销售除夕当日火车票。每到此时，铁路系统唯一的官方购票
网站12306就会成为众矢之的。今年也不例外，12306再次被淹没在一片埋怨声中。
Mitbbs.com
1月5日，观察者网刊登了问答网站“知乎”上的用户王强的解答，回答“如果把12306
外包给IBM或者阿里巴巴来做的话，能不能比现在做得好？”这一问题。Mitbbs.com
1月10日，一位ID名为“代码狗”的前淘宝工程师，后来在一家电商公司做技术副总的
IT业内人士也在著名论坛“西西河”上发文，表达了他自己对12306系统的看法。
Mitbbs.com
值得注意的是，“代码狗”在12306系统刚上线时也有过不少微词。为了证明12306系统
很容易搭建，“代码狗”甚至曾经发起过一个名为“替12306设计系统”的开源项目。
通过工作中的实践，“代码狗”对于12306系统也有了新的认识。Mitbbs.com... 阅读全帖

g********e
发帖数: 106

来自主题: Fujian版 - 客家人在世界各地的分布

http://www.hakkas.net/wz/list.asp?id=112
客家人在世界各地的分布
客家视窗
www.hakkas.net
本书是从全球化、现代化的视角研究客家的，因此，关于客家的总体人口数目和在世
界各地的分布情况，就成为研究的首要前提和条件。

"海水所到之处，就有华侨，有华侨就有客家人"。这是20世纪以来人们形容客家人在世界
上分布之厂所常用的一句口头禅。但是，关于客家人的人口确切数目和分布情况，我们一
直很难以获得，这主要是因为无法对客家人进行专项的人口普查工人，我们所得的关于客
家在世界各地人口数据
和分布情况大多来自各地客家社团的估计数目；而中国大陆和港澳台的客家人口数和分布
情况，则主要依据关于纯客住县和非纯客住县的划分，参照不同时期的人口普查资料进行
估算的。所谓纯客住县和非纯客住县的概念是由罗香林先生在其《客家研究导论》中首先
提出，其划分标准是以
当时（1933年）的县区为单位，"视各县居民是否全数为客，抑或若干为客，而将各省属县
，分纯客住县，与非纯客住县"。这种划分方法为后来的客家研究者所采用。后来，一般用
"客家人在本县市占

v****i
发帖数: 779

来自主题: ChinaNews版 - 习近平与“十三五”14大战略：国家大数据战略

——习近平与“十三五”十四大战略
大数据很忠诚，它真实记录人们的每个足迹，深藏功与名；大数据很任性，它的分析有
根有据，拒绝流言蜚语；大数据很友好，它提供各种权威参考，它创造绿色经济，让我
们的生活更美好。世界已经进入由数据主导的“大时代”。以习近平同志为总书记的新
一届中央领导集体，站在时代最前沿，带领全国人民迈入大数据时代。五中全会的“十
三五”规划建议提出：“实施国家大数据战略，推进数据资源开放共享。”“学习中国
”今天推出《习近平与“十三五”十四大战略》系列文章之“国家大数据战略”篇。
一、大数据引领生活新变化
我们生活在一个充满“数据”的时代，我们打电话、用微博、聊QQ、刷微信，我们阅读
、购物、看病、旅游，都在不断产生新数据，“堆砌”着数据大厦。大数据已经与我们
的工作生活息息相关、须臾难离。中国工程院院士高文说：“不管你是否认同，大数据
时代已经来临，并将深刻地改变着我们的工作和生活。”2015年5月，习近平在给国际
教育信息化大会的贺信中说，“当今世界，科技进步日新月异，互联网、云计算、大数
据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式，深刻展示了世界发
... 阅读全帖

M******e
发帖数: 4179

来自主题: Automobile版 - 为啥没人讨论mazda cx-5

“看具体某个车型靠谱”--同意
“无法体现是否在达到那个里程之前的报废率”--不同意
这是数据分布统计。如果不符合通常的分布状态，那就需要提出合理的理由。打个极
端的比方，有一个一万辆马自达车的群体，这些车在0-17.9万迈的时候一直状态很好，
但是到了17.9万迈的时候，所有车主都把马自达停在车库永远不开，只做展览用，这样
就能符合 “马自达开到18万迈的比例虽然很低，但是18万迈之前车的可靠性和状态都
很好，报废率很低” 的现象。但是这种数据分布在现实中不存在。

r***u
发帖数: 1272

来自主题: WaterWorld版 - 乐嘉老师色彩性格测试完全版...红蓝黄绿成分测试。这个测试的初级目的是以数据方式真正认识自己的性格特点分布，高级目的是准确识别他人性格，与不同性格交往的秘笈，和如何将自己的性格优势修炼到极致。

乐嘉老师色彩性格测试完全版...红蓝黄绿成分测试。这个测试的初级目的是以数据
方式真正认识自己的性格特点分布，高级目的是准确识别他人性格，与不同性格交往的
秘笈，和如何将自己的性格优势修炼到极致。
导读：这不是一个娱乐测试，而是一个严肃的心理学测试，这个测试的初级目的是以数
据方式真正认识自己的性格特点分布，高级目的是准确识别他人性格，与不同性格交往
的秘笈，和如何将自己的性格优势修炼到极致。
这些题目是在研讨会上使用的一套极为专业的版本，并非偶然杜撰，严禁外传。（请注
意：所有问题没有好坏或对错之分，因此请一定要选择你“最自然的”反应，而不是你
认为“最好的”或“最适合的”。最后说一句，题目略长，共30题，请分前后15题来做
，耐心完成，因为——与你的前世有关~~~）
准备好了吗？LET'S GO！乐嘉性格色彩测试：（做好记录：如1A，2C······）
1、关于人生观，我的内心其实是：
A、希望能有各种各样的人生体验，所以想法极其多样化。
B、在合理的基础上，谨慎确定目标，一旦确定会坚定不移地去做。
C、更加在乎取得一切有可能的成就。
D、毫不喜欢风险，喜欢享受稳定或现状。
2... 阅读全帖

p*l
发帖数: 270

来自主题: CS版 - 数据的游戏：冰与火 (zz) (转载)

【以下文字转载自 Programming 讨论区】
发信人: phl (--), 信区: Programming
标题: 数据的游戏：冰与火 (zz)
发信站: BBS 未名空间站 (Wed Jul 31 11:06:08 2013, 美东)
数据的游戏：冰与火
2013年7月31日陈皓

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工
作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了
淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得，也许对你有用，也许很傻，不管怎么样，欢迎指教和讨论。
另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数
据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座
一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。
D... 阅读全帖

p*l
发帖数: 270

来自主题: Programming版 - 数据的游戏：冰与火 (zz)

数据的游戏：冰与火
2013年7月31日陈皓

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工
作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了
淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得，也许对你有用，也许很傻，不管怎么样，欢迎指教和讨论。
另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数
据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座
一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。
Data Analyzer：数据分析员。这类人的人主要是分析数据的，从数据中找到一些规则
，并且为了数据模型的找不同场景的Training Data。另外，这些人也是把一些脏数据
洗干净的的人。
Research Scientist：研究科学家。这种角色... 阅读全帖

w*****k
发帖数: 42

来自主题: Mathematics版 - 有没有办法判断一组数据是不是符合一种分布

比如我现在有100个数据，我想要看它们是不是符合标准的高斯分布，怎么判断？
只看均值和方差肯定不够，因为满足条件的分布太多了。

d*******1
发帖数: 293

来自主题: Statistics版 - 如何同时测试2000组数据是否正太分布

有2000组数据，想用一个好的办法判断每一组是否是正太分布。我现在可以同时输出分
布图，但是觉得太麻烦了。
有没有什么标准可以来判断的，类似什么数值的大小。这样我可以通过这个数值的大
小来决定是否是正太分布。然后在看分布图确认

k*******a
发帖数: 772

来自主题: Statistics版 - 双簧包求助，请教该如何处理这批数据

你这个没有势能的话，那么距离肯定是均匀分布的，你怎么能得到那个分布呢
在物理中，那个分布是有条件的，势能分布是lennard-jones 分布
g(r)似乎应该也有close form
如果g(r)有close form，你可以用很多办法generate这个分布

f*******m
发帖数: 94

来自主题: Statistics版 - 请教一个数据转换和模型的问题！

谢谢 LS回复！不知道怎么发呀！其实我在发帖子的时候就想发了，但是没有找到可以
发的地方。
那个分布像poisson 分布，但不discrete，不能用zero-inflated poison model。数据
是在0，1之间连续分布并且zero-inflated。

p*******y
发帖数: 133

来自主题: LeisureTime版 - 读书笔记-大数据时代（Big Data） Viktor Mayer-Schönberger

最近大数据概念盛行，所以捡起这本书读了读，算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息，通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据，试
图挖掘出事物之间可能的相关性，尤其是不容易预测的，又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
，很少有统计师只用一部分数据，把其他的有用的数据扔掉。只是因为数据采集的成本
高，而导致数据只能覆盖一部分样本。比如制药业所做的临床试验，只能在一部分病人
里试验，而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集
成本急剧下降，数据量指数级增加。比如大家在google上做的搜索，在facebook上写的
爱好等等。但是也要注意到，即使是这种big data，在采样上实际上是biased,因为这
些数据多数只来自于喜爱上互联网并喜欢发言分享的... 阅读全帖

i*****a
发帖数: 7272

来自主题: WebRadio版 - 读书笔记-大数据时代（Big Data） Viktor Mayer-Schönberg (转载)

【以下文字转载自 LeisureTime 讨论区】
发信人: pennyjudy (penny), 信区: LeisureTime
标题: 读书笔记-大数据时代（Big Data） Viktor Mayer-Schönberger
发信站: BBS 未名空间站 (Sat Aug 30 21:47:36 2014, 美东)
最近大数据概念盛行，所以捡起这本书读了读，算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息，通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据，试
图挖掘出事物之间可能的相关性，尤其是不容易预测的，又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
，很少有统计师只用一部分数据，把其他的有用的数据扔掉。只是因为数据采集的成本
高，而导致数据只能覆盖一部分样本。比如制药业... 阅读全帖

o***s
发帖数: 42149

来自主题: Headline版 - 网传中国各地罩杯分布新疆最大广州讲究最舒适

大约一周前，有一张谷歌targetmap发布的关于世界各国平均胸部大小的色块图在网上疯传，“地图”显示：包括中国在内的亚洲国家几乎一片惨绿，绿色表示平均胸围A罩杯，而相邻不远的俄罗斯是鲜艳的红色块，平均胸部超过D罩杯。
没隔几天，有关中国各省份的罩杯分布柱状图也出现了，声称统计数据来自淘宝。火辣的数据给连绵高温平添了一个劲爆的谈资。我们试图从比较客观和真实的情况了解中去看待这样一份数据。
出口俄罗斯的文胸
E、F罩杯都很常见
不知道谷歌出于什么考虑，做了这么一张全球女性胸器图，也很好奇，它的数据来自哪里，如何取样，经过怎样一番调查。
我们联系了几位内衣贸易商，比如“中国驰名商标”浙江的“水中花”内衣的董事长吴永新，他从1986年就开始从事内衣贸易，他说，女性内衣的尺寸跟个子大小和人体结构都有关系。欧美的人个子高挑，女性平均身高在1.7米左右，胸围自然也比较大。
而俄罗斯人，确实比较丰满，谷歌targetmap图上最鲜艳的那一片，平均胸部超过D罩杯，吴永新说出口俄罗斯，E、F罩杯都很常见。
但是，“亚洲女性平均A罩杯”显然有点缩水了。从他的销售经验看，即便身材娇小的江南女子，也以75B居... 阅读全帖

y*****3
发帖数: 1914

来自主题: Military版 - 喜报：数据显示东北常驻人口出现负增长

http://news.sohu.com/20150714/n416723097.shtml
董程越来越觉得孤单，早晨一起锻炼的人越来越少。30多年前一起进厂的伙伴，现在大
部分都离开了，有的几年前就到北京、天津、深圳重新找工作，还有很多人去“关内”
给孩子带下一代。
“原来小区周围好多饭馆，干得好的，吃饭时都挤不进去，这两年人少了，饭馆关
了不少。”董程是齐重数控（原齐齐哈尔市第一机床厂）的职工。该厂鼎盛时号称万人
大厂，近些年经过系列调整现在只有1000多人。他所住的顺意小区，今年以来周围关掉
的饭馆就有八九家。在房产交易网站上，这一带二手房平均价格也从去年的5500元降到
今年的4800元左右。
“人少了。老人都各自想办法走了，年轻人来得也少了。”董程的同事有管厂里宿
舍的，十多年前，大学毕业生分来的时候，五六百人把宿舍挤得住不下，现在少多了，
只剩100多人。
位于黑、吉、内蒙三省区交汇处的齐齐哈尔是我国重要的老工业基地，也是商品粮
、畜牧业基地。包括第一机床厂、第二机床厂、一重、车辆厂等在内的“七大厂”造就
这座老工业城市的辉煌，如今只有一重和车辆厂效益尚可。董程的工资也从2... 阅读全帖

b**********k
发帖数: 75

来自主题: Returnee版 - 美国私立名校的家庭收入分布

一直想知道美国著名大学家庭收入分布，从没看正式官方数据，现看到一个分析，挺靠
谱，从哈佛官方助学金数据得出45.6%哈佛家庭收入过20万（按照该分析的说法是美国
前 3.8%家庭，数据有点老），4%学生来自于收入在最底下20%的家庭，17.8%来自与底
下60%家庭。是的，家庭收入不高有助学金，但那是点缀，私立学校要赚钱。如果你家
庭收入在美国中位（即年家庭税前收入5万），你的孩子上哈佛的可能性是很小的，从
60%学生来自收入后60%来看最多仅有15%的学生家庭收入在中位以下。
http://www.thecrimson.com/article/2012/1/26/diversity-lack-figu

a*******9
发帖数: 239

来自主题: WaterWorld版 - 其实欧美的教育方法与白人的智商分布有关，并不适合东亚人

看了很多类似贴子的讨论，我一直认为科学带来的反智现象，不仅在西方的大众中明显
存在，在深受学而优则仕熏陶的高学历海外学子中，也很突出。总的表现就是，先脑子
里有一个结论（与其说是结论，不如说是偏见），然后根据这个结论去找、去画与结论
吻合的科学曲线或数据，从而证明结论的正确性。然后宣布科学都已经证明的东西，谁
不信谁“愚昧”！
比如，一会儿说，吃豆腐乳会得癌症，于是很多人都不吃了，后来日本的科学家研究发
现（当然是图表、数据啦）豆腐乳富含植物性乳酸菌，而植物性乳酸菌对人体是大大地
好，于是生活又恢复了正常，该吃什么还是吃什么，没有一点心理负担。其实中国古人
不是早就说了吗，平衡就好，阴阳相生，物极必反嘛。
又比如，大清、民国那阵，中国是半封建半殖民地，外帮称国人为东亚病夫，天生体育
不行，天生的意思就是你基因不行，甚至可以说你那个分布就没有任何希望，到现在研
究的深度应该到了分子生物学水平甚至更细。1984年许海峰为新中国赢得历史上第一枚
奥运金牌，结论就变成了“中国的一些小项目还行，如射击、乒乓球什么的，田径不行
，因为基因决定了国人不善于田径”。1993年，马俊仁领导的女子中长跑团... 阅读全帖

J*****3
发帖数: 4298

来自主题: TrustInJesus版 - 肥猫科普 - 生物是怎样在地球上分布的

这个是很多内容当中的一小部分，有时间接着讲趋同演化
生物是怎样在地球上分布的，最有趣的是，早期的“自然神学家”曾试图证明，生物体
制地球上的分布能够与《圣经》中关于诺言方舟的记述相一致。传统上认为，诺亚方舟
在洪水消退后停靠的地点是位于土耳其东部的亚拉拉特山。19世纪中叶，哈佛大学的知
名瑞士生物学家LOUIS AGASSIZ断言：“不但物种本身是静止不变的，其分布也是静止
不变的，无论他们在哪里被创造的，它们都将世世代代生活中那里。”地质学家
CHARLES LYELL达尔文的良师益友开始不断发现新的证据，证明地球不仅古老，而且还
处于流动之中。达尔文在安第斯山脉的最高处发现了海生贝类的化石，直接证明现在是
最高山的地方曾经是海洋。所以，陆地可以抬升，也可以沉降；我们今天看到的大陆在
过去可能更大，也可能更小。为什么南部非洲的植物群落与南美洲的如此相似？虽然没
有任何证据的支持，有些生物学家还是异想天开地提出，所有的大陆可能曾经被巨陆桥
连在一起。
为了对付这样的难题，达尔文提出了自己的理论。他认为，物种的分布可能用创造来解
释，而只能通过演化来解释。首先，动植物要能够通过某种方式扩... 阅读全帖

j****u
发帖数: 1413

来自主题: USTC版 - 从LinkedIn观察留美中国科大校友行业分布

新闻请见;http://www.ustcif.org/default.php/content/2125/
了解中国科大逾万名留美校友的行业分布，对校友网络具有重要意义。中国科大新创
校友基金会调查了LinkedIn的美国校友职业分布信息，期望对年轻校友的职业规划有所
启发。
LinkedIn上，有7556位留美中国科大校友注册，主要分布在软件信息技术（1378名）、
研究（1088名）、高等教育（586名）、金融服务（507名）、半导体（409名）、生物
技术（374名）、制药（324名）、化学（238名）、机械或工业工程（216名）、电子或
电气制造业（199名）、石油能源（184名）、通信（158名）等行业。中国科大留美校
友最集中领域，应为学术界和软件信息技术领域，各占总人数22%和18%。
根据LinkedIn提供数据，可对科大校友任职总人数对各大企业进行排名，Microsoft以
总人数126，居第一； Google104位校友，居第二； Oracle、Intel、Qualcomm、
Broadcom、IBM、Purdue University则分居3-8名。科大校友集中的企... 阅读全帖

c**r
发帖数: 108

来自主题: Statistics版 - 急请教一个问题：histogram分布的形状

在对核磁共振数据做分析时碰到的一个问题。我没有好的解决方法，特来向各位请教。
问题：给定如图的三个histogram，如何描述其形状？如何描述其分布？还有如何检验
其分布是一致
的？
我现在的解答是：
(1)形状：bell-shaped，short tail
(2)分布：bell-shaped，short tail
(3)检验：直接比较median（mean不太实用），方差，2/sigma outlier的数量。由于这
几个量都非
常接近，结论为分布一致。
谢谢解答。

d*****y
发帖数: 26

来自主题: Statistics版 - 请教：outlier dection，如果数据不服从正太？

呵呵， sorry, 不是正态分布，数据的分布不清楚。有没有什么robust的方法适用于未
知分布的数据？

s********1
发帖数: 235

来自主题: Statistics版 - 一般什么样的数据，分析起来要做log transformation?

一般什么样的数据，分析起来要做log transformation?以前读书的时候，教授在黑板
上画了一个变量的值的分布，有学生在底下说，这样的变量不能直接分析，要先做log
transformation,现在也忘了变量的分布曲线是怎样的。现在就问一下，怎样的数据，
要先做log transformation 再分析？多谢！

s********1
发帖数: 235

来自主题: Statistics版 - 一般什么样的数据，分析起来要做log transformation?

S**********8
发帖数: 5

来自主题: ChinaNews版 - 转载）苏27飞行员为免撞民居牺牲生命 HIT谭久彬为己私利伪造数据拉低我国最强洲际导弹制导精度

zz from mitbbs
http://www.mitbbs.com/article_t/Military/39432873.html
（直接google tanjiubin flickr) 你懂的
36页详文分析谭久彬教授-哈工大国家技术发明一等奖得主数据造假
http://pan.baidu.com/share/link?shareid=483744&uk=2520026659
摘要：哈工谭久彬教授技术发明一等奖号称4纳米的高精尖仪器实际比对精度只有14纳
米（详细分析见36页详文分析），而国际上用来比对的同类精度指标都在5纳米。
14纳米和4纳米的差别直接影响导弹命中误差扩大三倍。而中远程导弹如果不能精确打
击易被拦截（如朝鲜金三胖的导弹），更何况洲际导弹。
耳闻的谭久彬教授博士论文数据造假一直因为未能看到第一首资料而未能详查。最近同
事间接到一份<<哈工史上唯一发明一等奖数据造假>>的邮件，随附36页详细分析。谭久
彬教授给人的印象是谦和有礼之人，没想到敢如此明目张胆伪造数据。
名不见经传的圆度/圆柱度（谭久彬教授伪造数据的国家发明一等奖项目所属领域）用
在导弹制导上。仅有... 阅读全帖

S**********8
发帖数: 5

来自主题: Military版 - 苏27飞行员为免撞民居牺牲生命 HIT谭久彬为己私利伪造数据拉低我国最强洲际导弹制导精度

（直接google tanjiubin flickr) 你懂的
36页详文分析谭久彬教授-哈工大国家技术发明一等奖得主数据造假
http://pan.baidu.com/share/link?shareid=483744&uk=2520026659
摘要：哈工谭久彬教授技术发明一等奖号称4纳米的高精尖仪器实际比对精度只有14纳
米（详细分析见36页详文分析），而国际上用来比对的同类精度指标都在5纳米。
14纳米和4纳米的差别直接影响导弹命中误差扩大三倍。而中远程导弹如果不能精确打
击易被拦截（如朝鲜金三胖的导弹），更何况洲际导弹。
耳闻的谭久彬教授博士论文数据造假一直因为未能看到第一首资料而未能详查。最近同
事间接到一份<<哈工史上唯一发明一等奖数据造假>>的邮件，随附36页详细分析。谭久
彬教授给人的印象是谦和有礼之人，没想到敢如此明目张胆伪造数据。
名不见经传的圆度/圆柱度（谭久彬教授伪造数据的国家发明一等奖项目所属领域）用
在导弹制导上。仅有数枚的中国最强洲际导弹-东风5导弹仍沿用传统惯性制导系统。
采用“惯性三轴静压气浮陀螺及空间计算机”。精度(CEP)：500-2000米
... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天