关于数据分布的讨论汇总 - 话题女王

全部话题 - 话题: 数据分布

m**********n
发帖数: 27535

来自主题: Military版 - 统计了一下change.org 上反SCA5的7万多签名数据 (转载)

【以下文字转载自 SanFrancisco 讨论区】
发信人: liaoch (liaoch), 信区: SanFrancisco
标题: 统计了一下change.org 上反SCA5的7万多签名数据
发信站: BBS 未名空间站 (Fri Feb 28 01:05:19 2014, 美东)
统计了一下change.org 上反SCA5的7万多签名。给出国家，州，和城市分布数据。
https://www.change.org/petitions/california-state-assembly-vote-no-to-sca-5-
3
先看国家/地区数据分布(5人和以上的)
Rank Country Count Percentage
1 United States 67934 96.44%
2 China 899 1.28%
3 (blank) 513 0.73%
4 Canada 401 0.57%
5 Korea, Republic of 170 0.24%
6 Australia 85 0.12%
7 Hong Kong 74 0.11%
8 Taiwan 52 0.07... 阅读全帖

l****h
发帖数: 271

来自主题: LosAngeles版 - 统计了一下change.org 上反SCA5的7万多签名数据 (转载)

发信人: liaoch (liaoch), 信区: SanFrancisco
标题: 统计了一下change.org 上反SCA5的7万多签名数据
发信站: BBS 未名空间站 (Fri Feb 28 01:05:19 2014, 美东)
统计了一下change.org 上反SCA5的7万多签名。给出国家，州，和城市分布数据。
https://www.change.org/petitions/california-state-assembly-vote-no-to-sca-5-
3
先看国家/地区数据分布(5人和以上的)
Rank Country Count Percentage
1 United States 67934 96.44%
2 China 899 1.28%
3 (blank) 513 0.73%
4 Canada 401 0.57%
5 Korea, Republic of 170 0.24%
6 Australia 85 0.12%
7 Hong Kong 74 0.11%
8 Taiwan 52 0.07%
9 United Kingdom 52 0.07%
1... 阅读全帖

w*******r
发帖数: 7276

来自主题: LosAngeles版 - 统计了一下change.org 上反SCA5的7万多签名数据 (转载)

l****h
发帖数: 271

来自主题: SanDiego版 - 统计了一下change.org 上反SCA5的7万多签名数据 (转载)

l****h
发帖数: 271

来自主题: SanFrancisco版 - 统计了一下change.org 上反SCA5的7万多签名数据

统计了一下change.org 上反SCA5的7万多签名。给出国家，州，和城市分布数据。
https://www.change.org/petitions/california-state-assembly-vote-no-to-sca-5-
3
先看国家/地区数据分布(5人和以上的)
Rank Country Count Percentage
1 United States 67934 96.44%
2 China 899 1.28%
3 (blank) 513 0.73%
4 Canada 401 0.57%
5 Korea, Republic of 170 0.24%
6 Australia 85 0.12%
7 Hong Kong 74 0.11%
8 Taiwan 52 0.07%
9 United Kingdom 52 0.07%
10 Germany 33 0.05%
11 Japan 29 0.04%
12 France 24 0.03%
13 Singapore 24 0.03%
14 India 17 0.02%
15 Viet Nam 16 0.02%
16 Ma... 阅读全帖

v******y
发帖数: 84

来自主题: Programming版 - 猜数据范围

当然这是假定数据分布是一阶高斯分布
复杂的可以bootstrap，看看到底拟合啥分布，
uniform,高斯，extreme value, Possion 啥的，
估计超出楼主的要求了。

n******1
发帖数: 3756

来自主题: EB23版 - 还原一下相对真实一点perm数据分布

pd2012 4011
pd2013 4551
pd2014 6045
pd2015 6831
pd2016(到2017/04/22) 7491
这个分布比较符合分布逻辑

A******g
发帖数: 612

来自主题: JobHunting版 - 一道大数据题，求最优解。

就是实现一个sql的join，根本不算大数据
employee (employee_id, employ_name,department_id)
department (department_id, department_name, manager_id)
select employee_id, employ_name,manager_id,department_id,number_of_employee_
in_this
_department from employee as E, department as D where E.department_id=D.
department_id;
算法有
nested loop join m, n 分别是tuple数的I/Os
blocked nested loop join， O(M*N) M, N是block数的I/Os
external sort merge然后两个都只要各扫一遍 O(N(logN) + M + N)
hash join，hash小的表，这个情况是department，扫另一个，适合小表放进内存， O(
N) N... 阅读全帖

发帖数: 1

来自主题: EB23版 - 还原一下相对真实一点perm数据分布

我个人粗略估计，如果说2011+2012走了2年，考虑到13年经济复苏跳槽人数增加，以及
目前so减少，2013+2014要走3年，如果楼主数据可靠的话。
另外楼主能发下数据来源网站么？

n******1
发帖数: 3756

来自主题: EB23版 - 还原一下相对真实一点perm数据分布

就是从permchecker下的

: 我个人粗略估计，如果说2011 2012走了2年，考虑到13年经济复苏跳槽人数增加
，以及

: 目前so减少，2013 2014要走3年，如果楼主数据可靠的话。

: 另外楼主能发下数据来源网站么？

a****r
发帖数: 4965

来自主题: EB23版 - 还原一下相对真实一点perm数据分布

数据趋势是对的，从2012年后，PERM数是增加的
但数据包括已有老PD换工作的，所以最后能转化成PD的数，应该少不少

A*******e
发帖数: 284

来自主题: Statistics版 - 数据分布的统计分析问题

两套数据，hist plot后分析分布不同，有什么方法可以进行统计检验，拿到p value？
多谢

l*n
发帖数: 529

来自主题: JobHunting版 - 海量数据用什么排序方法好

如果数据分布均匀，可以考虑分区间，把0~x发给1， x+1~2x发给2，以此类推。
不均匀的话可以参考这个
http://stackoverflow.com/questions/1152732/how-does-the-mapredu

n******1
发帖数: 3756

来自主题: EB23版 - 还原一下相对真实一点perm数据分布

根据case number统计的，很简单，最主要没有数据，都是印度人的网站每天在爬

: 这个数字怎么统计出来的？？

n******1
发帖数: 3756

来自主题: EB23版 - 还原一下相对真实一点perm数据分布

更新一下到2016到今天的数据
pd2016 7491

A*****a
发帖数: 52743

来自主题: Basketball版 - 单独带队，以及大腿（数据贴）

如果这个是真，容易用数据分布来证明

c****i
发帖数: 2635

来自主题: Xibei版 - 给MM们一个数据，男人的目光都在什么地方 (转载)

这个是否意味着大家都可以剃光头了。。。哈哈！
顺便讨论下女生看女生吧，个人作为接受方的感觉啊——包包>鞋子>挂件/头发>耳环>衣服/指甲油 //blushing~``
貌似根据这个图片，以后MM上街看到其他MM应该直接从上方来个鸟瞰接着马上下蹲来个仰视才能紧跟数据分布哇。:">

b*****d
发帖数: 61690

来自主题: Military版 - 官方基尼系数小于学术数据专家称官方更可信

官方基尼系数小于学术数据专家称官方更可信
2013年02月05日04:34 人民网-人民日报我有话说(3人参与)
数据来源：国家统计局南财经大学　制图：宋嵩数据来源：国家统计局南财经大学
制图：宋嵩
日前，国家统计局公布了2003至2012年全国居民收入的基尼系数。数据显示，10年
间基尼系数一直维持在0.4以上。10年基尼系数一次公布，让人看到统计部门直面公众
关心话题的决心，但也引发热议。因为前不久，西南财经大学中国家庭金融调查与研究
中心公布了测算的2010年中国家庭收入基尼系数为0.61。
为何会出现各种版本的基尼系数？怎样看待当前的基尼系数？官方和民间公布的基
尼系数谁更靠谱？本报记者采访了多位专家。
官方民间数据谁更可信？
官方机构抽样调查样本量较大，基本保证了时间上的连续性，相对更有参照性
记者检索发现，除国家统计局、世界银行公布基尼系数之外，不少学术机构和专家
也发布过各种版本的基尼系数，西南财大版就是其一。那么，民间机构是依据什么基础
数据测算的呢？
复旦大学经济学院副教授尹晨介绍，各种全国性基尼系数的主要估算方法有两种：
一是根据国家统计局公布的相关数... 阅读全帖

R*****d
发帖数: 1148

来自主题: History版 - 现代埃及人的Y染色体DNA谱系分布

首先声明两点。第一，本人无意参与目前版面上的这场争吵，贴这个东西不过是应个景
儿。其次，这些数据是死的，但解释是活的，尽管仅就这些数据而言，当代埃及人貌似
同东亚没有多少显著关联，但是你也可以由此认为，古埃及人，或某个时代的部分古埃
及人，被外来者杀男留女，斩草除根了，仅有的一点儿幸存者一溜烟儿跑到了东亚；当
然还可以用其他的说法来解释。下面言归正传。
附图来自于发表在2004年的The American Journal of Human Genetics的一篇有关北非
人Y染色体DNA谱系分布的一篇文章。The American Journal of Human Genetics属于美
国人类遗传学会（American Society of Human Genetics），2011年的影响因子11.680。
作者检测了埃及北部，埃及南部，突尼斯，阿尔及利亚阿拉伯人，和阿尔及利亚柏柏尔
人，五个不同人群的275个男性样本并对其Y染色体DNA谱系进行确认，同时也利用了一部
分早先已发表的，有关其他地区基因分布的同类数据进行对比。该研究的主要目的是揭
示古代人群-基因流动和扩张，其结论是新... 阅读全帖

m*****f
发帖数: 1243

来自主题: JobHunting版 - 这么热闹, 我也报Google offer

今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorithm (貌似博主已经关闭匿名浏览)
版面总结
http://www.mitbbs.com/article/JobHunting/31505215_4.html
Bitwise题目
http://graphics.stanford.edu/~seander/bithacks.htm... 阅读全帖

f********t
发帖数: 6999

来自主题: SanFrancisco版 - 这么热闹, 我也报Google offer (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: mudhoof (正在长牙的羊), 信区: JobHunting
标题: 这么热闹, 我也报Google offer
发信站: BBS 未名空间站 (Tue Feb 23 12:32:47 2010, 美东)
今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorith... 阅读全帖

c***s
发帖数: 70028

来自主题: Headline版 - 北京首次披露人口分布情况:超一半人口住五环外

制图何将
昨天，北京市统计局、国家统计局北京调查总队联合发布北京人口调查报告，首次披露了环线人口分布情况。数据显示，人口分布呈现由二、三环内向四环外聚集的特点，五环外常住人口达1097.9万人，占全市的51%。外来常住人口向外拓展聚集的特点更加突出，其中有65%的外来常住人口住在四环至六环间。
数据亮点
人口增量增速“双下降”
据记者了解，此次统计局发布的人口调查报告，数据来自2014年人口抽样调查。据了解，2014年年度人口抽样调查在全市抽选3%的居民住户进行调查，涉及300个街道和乡镇、999个社区居(村)委会、1940个调查小区。
数据显示，2014年末，全市常住人口为2151.6万人，与2013年相比，增加36.8万人，增量减少8.7万人，增速为1.7%，比上年下降0.5个百分点。虽然增量在缩减，但随着人口数量的不断增长，人口密度也逐步上升。数据显示，2014年，全市常住人口密度为1311人/平方公里，比2011年增加81人/平方公里。
此外，统计数据显示，全市常住外来人口为818.7万人，与2013年相比，增加16万人，增量减少12.9万人，增速为2%，也比上年下降1.7个百... 阅读全帖

f****i
发帖数: 9419

来自主题: History版 - 三年自然灾害受灾数据（原始资料可以翻阅灾情报告等原始数据）

你就不懂在那里胡说，继续。扯什么的淡呢？唐朝贞观元年到贞观四年还连续四年大旱
呢，为什么就说丁戊奇荒是有名的大灾，贞观元年那次没算？你知道灾荒旱灾水灾蝗灾
等都不一样，如果轮番上阵更不一样，在什么地区不一样，是不是在同样地区连续受灾
也不一样？你知道91年到95年的所谓连续受灾是什么情况？你就不能查查资料去？张嘴
就凭着你的立场和屁股位置胡说？
还老天爷很明白，这三年不算什么？真是啥都当游戏数字看了。另外告诉你，这篇文章
后面还有，只是我选了灾情部分，后面讨论的是人祸部分，最终人家定性的是有人祸，
有天灾。这么大的灾荒不算什么，搞笑了。再给你转一个文章，里面也是各种应用数据
都是表明了出处的，你不相信就去查原始资料。
1959-1961年全国干旱灾害探讨述评
一、灾害状况与灾情概述
1．灾害状况
发生在20世纪50年代末60年代初的全国性旱灾，从气象、水文、农业、民政和统计
部门记录的原始资料文献看，这是建国以来第一场连续多年的干旱灾害。按照国家气象
局分析发布和出版的权威性资料文献[1]，水利部统计归纳的资料和研究出版的专著[2]
，国家统计局和民政部汇编的《中国灾情报告》[3]，概... 阅读全帖

a***n
发帖数: 404

来自主题: CS版 - 请教一个问题，关于统计和分布~~~~~

请教一种统计量，希望能够描述下列的数据特征：
比如从一段时间采集来的数据，有些数据是集中在一段时间内出现的，有些数据是长时
间均匀分布的。现在要一个统计量区分他们（不同于standard deviation,见下面）
举个例子：
walmart卖的牙膏的日销售量就是常年基本均匀分布的，但是圣诞树就一般是集中在12月
左右这个时间段销售量比较大。
什么统计量比较适合表征这两种数据的这种特性呢？就是说数据的locality特性。注意
，不一定是集中在一个范围内，如果在多个离散的范围内有很强的集中性，这个统计量
要求也要有很强的表达，所以用standard deviation估计不行。比如某个商品夏天和冬
天销量都很强，其他时候没人买，这样的商品也要能区别于牙膏这样的均匀态的商品。
但是这个又好像走入了一个悖论，因为平均分布的数据，貌似也可以看作是由多个很陡
的均匀分布的“峰”构成的。。。俺也变得糊涂起来了，不过总觉得应该有个什么能够
系统的描述下区分这种数据特性的方法。
有啥统计量可以搞定这个么？有人说 entropy,我看不靠谱，至于clustering,还有其他的
很多复杂的数据分析方

r******r
发帖数: 700

来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题

海量数据处理：十道面试题与十个海量数据处理方法总结
作者：July、youwang、yanxionglu。
时间：二零一一年三月二十六日
说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量
数据处理的方法总结。
本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随
时交流、指正。
出处：http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据，提取出某日访问百度次数最多的那个IP。
首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中
。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把
整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash
_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最
大的IP中，找出那个频率最大的IP，即为所求。
或者如下阐述（雪... 阅读全帖

r******r
发帖数: 700

来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题

s**********o
发帖数: 14359

来自主题: Database版 - 如何秒杀99%的海量数据处理面试题 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: rongxuer (蓉儿), 信区: JobHunting
标题: 如何秒杀99%的海量数据处理面试题
发信站: BBS 未名空间站 (Thu Apr 5 02:08:57 2012, 美东)
海量数据处理：十道面试题与十个海量数据处理方法总结
作者：July、youwang、yanxionglu。
时间：二零一一年三月二十六日
说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量
数据处理的方法总结。
本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随
时交流、指正。
出处：http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据，提取出某日访问百度次数最多的那个IP。
首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中
。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的... 阅读全帖

s**********e
发帖数: 16

来自主题: Quant版 - 对一个object大量观测数据，如何找出distribution

1, 请问您这个分布的名字：一个分布有两个峰，一个峰左偏，一个峰右偏，请问你这
个分布的名字？再或者，一个分部，其他部分都很像正态分布，但是在尾部 96%-97%的
地方数据量很少，几乎没有数据，但在98%-99%的地方突然变出来很多数据，请问你这
是什么分布？
2，再次请你正面回答这个问题，如何根据你观测到moments证明一组数据就一定是哪个
分布？（分布的名字）。如果您会，请回答，如果不会，就说不会，没任何问题。
谢谢

out

S*******e
发帖数: 525

来自主题: Statistics版 - 请教正太分布和普耳松分布。

我们有一个问题是探测无线通讯中的‘Sleepy Site'. 其定义类似于一个site在一段
时间内不能接通信号（按次数算）。可很多时候，根本没有信号（通讯）需要一些
sites来处理。从数据上看，通讯次数都是0. 譬如今天有一个时段我们发现某个site
有零
次信号，我们要根据过去十周同样时间的数据来断它是真的没有‘任务’，还是它‘睡
觉了’。
因为数据是离散的（次数），这显然是普耳松分布，实际数据按照不同的时间，不同
的地点，从0 到几个次数，甚至到2，3百次。我们的主任提出的算法是 -- 按正太分
布算，如果0在mean-3×sigma之外，就算睡觉了。 Confidence 用 P=100%- NORMDIST(
0,mean,stddev,lowtail)算。可这究竟是什么东西，我觉得太不好解释了。首先，
不管这个P是什么，如果过去十周的数据每周次数都很少，像 7，8 个，我们就不能用
正太分布算。实际上，0次数的概率是不是就是e^(-mean)（因为这是普耳松分布）？
其次，虽然当次数都是很多的话，可按正太分布算，但NORMDIST(0,mean,stdde... 阅读全帖

a*******g
发帖数: 4872

来自主题: ECUST版 - [合集] 中国一流大学地区分布（共23所） (转载)

☆─────────────────────────────────────☆
wonderlich (左岸，遁去) 于 (Tue Jan 27 19:00:37 2015, 美东) 提到:
发信人: wonderlich (左岸，遁去), 信区: Macromolecules
标题: 中国一流大学地区分布（共23所）
发信站: BBS 未名空间站 (Tue Jan 27 18:19:15 2015, 美东)
中国一流大学地区分布（共23所）
华北8所：北大、清华、南开、人大、北师大、北航、中国农大、天大。
东北2所：大连理工、哈工大。
华东7所：中科大、南大、浙大、复旦、上海交大、东南、华东理工。
中南4所：中山、华南理工、武大、华中科大。
西南1所：川大。西北1所：西安交大。
http://www.jfdaily.com/guonei/new/201501/t20150127_1188015.html
☆─────────────────────────────────────☆
philphy (海天之间) 于 (Tue Jan 27 22:58:09 20... 阅读全帖

a****r
发帖数: 12375

来自主题: Military版 - 知乎看到的裸条大数据

【以下文字转载自 Joke 讨论区】
发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Joke
标题: 知乎看到的裸条大数据
发信站: BBS 未名空间站 (Thu Dec 1 23:59:19 2016, 美东)
作者：阿亮同学
链接：https://www.zhihu.com/question/47736379/answer/133681007
来源：知乎
著作权归作者所有，转载请联系作者获得授权。
可耻地答一下，真的辣眼睛啊
然后职业病做一波小分析，稍微统计了一下数据
1.学校按照类型分类，分布数量的多少依次为：
专科>中专高职技校>二三本>艺术院校
可以看出学历越高等，素质越高，生活水平越高的趋势在统计上的确是存在的，但985
，211也存在部分脑袋拎不清楚。其中竟然还有自称是北影之流戏剧学院的，神他妈脑
子有坑，北影的你这么来借钱？系唔系Excited? 知乎政治正确上多次老生常谈的“知
识改变命运，学历越高生活越好”又一次得到了验证。当然，也可能由于该样本群体的
特殊性，无法下因果性结论，只能说存在相关... 阅读全帖

h*d
发帖数: 19309

来自主题: THU版 - zz 清华大学的2010

发信人: strong (大拿~恭祝清华百年华诞), 信区: TsinghuaCent
标题: 清华大学的2010
发信站: 水木社区 (Sun Apr 24 14:46:09 2011), 站内
清华大学的2010
注：本文由水木社区BBS世纪清华版（TsinghuaCent）整理，各项资料来自清华大学网
站、清华大学新闻网、北京协和医学院（清华大学医学部）网站和水木社区BBS世纪清
华版等。
正文：
本文系统总结2010年度清华大学、北京协和医学院（清华大学医学部）师生校友荣获的
各类学术和社会荣誉、学科竞赛成绩以及学校在教学科研领域中获得的各类成果和进展
。限于篇幅，在关于各类获奖成果的统计中，本文仅统计获得过一等奖、金奖（国家科
学技术奖除外）以上的成果（绩）。
*********************
一．最高荣誉
●清华大学数学科学中心主任丘成桐教授获得2010年沃尔夫（Wolf）奖，以表彰他在几
何分析领域的贡献，以及在几何和物理的多个领域都产生的“深刻而引人注目的影响”
。这是丘成桐继1982年获得菲尔茨奖后，再... 阅读全帖

C********g
发帖数: 9656

来自主题: Joke版 - 北京环保局:空气质量不能看美国使馆所监测数据 (转载)

【以下文字转载自 Military 讨论区】
发信人: brihand (brihand), 信区: Military
标题: 北京环保局:空气质量不能看美国使馆所监测数据
发信站: BBS 未名空间站 (Mon Oct 31 16:29:03 2011, 美东)
北京环保局:空气质量不能看美国使馆所监测数据
http://www.sina.com.cn 2011年11月01日01:32 北京晨报
雾是否就是“污染”？北京是否会成为雾都？市环保局官方监测的空气质量数据为
何与美国大使馆的监测数据有出入？昨天，市环保局副局长、新闻发言人杜少中在微访
谈直面网友质疑，并坦承北京的空气质量“自己与自己比有进步，但需继续努力，减少
污染物排放”。
大雾天并非就是污染天
连续几天的大雾天气让市民非常揪心，空气质量明显下降。昨天，市环保局监测数
据显示，全市轻微污染，仅有平谷区平谷镇空气质量为良。
网友提问说：“连续大雾导致空气质量很差，大雾天是不是就意味着污染比较严重
？”杜少中解释说，雾本来不是污染，只是积累了污染物才会影响空气质量。从一个具
体时间节点看，环境质量还没有摆脱靠天吃... 阅读全帖

c***s
发帖数: 70028

来自主题: Headline版 - 北京发飙了:空气质量测定数据不能看美国大使馆的眼色

雾是否就是“污染”？北京是否会成为雾都？市环保局官方监测的空气质量数据为何与美国大使馆的监测数据有出入？昨天，市环保局副局长、新闻发言人杜少中在微访谈直面网友质疑，并坦承北京的空气质量“自己与自己比有进步，但需继续努力，减少污染物排放”。
大雾天并非就是污染天
连续几天的大雾天气让市民非常揪心，空气质量明显下降。昨天，市环保局监测数据显示，全市轻微污染，仅有平谷区平谷镇空气质量为良。
网友提问说：“连续大雾导致空气质量很差，大雾天是不是就意味着污染比较严重？”杜少中解释说，雾本来不是污染，只是积累了污染物才会影响空气质量。从一个具体时间节点看，环境质量还没有摆脱靠天吃饭的被动。比如每遇季节交替，静风、逆温、低气压等不利气象条件，导致污染物易积累不易扩散，形成污染天是完全可能的。
数据不能看别人“眼色”
微博上有多位名人转发了美国大使馆监测的空气质量数据，该数据明显高于北京市环保局官方公布的数据。以昨日为例，美国大使馆监测到的北京空气质量指数为307，PM2.5细颗粒物浓度为257，而环保局官方公布的空气污染指数为132。
对此，杜少中明确表示，大使馆（美国驻华大使馆）数据一再申明是内部... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 北京环保局:空气质量不能看美国使馆所监测数据

北京环保局:空气质量不能看美国使馆所监测数据
http://www.sina.com.cn 2011年11月01日01:32 北京晨报
雾是否就是“污染”？北京是否会成为雾都？市环保局官方监测的空气质量数据为
何与美国大使馆的监测数据有出入？昨天，市环保局副局长、新闻发言人杜少中在微访
谈直面网友质疑，并坦承北京的空气质量“自己与自己比有进步，但需继续努力，减少
污染物排放”。
大雾天并非就是污染天
连续几天的大雾天气让市民非常揪心，空气质量明显下降。昨天，市环保局监测数
据显示，全市轻微污染，仅有平谷区平谷镇空气质量为良。
网友提问说：“连续大雾导致空气质量很差，大雾天是不是就意味着污染比较严重
？”杜少中解释说，雾本来不是污染，只是积累了污染物才会影响空气质量。从一个具
体时间节点看，环境质量还没有摆脱靠天吃饭的被动。比如每遇季节交替，静风、逆温
、低气压等不利气象条件，导致污染物易积累不易扩散，形成污染天是完全可能的。
数据不能看别人“眼色”
微博上有多位名人转发了美国大使馆监测的空气质量数据，该数据明显高于北京市
环保局官方公布的数据。以昨日为例，美国大使馆监测到的北京空气... 阅读全帖

发帖数: 1

来自主题: Military版 - 中国的中高端产业分布和大城市房价探讨

中国的中高端产业分布和大城市房价探讨
文章来源：宁南山
在五十四年前，也就是1964年，中国做出了一个决定，那就是搞三线建设，原因也
很简单，外部有国际政治军事形势压力，而内部发展存在马太效应。
1964年，中国中央政府一盘点全国的工业，发现“工业过分集中。全国14个百万人
口以上的大城市，就集中了约60%的主要民用机械工业和52%的国防工业”。
到了2018年，这个情况有了很大改善，
但是中国的中高端产业和工作机会，仍然集中在4+7个城市，
4个城市就是一线城市北京，上海，广州，深圳。
7个城市是：成都，重庆，天津，武汉，杭州，苏州，南京
没错，我写下这11个城市的名字的时候，没有去查任何数据，仅仅是写出国人心目
中较为公认的，存在大量中高端产业和工作机会的城市。
然后我查询了2017年的全国城市GDP排行榜，这11个城市刚好就是全国前11位，GDP
占了全国的四分之一，高达25.22%。
在这11个城市以外，还有一些中高端产业发展很快的明星城市，最为典型的就是西
安，郑州，合肥，东莞，这四个城市GDP总量都在全国前25位，但是总体而言，虽然发
展快，但这四个城市体量还比较小，最大的... 阅读全帖

F*V
发帖数: 3978

来自主题: RisingChina版 - 北京环保局:空气质量不能看美国使馆所监测数据

北京环保局:空气质量不能看美国使馆所监测数据
http://www.sina.com.cn
雾是否就是“污染”？北京是否会成为雾都？市环保局官方监测的空气质量数据为
何与美国大使馆的监测数据有出入？昨天，市环保局副局长、新闻发言人杜少中在微访
谈直面网友质疑，并坦承北京的空气质量“自己与自己比有进步，但需继续努力，减少
污染物排放”。
大雾天并非就是污染天
连续几天的大雾天气让市民非常揪心，空气质量明显下降。昨天，市环保局监测数
据显示，全市轻微污染，仅有平谷区平谷镇空气质量为良。
网友提问说：“连续大雾导致空气质量很差，大雾天是不是就意味着污染比较严重
？”杜少中解释说，雾本来不是污染，只是积累了污染物才会影响空气质量。从一个具
体时间节点看，环境质量还没有摆脱靠天吃饭的被动。比如每遇季节交替，静风、逆温
、低气压等不利气象条件，导致污染物易积累不易扩散，形成污染天是完全可能的。
数据不能看别人“眼色”
微博上有多位名人转发了美国大使馆监测的空气质量数据，该数据明显高于北京市
环保局官方公布的数据。以昨日为例，美国大使馆监测到的北京空气质量指数为307，
PM2.5细颗粒物浓度为25... 阅读全帖

F*V
发帖数: 3978

来自主题: RisingChina版 - 北京环保局:空气质量不能看美国使馆所监测数据

C****1
发帖数: 63

来自主题: Returnee版 - 大数据揭秘：双十一你将如何“剁手”？

“双十一”网购狂欢节，商家绞尽脑汁出奇招引客，买家磨拳擦掌拼网速抢货，这就是
一场全民网上盛会。衣食住行，你所能想到的，都作为商品放在了双十一的货品架上。
“科技改变生活”，直到今天这句话才让人有了深刻的理解。
如今，我们的日常生活已经不离开互联网，互联网已经影响改变着我们的日常生活
方式。那么，这种改变究竟有多大？这种联系究竟有多密不可分？
下面一组数据可以说明。
马云更应该感谢男人？！男人才是潜力股
1
中国网购消费者中，男性占55%、女性占45%
大数据揭秘：双十一你将如何“剁手”？
“中国网购消费者中，男性占55%、女性占45%”。在第17届中国杭州西湖国际博览
会重点项目——2015中国（杭州）国际电子商务博览会上，全球著名市场调查公司尼尔
森公布的这项数据让不少人大跌眼镜。这与人们印象中“女性更爱网购”的普遍印象形
成反差，男性网购消费者的占比高于女性10个百分点！
Are you kidding? 网购不是女人的专利吗？ (╯￣Д￣)╯
连马云都说过阿里的成功离不开女人。他说，“阿里巴巴70%的买家是女性、55%的
卖家是女性，这是我们主要的资源。所以我要感谢女性，没有你... 阅读全帖

i***s
发帖数: 39120

来自主题: Headline版 - 北京将通过手机数据掌握市民出行动态缓解交通拥堵

北京市将以中国移动的北京1700万手机用户数据为基础，建立“北京市市民出行动态信息平台”，掌握选定区域的人口数量分布以及人口在不同时间段的流动分布情况，为政府部门规划交通布局、人口管理等服务，并有望发展个人定制业务。北京市科委表示，第一期选定的地点为人口密度较大的回龙观和天通苑地区，预计今年上半年完成。
《北京晨报》报道，据介绍，目前的方案提出以中国移动1700万手机用户的数据为基础，通过蜂窝位置技术获取手机用户活动的实时信息，建立出行动态信息平台。项目实施将可获得居民的居住工作情况，选定区域的人口数量分布以及人口在不同时间段的流动分布情况，精准掌握市民出行行为，通过发布动态出行信息，提高市民出行效率，有效缓解交通拥堵。市科委社发处副处长李国光介绍说，目前，这项工作正在进行正式立项前的准备工作，一期涉及的地点还有可能增加亦庄地区。
“除了服务交通外，对于人口管理也很有帮助，比如某一地区在某一时间的人口数量，通过手机定位获取的信息将更加全面。”李国光表示，在数据服务的过程中，将严格执行隐私保护，对用户开放的数据并不针对个体。
新闻链接
全球最堵车城市莫斯科墨西哥城北京位前列
美国IBM... 阅读全帖

d*********o
发帖数: 6388

来自主题: Military版 - 北京将通过手机数据掌握市民出行动态官方称不泄隐私

http://news.163.com/11/0302/08/6U4JB02P00014JB5.html
回龙观天通苑上半年建成“市民出行动态平台” 不会泄露个人隐私
北京将以中国移动的北京1700万手机用户数据为基础，建立“北京市市民出行动态信息
平台”，掌握选定区域的人口数量分布以及人口在不同时间段的流动分布情况，为政府
部门规划交通布局、人口管理等服务，并有望发展个人定制业务。记者昨天从市科委获
悉，第一期选定的地点为人口密度较大的回龙观和天通苑地区，预计今年上半年完成。
据介绍，目前的方案提出以中国移动1700万手机用户的数据为基础，通过蜂窝位置技术
获取手机用户活动的实时信息，建立出行动态信息平台。项目实施将可获得居民的居住
工作情况，选定区域的人口数量分布以及人口在不同时间段的流动分布情况，精准掌握
市民出行行为，通过发布动态出行信息，提高市民出行效率，有效缓解交通拥堵。市科
委社发处副处长李国光介绍说，目前，这项工作正在进行正式立项前的准备工作，一期
涉及的地点还有可能增加亦庄地区。
“除了服务交通外，对于人口管理也很有帮助，比如某一地区在某一时间的人口数量，
通过手机定... 阅读全帖

c******n
发帖数: 16666

来自主题: Joke版 - 知乎看到的裸条大数据

作者：阿亮同学
链接：https://www.zhihu.com/question/47736379/answer/133681007
来源：知乎
著作权归作者所有，转载请联系作者获得授权。
可耻地答一下，真的辣眼睛啊
然后职业病做一波小分析，稍微统计了一下数据
1.学校按照类型分类，分布数量的多少依次为：
专科>中专高职技校>二三本>艺术院校
可以看出学历越高等，素质越高，生活水平越高的趋势在统计上的确是存在的，但985
，211也存在部分脑袋拎不清楚。其中竟然还有自称是北影之流戏剧学院的，神他妈脑
子有坑，北影的你这么来借钱？系唔系Excited? 知乎政治正确上多次老生常谈的“知
识改变命运，学历越高生活越好”又一次得到了验证。当然，也可能由于该样本群体的
特殊性，无法下因果性结论，只能说存在相关性。
2.户籍分布：
行政等级上，乡镇县>地级市>农村户>大城市
地区上，中西部>东部
基本上偏僻较为落后地区的姑娘以压倒性优势碾压了富足地区，其中未出现一线城市城
镇户口，省会城市城镇户口的样本。虚荣的物欲果然还是会让人迷失理智的，广大姑娘
们要提高自身知识水平，内心富足才是真的富足，... 阅读全帖

l****u
发帖数: 248

来自主题: Military版 - 恭贺我国隐飞首飞成功的同时，也看看F22的真是性能！

成熟隐身战术飞机的实质威胁
F117夜鹰的经验让美国人明白了，隐身技术是杀手锏。但是仅仅具备隐身功能，并不能
将这个杀手级别的性能发挥到极致。随着人类航空事业逐渐壮大和航空工程技术的不断
进步，更重要的是伴随着种种涉及隐身作战飞机战斗力实现的基础理论慢慢成熟，真正
的隐身威胁开始显露。这一次绝不是像夜鹰那样略带瑕疵，而是美国航空产业发展壮大
和工业技术基础深厚积淀的蓬勃爆发！
美国在1971年开始的一项名为“先进战术战斗机”的航空预研计划，成就了目前最强大
最先进也是最具威胁的重型战斗机型号---F22。对F22和F35的实质威胁的探讨是本文最
主要的内容。笔者同样从公开媒体上找来基本的资料作为参考： ys
F22“猛禽”是由美国洛克希德?马丁、波音和通用动力公司联合设计的新一代重型隐形
战斗机。也是目前专家们所指的“第四代战斗机”（此为西方标准，若按俄罗斯标准则
为第五代）。它将成为21世纪的主战机种。主要任务为取得和保持战区制空权，将是
F15的后继型号。它是美国于21世纪初期的主力重型战斗机，它是目前最昂贵的战斗机
。它配备了探测范... 阅读全帖

l****u
发帖数: 248

来自主题: Military2版 - 恭贺我国隐飞首飞成功的同时，也看看F22的真是性能！

任重而道远啊！
成熟隐身战术飞机的实质威胁
F117夜鹰的经验让美国人明白了，隐身技术是杀手锏。但是仅仅具备隐身功能，并不能
将这个杀手级别的性能发挥到极致。随着人类航空事业逐渐壮大和航空工程技术的不断
进步，更重要的是伴随着种种涉及隐身作战飞机战斗力实现的基础理论慢慢成熟，真正
的隐身威胁开始显露。这一次绝不是像夜鹰那样略带瑕疵，而是美国航空产业发展壮大
和工业技术基础深厚积淀的蓬勃爆发！
美国在1971年开始的一项名为“先进战术战斗机”的航空预研计划，成就了目前最强大
最先进也是最具威胁的重型战斗机型号---F22。对F22和F35的实质威胁的探讨是本文最
主要的内容。笔者同样从公开媒体上找来基本的资料作为参考： ys
F22“猛禽”是由美国洛克希德?马丁、波音和通用动力公司联合设计的新一代重型隐形
战斗机。也是目前专家们所指的“第四代战斗机”（此为西方标准，若按俄罗斯标准则
为第五代）。它将成为21世纪的主战机种。主要任务为取得和保持战区制空权，将是
F1... 阅读全帖

发帖数: 1

来自主题: Military版 - 空气污染数据造假，这些城市嫌疑最大

http://cnpolitics.org/2015/02/effortless-perfection/
还记得“我为祖国测空气”运动吗？2011年底，北京雾霾极为严重，但是北京市环保局
的官方数据却并很“和谐”，而美国驻华大使馆的监测数据则一度“爆表”。两个来源
的数据“打架”，让人们开始怀疑官方数据的可信度。于是，一些民间环保组织和志愿
者发起“我为祖国测空气”，期望募捐自购监测设备，以发布独立的空气污染数据，与
官方数据“抗衡”。但是，环境监测设备昂贵且专业性强，“小米加步枪”的便携式自
测设备的专业性同样备受争议。
那么，问题来了。官方数据是否造假？如果造假的话，如何找到证据？加州大学两位研
究者试图通过研究解决这个问题。他们使用2001-2010年的中国113座城市日均空气污染
浓度数据，揭示了城市自报数据的造假证据与造假时点。
他们的研究显示：高达一半的城市都存在不同程度的造假嫌疑。有意思但是，城市的官
方数据往往倾向于在不易被觉察的时间造假（如能见度高而风速低的时候），以避免被
发现。
不过，数据造假并非“天衣无缝”，通过两位作者开发的方法，就可以揭露其篡改行径
。两位作... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

f**********n
发帖数: 29853

来自主题: Fishing版 - 数据说话，钓鲈鱼的确是万钓之宗

作为鱼版第二大数据科学家，
我来用数据支持一下万钓之宗。
本版一直以来，缺乏严谨的数据。小苏身为鱼版最伟大的数据科学家，却完全没有发挥
特长，整天和各位名厨切磋厨艺，举办活动，发放伪币，跨版联谊等，都是不务正业，
俗称打酱油。真是可惜了。
美国咸水钓鱼产业产值1.6B，淡水钓鱼产业4.2B，在淡水钓鱼产业里，第二高的是
Trout，667M。第一高是鲈鱼，1.084B。
数据在下面链接的实际页数19，20页。这个很好读的幻灯片还有很多有趣的数据，譬如
钓的勤快和一般的人的年龄分布。开支分布，人均花费分布，平均杆子价钱，进口来源
国家等等，还提到了中国进口占62%在2012年。曲线图里还能看到2008年的下跌和回升
等。
http://asafishing.org/uploads/SportfishingSummit-Southwick_Asso

g**1
发帖数: 10330

来自主题: Military版 - 国家统计局拟用大数据预测房价走势zt

国家统计局拟用大数据预测房价走势
2014年09月22日 03:10
来源：第一财经日报作者：重华
0人参与 0评论
国家统计局的“大数据梦”肯定不是说说而已，而在这场圆梦之旅中，作为中国互联网
翘楚的BAT（百度、阿里、腾讯）三家都不会缺席。
在19日上午召开的第五届中国统计开放日上，国家统计局首次对外展示了其正在研究的
基于百度搜索数据来预测房地产价格的新工具，并演示了这项工具对北京房价的惊人预
测力。在开放日上，国家统计局也展示了新研发的网购数据统计，而其数据来源之一就
是刚赴纽约上市的阿里巴巴。
腾讯也没有缺席这场建立大数据统计的国家战役。甫一开年，国家统计局局长马建堂就
马不停蹄地走访了中国最具代表性的互联网企业。马建堂的身影出现在京东商城和阿里
巴巴，以及1号店、CBI易贸集团、百度等企业。今年6月末，马建堂来到了腾讯，并从
马化腾手中接过了一个企鹅公仔。
百度如何统计房价
更为精确的房地产价格统计一直是政府希图攻克的难题。因为个人隐私、阴阳合同等问
题存在可能影响源头数据的真实性，而现有房地产领域“数出多门”的情况也增加了“
数据打架”的概率。
相对而言，海量的搜索数据... 阅读全帖

s*****n
发帖数: 2174

来自主题: Statistics版 - 急，比较两组数据，globally and individually, 包子！

不是很确定你问的globally 和 individually 是什么意思,
不过我"猜"你可能是要问两个分布是否一样.
globally, 就是检验两组样本背后的两个分布, 是否一样.
当然两个分布是否一样有不同的标准, 如果你只考虑均值,
那么就是2 sample t test, 当然你必须假设两个分布本身
都是正态分布等等.
individually, 可能是问如果已知每行的两个数据是来自
一个 subject, 那么这两列分布是否一样. 这种情况就是
paired t test. 每行数据两两相减, 然后差值和0比较做
t test. 这里一样也会假设正态样本.
如果没有任何的假设, 也就没法做test了, 顶多可以在一些
弱假设下做nonparametic tests.

topics