由买买提看人间百态

topics

全部话题 - 话题: zipf
1 (共1页)
M******a
发帖数: 6723
1
http://finance.ifeng.com/a/20160919/14888021_0.shtml
2016年09月19日 16:33来源:凤凰财经综合
来源:中信建投
零和博弈——渐行渐近的城市战争
内生性人口红利的趋缓
回顾我国快速发展的30年,本质是人口红利加速释放的30年,这期间我国总人口净增加
了3.24亿,其中15岁至64岁的人口数量保持了12年的连续增长,人口红利的快速释放也
加速了城乡的聚集,2014年人口密度也比1980年增长了38%,城镇化率从80年代初不到
20%的水平晋升至50%以上,带动了人口布局的重构,也推动了城市群发展以及房地产行
业的需求释放。
资料图
但进入“十二五”末,人口红利的可持续性已经成为各个学界关注的问题。一方面,人
口总量增速开始下行,人口自然增长率已经下降至5%以下,老龄化问题日趋严重,另一
方面,劳动力人口占比也出现拐头,抚养比正逐步抬升。我们此前在年度策略中做过测
算,主流城市的购房年龄段主要集中于25-34岁和35-44岁,这部分人群从2015年开始,
占比下滑斜率将逐步加大,虽然我们认为在2025年以前,25-44岁人口的总... 阅读全帖
mb
发帖数: 153
2
来自主题: Collectibles版 - 南美邮票
兄弟,你好像火气嫌大了点。
之前你的帖子里陈述观点都是用‘we’,我想‘we’是指你自己和techsavvy。
那说明你赞同techsavvy的观点。techsavvy是认为票价符合zipf的。
现在你撇开techsavvy开始用‘我’来说事。如果这么钻字眼的话,‘你’的确没有
明说票价符合zipf.但所有说的话都直接想要支持techsavvy的观点,不是吗?
不符zipf规律的firm size何止几十上百,forbes的数据只是给你找个信得过的source
举个反例。想要更多反例的话我可以再给你找几十个。
最后,到底是我的理解力差还是。。。呵呵,明者自明。这个话题就到此为止吧
w*******i
发帖数: 987
3
我想起来了,这个所谓的定律其实更加准确的名字叫做Zipf's Law
Pareto那个应该叫做Pareto Distribution
难怪我听着感觉怪怪的,国内人写文章也是以讹传讹
就算如此,这个叫法还是错的,因为虽然接近Zipf's Law
但不是20%和80%这么分布的
应该就叫二八率比较准确
l****n
发帖数: 6896
4
前几天儿子在看这本书,我觉得挺有意思的,他读完了我就借来看。The Violinist's
Thumb,这是一本关于遗传学的科普书,目前只看了四章,但挺精彩的。
他从孟德尔的豌豆实验,摩根的果蝇实验开始,介绍人类是如何发现 DNA,基因,染色
体,而它们又是如何传递遗传密码。其中讲到的一些事情非常有意思,例如 DNA 编码
方式与语言学的关联(Zipf's law),还有萧邦的一首夜曲翻译成 DNA 语言后的惊人
发现。又例如为什么遗传学理论与达尔文的 natural selection 理论水火不容。(长
了一点知识:原来数学里面有个分支是研究 knot
theory 的!应该是 topology 的一支吧?)
(Zipf's Law 是从自然语言中发现的规律,但据说其他许多东领域也都符合此定律,
包括音乐,人口分布,收入分布,地震规模,种族灭绝等等。我在想,不知道程式语言
是否也符合此规律?由此联想到早年曾经有些学者从一个程式码的 operator 与
operand 数目去预测或判断程式的复杂性。这都是对 source code 做微观分析。)
满有意思的书,很适合对科学有兴趣的... 阅读全帖
h*s
发帖数: 574
5
来自主题: Collectibles版 - 南美邮票
Zipf's law只是一个大概,第一比第二大一倍只是通俗的说法,
实际上只要找到足够的data,拟合出来在zipf的参数范围内就可以了。
h*s
发帖数: 574
6
来自主题: Collectibles版 - 南美邮票
I do not know why you are so mad at this.
What I have said is that there are some widely accepted data belong to
some category are distributed according to Zipf's Law and there are
rational forces behind it. We never said this is also applicable to
stamp prices. What we said is just a simple CONJECTURE! We could be
wrong.
Of course you can even doubt about the former like firm or city sizes,
that's your freedom.
Take a look at the followings:
Gabaix, Xavier (August 1999). Zipf's Law for Cities
h*s
发帖数: 574
7
来自主题: Collectibles版 - 南美邮票
这里大家都是明眼人。
不是你火气大,techsavvy也不会回帖说we are here for fun not for debate。
techsavvy的观点我只是说了very interesting。你理解成了我赞同。
我的确有兴趣深入想一想,但以我受过的经济学训练,我必须先去看看其他国家
的邮票价格,假如中国邮票的的确确符合Zipf,而其他国家的不符合,那也没必要
做下去了,这个问题也没意义了。
我最不明白的是学术界普遍接受的firm size符合Zipf这个事情(这个问题最早
是和一个经济学Nobel得主联系在一起的,所以很多人follow),你那么大意见。
我还是那句话,firm size的事情学术界做了几十年,你如果能找几十个反例出来,
然后把你的观点发到science(差一点的journal也行)上再来表态不迟(我等五年
吧。science很喜欢这个话题,有data的话可以很快发表,经济学期刊即使
是很好的paper也得等个三四年)。

source
o*****e
发帖数: 435
8
有没有可能是这样的呢: 并没有所谓的“超级传染者”和普通传染者的差异(或者说差异
很小),而只是统计学上的"假象"?
即使没有差异,假设传染者的传染人数符合正态分布或者ZIPF LAW分布,也必然会存在少数
人传染了很多人的传染者,而大多数人的传染数或者在平均数附近(正态分布),或者是一个
比较小的数(ZIPF LAW分布).
m***r
发帖数: 359
9
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-09
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-09/short.html
1) 【孟凡东CNN用于机器翻译】 by @鲁东东胖
关键词:深度学习, 算法, 资源, PDF, 论文, 神经网络
#DL4NLP @Noah # 第一弹: 介绍下 @孟凡东_ICTNLP 的出色工作 ( [1] ),我们把
来自target的attention signal加入source encoding CNN的输入,得到了比BBN的模型
好的多neural network joint model (一个点的BLEU值提升), 这是和计算所 @刘群MT-
to-Death 老师的合作项目的初期工作的一部分
[1] http://arxiv.org/pdf/1503.01838v1.pdf
2) 【文本挖掘揭开印度菜的美味秘诀】 by @爱可可-... 阅读全帖
m***r
发帖数: 359
10
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-09
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-09/short.html
1) 【孟凡东CNN用于机器翻译】 by @鲁东东胖
关键词:深度学习, 算法, 资源, PDF, 论文, 神经网络
#DL4NLP @Noah # 第一弹: 介绍下 @孟凡东_ICTNLP 的出色工作 ( [1] ),我们把
来自target的attention signal加入source encoding CNN的输入,得到了比BBN的模型
好的多neural network joint model (一个点的BLEU值提升), 这是和计算所 @刘群MT-
to-Death 老师的合作项目的初期工作的一部分
[1] http://arxiv.org/pdf/1503.01838v1.pdf
2) 【文本挖掘揭开印度菜的美味秘诀】 by @爱可可-... 阅读全帖
t******g
发帖数: 94
11
汉语的一个明显的优势是,思维面广阔,在数学上由于单音节发音,对数字的反应速度
也更快,但在逻辑思维方面还是拼音文字较好,但从人类文明发展的趋势看,作为表意
文字的汉语,由于可以自由组合新名词新概念以至新思想,可以容纳信息和知识爆炸的
冲击,无疑将发展为人类的共同语言,用这种语言来交流思想更加方便,更加丰富多彩
,当然在论文和计算机语言是汉语和拼音文字并用了。
汉语的伟大就在于兼容,你们看看在汉语的学术论文有汉语和阿拉伯数字和西方拼音文
字的混用现象,但在英语论文中则找不到一个汉字,中国的物理学专家可以凭借他在中
学时代的化学基础知识通读化学专家的论文,反之依然,而英美的不同行业的专家要交
流他们的学术成果,则是对牛弹琴,凭这个优势,汉语就有资格成为世界语,而我们国
内还有些学者还要把汉语拼音化,这不是邯郸学步东施效颦吗?
我们中国人民也有资格控告那些所谓的文明的西方人,是谁在制造环境污染,破坏森林
和草原,就是他们,因为印刷同样内容的一本书,西方语言要比汉语浪费2倍的纸张,
全世界使用西方语言的人要比使用汉语的人多5倍,按照简单的因素级连倍乘法,就要
浪费10-20倍以上的木材增加20... 阅读全帖
w*********g
发帖数: 30882
12
来自主题: Military版 - 汉语最终必定胜过英语
汉语的一个明显的优势是,思维面广阔,在数学上由于单音节发音,对数字的反应速度
也更快,但在逻辑思维方面还是拼音文字较好,但从人类文明发展的趋势看,作为表意
文字的汉语,由于可以自由组合新名词新概念以至新思想,可以容纳信息和知识爆炸的
冲击,无疑将发展为人类的共同语言,用这种语言来交流思想更加方便,更加丰富多彩
,当然在论文和计算机语言是汉语和拼音文字并用了。
汉语的伟大就在于兼容,你们看看在汉语的学术论文有汉语和阿拉伯数字和西方拼音文
字的混用现象,但在英语论文中则找不到一个汉字,中国的物理学专家可以凭借他在中
学时代的化学基础知识通读化学专家的论文,反之依然,而英美的不同行业的专家要交
流他们的学术成果,则是对牛弹琴,凭这个优势,汉语就有资格成为世界语,而我们国
内还有些学者还要把汉语拼音化,这不是邯郸学步东施效颦吗?
我们中国人民也有资格控告那些所谓的文明的西方人,是谁在制造环境污染,破坏森林
和草原,就是他们,因为印刷同样内容的一本书,西方语言要比汉语浪费2倍的纸张,
全世界使用西方语言的人要比使用汉语的人多5倍,按照简单的因素级连倍乘法,就要
浪费10-20倍以上的木材增加20... 阅读全帖
k******s
发帖数: 506
13
东京是世界第一大都市,人口超过3000万,占全国人口四分之一,可不是10%。你的数
据有问题,算的可能是东京都的人口,东京都市圈比东京都大多了。韩国也是发达国家。
一个国家的城市人口分布一般服从Zipf's Law, 第二人口多的城市是第一的一般,第三
是第一的三分之一以此类推这样,人口集中是自然现象,人口分布平均才是特例。
T**********y
发帖数: 157
14
来自主题: Faculty版 - 快来看牛逼的27岁教授
http://www.ccse.uestc.edu.cn/teacher/teacher.aspx?id=414
所有已经发表论文清单
(发表时间序)

【1】 周涛,傅忠谦,周佩玲,张建荣,张德学,”基于遗传算法的大规模流量
工程问题求解”,计算机应用,2003年第6期,43-45
【2】 杨春霞,周涛,周佩玲,刘隽,基于Multi_Agent的股市经济系统建模与
分析,自动化理论、技术与应用卷十,中国科学技术大学出版社,2003年,596-601(
中国自动化学会第18届青年学术年会会议论文集)
【3】 周佩玲,许民,赵亮,周涛,”混沌信号奇异性检测与外界冲击度量”,
数据采集与处理,Vol.19,195-198,2004
【4】 周涛,徐俊明,刘隽,”图直径和平均距离极值问题研究”,中国科学技
术大学学报,Vol.34,410-413,2004
【5】 周佩玲,杨春霞,周涛,李立文,”虚拟股市建模与混沌分析”,中国科
学技术大学学报,Vol.34,442-448,2004
【6】 T. Zhou, P. ... 阅读全帖
T**********y
发帖数: 157
15
来自主题: Returnee版 - 快来看牛逼的27岁教授
【 以下文字转载自 Faculty 讨论区 】
发信人: TenMilesADay (郭十迈), 信区: Faculty
标 题: 快来看牛逼的27岁教授
发信站: BBS 未名空间站 (Sun Mar 11 13:14:59 2012, 美东)
http://www.ccse.uestc.edu.cn/teacher/teacher.aspx?id=414
所有已经发表论文清单
(发表时间序)

【1】 周涛,傅忠谦,周佩玲,张建荣,张德学,”基于遗传算法的大规模流量
工程问题求解”,计算机应用,2003年第6期,43-45
【2】 杨春霞,周涛,周佩玲,刘隽,基于Multi_Agent的股市经济系统建模与
分析,自动化理论、技术与应用卷十,中国科学技术大学出版社,2003年,596-601(
中国自动化学会第18届青年学术年会会议论文集)
【3】 周佩玲,许民,赵亮,周涛,”混沌信号奇异性检测与外界冲击度量”,
数据采集与处理,Vol.19,195-198,2004
【4】 周涛,徐俊明,刘隽,”图直径和平均距离极值问题研究”,... 阅读全帖
s*****n
发帖数: 5488
16
来自主题: Stock版 - 复习一下,正态分布函数
那位闲的无敌留守,可以蒙特卡洛一番。本atm预计最后的结果是zipf分布。
18显然是最大一天。那么平均每天死人可能也就是1到2个。甚至0.1 到0.2,看系数C了。
h*s
发帖数: 574
17
来自主题: Collectibles版 - 南美邮票
说得挺好,这个现象在很多领域都存在,比如城市的大小,单词使用频率,
被下载的文件等等,数学上把这种分布叫做Zipf's Law。企业,城市方面
已经有了一些很好的经济学模型解释得不错了。
不知道邮票上有没有点深刻的原因?
t*******y
发帖数: 10477
18
来自主题: Collectibles版 - 南美邮票
PRC stamps kind of follow the Zipf's Law. Here's the top ranking ones:
1. C94M $5500
2. C94i $2500, W10 $2000
3. C106M $1500, W7 $1400, W1 $1200, S61M $1200
4. T41M $800, C86M $600, C94 $600, T46 $550, W2/W3/S57/S4 orginal $500
5. J41M $350, S38/S44 $300, S56/S61 $250, T28M $220 ...
There're about 50 set of stamps over $100 in PRC, the total value of them is $24K. Giving the total sets of PRC stamps now in 1000, this 0.5% accounts for 60% of the total PRC stamp value. If we consider the quantity
h*s
发帖数: 574
19
来自主题: Collectibles版 - 南美邮票
Gabaix (1995) Quarterly Journal of Economics
从他那里可以找到很多文献和数据。
此人大牛,此文是他的job market paper,四年毕业去了MIT
去年被挖到NYU。9个月base salary 最保守估计25万$外加funding无数
身为经济学家,经常发science和nature。
今年这个新模型是我一个同学,就不cite了。
没兴趣看论文的话,wiki “Zipf's Law”
t*******y
发帖数: 10477
20
来自主题: Collectibles版 - 南美邮票
We are here for fun, no need to be so serious and debate the theories.
I think hbs's idea is very interesting, and the market roughly follows it. Consider the complexity, worldwide reach and the dynamic nature of the stamp market, I have to say the zipf's law has some truth. If a theory can explain 80% of the fact, it is already very good ;-) Taking about using a single formula to explain millions of people's social and economical behavior ;-)
MB sorry I forgot about R5, probably because I never
h*s
发帖数: 574
21
来自主题: Collectibles版 - 南美邮票
I asked a math prof who has expertise in Zipf's Law and he told me it is
hard to come up with a explanation. But he was unware of Gabaix and my
fellow's papers. We may consider this phenomena again.
I am busy these days so I won't delve into it shortly. But I will let
you guys know if I have something.
2004 Nobel winner in economics explained the driving forces of business
cycle by tech productivity which account for 70% of cycle. Prior to them,
everyone believed that business cycle is caused by
mb
发帖数: 153
22
来自主题: Collectibles版 - 南美邮票
hehe,就像我前面贴里说的那样,我不认为理论能解释top 1%的数据一样
哪怕80%的准确性都没有
特别是对于近期中国邮票价格,更是没有任何规律可言
10年前普5是梅张价格的近2倍,现在呢?这次涨价前两者价格又是什么关系呢?
还是那句话 ‘选择性'地找出来的数据适合任何模型。就像NASA连续几十年监听
太空中的信号一样,总会找到一些’有规律‘的声音。但说明什么呢?

Consider the complexity, worldwide reach and the dynamic nature of the
stamp market, I have to say the zipf's law has some truth. If a theory can
explain 80% of the fact, it i
(I was once offered a complete PRC collection, but I asked the owner to
take R5 out to save some money ;-). It's value is now $4500, close
mb
发帖数: 153
23
来自主题: Collectibles版 - 南美邮票
呵呵,首先没有人mad。
仔细看看之前的讨论,是否和你帖子里的话矛盾
We never said this is also applicable to stamp prices.
What we said is just a simple CONJECTURE! We could be wrong.
如果你意识到'We could be wrong.'那么就不要再用zeta分布套stamp price或是
firm size或是穷人和富人收入的distribution。如果在某个特定的假设下的特定
时间里的某个特定的数据符合zeta分布,将这些特定条件列出才是科学的做法。
就像NASA说的几十年来我们分析了几十亿条数终于据找到一条好像有规律的信号。。
虽然这句话啥也说明不了,至少人家的态度是科学的。
下面是之前的讨论:
hbs said:
说得挺好,这个现象在很多领域都存在,比如城市的大小,单词使用频率,
被下载的文件等等,数学上把这种分布叫做Zipf's Law。企业,城市方面
已经有了一些很好的经济学模型解释得不错了。
不知道邮票上有没有点深刻的原因?
hbs said:
h*s
发帖数: 574
24
来自主题: Collectibles版 - 南美邮票
你挑一句话说明我肯定了stamp prices符合Zipf's Law出来吧,
真是佩服你的阅读理解能力。
firm size的问题学术界做了几十年了,都是几十年的横截面数据,
你一个07年forbes的数据就全部否定了?
人家都不是科学做法,只有你和NASA的态度是科学的?
w*********g
发帖数: 30882
25
来自主题: WaterWorld版 - 汉语最终必定胜过英语 (转载)
【 以下文字转载自 Military 讨论区 】
发信人: wayofflying (小破熊), 信区: Military
标 题: 汉语最终必定胜过英语
发信站: BBS 未名空间站 (Wed Jun 25 20:37:27 2014, 美东)
作者:佚名
汉语的一个明显的优势是,思维面广阔,在数学上由于单音节发音,对数字的反应速度
也更快,但在逻辑思维方面还是拼音文字较好,但从人类文明发展的趋势看,作为表意
文字的汉语,由于可以自由组合新名词新概念以至新思想,可以容纳信息和知识爆炸的
冲击,无疑将发展为人类的共同语言,用这种语言来交流思想更加方便,更加丰富多彩
,当然在论文和计算机语言是汉语和拼音文字并用了。
汉语的伟大就在于兼容,你们看看在汉语的学术论文有汉语和阿拉伯数字和西方拼音文
字的混用现象,但在英语论文中则找不到一个汉字,中国的物理学专家可以凭借他在中
学时代的化学基础知识通读化学专家的论文,反之依然,而英美的不同行业的专家要交
流他们的学术成果,则是对牛弹琴,凭这个优势,汉语就有资格成为世界语,而我们国
内还有些学者还要把汉语拼音化,这不是邯郸学步东施效颦吗?
我们中... 阅读全帖
w*********g
发帖数: 30882
26

对,这就涉及到汉语的其他优势了
汉语的一个明显的优势是,思维面广阔,在数学上由于单音节发音,对数字的反应速度
也更快,但在逻辑思维方面还是拼音文字较好,但从人类文明发展的趋势看,作为表意
文字的汉语,由于可以自由组合新名词新概念以至新思想,可以容纳信息和知识爆炸的
冲击,无疑将发展为人类的共同语言,用这种语言来交流思想更加方便,更加丰富多彩
,当然在论文和计算机语言是汉语和拼音文字并用了。
汉语的伟大就在于兼容,你们看看在汉语的学术论文有汉语和阿拉伯数字和西方拼音文
字的混用现象,但在英语论文中则找不到一个汉字,中国的物理学专家可以凭借他在中
学时代的化学基础知识通读化学专家的论文,反之依然,而英美的不同行业的专家要交
流他们的学术成果,则是对牛弹琴,凭这个优势,汉语就有资格成为世界语,而我们国
内还有些学者还要把汉语拼音化,这不是邯郸学步东施效颦吗?
我们中国人民也有资格控告那些所谓的文明的西方人,是谁在制造环境污染,破坏森林
和草原,就是他们,因为印刷同样内容的一本书,西方语言要比汉语浪费2倍的纸张,
全世界使用西方语言的人要比使用汉语的人多5倍,按照简单的因素级连倍乘法,就要
... 阅读全帖
w********e
发帖数: 8594
27
这个服从Zipf's law不?
h**********c
发帖数: 4120
28
来自主题: Programming版 - 其实就是一个面子问题
今天就遇到一个
eclipse archive for required library zipfs.jar cannot be read
答案和狗出来的就不一样
h**********c
发帖数: 4120
29
来自主题: Programming版 - 其实就是一个面子问题
既然你跳了,我老公布独家答案
是因为cp jvm 的时候
天晓得,zipfs.jar 是700
改755 全folder,解
狗固嗅,然天道自然
e*******n
发帖数: 4912
30
101. 1917年,日本数学家挂谷宗一(Kakeya,S(1886-1947))提出
一个问题:一位武士上厕所时遭到袭击,他只有一根短棒,为了
挡住射击,短棒应旋转360度(支点可以变化),但厕所很小,
问短棒最少要扫过多大面积?
这个问题引起当时很多人的兴趣,如1925年Birkhoff在他
写的The origin, nature, and influence of relativity
一书中提到“近几年日本数学家挂谷宗一提出的问题,是同样令
人感兴趣的问题”
1928年,苏联数学家Besicovitch,Abram Samoilovitch
(1891-1970)解决了这个问题,答案是可以任意小,1960s
Besicovitch在美国数学会就挂谷问题专门做了期科普电影,
有意思的是中间他打了个喷嚏,Besicovitch觉得很不雅,
坚持要求在录像中把这个镜头剪掉,于是现在人们看到的是
镜头突然转向一边,然后是一声闷响....
102. William James seemed to have what seemed vitally important
ideas in d... 阅读全帖
r***a
发帖数: 58
31
来自主题: Science版 - Re: Who knows Zipf distribution?
ZIP -- zero-inflated poisson
P(y=0) = exp(-sigma)
P(y=j) = (1-exp(-sigma))*exp(-lamda)*lambda^j
---------------------------------------
j!* (1-exp(-lambda)

br />
T*****u
发帖数: 7103
32
来自主题: DataSciences版 - [Data Science Project] Location data quality
不是很确定你做的是什么,但是感觉这种出现频率的东西和zipf's distribution可能
相关,或者 log-normal distribution有关。
c***z
发帖数: 6348
33
来自主题: DataSciences版 - [Data Science Project] Location data quality
Thanks a lot! Will take a look at the zipf stuff.
Just realized that the MKFC metric is just the Cramér-von Mises stat using
raw count instead of probability mass. Will try Cramér-von Mises instead. :
)
http://journal.r-project.org/archive/2011-2/RJournal_2011-2_Arn
T*****u
发帖数: 7103
34
来自主题: DataSciences版 - [Data Science Project] Location data quality
不是很确定你做的是什么,但是感觉这种出现频率的东西和zipf's distribution可能
相关,或者 log-normal distribution有关。
c***z
发帖数: 6348
35
来自主题: DataSciences版 - [Data Science Project] Location data quality
Thanks a lot! Will take a look at the zipf stuff.
Just realized that the MKFC metric is just the Cramér-von Mises stat using
raw count instead of probability mass. Will try Cramér-von Mises instead. :
)
http://journal.r-project.org/archive/2011-2/RJournal_2011-2_Arn
1 (共1页)