v****i 发帖数: 779 | 1 ——习近平与“十三五”十四大战略
大数据很忠诚,它真实记录人们的每个足迹,深藏功与名;大数据很任性,它的分析有
根有据,拒绝流言蜚语;大数据很友好,它提供各种权威参考,它创造绿色经济,让我
们的生活更美好。世界已经进入由数据主导的“大时代”。以习近平同志为总书记的新
一届中央领导集体,站在时代最前沿,带领全国人民迈入大数据时代。五中全会的“十
三五”规划建议提出:“实施国家大数据战略,推进数据资源开放共享。”“学习中国
”今天推出《习近平与“十三五”十四大战略》系列文章之“国家大数据战略”篇。
一、大数据引领生活新变化
我们生活在一个充满“数据”的时代,我们打电话、用微博、聊QQ、刷微信,我们阅读
、购物、看病、旅游,都在不断产生新数据,“堆砌”着数据大厦。大数据已经与我们
的工作生活息息相关、须臾难离。中国工程院院士高文说:“不管你是否认同,大数据
时代已经来临,并将深刻地改变着我们的工作和生活。”2015年5月,习近平在给国际
教育信息化大会的贺信中说,“当今世界,科技进步日新月异,互联网、云计算、大数
据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发
... 阅读全帖 |
|
w*********g 发帖数: 30882 | 2 世界主要国家的大数据战略和行动
2015年07月03日 17:30:22 来源: 中国信息安全
分享到:
3
【打印】 【纠错】
美国
将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国
家战略层面,并大力发展相关信息网络安全项目。
2009年,美国政府推出Data.gov,这是为了增加政府资料透明度而设立的一系列网
站。
该网站依照原始、地理数据和数据工具三个门类,截至2012年11月,Data.gov共开
放出了超过40万项原始数据和地理数据,涵盖大约50个细分门类。为方便公众使用和分
析,Data.gov平台还加入了数据的分级评定、高级搜索、用户交流以及和社交网站互动
等新功能,汇集了1264个应用程序和软件工具、103个手机应用插件。通过开放API接口
,Data.gov使得私人领域的开发者能够利用那些政府采集但未经梳理的各类信息,开发
应用来提供公共服务或者进行盈利。但随着近年美国政府陷入财政困局,白宫于2011年
4月宣布这些网站将终止营运,但会将它们开源化,以供各国的开发者使用或者根据需
要修改。
2012年3月29日,美国白宫科技政策办公室发布... 阅读全帖 |
|
z**********e 发帖数: 22064 | 3 扫煤才子 于 2008-4-16 23:36:12 发布在 凯迪社区 > 猫眼看人
伪造数据和伪造历史的张宏志──《“大跃进饿死三千万人”纯属捏造》分析
一
看到这篇文章很久,实际上,在网络上一搜,轻易就能搜到不少的网页。对于这篇
文章,对“三年饥荒”感兴趣的朋友不会陌生,但是这篇文章,除了各种谎言和假设外
,并没有什么实质意义,但是,却是广大毛卫兵同志最喜欢引用的文章。这里,在下对
文章做个简单的分析,并且指出张宏志同志可笑但全无用处的伪造数据和若干制造假象
,隐瞒真相的地方,以雪亮你们的双眼。
在分析的开始,我先给大家看一张表:
│ │年末总数人口 │ 出生率 │ 死亡率 │自然增长率 │
│年份 │ (万人) │ (‰) │ (‰) │ (‰) │
│1957 │ 64,653 │ 34·03 │ 10·80 │ 23·23 │
│1958 │ 65,994 │ 29·22 │ 11·98 │ 17·24 │
│1959 │ 67,207 │ 24·78 │ 14·59 │ 10·19 │
│1... 阅读全帖 |
|
z****u 发帖数: 241 | 4 老土早就指出: 懂数据会分析哪都要,钱不少活的好干到老.
English version on New York Times: The Age of Big Data
By STEVE LOHR
Published: February 11, 2012
http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impac
纽约时报:大数据时代降临
导读:《纽约时报》网站今天刊载文章称, “大数据时代”已经降临,在这一领域
拥有专长的人士正面临许多机会。文章指出,“大数据”正在对每个领域都造成影响。
举例来说,在商业、经济及其他领域 中,决策行为将日益基于数据和分析而作出,而
并非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预
见能力也已经崭露头角。以下 是这篇文章的全文。
你在数字方面很拿手?数据令你感到着迷?那么你听到的声音是机会正在敲门。
作为一名刚刚毕业的耶鲁大学MBA(工商管理硕士),周默(音译)在去年夏天被IBM抢
聘,加入了该公司迅速增长中的数据顾问团... 阅读全帖 |
|
p*l 发帖数: 270 | 5 【 以下文字转载自 Programming 讨论区 】
发信人: phl (--), 信区: Programming
标 题: 数据的游戏:冰与火 (zz)
发信站: BBS 未名空间站 (Wed Jul 31 11:06:08 2013, 美东)
数据的游戏:冰与火
2013年7月31日陈皓
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工
作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了
淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。
另外,注明一下,这篇文章的标题模仿了一个美剧《权力的游戏:冰与火之歌》。在数
据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座
一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时,我注意到了Amazon玩数据的三种角色。
D... 阅读全帖 |
|
p*l 发帖数: 270 | 6 数据的游戏:冰与火
2013年7月31日陈皓
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工
作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了
淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。
另外,注明一下,这篇文章的标题模仿了一个美剧《权力的游戏:冰与火之歌》。在数
据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座
一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时,我注意到了Amazon玩数据的三种角色。
Data Analyzer:数据分析员。这类人的人主要是分析数据的,从数据中找到一些规则
,并且为了数据模型的找不同场景的Training Data。另外,这些人也是把一些脏数据
洗干净的的人。
Research Scientist:研究科学家。这种角色... 阅读全帖 |
|
z**********e 发帖数: 22064 | 7 【 以下文字转载自 Military 讨论区 】
发信人: zhonghangyue (中行说), 信区: Military
标 题: [原创]伪造数据和伪造历史的李宏志
发信站: BBS 未名空间站 (Sun Jun 5 18:06:34 2016, 美东)
扫煤才子 于 2008-4-16 23:36:12 发布在 凯迪社区 > 猫眼看人
伪造数据和伪造历史的张宏志──《“大跃进饿死三千万人”纯属捏造》分析
一
看到这篇文章很久,实际上,在网络上一搜,轻易就能搜到不少的网页。对于这篇
文章,对“三年饥荒”感兴趣的朋友不会陌生,但是这篇文章,除了各种谎言和假设外
,并没有什么实质意义,但是,却是广大毛卫兵同志最喜欢引用的文章。这里,在下对
文章做个简单的分析,并且指出张宏志同志可笑但全无用处的伪造数据和若干制造假象
,隐瞒真相的地方,以雪亮你们的双眼。
在分析的开始,我先给大家看一张表:
│ │年末总数人口 │ 出生率 │ 死亡率 │自然增长率 │
│年份 │ (万人) │ (‰) │ (‰) │ (‰) │
│1957 │ 64,653 │ 3... 阅读全帖 |
|
c***s 发帖数: 70028 | 8 提前获得宏观经济数据究竟如何从中渔利,这一“潜规则”日前终于被揭开一角。
有媒体报道,今年的几次经济数据泄密事件引起了政府高层的重视。在3月底,有宏观部门的涉及人员相继落马。该报道引述消息人士的话说,国家统计局办公室和中国人民银行研究局的一些人员已经相继离岗。
直到6月4日晚间,被涉传闻的有关部门还没有对这一消息的真实性做出官方正面回应。据了解,其他金融监管部门已经在内部开展信息安全教育。
有知情人士对记者透露,这是相关部门所实施的针对经济数据泄露情况的跨部门调查所牵出的事件,调查已进行数月。
惊人预测力从何来
每个月,中国的券商、研究机构都在热闹地进行宏观经济数据的竞猜,时时有机构能精准猜中。
比较戏剧化的“竞猜”发生在今年3月。当时,由于央行在2月份春节假期的最后一天宣布加息,业内普遍预计1月份CPI可能破5%才迫使央行采取行动。但在数据发布前的2月14日,有外媒通讯社援引两位市场人士的话说,由于中国官方调整了2011年CPI的权重,中国1月CPI同比上涨4.9%,环比涨幅约在 0.9%,低于市场的普遍预期。等到2月15日国家统计局网上公布经济数据时,其中的CPI数据正是4.9%。... 阅读全帖 |
|
c***s 发帖数: 70028 | 9 当前,大数据产业风生水起,走到哪里都有人谈大数据。
但越接触大数据,我们就越担心,它到底是让我们生活得更好的"阿拉丁神灯",还是让释放无数危险的"潘多拉魔盒"?
很多人都并未意识到,自己头顶依然悬着一把法律之剑。
目前,欧盟已经出台了苛刻的数据保护条例,美国也对出售客户数据的运营商施以重罚,那么,还处在萌芽状态的中国大数据行业,究竟将向何处去?
是先放水养鱼,让产业发展和数据应用游走于现行法律法规的边缘;还是尽快修改和出台法律法规,尽可能与技术发展相匹配?
在这个过程里,我们还有太多的法律问题需要考虑。
首先,现有法律限制的是什么样的数据交易,什么数据才是可交易的,法律保护的是客户隐私数据,还是数据的全部属性?
数据是有很多属性和分类规则,用户的个人的数据除了客户资料之外,还包括用户数据,还有平台记录的与用户有关的行为,而法律主要禁止与个人隐私有关的部分属性交易。
所以,不能将数据简单等同于个人信息和隐私(法律啥都保护,这个同前面一样,换个角度说妥当,法律禁止的是什么)。
因此,原则上无害于个人,不涉及隐私,不能被辨析到客户个体,那么数据的获取、交易甚至开放,与现行法律的基本原则不相冲... 阅读全帖 |
|
H****g 发帖数: 14447 | 10 大数据时代的“中国梦”——共识网专访涂子沛
发布时间:2012-07-24 08:19 作者:嘉宾:涂子沛 |采访人:杨传银、郑子蒙 字号:大
中 小 点击: 6398次
涂子沛在接受共识网专访 (郑子蒙 / 摄)
嘉宾简介:涂子沛,信息技术从业者,多家报刊网站专栏作家,华南理工大学公共
政策研究院副教授。曾在国内的公共部门和信息领域工作十年,后辞去公职赴美读书,
获卡内基梅隆大学信息技术科学硕士、公共管理硕士学位。新著有《大数据:正在到来
的数据革命》一书,已由广西师范大学出版社出版。
访谈时间:2012年7月2日下午
访谈地点:广西师范大学出版社(北京贝贝特出版顾问有限公司)
一、大数据:正在到来的数据革命
杨传银:您写《大数据:正在到来的数据革命》这本书的初衷在哪里?您说这不是
一本纯粹谈技术的书,而是以技术为背景探讨人和社会的关系的书,这个观察和写作的
角度是从什么时候开始建立的?
涂子沛:这本书应该说是时代浪潮的一个产物。我是理工科出身,大学毕业后我的
第一份工作就是数据库程序员。十几年之后,我在美国的第一份工作是数据仓库程序员
,从数据库变成了数据仓库,这也是我们从小数据... 阅读全帖 |
|
M******a 发帖数: 6723 | 11 2016-08-25 仲伟民 邱永志 青年史学家 微信号qinianshixuejia
功能介绍
欢迎关注青年史学家!我们将本着“文不虚发”的原则,提倡紧扣前沿、促进交流,探
索公众史学发展路径,服务史学青年、体现现实关怀。青史出品,必属精品!希望大家
支持我们,踊跃投稿,共同进步!
数据估算与历史真实
中国史中GDP估算研究评述
主编
仲伟民:清华大学历史系教授、博士生导师。《清华大学学报》常务副主编。曾经担任
《中国社会科学》与《历史研究》编审、总编室主任,《中国社会科学文摘》常务副主
编。
仲伟民清华大学历史系教授博士生导师
摘要
近年来,中国史中GDP的估算研究引起了学界的高度关注,并由此引起了热烈讨论。关
于国民所得、国民收入等宏观经济核算的研究,最早可追溯至上个世纪三四十年代,学
人多承认由巫宝三等人率先开创。此后,关于这一方面的研究成果不断,但估算研究时
段主要集中在中国的近现代史。最早把GDP估算研究带入中国古代史领域的是外国学者
保罗·贝洛赫、安格斯·麦迪森等人,但是他们较为粗略式的估算引起了学界不断的质
疑,并直接或间接地促成了此次古代经济史... 阅读全帖 |
|
发帖数: 1 | 12 http://cnpolitics.org/2015/02/effortless-perfection/
还记得“我为祖国测空气”运动吗?2011年底,北京雾霾极为严重,但是北京市环保局
的官方数据却并很“和谐”,而美国驻华大使馆的监测数据则一度“爆表”。两个来源
的数据“打架”,让人们开始怀疑官方数据的可信度。于是,一些民间环保组织和志愿
者发起“我为祖国测空气”,期望募捐自购监测设备,以发布独立的空气污染数据,与
官方数据“抗衡”。但是,环境监测设备昂贵且专业性强,“小米加步枪”的便携式自
测设备的专业性同样备受争议。
那么,问题来了。官方数据是否造假?如果造假的话,如何找到证据?加州大学两位研
究者试图通过研究解决这个问题。他们使用2001-2010年的中国113座城市日均空气污染
浓度数据,揭示了城市自报数据的造假证据与造假时点。
他们的研究显示:高达一半的城市都存在不同程度的造假嫌疑。有意思但是,城市的官
方数据往往倾向于在不易被觉察的时间造假(如能见度高而风速低的时候),以避免被
发现。
不过,数据造假并非“天衣无缝”,通过两位作者开发的方法,就可以揭露其篡改行径
。两位作... 阅读全帖 |
|
a**i 发帖数: 608 | 13 *****************
此贴不敢转到南开板去, hehe。
不过从另一方面体现出: 南开经济学院还是很牛的,校友很多混得不错。
***************
经济数据泄密案 涉南开校友团
2名被告人为博士 14名获密人为其校友 绝大多数任职于证券行业 分析称有利益驱动
记者独家获悉,轰动一时的"泄露经济数据系列案"的第4起已宣判。西城法院以故
意泄露国家秘密罪判处国信证券公司宏观经济分析师林松立有期徒刑6个月,缓刑1年。
已判决的4起案件中的3起系串案,其中2名被告人是毕业于南开大学经济学院的博
士,泄密对象包括其14名南开校友,这些人均为经济学科背景,绝大多数任职于证券公
司等金融企业。
伍超明案
发短信泄密 半年内传给15人
被告人之一伍超明,1973年生人,南开大学虚拟经济研究方向博士。博士在读期间
,他曾获南开"十大杰出青年"称号。
毕业后,伍超明被中国人民银行录用,虽然编制在金融研究所货币金融史研究室,
但一直被借调在研究局宏观经济研究处,后者是掌握宏观经济数据的核心部门。
宏观经济研究处处长纪敏证实,伍超明实际履行的是副处长的职责,协助自己进行
宏... 阅读全帖 |
|
M******a 发帖数: 6723 | 14 【 以下文字转载自 Military 讨论区 】
发信人: Mayingba (吳鐘學), 信区: Military
标 题: 仲伟民:数据估算与历史真实——中国史中GDP估算研究评述
发信站: BBS 未名空间站 (Tue Aug 30 14:18:19 2016, 美东)
2016-08-25 仲伟民 邱永志 青年史学家 微信号qinianshixuejia
功能介绍
欢迎关注青年史学家!我们将本着“文不虚发”的原则,提倡紧扣前沿、促进交流,探
索公众史学发展路径,服务史学青年、体现现实关怀。青史出品,必属精品!希望大家
支持我们,踊跃投稿,共同进步!
数据估算与历史真实
中国史中GDP估算研究评述
主编
仲伟民:清华大学历史系教授、博士生导师。《清华大学学报》常务副主编。曾经担任
《中国社会科学》与《历史研究》编审、总编室主任,《中国社会科学文摘》常务副主
编。
仲伟民清华大学历史系教授博士生导师
摘要
近年来,中国史中GDP的估算研究引起了学界的高度关注,并由此引起了热烈讨论。关
于国民所得、国民收入等宏观经济核算的研究,最早可追溯至上个世纪三四十年代... 阅读全帖 |
|
k*******l 发帖数: 698 | 15 1、世界上实行免费医疗的国家完全免费:瑞典、挪威、文莱、卡塔尔、古巴、老挝基
本免费:芬兰、新西兰、斯威士兰、阿联酋、科威特、丹麦
曾经免费后取消免费:冰岛、阿根廷、希腊、菲律宾、斐济、瑙鲁、捷克、斯洛伐克、
匈牙利、罗马尼亚、保加利亚、波兰、德国、阿尔巴尼亚、蒙古、波斯尼亚和黑塞哥维
纳、克罗地压、马其顿、黑山、塞尔维亚、科索沃、斯洛文尼亚、乌克兰、白俄罗斯、
俄罗斯、乌兹别克斯坦、哈萨克斯坦、立陶宛、爱沙利亚、拉脱维亚、摩尔多瓦、亚美
尼亚、土库曼斯坦、塔吉克斯坦、阿塞拜疆、格鲁吉亚、吉尔吉斯斯坦、越南
注:
朝鲜——为“政治身份区隔福利制”,很难进行是否免费的划分
新西兰、卡特尔——世界上仅有的两个对境内外籍人免费医疗的国家
2、世界上国内武装冲突最频繁的国家(1990年代——2013年)
年均国内武装冲突超过1000次:苏丹、南苏丹、布隆迪、阿富汗、马里
年均国内武装冲突500——1000次:贝宁、莱索托、科索沃、波黑、多哥
年均国内武装冲突100——500次:伊拉克、塞尔维亚、巴基斯坦、中非共和国、乌干达
、卢旺达、海地、印度、哥伦比亚、尼泊尔、俄罗斯、叙利亚、伊拉克、阿塞拜... 阅读全帖 |
|
w*********g 发帖数: 30882 | 16
再开就是货币快速贬值人民币国际化见鬼,不开就是泡沫破裂。
=======================================
2017年之中国经济:开不动的印钞机
2017年10月21日 | Filed under: 经济观察 | 来源: 看中国
先让我们从下面这样一组数据开始:
2013年初,中国央行“对其它存款性公司债权”(央行借给商业银行的债)规模为1.45
万亿(人民币,下同)。当年6月,钱荒发作,各商业银行的现金流濒临断裂,全社会
陷入恐慌。央行紧急启动“SLF”、“MLF”等方式,直接借钱给商业银行,补充商业银
行的现金流。至2014年底,央行对其它存款性公司债权的规模为2.50万亿,2015年底为
2.66万亿。这两年央行在借钱给商业银行的问题上,算得上极尽克制,两年时间加起来
也就是借了1.21万亿出去。然而到2016年底,该数据暴增到8.47万亿,较2015年底暴增
了5.81万亿,增幅高达218%(注:本文的数据已更新到2017年8月份)。
到2017年,这种令人震惊的增幅突然就停止了。6月底的数据为8.59万亿,较2016年底
... 阅读全帖 |
|
d********w 发帖数: 363 | 17 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
d********w 发帖数: 363 | 18 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
S******y 发帖数: 1123 | 19 Original article - 仅在此转发 不代表个人观点
http://www.popyard.com/cgi-mod/newspage.cgi?num=2145776&r=0&v=0
--------------------------------------------------------
你擅长数学,会用Python编程,而且还对某个行业了如指掌?
如果你拥有这样的技能集,那你就有可能当上数据科学家..
LinkedIn的最新投票结果显示,“统计分析和数据挖掘” 是2014年最大的求职法宝。
美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元...麦肯锡公司
的一份研究预测称,到2018年,在“具有深入分析能力的人才”方面,美国可能面临着
14万到19万的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师” 缺口
则会达到150万。
该领域目前异常火爆,纽约大学数据科学中心课程的负责人罗伊-洛伦斯(Roy
Lowrance)表示,现在可能已经到了巅峰期。“也许存在着泡沫,” 他说。 “无论什
么事情,一旦变得这样火爆,之后就肯定就会冷... 阅读全帖 |
|
o***s 发帖数: 42149 | 20 2014年新春,大数据借助春运又火了一把。先是1月25日,中央电视台《晚间新闻》与百度合作,首次启用百度地图定位可视化大数据播报了国内春节人口迁徙情况,引发了巨大关注。第二天,国内首个运用大数据播报国内春节人口迁徙实况的网站“百度迁徙”上线,网友可以实时了解全国春运的最新动态,包括春运最热的线路、最热门的迁出城市和迁入城市等。
大数据是一种服务
未来,搜索引擎公司会发展成为大数据服务企业。中国工程院院士邬贺铨认为:“搜索引擎公司可以利用搜索以及各种方式获取大数据,服务于网民、社会和企业自身;另一方面,还可以提供大数据解决方案,帮助其他机构解决各种决策问题。”
要分析大数据,先要获得大数据。百度LBS(地理位置服务)技术总监顾维灏告诉记者,在百度LBS开放平台上,聚集了超过40万的开发者,为数十万款应用软件提供定位服务,已覆盖数亿部手机。“截至2013年12月,我国手机网民有5亿。通过分析手机网民定位信息的大数据,能够映射出人群的迁徙轨迹。”顾维灏说。
以百度地图为例,该应用每天接受35亿次位置请求。在定位服务方面,顾维灏和他的同事使用了很多专业的技术方法,如爬山法、概率分析法,最后发展... 阅读全帖 |
|
G*s 发帖数: 856 | 21 下面的是不是钓鱼问:
发信人: liai (科学家), 信区: Military
标 题: 孙景泽:解开60年代人口变动真相,破解国家统计局户籍统计数据矛盾之谜
发信站: BBS 未名空间站 (Wed Mar 30 22:58:04 2011, 美东)
孙景泽:解开60年代人口变动真相,破解国家统计局户籍统计数据矛盾之谜
孙景泽
破解国家统计局户籍统计数据矛盾之谜
——关于我国六十年代人口变动问题
孙景泽
(本文原文是一篇学术研究论文,使用了较多的数学语言和推导,篇幅也较长。为了便
于更多的读者能够了解本文的观点,写了这篇压缩稿。)
本文提要
一、 由于我国工业发展和生产大跃进,1956年至1959年期间出现了从农村到城市
人口大迁移,在大迁移中出现重报、虚报户籍人口1144万人。这些重报、虚报的户籍在
1960年至1964年期间被注销。
由于遇上经济困难,我国在1960年9月至1964年期间进行了城市人口大精简工作,形成
了从城市到农村的人口大迁移,在大迁移中有1510万人口漏报了户籍。上述漏报户籍人
口中的绝大多数在1... 阅读全帖 |
|
s****n 发帖数: 8912 | 22 核心提示:国家统计局计划于6月14日公布5月份宏观经济数据。和以往一样,在公布前
夕,网络上就出现了疑似“走光”的核心数据,各家金融机构争相预测。
在国家统计局将按计划于6月14日公布5月份中国一系列宏观经济数据前,和以往一样,
5月CPI等核心数据这之前已经在网络上频频疑似提前“走光”。
6月8日,路透社再次抢先发布我国经济数据,预测中国5月份CPI较上年同期上涨5.4%,
将追平3月份创下的32个月高位,与此同时,网络上各位“经济学家”和各家投资机构
乃至网民对于最新宏观经济数据的预测也热火朝天。
与此类似,彭博也在其终端上发布称,经济学家对宏观数据的预测值显示,5月份的中
国CPI同比涨幅为5.5%。而根据“中国网事”记者掌握的数据,另有四家国内外证券机
构对5月份的中国CPI同比涨幅预测也为5.5%,高达三家机构对5月PPI的预测为同比增长
6.4%。
微博上,证券市场资深分析师黄硕写道:“明日上午10时将公布的5月CPI似乎已经没有
太大悬念目前市场对于该数据的一致预期是5.5%,高于4月份的5.3%。”
事实上,这已经不是第一次市场“竞猜”宏观经济数据了,而以路透社为代表的... 阅读全帖 |
|
b*****d 发帖数: 61690 | 23 新华网:中共把大数据理论与经典宗旨结合
2013年10月20日16:02 新华网 我有话说(25人参与)
新华网北京10月20日电(记者 王晓洁 郭宇靖 曹凯) 随着群众路线被重申,中共正
把西方兴起的“大数据”理论与经典的“为人民服务”宗旨结合起来,改善它的作风,
转变政府职能。
这样一来,对于诸如从事实时交通信息服务软件开发的王川久这样的人来说,大数
据就意味着实实在在的红利。
“以前我们需要向其他地图企业购买数据,而现在北京市政府推出了大数据平台,
公开了部分公交数据,我们就不用每种数据都花钱买了,数据源也更加权威。”身为私
营企业北京九州联宇信息技术有限公司创始人兼总经理的王川久说。
他提到的数据平台是北京市经济和信息化委员会去年测试推出的北京市政务数据资
源网。王川久的公司正试图借助这一平台开发公交出行应用,提供公交车到站信息查询
服务。由于政府数据资源网公开了这些数据,他的公司一年节省了数百万元费用。
大数据是近年在互联网信息技术行业的流行词汇。它指的是对规模巨大的资料量进
行专业化撷取、管理和处理,使之成为帮助企业和社会发展的有效资讯。有统计说,目
前世界上90%的数据... 阅读全帖 |
|
g**1 发帖数: 10330 | 24 国家统计局拟用大数据预测房价走势
2014年09月22日 03:10
来源:第一财经日报 作者:重华
0人参与 0评论
国家统计局的“大数据梦”肯定不是说说而已,而在这场圆梦之旅中,作为中国互联网
翘楚的BAT(百度、阿里、腾讯)三家都不会缺席。
在19日上午召开的第五届中国统计开放日上,国家统计局首次对外展示了其正在研究的
基于百度搜索数据来预测房地产价格的新工具,并演示了这项工具对北京房价的惊人预
测力。在开放日上,国家统计局也展示了新研发的网购数据统计,而其数据来源之一就
是刚赴纽约上市的阿里巴巴。
腾讯也没有缺席这场建立大数据统计的国家战役。甫一开年,国家统计局局长马建堂就
马不停蹄地走访了中国最具代表性的互联网企业。马建堂的身影出现在京东商城和阿里
巴巴,以及1号店、CBI易贸集团、百度等企业。今年6月末,马建堂来到了腾讯,并从
马化腾手中接过了一个企鹅公仔。
百度如何统计房价
更为精确的房地产价格统计一直是政府希图攻克的难题。因为个人隐私、阴阳合同等问
题存在可能影响源头数据的真实性,而现有房地产领域“数出多门”的情况也增加了“
数据打架”的概率。
相对而言,海量的搜索数据... 阅读全帖 |
|
c*********d 发帖数: 9770 | 25 http://www.360doc.cn/wxfollow.html
2016-10-17 360doc个人图书馆
文 | 谌旭彬
在八路军抗战史中,百团大战有光荣的历史地位。但其具体战绩,则迄今尚无定论。限
于史料,本文亦并不能够得出歼敌人数的具体数据,惟希望能够通过比各种公开的档案
材料,更接近史实一点点而已。
延安《八路军军政杂志》公布的数据:毙伤日军20645人,俘虏伪军18407人,消灭敌伪
据点2993个
目前大陆学界对百团大战战绩最主流的说法,主要依据的是1940年12月25刊登在延安《
八路军军政杂志》第二卷第十二期上的由八路军总司令部、野战政治部联合公布的《百
团大战总结战绩》一文。据该文统计:
“在百团大战中,先后参加与我作战的敌人,计有第一百十师团及二十五师团全部,二
十六师团、三十六师团、四十一师团各二个联队,三十七师团及三十五师团各一个联队
,第一第二第三第四第五第七第九混成旅团全部,第十五第六等独立混成旅团各一部,
此外还有伪治安军、伪蒙军、伪满洲军、伪警备队、伪警察、伪宪兵及日寇特务机关和
所有移民等。其中遭我打击最大者,则为第四混成旅团,计已消... 阅读全帖 |
|
M*V 发帖数: 3205 | 26 发信人: sautin (老将萨乌丁), 信区: Military
标 题: 5月宏观数据疑似早泄
发信站: BBS 未名空间站 (Tue Jun 21 01:42:26 2011, 美东)
核心提示:国家统计局计划于6月14日公布5月份宏观经济数据。和以往一样,在公布前
夕,网络上就出现了疑似“走光”的核心数据,各家金融机构争相预测。
在国家统计局将按计划于6月14日公布5月份中国一系列宏观经济数据前,和以往一样,
5月CPI等核心数据这之前已经在网络上频频疑似提前“走光”。
6月8日,路透社再次抢先发布我国经济数据,预测中国5月份CPI较上年同期上涨5.4%,
将追平3月份创下的32个月高位,与此同时,网络上各位“经济学家”和各家投资机构
乃至网民对于最新宏观经济数据的预测也热火朝天。
与此类似,彭博也在其终端上发布称,经济学家对宏观数据的预测值显示,5月份的中
国CPI同比涨幅为5.5%。而根据“中国网事”记者掌握的数据,另有四家国内外证券机
构对5月份的中国CPI同比涨幅预测也为5.5%,高达三家机构对5月PPI的预测为同比增长
6.4%。
微博上,证券市场资深分析师黄硕写道:... 阅读全帖 |
|
发帖数: 1 | 27 在各种媒体经常看到的关键词就包括大数据,数据科学,人工智能,机器人和区域链等
。其实,这些高大上的名词中, 离一般人最近(接地气)的就是数据科学。数据科学
可以理解为一个大概念。它包括侧重理工科的纯数据分析,也包括很实用的商业分析和
营销分析。数据科学的核心就是利用各种量化手段和工具,例如数学,统计学,计量经
济学, 数据挖掘和计算机科学等, 从现有的数据(大数据)中,挖掘发现新知识,以
便用于商业分析和商业决策。 根据2011年美国麦肯锡公司的预测,到2018年美国大概
短缺19万与数据科学有关的工作岗位。您如果到美国有关招聘网站包括领英(LinkedIn
)去搜索一下, 您的确会发现现在有许多数据科学和数据分析的工作机会。由于供求
关系,数据科学的工作岗位给的工资也不低,10万美元年薪很常见。这个工资水平通常
是工程类毕业生工作5年以后才能够拿到的水平。
IT技术的突破,就业市场的靓丽,和媒体的渲染,数据科学这鼓热风吹到各个角落,包
括美国大学。美国大学尤其是私立大学,对市场需求相当敏感。在过去10年, 美国高
校陆陆续续开办200多个研究生层次与数据科学有关的专业。尤其是最近几年... 阅读全帖 |
|
z**********e 发帖数: 22064 | 28 【 以下文字转载自 Military 讨论区 】
发信人: zhonghangyue (中行说), 信区: Military
标 题: 大数据:发生在火葬场的高智商犯罪
发信站: BBS 未名空间站 (Tue Jan 12 11:37:56 2016, 美东)
http://blog.sina.com.cn/s/blog_4b99db850102vzyd.html
文裁缝 http://blog.sina.com.cn/wenhuachuancheng 2015-12-18 08:48:09
节选自:《中国人:群居的食草族》,中国工人出版社
第二届世界互联网大会正在召开,各位互联网大佬相继亮相发言,内容不一,不过总结
起来就一句话:在这个社会,你已经离不开互联网了。想想看,确实是这么回事。不过
有一些人说,我知道离不开互联网,但是对于你们说的那些大数据啊,互联网+啊什么
的,我还是不很明白。别急,今天摘一篇雾满拦江的《发生在火葬场的高智商犯罪》,
来告诉你什么叫大数据。
一
以前,这世界是文人的天下,文人最喜欢干的,就是弄出个四六不靠的怪名词,让公众
晕眩,文人就倍有成就感。后来,这... 阅读全帖 |
|
b*****d 发帖数: 61690 | 29 统计局房价统计用网签数据代替房产商报送数据
http://www.sina.com.cn 2011年01月26日04:34 舜网-济南日报
记者获悉,目前各地统计部门正在按照新的房价统计方案,对2011年1月份各地房
价进行数据采集。
据《21世纪经济报道》报道,按照此前公布的《住宅销售价格统计调查方案(征求
意见稿)》,每月19日为房价公布时间,遇到节假日后顺延。一位地方统计部门的人士
指出,目前还没有接到新的通知,预计房价数据会按时公布,这次房价与过去不同的是
,主要是采用了网签数据,同时分类方法不同。但是结果会如何,还需要观望。中国科
学院预测科学研究中心董继昌告诉记者,预计国家统计局使用新的统计方法后,房价数
据与此前房地产部门的数据将接近。“计算方法引起的组中差别并不大,最大的差别是
数据来源。这个问题已经解决。”他说。
数据来源发生重大变化
数据来源发生了重大变化,过去是以房地产商上报为主,这次是以网签数据为主。
一位地方统计部门的人士告诉记者,预计在新房价编制方案下测算的数据,在下月会公
布。与2010年的最大区别是,数据来源发生了重大变化,即过去是以房地产商上报为主... 阅读全帖 |
|
i****k 发帖数: 4085 | 30 原专家是什么意思?
央行原专家自称泄露经济数据为炫耀未获利
http://www.sina.com.cn 2011年11月28日02:59 京华时报
去年5月以来,中国宏观经济数据屡次被泄露。不久前,国家统计局办公室秘书室原
副主任孙振和中国人民银行金融研究所货币金融史研究室原副主任伍超明,因故意泄露
国家秘密罪分别被判刑5年和6年。
据了解,两人泄露的宏观数据主要包括工业增加值、城镇固定资产投资同比增长、
国民生产总值(GDP)、全民消费价格指数(CPI)、工业产品出厂价格指数(PPI)、消费品零
售总额、人民币贷款增加、广义货币同比增长、狭义货币同比增长等九种,均为国家秘
密级以上级别的数据。
数据公布前两天泄密
伍超明1973年8月出生在湖南省新化县,博士研究生学历,曾任中国人民银行金融研
究所货币金融史研究室副主任(副处级)。案发前,伍超明就职于央行金融研究所,与央
行研究局属一套人马两块牌子。伍超明主要负责进行宏观经济分析,分析当前或未来国
内经济形势的变化。
据了解,央行研究局宏观经济研究处,在每个季度末都会召开“价格形势分析专家
咨询会”。会议一般都在相关数据正式公布... 阅读全帖 |
|
d********y 发帖数: 6566 | 31 本报记者 肖明
特约记者 平亦凡 北京报道
12月23日,国家统计局局长马建堂在全国统计工作会议上透露,明年2-3月,全国60多
万家“三上”企业和房地产开发经营企业,将正式在同一平台上,通过互联网,向国家
数据中心或国家认可的省级数据中心直接报送数据。
所谓“三上”企业,是指规模以上工业企业、限额以上批发零售住宿餐饮企业、资质以
内的建筑业企业和房地产开发企业。到目前为止,国家统计局主要直接测算各地的物价
,居民收入等数字,而有关各个工业行业和第三产业的大部分数字,和各地的地区生产
总值(GDP),主要依赖地方统计部门层层汇总上报。
60多年来,中国主要经济统计数据一直采用地方上报、中央汇总的模式,但由于地方政
府往往会在政绩压力下进行统计干预,从而影响经济数据的真实性和干扰市场预期,这
种模式已经饱受诟病。
国家统计局预备改变这种地方上报的模式,而代之以目前正在实施的“四大工程”,即
统一的基本单位名录、统一的一套表调查制度、统一的数据采集处理软件平台、统一的
联网直报系统,以便地方企业直接将数据报送到国家统计局,为国家直接测算行业,以
及地方经济数字做准备。同时直报送数据还将扩展... 阅读全帖 |
|
z**********e 发帖数: 22064 | 32 http://blog.sina.com.cn/s/blog_4b99db850102vzyd.html
文裁缝 http://blog.sina.com.cn/wenhuachuancheng 2015-12-18 08:48:09
节选自:《中国人:群居的食草族》,中国工人出版社
第二届世界互联网大会正在召开,各位互联网大佬相继亮相发言,内容不一,不过总结
起来就一句话:在这个社会,你已经离不开互联网了。想想看,确实是这么回事。不过
有一些人说,我知道离不开互联网,但是对于你们说的那些大数据啊,互联网+啊什么
的,我还是不很明白。别急,今天摘一篇雾满拦江的《发生在火葬场的高智商犯罪》,
来告诉你什么叫大数据。
一
以前,这世界是文人的天下,文人最喜欢干的,就是弄出个四六不靠的怪名词,让公众
晕眩,文人就倍有成就感。后来,这世上有了互联网,从此文人就没咒念了。
互联网行业,因其新,新奇的名词概念层出不穷,什么O2O啦,什么云计算啦,还有什
么大数据啦……最后这个大数据,是目前频繁使用的专业术语。可什么叫大数据?这玩
意儿有什么用?
大数据就是big data,或称巨量资料,指的是……... 阅读全帖 |
|
w*********g 发帖数: 30882 | 33 看完这篇文章,求求你们别胡吹中国大数据云计算已经超过美国了。美国对于大数据、
云计算技术的理解和掌握,不是国内那些专家能够企及的。
==============================================
分享到:
时间:2017-03-31 10:42
•来源: 中华元智库
作者: 吴裕彬
浏览:241
评论:0
字号: 大 中 小
仅仅用美国人民的觉醒和黑天鹅般的奇迹来解释特朗普的当选,就无法看清美国政治版
图已经发生了一个根本性的转变,无法看清其将对美国政治的动向,乃至世界格局产生
极其深远的影响。特朗普奇迹的背后有深刻的金融本质,而金融本质最终决定政治。在
揭示特朗普革命金融本质之前,让我们先来看看一场发生在华尔街的技术革命,而这技
术革命在很大程度上奠定了特朗普革命的金融和科技基础。
特朗普背后神秘金权力量:大数据这样改变总统选举!
1.关于特朗普的美国,你们全错了
至今特朗普的当选依然被许多人认为是美国人民自我觉醒的一场革命,因为几乎所有的
观察家都一致认为特朗普在竞选的时候是被所有的美国富豪和主流媒体... 阅读全帖 |
|
u***r 发帖数: 4825 | 34 https://wemp.app/posts/3b1804b7-6d6f-4705-bbfc-10dcd9995f7c
近日,新型冠状病毒引发的武汉肺炎疫情,受到举国上下极大关注。有人提议,大数据
可以有效分析武汉人的行踪,为疫情监控提供帮助。笔者认为,在新科技越来越发达的
时代,我们完全可以用好这个工具。
近日,新型冠状病毒引发的武汉肺炎疫情,受到举国上下极大关注。有人提议,大数据
可以有效分析武汉人的行踪,为疫情监控提供帮助。笔者认为,在新科技越来越发达的
时代,我们完全可以用好这个工具。
例如,从某软件统计的航空信息可以看出,自2019年底疫情初起到今年1月20日疫情升
级,从武汉天河机场到北京的人数最多,到广州的其次,而且有具体人数。再如有数据
公司通过大数据,找出了很多11月去过武汉海鲜市场的人,画出了这些人后来去哪里的
分布图。也有人认为,通过移动支付的交易大数据,也可挖掘出有价值的信息。
“用大数据帮助疫情防治”的想法能够产生,说明了中国社会的进步。以前要大规模跟
踪人群的流动是不可想象的,它需耗费很多资源。如今随着智能手机的普及,各类APP
日益渗透深入到日常生活中。人... 阅读全帖 |
|
发帖数: 1 | 35 撰文 | 夏志坚
责编 | 陈晓雪
● ● ●
截至2月15日24时,中国大陆的新冠肺炎累计确诊病例达到68500例,疑似病例8228例,
累计死亡病例达到1665人。
这场始于2019年年底的疫情,令不少人回想起在2003年春季爆发的SARS疫情。两者的发
展似乎存在不小的相似性:病原体都是由动物传染到人的冠状病毒,都在上一年的年末
发现无法确诊的肺炎病例,都遭遇过春运的人流高峰(2003年的除夕是1月31日)。
自然而然地,不少科学家在疫情一开始就想通过分析SARS和新冠肺炎发展蔓延的情况对
比,预测今年疫情的发展趋势,为接下来的防疫决策提供有效信息。然而,一个令人困
扰的问题是,尽管17年过去了,科学家们想要获取官方统计的2003年SARS疫情数据仍然
困难重重。
北京大学统计学讲席教授陈松蹊就是其中一位。1月25日,他告诉《知识分子》,现在
迫切需要进行统计学、流行病学的及时评估,测算本次肺炎人-人之间的传染效率,利
用统计模型结合大数据预测本次疫情的发展进程,对防控措施的有效性进行快速评判。
“我们现在想分析2003年的数据,对比本次疫情同2003年SARS在传染效率和途径的... 阅读全帖 |
|
发帖数: 1 | 36 正在好几条战线上对技术巨头发起挑战的欧盟竞争委员会专员Margrethe Vestager又开
辟了一条新的:“大数据”。
她在接受《华尔街日报》采访中把数据拎出来作为一项重要的竞争优势,称英国在反垄
断审查和调查中予以更认真的考虑。不幸的是,如果担心大数据引发隐私问题还是合理
,如果对基本上没有根据的大数据炒作过于买账的话,就是担心过头了。
她告诉《华尔街日报》说:“在一些领域,这些数据是非常有价值的。它们可以形成市
场壁垒——让拥有数据的一方获得别人所没有的巨大商业机会。”她还补充说Google、
Facebook甚至德国车企宝马公司等,因为它们正在积累的数据以及这些数据帮助它们抵
达客户和降低成本,会对竞争对手形成不公平优势。
这一观点是这样一个概念的延伸。大家普遍认为,我们是用自己的数据来换取免费服务
,而提供服务的公司可以很轻易地将这些数据转化成金钱——比方说,通过广告的精准
定向投放来商业化。但事实是这种炒作转换为现金要比实际数据转化为金钱更加容易。
2011年,麦肯锡推出了一份报告,报告炒作了大数据的商业潜能,预测称它将成为“竞
争的关键基础”。这家公司说如果零售商能够利... 阅读全帖 |
|
发帖数: 1 | 37 【 以下文字转载自 SanFrancisco 讨论区 】
发信人: Kiwi20 (), 信区: SanFrancisco
标 题: 猎头招聘BI分析数据仓储 巴巴旗下物流平台-P7经理,P9总监
发信站: BBS 未名空间站 (Sat Feb 25 19:32:26 2017, 美东)
阿里巴巴齐下物流平台,邀请你加入未来世界级物流业巨无霸。Pre-IPO 机会,期权配
发的最佳时期,稳定的高成长机会。
现招募如下职位:
1. 职位名称:数据仓库专家
招聘人数:2
级别:P7 经理级别
部门:数据运营部
工作地点:杭州市
发布日期:2017-02-09
职能类别:技术类-数据
失效日期:2017-04-16
工作年限:三年以上
学历要求:本科
岗位要求:
1 从事数据仓库领域工作至少2年以上,熟悉数据仓库模型设计方法论,并有实际模型
设计及ETL开发经验
2 掌握大型数据库开发技术,如Oracle、Teradata、DB2、Mysql等等掌握至少其中一种
,灵活运用SQL实现海量数据ETL加工处理
3 熟悉数据仓库领域知识和管理技能,包括但不局限:元数据管理、数据质量、性能调... 阅读全帖 |
|
b********2 发帖数: 13 | 38 所有如下工作岗位都是基于上海。公司网站:WWW.Datageek.com.cn
All positions are located in Shanghai, China, and open to all levels of
experiences & skills. That's why salary for each position is open.
If you are suitable and interested in any of the following positions, please
write email to: [email protected]/* */ / [email protected]/* */
When writing to us, you must indicate which position you are interested in
or applying for.
--------------------------------------------------
公司简介
--------------------... 阅读全帖 |
|
发帖数: 1 | 39 阿里巴巴齐下物流平台,邀请你加入未来世界级物流业巨无霸。Pre-IPO 机会,期权配
发的最佳时期,稳定的高成长机会。
现招募如下职位:
1. 职位名称:数据仓库专家
招聘人数:2
级别:P7 经理级别
部门:数据运营部
工作地点:杭州市
发布日期:2017-02-09
职能类别:技术类-数据
失效日期:2017-04-16
工作年限:三年以上
学历要求:本科
岗位要求:
1 从事数据仓库领域工作至少2年以上,熟悉数据仓库模型设计方法论,并有实际模型
设计及ETL开发经验
2 掌握大型数据库开发技术,如Oracle、Teradata、DB2、Mysql等等掌握至少其中一种
,灵活运用SQL实现海量数据ETL加工处理
3 熟悉数据仓库领域知识和管理技能,包括但不局限:元数据管理、数据质量、性能调
优等
4 有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关
实践经验着优先
5 掌握一门或多门编程语言优先,如Java、Python、Perl等
6 最好熟悉Linux系统及常规shell处理命令
7 良好的语言沟通与表达能力和自我驱动动力
岗位描述:1 参... 阅读全帖 |
|
p*******y 发帖数: 133 | 40 最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集
成本急剧下降,数据量指数级增加。比如大家在google上做的搜索,在facebook上写的
爱好等等。但是也要注意到,即使是这种big data,在采样上实际上是biased,因为这
些数据多数只来自于喜爱上互联网并喜欢发言分享的... 阅读全帖 |
|
i*****a 发帖数: 7272 | 41 【 以下文字转载自 LeisureTime 讨论区 】
发信人: pennyjudy (penny), 信区: LeisureTime
标 题: 读书笔记-大数据时代(Big Data) Viktor Mayer-Schönberger
发信站: BBS 未名空间站 (Sat Aug 30 21:47:36 2014, 美东)
最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业... 阅读全帖 |
|
l*****k 发帖数: 5933 | 42 哇哈哈哈哈~~~
随便说几句大数据哈,抛砖印雷~~
这个这个大数据个人理解,个人理解哈,说直白一点儿,就是马上即将要进入的数据化
时代的具备前瞻性的课题。再说简单一点,个人认为就是基于“海”量数据的统计分析
和预测。
这玩意其实说白了跟原来炒作的人工智能也有异曲同工之妙。反正就是利用计算机课着
劲儿的忽悠。这个忽悠的方式方法再扣上一个大胸罩,左边写着科学和统计科学,右边
写着HIGH TECH”高潮技术“,于是就以一种势不可挡的气势出现在我们的现实生活里。
当然人类对于大数据一直都在搞,从生产上的丰田生产线和摩托罗来的六西格玛再到精
细生产等等等等把其实都是最初的大数据应用。但是当数据的尺度到了恒河里面的沙子
的级别的时候,就会出现一种微妙的量变到质变的改观。
打个比方,现在所有各个国家的PI都在热情大搞特稿的纳米材料,当材料的生产加工尺
度越小,越来越精密终于精密到了纳米级就是10个原子那么大,或者几百个原子那么大
的时候,材料的原来的物理属性就发生了飞跃性的改观一样。
那么数据大到了一定程度,甚至是人类所能想象的程度之后,也会出现这种飞跃性的改
观。这种改观个人理解,主要表现在的”... 阅读全帖 |
|
m*********3 发帖数: 1425 | 43 女足今晚必胜!大家找工作又有新方向了。
http://sports.163.com/15/0619/20/ASGHSGLS00051C8O.html
新华网加拿大埃德蒙顿6月18日体育专电(记者马邦杰 单磊)中国女足过去的体能
只能支撑60分钟的比赛,现在世界杯三场小组赛每场都能拼到最后,没有队员出现抽
筋等严重体能问题。另外,让人啧啧称奇的是,三场激战之后,现在中国队内竟然没有
任何重大伤病号,所有球员都可以上场比赛。
中国队主教练郝伟对新华社记者透露:中国女足球员体能状况明显改善,必须要感谢大
数据的有力支撑。他说:“我们队现在每天都做大量数据分析。我们每堂训练课达到的
强度,全是通过科学的数据分析来确定!我们在世界杯备战期间,一直进行大数据监控
,因此对每个训练项目都很清楚。大数据让训练量化、清晰化,为我们提供了非常有价
值的参考。”
郝伟执教中国女足之后,体能训练的内容不再是过去那样单调地跑圈,而是像国外先进
球队一样通过小场地的有球对抗训练进行,既练习了个人技术、战术配合,同时又提升
了体能。中国队从4月下旬在北京开始集训一直到现在,小场地对抗几乎是每堂训练课
的必练内容。每... 阅读全帖 |
|
Q*K 发帖数: 3464 | 44 推荐零售网商们关注的4个数据
上周末和Hetbert在零售电子商务年会上聊电子商务的数据和用户体验,稀里糊涂聊了
不少很具体的东西,聊的比较投机也比较随意。回来看媒体整理出来的资料,偏差不少
。故自己整理了一份回顾如下:(现场并非这么说的,但我肚子里要表达的东西就是这
些)
1,用户体验的阶段性
前面两年有一些网商的会议邀请我分享用户体验,基本上我都没参加。原因挺简单,我
认为这两年分享也没什么用,因为大家都不是很关心;再过一两年,不分享大家都抢着
到处找着问,因为到了不得不关注的时候。
这次来分享,一是因为陪Herbert讨论网商在用户体验上的数据布局,二是可以在网商
们正式关注用户体验之前先做个铺垫。
网商们现在普遍对用户体验不是很关注。这很正常,因为在现在这个野蛮生长期最应该
关注的本就不能是窄意的“用户体验”。我们把用户体验体验分成“有用 》 能用 》
好用 》 爱用 》 品牌”几个层次,往往大家嘴里说的用户体验比较窄,仅仅是“好用
”。而,现在网商们大部分都只发展到“有用 》 能用”的阶段。
现在还有很多很多的电子商务网站,服务没别人好、产品没别人好,价格没别人便宜,
只是拥... 阅读全帖 |
|
f*****e 发帖数: 939 | 45 作者:新生
饿死“三千万”的讨论可以休矣!
——1983年《中国统计年鉴》人口数据根本不可靠
一、前言
1959-1961年中国“三年困难时期”的“非正常死亡人数”,多年来一直是被普遍关注
的问题。1964年中国政府进行了建国后第二次人口普查,但结果没有公布。在1982年第
三次人口普查之后,两次普查结果和历年户籍统计资料一起在国家统计局1983年出版的
《中国统计年鉴》(以下简称《年鉴》)里公布。其中最令人震惊的是,根据户口统计
,中国人口总数在1960年减少了整整一千万。
《年鉴》公布以后,中外学者以此为主要依据,对三年饥荒期间的非正常死亡人数做出
了各种估计。其研究成果经西方及国内媒体的广泛宣传,三年大饥荒“至少饿死三千万
人”似乎已经成为主流共识,甚至得到一些中国官方媒体和机构非正式的认可。
在近几年里,越来越多的网友,学者通过推敲《年鉴》人口数据发现,1960年前后的数
据存在明显的“不准确”,甚至很“人为加工”的痕迹非常明显。
由于中西方学者在研究推算这段时期中国“非正常死亡人数”的均是在1983版《中国统
计年鉴》公布的数据为基础,并通过不同的算法得出结论,因此如果... 阅读全帖 |
|
B*V 发帖数: 3365 | 46 核心提示:路透社已7次精准“预测”中国经济数据,实际为政府工作人员泄密。目前
针对泄密案已立案6起,2人获刑。央视揭露称,部分国内外证券机构与“国内部委”合
作,提前获取经济数据,借此在金融市场获利。
《新闻1 1》2011年10月24日完成台本
——嘘,这是国家秘密!
节目导视:
中国国家统计局在15号发布报告,1月份中国CPI同比上涨4.9%。
国家统计局今天公布了5月份主要经济数据,其中居民消费价格同比上涨5.5%。
证券机构,国外同行,甚至还有通讯社,中国的经济统计数据为什么屡屡被精确预测。
国家统计局今天发布的数据显示,3月份我国居民消费价格同比上涨5.4%
当秘密变成公开的秘密,当经济数据被提前利用,是谁在拿国家利益做交易。
李忠诚:
首先我向大家通报一下,国家统计局干部孙振、中国人民银行干部伍超明,泄露涉密经
济数据案件查办情况。
《新闻1 1》今日关注经济数据不容泄密!
主持人白岩松:
你好观众朋友,欢迎收看正在直播的《新闻1 1》。
在几个月之前,在制作《新闻周刊》这个栏目结尾的时候,有一天我说了这样的一段话
,这段话在当时仅仅是一个猜测,我在猜测什么呢,不妨咱们先听... 阅读全帖 |
|
发帖数: 1 | 47 原标题:手机导航第一之争:百度、高德互撕背后的“中国式第三方数据”
阿里宣称,高德地图手机客户端的每日活跃数据已经超越百度地图,成为行业内排
名第一的手机地图应用。
百度地图和高德地图为“手机地图导航”的头把交椅撕起来了。
10月15日上午,阿里移动事业群总裁兼高德集团总裁俞永福在杭州云栖大会上发表
演讲时宣布,高德地图手机客户端的每日活跃数据已经超越百度地图,成为行业内排名
第一的手机地图应用。
高德方面援引艾瑞mUserTracker的最新监测数据称,高德地图手机客户端(不包含
高德导航、苹果地图)的最新每日活跃设备数约为2983.19万,在地图导航类目中排名
第一,“排名次席的百度地图每日活跃设备数据则为2808.87万”。
高德方面还宣布,在每日使用频度和时长方面,高德同样排名行业第一:高德地图
手机客户端人均(单机)每日总使用次数为2.48次,人均(单机)每日总有效使用时间
为17.08分钟,百度地图则分别只有2.06次和8.04分钟。
高德地图宣称其总用户量超过7亿。
俞永福公开“喊话”百度地图,出于对自己成绩的充分自信,“我们也开始允许另
一家大数据服务商QuestMob... 阅读全帖 |
|
s****n 发帖数: 8912 | 48 核心提示:路透社已7次精准“预测”中国经济数据,实际为政府工作人员泄密。目前
针对泄密案已立案6起,2人获刑。央视揭露称,部分国内外证券机构与“国内部委”合
作,提前获取经济数据,借此在金融市场获利。
《新闻1+1》2011年10月24日完成台本
——嘘,这是国家秘密!
节目导视:
中国国家统计局在15号发布报告,1月份中国CPI同比上涨4.9%。
国家统计局今天公布了5月份主要经济数据,其中居民消费价格同比上涨5.5%。
证券机构,国外同行,甚至还有通讯社,中国的经济统计数据为什么屡屡被精确预测。
国家统计局今天发布的数据显示,3月份我国居民消费价格同比上涨5.4%
当秘密变成公开的秘密,当经济数据被提前利用,是谁在拿国家利益做交易。
李忠诚:
首先我向大家通报一下,国家统计局干部孙振、中国人民银行干部伍超明,泄露涉密经
济数据案件查办情况。
《新闻1+1》今日关注经济数据不容泄密!
主持人白岩松:
你好观众朋友,欢迎收看正在直播的《新闻1+1》。
在几个月之前,在制作《新闻周刊》这个栏目结尾的时候,有一天我说了这样的一段话
,这段话在当时仅仅是一个猜测,我在猜测什么呢,不妨咱们先听... 阅读全帖 |
|
b*****d 发帖数: 61690 | 49 新京报讯 (记者 李蕾)记者昨日获悉,国家统计局局长马建堂日前在局务会议上称,
在统计数据上弄虚作假是统计领域最大的腐败,是对政府公信力最大的影响,坚决惩治
和积极预防在统计上弄虚作假是统计系统廉政建设的首要任务。
马建堂表示,统计人员参与数据造假或干预企业独立真实上报数据的,都要在查清
事实的基础上依法严肃处理。加大统计违法违纪案件的查办力度,继续曝光一批违法违
纪案件,坚决打击统计上弄虚作假行为。
据记者统计,这是今年以来马建堂第四次公开强调预防和严惩统计数据造假行为。
今年2月14日,马建堂发表公开信,要求企业对任何暗示、授意甚至强令企业虚报瞒报
、伪造篡改统计资料的行为,应坚决予以抵制,并积极进行举报。
为保证数据真实准确,从今年2月18日起,全国70万家“三上”企业和房地产开发
经营企业,通过互联网直接向国家数据中心或国家认定的省级数据中心报送统计数据。
马建堂在接受访谈时曾表示,不用层层汇总,将避免数据可能存在的造假干扰。
国家统计局官方网站3月份设立曝光台,首次曝光重庆永川区和山西河津市干预企
业独立上报数据、涉嫌违反统计法的行为。其中,重庆永川区人民政府印发文件,要求
... 阅读全帖 |
|
M******x 发帖数: 933 | 50 根据我对新闻的理解,说要预防A,就是A已经泛滥,说要注意B,就是B已经成灾的一贯
规律,统计局的各种数据,恐怕是全部造假的产物。CPI, GDP, PMI....
http://news.xinhuanet.com/fortune/2012-04/10/c_122952317.htm
记者昨日获悉,国家统计局局长马建堂日前在局务会议上称,在统计数据上弄虚作假是
统计领域最大的腐败,是对政府公信力最大的影响,坚决惩治和积极预防在统计上弄虚
作假是统计系统廉政建设的首要任务。
马建堂表示,统计人员参与数据造假或干预企业独立真实上报数据的,都要在查清
事实的基础上依法严肃处理。加大统计违法违纪案件的查办力度,继续曝光一批违法违
纪案件,坚决打击统计上弄虚作假行为。
据记者统计,这是今年以来马建堂第四次公开强调预防和严惩统计数据造假行为。
今年2月14日,马建堂发表公开信,要求企业对任何暗示、授意甚至强令企业虚报瞒报
、伪造篡改统计资料的行为,应坚决予以抵制,并积极进行举报。
为保证数据真实准确,从今年2月18日起,全国70万家“三上”企业和房地产开发
经营企业,通过互联网直接向国家数据中心或... 阅读全帖 |
|