w***g 发帖数: 5958 | 1 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
原因:
很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
算法要复杂得多得多。
但真相果真如此吗?做过machine learning的人都知道,数据量增大对于结果改善的边
际效应是递减的,而且往往是指数递减的。需要获得10个百分点的提高,可能需要成千
上万,甚至亿万倍的数据量。真是有点愚公移山的感觉了。
大数据的驱动力背后还有更黑暗的真相:提高barrier to ent... 阅读全帖 |
|
g*****l 发帖数: 424 | 2 【 以下文字转载自 DataSciences 讨论区 】
发信人: greatel (灵致), 信区: DataSciences
标 题: 数据科学之江湖兵器谱
发信站: BBS 未名空间站 (Sun Oct 9 16:57:10 2016, 美东)
【注】原发于微信公众号:data_wisdom
数据江湖,风起云涌。各路英豪,群雄逐鹿。
这是一个数据科学最好的时代,也是数据江湖最乱的时代。
那么在这么一个特殊的江湖里面浪,有什么兵器是值得我们去关注的呢?这篇文章列举
了一些常用方法(刀剑),并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。
数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然,这并不代表数据科学(统计学)的全部。虽
然他并没有提出自己的详细总结,但是有志于学习数据科学的同学不妨初步有个印象,
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域,很多人都会在日常的数据实践中用到。多学有益于身心健康。
首先需要说明的是,这些技术... 阅读全帖 |
|
c**********n 发帖数: 227 | 3 【 以下文字转载自 Working 讨论区 】
发信人: countrywoman (理想之村村长), 信区: Working
标 题: 关于金融数据的处理
发信站: BBS 未名空间站 (Sun Sep 28 15:13:13 2008)
做金融分析需要参阅大量金融数据分析财务报表,我是股票基金方面的分析员,每天都
要处理大量数据,数据来源主要是datastream and Bloomberg,两个公司后者数据相对
比较干净但是数据不全,而前者提供的数据发现不少错误。跟其他单位同行交流过发现
数据的可靠性非常重要而提供数据的公司问题不少。 我当时跟单位老同事提出过一个
设想,数据经手的途径越复杂越多数据被污染的机会越多。 如果政府出资研究一套软
件系统,政府可以规定所有上市公司通过此系统制作财务报表,将数据直接提供到由财
政部监管的部门,系统软件自动生成有着统一数据格式的文件,文件兼有pdf的稳定性
和excel数据灵活操作性。对调取使用数据的企业收费。这样可以减免数据污染途径提
高数据的可靠性,对于研究和金融分析很有帮助。
同事觉得提议不错但是可执行性不高。我个人觉得这个建议应该 |
|
S******y 发帖数: 1123 | 4 百度李彦宏:大数据已走到技术变革的临界点
信源:新华网|编辑:2014-04-27| 网址:http://www.popyard.org 抄
在近日举行的百度第四届技术开放日上,百度董事长兼CEO李彦宏表示,技术创新是一
个从量变到质变的过程。随着互联网的发展,大数据当前已走到技术变革的临界点。
李彦宏表示,在过去这些年中,互联网在改变着中国。而未来的一个趋势,则是技术将
在很大程度上改变互联网,因此必须及早对互联网技术进行研究和布局。从目前看,并
行计算能力不断提升和云存储等技术产品成本的不断降低,使大数据真正走到了技术变
革的临界点。
“因此百度需要开放自己的大数据核心能力,更好地帮助传统行业挖掘数据价值,加快
传统行业转型升级。”李彦宏说。
为此,百度在此次大会上正式发布了大数据引擎,将核心大数据能力开放,通过大数据
引擎向外界提供大数据存储、分析及挖掘的技术能力。
大数据因其蕴涵着巨大的社会价值和商业价值,当前已成为一项重要的生产要素。然而
,大部分机构和传统企业仍普遍面临着大数据应用的挑战,处在从数据累积的量变过程
转化为“数据智能”质变过程的临界点上。
大数据... 阅读全帖 |
|
g*****l 发帖数: 424 | 5 【 以下文字转载自 DataSciences 讨论区 】
发信人: greatel (灵致), 信区: DataSciences
标 题: 数据科学之江湖兵器谱
发信站: BBS 未名空间站 (Sun Oct 9 16:57:10 2016, 美东)
【注】原发于微信公众号:data_wisdom
数据江湖,风起云涌。各路英豪,群雄逐鹿。
这是一个数据科学最好的时代,也是数据江湖最乱的时代。
那么在这么一个特殊的江湖里面浪,有什么兵器是值得我们去关注的呢?这篇文章列举
了一些常用方法(刀剑),并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。
数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然,这并不代表数据科学(统计学)的全部。虽
然他并没有提出自己的详细总结,但是有志于学习数据科学的同学不妨初步有个印象,
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域,很多人都会在日常的数据实践中用到。多学有益于身心健康。
首先需要说明的是,这些技术... 阅读全帖 |
|
|
|
|
|
|
i***s 发帖数: 39120 | 11 有网友发微博@潇湘晨报称,湖南工业大学科技学院毕业证书上的编码和学信网上的不一致,眼下正是求职季,这对于毕业生找工作带来不小影响。
记者了解到,该名网友班上38名同学的毕业证编码都与网上的对不上号。7月2日,该校相关负责人解释,之所以出现这种情况可能是上传数据时出现了故障,目前该校已将之前上传的数据全部撤掉,重新上传了初始数据。
7月2日下午,记者联系到发帖网友郭华(化名),他是湖南工业大学科技学院电气工程及自动化专业2013届毕业生。
“毕业证编码与网上不符。”郭华说,6月30日,有一名同学参加面试前,通过中国高等教育学生信息网(学信网)查询,输入毕业证上的编码后,却查询不到自己的信息。随后,班上的同学纷纷登录学信网,发现班上38人的编码全都对不上号。
“眼下正是求职高峰期,面试、入职报到等很多环节,不少单位都会对毕业证编码进行核实查询,一旦被用人单位发现毕业证信息有误,求职就会受影响。”郭华说,学校别的班上也出现了这种情况。
湖南工业大学科技学院副院长张发明说,学校随机编排编码后,打印在毕业证上,6月19日发放给学生。6月30日下午,学校将数据上传至教育部网站,学生才能通过学信网进... 阅读全帖 |
|
o***s 发帖数: 42149 | 12 @微软数据视界:创业如同追妹子!不信?成功的创业者都善用数据追女神!你可能不屑一顾,觉得追女生是一件不需要科学的东西,下面小编用一组数据来告诉你,如果能够发现这些数据的奥秘,对于你是否能够逆袭摆脱单身是很关键的!并且,这跟创业其实是一回事……
记者追访:追女生靠的是什么?诚意!勇气!近日,一条建议用数据分析追女神的微博走红,该微博称,追女孩也要讲究科学方法,掌握相关数据十分关键:从第一次与妹子约会到最终确定关系平均需要六次,周三约妹子成功率最高;除掌握身高、体重、年龄等基本数据外,生理周期、闺蜜人数、购物频率等都相当重要;此外,还要用到微博、微信、QQ各种社交工具……
周三约妹子最易成功
“从第一次与妹子约会到最终确定关系,需要六次;星期三约妹子的成功率最高;妹子剪头发意味情感生活有变动……”对此,不少女网友表示,自己失恋或者在迎接新恋情的时候,的确会去换发型。
该微博还称,女孩身高、体重、生理周期、闺蜜人数、购物频率等,都属于“基础”数据;女孩更新社交网络的频率、一般几点睡觉、每天郁闷频率,整理这些数据,就能对她做出常识性判断;而最难以量化的数据就是,女孩的价值观取向、食物偏好、性格... 阅读全帖 |
|
b*****d 发帖数: 61690 | 13 民众对物价上涨感受远甚数据 CPI构成遭质疑
http://www.sina.com.cn 2010年11月24日11:26 经济参考报
今年以来,物价上涨催生了“蒜你狠”、“苹什么”、“糖高宗”、“棉里针”、
“油你去”、“煤超疯”等网络热词,也引发了居民“海囤”、上网 “晒恩格尔系数
”、交流“菜奴省钱攻略”等行为。记者在京、沪、浙等地走访发现,不管居民还是企
业都感受到了物价上涨压力,而物价“现实之痛”与统计部门公布的CPI数据之间的较
大落差,也使各界高度关注CPI数据构成如何更客观地反映我国居民消费的现实状况。
上涨
老百姓感觉物价高
今年以来,物价尤其是食品价格的快速上涨,让普通百姓感受到前所未有的压力。
记者在北京、上海、浙江分别探访“胡同族”“白领族”和“打工族”,倾听了这些普
通人的“紧巴账”。
北京
家住北京市海淀区普惠南里的王奶奶今年70岁,老两口每月退休工资约2500元,还
养着一个40多岁的智障女儿。因为菜价上涨,她每月买菜支出已由原来的550元左右涨
到700元左右。为了省钱,她每天要早起到附近的华联超市排队买特价菜“超市促销最
便宜,比如白菜每斤只要0... 阅读全帖 |
|
s****n 发帖数: 8912 | 14 核心提示:北京市检反渎职侵权局局长张华伟称,包括国家统计局办公室一名秘书在内
的5名相关人员,均已被立案侦查。涉案的5人分别来自不同部门,因此立了5个案子。
此外,针对国内“我行贿了”这类民间网站,北京市检察院相关负责人表示这种形式是
不合法的。
昨天,在北京市检察机关2011年“举报宣传周”活动新闻发布会上,市检反渎职侵权局
局长张华伟披露,北京检方已介入CPI数据泄露一案。目前,包括国家统计局办公室一
名秘书在内的5名相关人员,均已被立案侦查。
新闻发布会上,记者提问国家宏观经济数据(CPI数据)被泄露一案的最新进展,市检反
渎职侵权局局长张华伟就此介绍称,对于媒体披露的国家统计数据泄露问题,目前泄露
国家秘密的问题比较突出。对于这起案件,检察机关已会同国家保密部门进行调查,目
前已经立案5件,涉及5人。
张华伟随后解释称,由于涉案的5人分别来自不同部门,因此立了5个案子。这其中,包
括国家统计局新闻发言人盛来运此前披露的“国家统计局办公室一秘书涉嫌泄露国家秘
密案”。
有媒体称,今年3、4月份,国家统计局办公室一名秘书与央行研究局宏观经济研究处一
副研究员因涉嫌数据泄密被有关部门... 阅读全帖 |
|
|
s*****r 发帖数: 43070 | 16 国家统计局曝光重庆永川区、山西河津市干预统计数据上报案例
对于任何干预企业独立上报数据的行为,国家统计局开始强力回击。
记者昨日查阅国家统计局网站时发现,该网站已经新设立了一个“曝光台·回音壁”栏
目,曝光了已经查实的重庆永川区、山西河津市干预统计数据上报案例。这应该是国家
统计局首次对外曝光个别地方和企业数据造假情况。
记者随后电话采访了国家统计局统计执法检查室的常务副主任郭国云。他对《第一财经
(微博)日报》表示,这个栏目确实是新设的,也已对外公布了举报电话,目的是对统
计违法事实核查清楚的案件予以曝光,对在统计上违法违规责任主体的整改活动予以通
报。
地方政府干扰企业报送真实数据
根据统计局网站披露的内容,首批曝光的两个案例均涉嫌违反企业一套表联网直报制度
规定及相关统计法律法规。
第一个案例发生在重庆市永川区。去年11月,该区印发文件要求,企业一套表联网直报
单位上网报送统计数据,必须提前将当期企业统计上报数据,报经镇街统计机构或工业
园区或区城乡建设委员会、国土资源与房屋管理局、商委、经信委等相关行业主管部门
审核评估后,方可上网报送。
但根据《统计法》、《一套表联网直报制度... 阅读全帖 |
|
y****e 发帖数: 23939 | 17 重庆政府被举报干预数据上报 国家统计局要一查到底
记者昨日查阅国家统计局网站时发现,该网站已经新设立了一个「曝光台·回音壁」栏
目,曝光了已经查实的重庆永川区、山西河津市干预统计数据上报案例。这应该是国家
统计局首次对外曝光个别地方和企业数据造假情况。
记者随后电话采访了国家统计局统计执法检查室的常务副主任郭国云。他对《第一财经
日报》表示,这个栏目确实是新设的,也已对外公布了举报电话,目的是对统计违法事
实核查清楚的桉件予以曝光,对在统计上违法违规责任主体的整改活动予以通报。
地方政府干扰企业报送真实数据
根据统计局网站披露的内容,首批曝光的两个案例均涉嫌违反企业一套表联网直报制度
规定及相关统计法律法规。
第一个案例发生在重庆市永川区。去年11月,该区印发文件要求,企业一套表联网直报
单位上网报送统计数据,必须提前将当期企业统计上报数据,报经镇街统计机构或工业
园区或区城乡建设委员会、国土资源与房屋管理局、商委、经信委等相关行业主管部门
审核评估后,方可上网报送。
但根据《统计法》、《一套表联网直报制度》和国家统计局局长马建堂2月14日给企业
负责人和统计人员信中的要求,任何单位和... 阅读全帖 |
|
b*****d 发帖数: 61690 | 18 【多维新闻】10月8日上午,广东省委书记汪洋到省财政厅进行专题调研。汪洋给广东
财政厅全体官员推荐了《大数据:正在到来的数据革命》一书,希望财政系统官员更加
重视数据的收集、分析和使用,坚持用数据说话、用数据改进管理、用数据推动创新。
要真正把钱花到刀刃上
2007年至2011年,来源于广东的财政总收入从77,51亿元增加到13,668亿元,年均递增
15.23%。汪洋充分肯定全省财政工作并表示,广东正处于经济社会发展的转型期,财政
收入从高速增长期步入平稳增长期,要根据新形势新任务的要求改进税源培植工作,既
要抓那些可以给财政带来明显增长的重点项目,更要转变观念、着眼长远,打造法治化
、国际化营商环境,为企业发展壮大创造更好外部条件,实现财政可持续增长。
汪洋表示,广东省的财政总量虽然大,但支出压力也很大,部分资金使用效率不高,“
重分配、轻管理”、“重作用、轻绩效”的情况依然存在,要加强财政预算管理,增加
资金使用透明度,优化支出结构,真正把钱花到刀刃上。
要坚持用数据说话
汪洋说,要增强为群众办实事办好事的感情和责任,忠于职守,简政放权,规范权力运
行,压缩权力“寻租”空间,打造... 阅读全帖 |
|
d*********o 发帖数: 6388 | 19 http://news.163.com/13/0117/02/8LCV8DG10001124J.html
核心提示:海关总署日前公布的外贸数据被外资机构形容为“好得不可思议”,并遭到
高盛等外资银行集体质疑。1月16日,商务部否认数据被“人为拔高”造假,称“月度
数据出现波动是正常的。”
商务部新闻发言人表示,月度数据出现波动是正常的。
晨报讯 由于过于强劲,中国12月份外贸数据遭到高盛等外资银行集体质疑。中国商务
部昨日驳斥了数据被“人为拔高”的指责。“月度数据出现波动是正常的。”商务部新
闻发言人沈丹阳表示,去年企业12月突击出口等因素造成了这一现象的出现。
海关总署日前公布的外贸数据被外资机构形容为“好得不可思议”。根据这一统计,12
月份出口较上年同期上涨14.1%,高于11月2.9%的上涨,是2011年3月以来的最大涨幅;
进口继前一个月零增长后实现6%的增长。
瑞银集团认为出口数据的增长和贸易伙伴的货物进出口不相符,高盛和瑞穗证券亚洲公
司则指出,出口数据与制造业指数的海外订单数据相背离。
外界担心,质量有问题却无法辨明的数据将误导政府做出错误的规划,企业做出错误的
投资决... 阅读全帖 |
|
b*****d 发帖数: 61690 | 20 美国安全局强索网民信息
谷歌、微软、雅虎等被迫提供保密数据
美国一些大型网络公司3日向政府律师和公众披露了更多新数据。这些数据显示,
在美国国家安全局压力下,他们被迫向国安局提供大批量本该保密的用户数据。被迫向
国安局公开用户数据的大型网路企业包括谷歌、微软、雅虎、社交网站“脸谱”、职业
社交网站LinkedIn和简易博客网站Tumblr。
被迫
新公开的数据显示,过去几年,国安局常以反恐调查和情报相关调查为由,向这些
互联网热门网站索要用户信息。
例如,谷歌和微软在2012年至2013年间的每6个月,被迫向国安局提供了上万名用
户数据;雅虎在同一时期被要走大约4万个用户的资料。自“棱镜”项目曝光后,这些
企业曾有限度地披露了一些被迫提供数据的情况。上星期,奥巴马政府批准一项新规定
,准许这些企业更为宽松地向公众披露相关信息。
美联社4日说,从这些企业公开的图表、数据和陈述中可以看出,这些网络公司一
方面想通过这种方式向政府提出抗议,展现自身的隐私保护意识,另一方面希望向用户
传递信息,表明被泄露的用户信息有限,并非涉及所有用户。
遭黑
除被迫提供数据外,这些企业还发现,政府情报部门通... 阅读全帖 |
|
u***r 发帖数: 4825 | 21 http://finance.sina.com.cn/china/20141017/025520563140.shtml
房贷新政半月数据考:成交回暖 价格难涨?
本报记者 张晓玲 辛继召 深圳报道
9月30日,中国人民银行[微博]与银监会发布《关于进一步做好住房金融服务工作
的通知》(以下简称“9·30房贷新政”)后,半个月过去,新政效果立竿见影。
多家代理机构和房企的销售数据显示,十一黄金周开始,一些项目来访量大增,此
前的来访开始转化为实际签约量,10月前半月成交明显回暖。
在价格方面,主流房企的行为和判断仍趋于谨慎,认为市场以平价走量为主。万科
甚至认为,四季度楼市是继续降价态势,会有更多楼盘降价。“房价下跌是有合理空间
的,去年房价上涨的部分跌回去一半差不多就是合理价位。”
接受21世纪经济报道记者采访的多位业内人士表示,新政给市场带来的是一个销售
窗口期,并不能说市场就此反转;长期来看,房地产业新常态已确立,楼市供求关系逆
转,整体供大于求,房企去库存是首位,楼市正在进入存量房时代。
成交量回暖
万科集团提供的数据显示,今年十一期间新推盘30多亿,认购80亿,去年十一认购
... 阅读全帖 |
|
T****i 发帖数: 15191 | 22 话说太平洋上有个小岛,上面住了土著人,与世隔绝上千年,地处偏远,各国都对这个
岛没有兴趣。直到二战时,美国发现这个岛是个非常好的中转站,就去建了个空军基地
。每次飞机来了送给养,也给土著点东西比如午餐肉罐头什么的。后来战争结束了,美
军关了基地离开了。后来,70年代有人去这个岛,发现土著人有个宗教,是在废弃的跑
道两侧点燃两溜火把,然后祭拜,等待天神的到来。
不懂大数据,说下感觉,抛砖引玉,敬请批评。从学术界到商业届,从基因组到客户数
据发掘,大数据已经流行好多年了,有少数一些成功案例,大多数就是产生一些似是而
非的结论。其实大数据非常危险,首先单个数据错误可能性非常大,虽然这对得出统计
数据可能没影响,但对得出精确结论影响很大。更有很多高通量低质量的数据,对统计
结果都有影响,最后可能garbage in garbage out。其次数据量大了,总能形成
pattern,但这不一定是真正的规律或者机制性规律。无论数据量多大,你也不能保证
你采集的数据都有用,还有缺失数据,你压根都没想到的。
我认为还有一个重要问题,就是有多少问题是计算机可以解决的。比如,现代的超级计
算机,就算联网,... 阅读全帖 |
|
发帖数: 1 | 23 前言:
今天不谈论更多的经济学理论,今天只是从常识层面来分析、从周期理论来分析。
今天的讨论不关乎政治、不关乎爱国,只讨论人民币的未来,因为,这关乎着你我最直
接的利益。
从五个纬度来看人民币当前在世界版图中的现状,以期分析它的未来。
什么是M2、GDP、通货膨胀、CPI?
M0就是社会上的现金,
M1就是M0+企业的活期存款,
M2就是M1+全国的定期存款。
如果把国家比作一个超市,M2的增长也就是货币总量的增长,GDP的增长可以简单看作
是整个超市内货物数量增长。货物的增长速度跟不上钱的增长速度,货少钱多,货就会
涨价。货涨价的幅度就是CPI的涨幅。
CPI不是通货膨胀率,但是CPI是衡量通货膨胀率的一个重要数据。
我国的CPI是由8类商品构成,各类价格指数的权重分别约为:食品34%,日用品5%,
衣着9%,家庭设备及维修4%,医疗保健11%,交通通信9%,娱乐教育文化15%,居
住14%。
图一2000年-2015年以来的人民币M2数据变化图
从中可以看出:
1、从2009年开始,神州的货币增发的增幅大大提高,坡度明显加大,一直持续到了现
在。
2、2015年底的M2数据已经是2... 阅读全帖 |
|
发帖数: 1 | 24 (新华调查)数据虚涨百倍 造假触目惊心
——湖南基层统计造假透视
新华网长沙2月14日电(记者邹云、丁文杰、李丹)5.8亿元的产值上报为4
4亿元,1.1亿元的主营业务收入上报为7.8亿元;停产的、未投产的、被兼并的
,甚至连地址都找不到的企业,还在上报“产值”;一些部门分解任务,伪造资料,“
指导”企业上报虚假数据……
这是湖南在全国第三次经济普查中抽查发现的统计造假行为。记者调查发现,在一
些地方,政绩观扭曲,统计造假“前赴后继”,屡禁不绝,搞坏了党风政风,损害了政
府公信力。
实际数还不足虚报数的一个零头
统计数据具有法定效力,必须力求准确。可是,在一些地方,统计却变成了“数字
游戏”,有什么需要就报什么数字,想怎么报就怎么报,有的实际数据还不足虚报数据
的一个零头。
衡山县是湖南一个只有40多万人口的小县,经济基础比较薄弱。国家统计局统计
执法检查室在去年上半年查实,湖南衡山县在统计和“三经普”中,虚报数据的问题非
常突出。抽查的39家联网直报工业企业,2013年工业总产值上报数合计44亿元
,而检查数合计只有5.8亿元,差错额高达38.... 阅读全帖 |
|
p***n 发帖数: 17190 | 25 https://www.aboluowang.com/2018/1201/1211984.html
加州大学拒给录取种族数据被起诉 涉隐瞒招生歧视亚裔
【阿波罗新闻网 2018-12-01 讯】
默认
本月初,加州大学(University of California)因拒绝公布招生种族数据信息,而被
非营利组织告上法庭。这起诉讼指控加州大学拒不公布原告依法索取的录取数据,违反
了加州信息公开法案,试图掩盖大学按照种族配额招生,歧视学业优异的亚裔的嫌疑。
加州大学伯克利分校校园开放日Cal Day。(李文净/大纪元)
本月初,加州大学(University of California)因拒绝公布招生种族数据信息,而被
非营利组织告上法庭。这起诉讼指控加州大学拒不公布原告依法索取的录取数据,违反
了加州信息公开法案,试图掩盖大学按照种族配额招生,歧视学业优异的亚裔的嫌疑。
这起诉讼于11月初向加州高等法院递交,紧随亚裔团体起诉哈佛大学招生歧视的案件之
后。原告要求索取的数据,是加州大学系统本科生申请及录取的详细数据,包括:考试
分数、高中和大学的年级、高中课程分数、报考和录取学生的种族、... 阅读全帖 |
|
v**e 发帖数: 8422 | 26 各国空军现有空战实力对比2011(用数据说话)
作者: 远方 发布日期: 2011-10-11 查看数: 2008 出自: http://www.fyjs.cn [复制链接] 转播到腾讯微博
http://chenxixunmeng.blog.163.co ... 112620119111372778/
作者:晨曦
对于军事迷来说,各国军事实力排名,特别是我国军事实力在世界上的排名,始终是一
个热衷的话题。本文尝试着就我国目前的空军空战实力在世界上的位置分析一下。
一般网站对我国空军实力在世界上的排名有两种说法,第3或者第5-7名。第3的
说法常见于一般军事网站,这时俄罗斯往往是第2名;5-7名的说法常见于一些所谓的国
际上的分析。但个人以为,他们要么不知道准确的数据,只是随意复制一些数据然后猜
测;要么数据太老,已经过时。个人尝试通过一些相对精确的最新数据(新型的以生产
数量计;统计数量含海军飞机)来分析一下。因为2代机太老,对比时一般不予考虑(
以下分序不代表实际排名)。
一、快速发展的中国空军
我国现有SU-27SK/UBK 60架,... 阅读全帖 |
|
B*V 发帖数: 3365 | 27 【 以下文字转载自 Military 讨论区 】
发信人: brihand (brihand), 信区: Military
标 题: 统计局称居住支出680元有误将公布住宅价格数据
发信站: BBS 未名空间站 (Wed May 11 20:41:50 2011, 美东)
统计局称居住支出680元有误将公布住宅价格数据
http://www.sina.com.cn 2011年05月12日01:56 新京报
国家统计局昨日公布4月份经济数据。其中,居民消费价格指数(CPI)同比上涨5.3%
,比3月下降0.1%,自去年12月以来首次出现回落。而食品价格以及居住价格等均出现
了不同程度的涨幅。国家统计局发言人盛来运称,未来仍将面临较大的物价上涨压力。
概况 居住价格同比涨6.1%
4月,居民消费价格同比上涨5.3%,涨幅比3月回落0.1个百分点。其中食品价格同
比上涨11.5%,居住价格同比上涨6.1%。国家统计局新闻发言人盛来运表示,食品拉动
CPI上涨达到3.4个百分点。
据了解,这是今年来涨幅首次回落。其中食品价格上涨11.5%,居住价格同比上涨6
.1%。其他六大类商品价格也... 阅读全帖 |
|
发帖数: 1 | 28 所谓“大数据”是指超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据
群。
大约从2009年开始,“大数据”开始成为互联网信息技术行业的流行词汇。
大数据的特点可以概括4V:Volume(大量)、Velocity(高速)、Variety(多样)、
Value(价值)。
在大数据时代,小散是不掌握数据价值财富的,也不可能像MM一样对市场动向作出高速
反应。小散跟MM作战的形势就好比拿弹弓打装备了云计算加卫星定位火控系统的坦克,
分分钟会变成肉饼。
通常的“投资”是指定性投资,它属于主观判断型,例如看到中东战争爆发的新闻时,
投资经理可能就会想,接下来,国际金价可能上升,于是,购买黄金,以待升值,等等
。这种基于现象的预判而进行的投资,就是典型的主观判断型投资。主观判断型投资或
定性投资的一个最大问题就是,投资过程中,人的情绪会显著影响投资进程——这是因
为,人这个动物,有喜怒哀乐、有七情六欲,趋利避害是其本性。这个本性直接导致整
个投资过程对于风险并不能做到客观的准确度量,而只能跟着感觉走。
大数据时代量化投资成为主流,它具有一个显著功效,就是把人的情绪排除到投资进程
之外——整... 阅读全帖 |
|
c****r 发帖数: 969 | 29 ☆─────────────────────────────────────☆
suyazjm (Watering in English) 于 (Thu Jul 14 09:46:13 2011, 美东) 提到:
牛,顶
☆─────────────────────────────────────☆
Beijing (中国万岁,北京加油) 于 (Thu Jul 14 09:47:24 2011, 美东) 提到:
顶
☆─────────────────────────────────────☆
suyazjm (Watering in English) 于 (Thu Jul 14 09:51:04 2011, 美东) 提到:
老大,指点一下开源的数据库操作软件吧
可以在web页面增加删除等操作,
最好支持“外国key“关联的
☆─────────────────────────────────────☆
Beijing (中国万岁,北京加油) 于 (Thu Jul 14 09:54:07 2011, 美东) 提到:
mysql?
☆──────... 阅读全帖 |
|
g*******n 发帖数: 241 | 30 内马尔在欧洲1/4决赛和1/2决赛四场比赛打入6球之后,不仅让欧冠总进球数达到了和C
罗并列的9球,而且也打出了赛季47场37球的记录,初步达到了之前关于内马尔效率的
预判,这一数据背后蕴含了丰富的意义:
1. 这是巴萨进入90年代之后25年来自梅西和大罗之外的最佳进球记录;
2. 这是巴萨历史上与梅西搭档的最佳第二射手;
3. 在梅西23岁,C罗24岁之前,他们各自只有一个赛季的进球率超过刚进入第二个欧洲
赛季的内马尔(梅西22岁那年是51场38球,肯定会低于内马尔这个赛季)----- 换言之
,内马尔这个赛季的效率丝毫不弱于完全进化,脱变为射门员和超级刷子的梅罗两人。
当然,这些数据也清晰的回应了话题区过去三年围绕内马尔以及相关的梅西、C罗,阿
扎尔,罗比尼奥等等的一系列争议:
1. 内马尔仅是罗比尼奥第二,根本不具备金球实力。。。
答案是否定的。23岁的内马尔俱乐部总进球数已经无限接近职业生涯尾声的罗比尼奥(
差两球),而职业生涯总进球数已经远远超越了自己的前辈
内马尔显然具备超越小罗和卡卡两个金球先生的潜力和实力
2. 内马尔个人杀伤力不行,阿扎尔才是90后第一人
结论很简单。... 阅读全帖 |
|
wh 发帖数: 141625 | 31 数据主义认为,宇宙由数据流组成,任何现象或实体的价值就在于对数据处理的贡献。
音乐、股市、文学、经济、政治,蚁群、蜂群、菌群背后都是数据流的不同模式,都可
以用算法来分析决策。
以前我们要把数据转化为信息,信息转化为知识,知识转化为智能。
而今天,数据量太大了,人类已经无法直接处理海量数据并形成信息,于是计算机算法
接管了数据处理的工作,而之后得出的的信息、知识,也就随之成了计算机算法的收获
,成了计算机的智能。
共产主义本质上是一种市场信息集中处理的政治算法系统,统一资源配置、统一商品定
价、统一规划社会经济活动的一切。
自由市场资本主义是分布式信息处理的算法系统。资本主义能够赢得冷战,是因为分布
式数据处理的效果就是比集中式处理更符合当今这个时代。
政治科学家开始把人类政治结构理解成数据处理系统,民主和专制在本质上是两套关于
收集和分析数据(信息)的对立机制。
而这种政治算法系统正在失去对数据的控制,科技发展太快,政治系统升级太慢,权力
出现了真空。
即便是互联网兴起之后的若干年,各国政府开始意识到这个科技成果对社会和政治格局
的影响力已经大到失控的地步,他们开始通过各项政策法规监... 阅读全帖 |
|
|
|
c***z 发帖数: 6348 | 34 【 以下文字转载自 JobHunting 讨论区 】
发信人: phunter (程式猎人:LA摸机会资深成员), 信区: JobHunting
标 题: 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient
发信站: BBS 未名空间站 (Mon Apr 27 18:26:38 2015, 美东)
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教... 阅读全帖 |
|
n*******e 发帖数: 1141 | 35 http://news.163.com/10/1026/02/6JT0C4QV0001124J.html
国家测绘局证实网络地图数据来自国外卫星
2010-10-26 02:56:41 来源: 新京报(北京)
核心提示:日前,有网友在其博客上称,“天地图”使用的卫星地图并非具有“自主知
识产权”,称数据应该是来自美国DigitalGlobe公司,而谷歌地图就是使用该公司的高
分辨率的商业图像数据。10月25日,国家测绘局有关人士回应称,“天地图”卫星图像
确实来自商业卫星。
新京报10月26日报道 国家测绘局的“天地图”刚推出,就遇到了网友的质疑。
日前,有网友在其博客上称,“天地图”使用的卫星地图并非具有“自主知识产权”。
昨日,国家测绘局有关人士回应称,“天地图”卫星图像确实来自商业卫星,“天地图
”自主知识产权指的是“服务软件”而并非“数据资源”。
质疑
“天地图”是否具有自主产权
今年10月21日,国家测绘局宣布,中国公众版国家地理信息公共服务平台“天地图”网
站正式开通。而在报道中,这一网站被称为“中国自主研发的网络地图服务网站”。
10月22日晚,一位网友发文指出,他对“天... 阅读全帖 |
|
b*********f 发帖数: 1585 | 36 “环保局监测了那么多数据,能不能再多公布几个数据呢?包括PM2.5,让大家多了
解自己的环境会更好。”“您说在雾蒙蒙的天气里,我能不能骑自行车锻炼啊?”……
昨天下午,北京市空气质量监测中心迎来第一批个人参观者(如图),针对市民们提出
的五花八门的环保问题,市环保局安排了3名专业技术人员为大家答疑解惑。
一大早预约电话不断
昨天上午9时30分左右,记者开始拨打北京市空气质量监测中心预约参观的电话,
一直处于占线状态。持续拨打了10多次之后,终于拨通。办公室工作人员告诉记者:“
从上班开始,这电话就没停过,有好多市民听说下午就能参观,马上报名。有些是咨询
电话,有些预约下周参观。”直到中午,仍有市民电话报名。昨天给市民当讲解员的都
是监测中心重量级的人物:两名工程师、一名讲解专员。
13时45分,距离正式参观时间还有15分钟,市环保局大门外已经有多位市民等待。
据介绍,首批参观者有9名,其中大部分是年轻人。此外,还有10几名记者也一同进行
了参观。
走进“神秘”监测子站
14时许,监测中心办公室倪小姐担任讲解员,参观的首站是大门外的一个“神秘”
屋子。这间“屋子”为乳白色四方形结构,四周... 阅读全帖 |
|
发帖数: 1 | 37 近日,“我国超过5亿人有家庭医生”的报道遭到网民吐槽,称与自身感觉相去甚远。
虽然后来有报道称,卫计委相关人士对大家的疑问,比如家庭医生签约数字等进行回应
,并表示服务还要陆续跟上,但网民买账的依然不多。
无论承认与否,一个正常的社会总是要存在一定的大卫·休谟式的怀疑主义:我的
收入不及全民平均收入,这一数据肯定有问题;我的住房面积没有达到城镇人均面积,
这一数据肯定哪里出错了。有关家庭医生覆盖5亿人口的数据引发相当质疑,也是同一
个道理。
公共服务领域数据的产生,大抵都要经历一场与民众现实体验之间的“鸡生蛋还是
蛋生鸡”的逻辑纠缠。数据的真实与否,与社会怀疑主义并无关系,真实的数据应经得
起也配得上质疑者的审视。逻辑纠缠的解开需要大众科学普及与传播,而非人云亦云的
起哄。
以家庭医生为例,签约行为与就医体验行为是可以分开的独立行为,事实上存在两
类异质数据:一类是家庭医生覆盖数据,另一类是初次求助家庭医生病患服务的覆盖率
。第一类数据的基本签约范围可以客观测定,签约覆盖率并不等于真实服务覆盖率。而
第二类却是以病患发生为随机事件的变动值,事实上还可以分出两个子类:一个是病患
发生却没... 阅读全帖 |
|
b*****d 发帖数: 61690 | 38 CPI数据出炉过程:调查员数据直发国家统计局
http://www.sina.com.cn 2011年01月22日12:04 四川在线-华西都市报
国家统计局20日公布数据,2010年我国居民消费价格(CPI)比上年上涨3.3%。CPI数
据是怎样出炉的?是谁在采集这些数据?20日上午,华西都市报记者首次跟随国家统计
局成都调查队物价调查员,在建设路农贸市场全程见证了物价信息采集的全过程。
农贸市场采价豆制品就要采集4样
杨红是成都市的一名物价调查员,20日上午9点,她准时来到建设路农贸市场。“
今天天气不错,生意还好吧?”在一家粮油店,她与店主寒暄着。 “老样子了,你辛
苦了。”店主也热情。攀谈中,店主给她介绍了当天的价格:汉香米2块1,珍珠米2块6
,杨红摸出一部手机,把这些价格一一记录在上面。
告别粮油店转身进入喧嚣的菜市场。“王姐早”、“李哥好”,杨红满面微笑与摊
主们打着招呼,在拥挤的摊位间来回穿梭,豆腐、豆芽、豆干、豆皮,仅豆制品一项就
要采集这4样价格。
再来到猪肉档,杨红介绍说,猪肉也要采集4项,分别是猪腿、五花、猪肝和猪腰。
一边采集价格她一边介绍,在农贸市场她要... 阅读全帖 |
|
b*****d 发帖数: 61690 | 39 统计局称居住支出680元有误将公布住宅价格数据
http://www.sina.com.cn 2011年05月12日01:56 新京报
国家统计局昨日公布4月份经济数据。其中,居民消费价格指数(CPI)同比上涨5.3%
,比3月下降0.1%,自去年12月以来首次出现回落。而食品价格以及居住价格等均出现
了不同程度的涨幅。国家统计局发言人盛来运称,未来仍将面临较大的物价上涨压力。
概况 居住价格同比涨6.1%
4月,居民消费价格同比上涨5.3%,涨幅比3月回落0.1个百分点。其中食品价格同
比上涨11.5%,居住价格同比上涨6.1%。国家统计局新闻发言人盛来运表示,食品拉动
CPI上涨达到3.4个百分点。
据了解,这是今年来涨幅首次回落。其中食品价格上涨11.5%,居住价格同比上涨6
.1%。其他六大类商品价格也全部出现上涨。
从环比看,4月份,居民消费价格环比上涨0.1%。其中,食品价格下降0.4%,食品
中的鲜菜价格环比下降11.2%;居住价格环比上涨0.4%。
■ 解读
CPI 食品价格环比开始下降
对于CPI的数据,盛来运说,从结构来看,同比5.3%的涨幅中,有3.1个百分点... 阅读全帖 |
|
o****y 发帖数: 1810 | 40 经济数据造假成统计领域最大腐败 获利大处罚轻
2012-12-08 人民网-人民日报海外版
经济数据准确与否直接影响着中央对经济形势的判断,以及宏观决策和预调微调政策的
出台。中共中央总书记习近平日前指出,要保持经济增长,继续实施积极的财政政策和
稳健的货币政策,增强经济增长的内生活力和动力,增长必须是实实在在和没有水分的
增长,是有效益、有质量、可持续的增长。
专家指出,目前我国经济形势严峻,要实现稳增长目标,就要加大宏观经济政策的预调
微调力度,而预调微调必须以准确及时的经济数据为依据,如果地方政府或有关部门提
供的数据有水分,将导致决策层对经济形势的判断失误,最终误导宏观决策。
造假成统计领域最大腐败
虽然经济数据的准确性事关重大,然而,近年来虚假数据事件屡见报端。大到GDP,从
2008年开始,中央和地方连续出现地方数据超过中央统计数据的情况;小到村里的鸡鸭
,一位村党支部书记曾回忆说:“到年终,要按分配的任务填报。当时,要把1只鸡说
成4只鸡,甲鱼一只没有,就上报捕捞了几千斤,生猪出栏170头,上报650头……”
今年3月,国家统计局首次曝光两起数据作假案例,一是重庆永川区干... 阅读全帖 |
|
o****y 发帖数: 1810 | 41 经济数据造假成统计领域最大腐败 获利大处罚轻
2012-12-08 人民网-人民日报海外版
经济数据准确与否直接影响着中央对经济形势的判断,以及宏观决策和预调微调政策的
出台。中共中央总书记习近平日前指出,要保持经济增长,继续实施积极的财政政策和
稳健的货币政策,增强经济增长的内生活力和动力,增长必须是实实在在和没有水分的
增长,是有效益、有质量、可持续的增长。
专家指出,目前我国经济形势严峻,要实现稳增长目标,就要加大宏观经济政策的预调
微调力度,而预调微调必须以准确及时的经济数据为依据,如果地方政府或有关部门提
供的数据有水分,将导致决策层对经济形势的判断失误,最终误导宏观决策。
造假成统计领域最大腐败
虽然经济数据的准确性事关重大,然而,近年来虚假数据事件屡见报端。大到GDP,从
2008年开始,中央和地方连续出现地方数据超过中央统计数据的情况;小到村里的鸡鸭
,一位村党支部书记曾回忆说:“到年终,要按分配的任务填报。当时,要把1只鸡说
成4只鸡,甲鱼一只没有,就上报捕捞了几千斤,生猪出栏170头,上报650头……”
今年3月,国家统计局首次曝光两起数据作假案例,一是重庆永川区干... 阅读全帖 |
|
b*****d 发帖数: 61690 | 42 新华网北京5月19日电 (记者 陈元)针对近日媒体报道中国红十字会总会报送给民
政部的芦山“4 20”地震捐赠物资数据与当天该会官方微博通报数据不一致的情况,19
日,民政部在其官方网站发布说明称,民政部17日通报的中国红十字基金会接收捐赠情
况采用的是截至5月9日的数据。截至5月10日,中国红十字基金会报送的统计数据为:
接收资金1671.31万元,物资804.76万元,合计2476.07万元。
民政部于17日下午公布社会组织接收和使用芦山“4?20”地震救灾捐赠款物的统
计情况:截至5月10日,中国红十字会总会接受捐赠11399.78万元,物资为2051.05万元
,合计13450.83万元。
然而,有媒体提出,中国红十字会总会官方微博5月10日发布雅安地震接收社会捐
赠款物情况。数据显示,截至当天下午5时,中国红十字会总会接收捐赠款物为15926.
90万元,其中接收捐款13071.09万元,接收捐物为2855.81万元。
也就是说,同样截至5月10日,中国红十字会总会报送给民政部的捐赠物资数据比
当天该会官方微博通报数据少了2476万多元。这笔款物去哪了?
针对网民的强烈关注,... 阅读全帖 |
|
s***c 发帖数: 1926 | 43 版上的人看得懂这到底是什么吗?不明觉厉啊,说不定是bitcoin后下一波暴富机会,
all in了。
7月8日,百度金融中心联合中证指数公司、广发基金正式推出我国首只真正利用大数据
挖掘技术开发的首只互联网金融产品——中证百度百发策略100”指数(以下简称“百
发100” 指数)。此次三方的跨界合作,成为互联网金融向纵深发展的创新标杆,首次
将互联网大数据技术引入指数编制方案中,同时颠覆性地改造了传统股票市场指数编制
方法和量化投资方法。
在互联网金融浪潮的推动下,“百发100” 指数实现了指数编制方法的重大创新,首次
采用百度互联网金融大数据技术,将涉及特定金融实体的数据进行自动分析、归并、统
计和计算,并引入量化选股模型,编制股票市场指数。依托于独一无二的百度互联网金
融大数据技术和资源优势,“百发100” 指数成为市场上最能及时反映市场轮动热点、
股民情绪、捕捉企业口碑业绩变化的指数,或将掀起指数界的革命。
百发100指数,实现了多个层次的创新,首先让市场首次拥有了“互联网强基因”的指
数,其次指数延续了互联网快速发展的基因,将换股周期缩短至1个月,这将使得指数
能够更加及时、互... 阅读全帖 |
|
s*****V 发帖数: 21731 | 44 “6.9%!”如果在这个数据前面加上“规模以上工业增加值增速”这样的定语,那么
业内人士的惊呼也就不足为怪了。
国家统计局13日发布的数据显示,2014年8月我国规模以上工业增加值增长6.9%,
创下自2008年12月以来的新低。宏观数据频泼冷水,其背后原因何在?在我国经济增长
步入“新常态”之际,如何理解和把握“趋势”“全局”和“总分”?
推荐阅读
扫一扫关注官方微信
聚焦最受关注的财经话题,一起探讨。
有这19种特质 你也能成高富帅!
A股高管减持神理由:给孩子交学费
富豪土豪差别在哪 李嘉诚省出来的?
叶剑英孙女上中国好声音爆红
冰桶挑战风靡 章子怡湿身诱惑
芮成钢与大人物的故事(组图)
大老虎“墨宝”成遗羞 各地忙销毁
宏观数据频泼冷水
13日,国家统计局发布的数据显示,2014年8月份,我国规模以上工业增加值同比
实际增长6.9%,比7月份回落2.1个百分点。来自WIND金融数据终端的统计数据显示,
这是本世纪我国月度工业增加值增速第5次跌破7%,前期低点是金融危机中的2008年11
月和12月,分别为5.4%和5.7%。
此外... 阅读全帖 |
|
|
f******o 发帖数: 2469 | 46 http://www.sinotf.com/GB/Tradedata/1142/2018-01-30/xMMDAwMDMwMTcxMg.html
2017年度中国进出口数据
时间: 2018-01-30 14:41:42 来源: 海关发布 网友评论 0 条
第二届中国供应链金融年会火热报名中!风控、融资、创投、B2B、区块链深度解读!
2017年度进出口数据权威解读
近日,国务院新闻办公室举行新闻发布会,请海关总署新闻发言人黄颂平介绍2017年全
年进出口情况,并答记者问。
中央电视台记者:
您对2017年我国外贸整体的发展是如何评价的?我们知道,2017年我国外贸出现了两位
数的增长,在此之前连续两年是同比下降的,对于这个转变,有观点认为这只是阶段性
的反弹,对此您是如何看待的?
黄颂平:
谢谢你的提问。2017年世界经济温和复苏,国内经济稳中向好,“一带一路”倡议稳步
推进,外贸稳增长政策效应显现等多方面因素共同推动了我国外贸进出口结束两年负增
长的态势,实现了两位数的恢复性增长。对外贸易保持了回稳向好的发展态势,具体来
看主要有以下几方面的原因:
一是世界经济温和复苏,外... 阅读全帖 |
|
g**1 发帖数: 10330 | 47 我国首次实现深海6000米大深度数据北斗卫星实时传输
分享到:3174
2019-01-31 21:11:31字号:A- A A+来源:科技日报
关键字: 北斗
中国科技网·科技日报1月31日消息,1月31日,我国新一代远洋综合科考船“科学”号
在完成2018年第6次西太平洋综合考察航次后,顺利返回青岛,靠泊中国科学院海洋所
青岛西海岸薛家岛码头母港。我国科学家在本航次成功维护升级了我国的西太平洋实时
科学观测网,实现了多项重大突破。
中科院海洋研究所、烟台海岸带研究所所长王凡研究员介绍,本航次的重大突破是首次
实现了深海潜标大容量数据的北斗卫星实时传输。该项自主研发的技术成果克服了深海
潜标载荷容积小、供电少和数据量大等困难,改变了以往依赖国外通信卫星的历史,显
著提高了深海数据实时传输的安全性、自主性和可靠性。
“在今年的航次中,另一项重大突破是我们融合感应耦合和水声通信技术首次实现了深
海6000米大水深数据的实时传输,在大洋上层实现了每100米一个温盐流数据的实时传
输,在大洋中深层实现每500米一个温盐流数据的实时传输。”王凡说,“6000米深海
数据北斗卫星实时通信潜标自布... 阅读全帖 |
|
c****x 发帖数: 6601 | 48 【 以下文字转载自 Military 讨论区 】
发信人: cccpwx (flg政庇小学生), 信区: Military
标 题: 陷歧视控诉哈佛交出招生数据,他们怎么评分的 zz
发信站: BBS 未名空间站 (Wed Aug 1 01:32:27 2018, 美东)
徐令予:陷歧视控诉哈佛交出招生数据,他们怎么评分的
http://www.guancha.cn/XuLingyu/2018_07_30_466120_s.shtml
加州大学洛杉矶分校物理系研究员
2018-07-30 09:20:49字号:A- A A+来源:观察者网
关键字: 哈佛招生哈佛歧视亚裔哈佛招生数据
【文/ 观察者网专栏作者 徐令予】
“公平入学学生会”SFFA(Students for Fair Admissions) 是美国的一个私人团体,
他们控告哈佛大学在本科新生录取过程中歧视亚裔美国学生已经有三年之久了。今年6
月初,SFFA向美国波士顿地方法院呈交了一份补充文件。该文件把哈佛多年来深藏不露
的海量入学数据公之于众,一石激起千层浪,事情有些失控了。哈佛这次真的摊上事儿
了。
在原告方SFF... 阅读全帖 |
|
r******e 发帖数: 617 | 49 我说说我的一点看法吧。不见得对,仅供参考。
大数据的流行来源于google那三篇论文,google file system, big table, and
mapreduce 。google自身确实是有处理大规模数据的需求的,所以对应的数据存储,组
织和计算框架应运而生。随之,yahoo 借鉴google三驾马车的思路做出了hadoop。另一
方面,随着互联网的高速发展和计算机的广泛应用,数据出现以下几种特征,数据规模
越变越大,数据量急速增长,数据种类繁多,使得对于大规模数据分析处理软件产生迫
切需求。这两方面互相作用的结果就是大数据的流行和接受。
但大数据目前的一个问题是,我觉得是有点过热了,言必称大数据,个个都是数据科学
家。实际上,我觉得对大数据有需求的还是真正有超大规模数据的公司或者研究机构,
比如google,facebook,twitter,或者科学计算等等。一般的数据分析任务根本没必
要用这种大杀器,正如MSR的一篇SOCC13论文说的,很多时候一台单机就能完成计算任
务了。 |
|
p*****r 发帖数: 1883 | 50 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 ht... 阅读全帖 |
|