第8页 - 关于数据量的讨论汇总 - 话题女王

全部话题 - 话题: 数据量

c***s
发帖数: 70028

大连湾原油泄漏爆炸事故发生后的一个疑问，便是究竟泄漏了多少吨原油?
早前在接受采访时，诸多业内人士也表示，正确的评估泄漏量是事故应急处理和长期环境和生态影响评估的基础。但迄今为止，此次事故究竟造成了多大的泄漏量还未能有一个明确数字。
事故发生后的数天内，《新京报》等媒体在报道中声称，大连新港油管爆炸后，初步估计有1500吨原油流入了海洋。此后，1500吨这个数据被广泛转载引用。
倘若数据属实，那么大连原油爆炸事故的泄油量在中国海洋泄漏污染事故历史上也算得上是名列前茅。遗憾的是，1500吨泄油量的说法至今未获得官方承认。随着事态的进一步发展，泄油量似乎远超想象。
8月1日，华夏时报就中石油的善后工作进行报道。其中提及2个数字。
1. 大连市委相关负责人告诉《华夏时报》记者,政府为了尽快完成油污清理,号召当地单位和渔民都来参与清污。该负责人坦承为了号召当地人来参与清污,确实给予每桶油(150公斤)300元的补助,但这个补助谁出尚不清楚。
2. 大连湾一位参与到清污大军中的清污工作人员告诉《华夏时报》记者,根据初步统计,这次清污行动平均一天能打捞7万桶油污,但是这些是否能回收再用不清楚,因为

c***s
发帖数: 70028

来自主题: Headline版 - 90后CEO央视演讲被质疑其用户和融资数据造假

余佳文在演讲。资料图片
因被质疑用户和融资数据造假，个性张扬的90后CEO余佳文，成为移动互联网圈近日备受争议的名字。
余佳文团队2011年开始研发软件“超级课程表”，2012年注册了公司并获得第一笔天使融资。这个将课程表导入用户手机的APP，在此前的公开报道中，被描述为一款覆盖全国3000所大学，拥有1000多万注册用户，日均登录量200多万的软件。
在很长一段时间，余佳文90后CEO的知名度还只是在小范围内流传，改变发生在今年11月22日。在当天中央电视台播出的《青年中国说》节目，24岁的余佳文称自己是“野孩子”，声称公司已获得由阿里巴巴集团领投的千万美元级B轮融资，并称“明年给员工发1个亿”。
随后，在中文互联网问答平台知乎网上，有匿名网友称，超级课程表此前公布的用户数不实，“也就刚刚百万级”，且融资数存在水分，“其实小几百万美元”。很快，认为余佳文夸大过往经历、包装自己推广产品的质疑声四起。
11月30日，在接受中国青年报记者专访时，余佳文回应了对融资数目和产品活跃度以及高中创业经历的质疑。他表示，自己有点张狂，但没有说谎。他同时承认：“我是被媒体捧高的。我是创业者，90后不应... 阅读全帖

P**********y
发帖数: 397

来自主题: Military版 - 2009年中国工业数据汇总，比较恐怖

2009年中国工业数据汇总，比较恐怖
不愧是世界工厂，不过今年1-2月份的情况更加令人恐怖:
粗钢产量同比增长25.4%；水泥产量同比增长26.5%；电解铝产量同比增长45.6%；汽车
产量同比增长92.4%；造船完工量同比增长1.68倍，新接订单达同比增长7.67倍；手机
产量同比增长29.7%；彩电产量同比增长68.6%；微机产量同比增长41.3%；纱产量同比
增长26.6%；布产量同比增长51.2%！
数据简单的分为了4类，欢迎补充。
一、基础工业数据：
1、粗钢产量：5.68亿吨，占世界份额的46.6%，超过第2-第20名的总和；
2、钢材产量：6.96亿吨；
3、水泥产量：16.3亿吨，超过世界份额的50%；
4、电解铝产量：1285万吨，达到世界份额的60%；
5、精炼铜产量；413万吨，达到世界份额的25%；进口430万吨，消费铜超过800万吨，
达到世界精铜产量的50%；
6、煤炭产量：30.50亿吨，占世界份额的45%；
7、原油产量：1.89亿吨；进口2.04亿吨，消费量占世界份额的11%；
8、乙烯产量：1066万吨，世界第二（第一的是美国，与老美还... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 东电公布1509份此前未被公开辐射量数据

人民网东京5月28日电（记者于青）东京电力公司28日公布了1509份辐射量数据。这
些数据是3月11日地震发生当天至当月17日在福岛第一核电站厂区内测定的，其中包括2
分钟单位测定值，可以补充此前公布的10分钟单位测定值。新公布的数据显示，最高辐
射量为每小时3699.0微希，于3月17日下午3点55分在业务主楼以北测得。
据共同社报道，在每小时3699.0微希的环境中停留20分钟就超过了正常人的年辐射
量上限。业务主楼位于1号机组反应堆厂房北侧。此前已公布的最高辐射量是3月15日上
午9点测定的每小时11，930微希，新公布数据中的最高辐射量没有超出这一数值。
东电的原子能及选址代理总部长代理松本纯一表示：“很抱歉。本次地震后丧失电
源，统计由手工进行，希望这一点能得到理解。”他还透露东电将向相关人员听取情况
，调查数据未被全部公开的原因。
东电的信息公开工作接连发生混乱。公司于本月26日推翻之前有关1号机组注入海
水作业中断的说法，宣布因核电站站长自作主张注水得以继续不曾中断。
内阁官房长官枝野幸男严厉批评道：“如果这种事反复发生，（东电）将无从得到
国民的信任。这对日本的原子能行... 阅读全帖

s*********g
发帖数: 849

来自主题: JobHunting版 - 前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？

另外我强力推荐这篇帖子, 以前贴过但是很快沉了
发信人: phylips (星星||一年磨十剑), 信区: Algorithm
标题: 大数据量，海量数据处理方法总结
发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
最近有点忙，稍微空闲下来，发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一
些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并
不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。
下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好
的处理方法，欢迎与我讨论。
1.Bloom filter
适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集
基本原理及要点：
对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，
查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查

F**********r
发帖数: 23

来自主题: JobHunting版 - 工作机会（计算机类居多，工作地点：北京）

http://www.qiyi.com/common/employ.html
有意向者，请发邮件至z*****[email protected]
客户端技术经理招聘人数：1人工作地点：北京
职责描述：
负责客户端开发及团队管理。
职位要求：
1.本科以上学历；
2.精通C/C++, 熟练使用Visual C++开发环境，编程风格清晰；
3.熟悉WTL或MFC界面编程,精通Windows平台用户界面开发技术, 熟悉各种控件定制编程
，熟悉D3D或opengl技术者优先；
4.有丰富的Windows平台下网络编程经验；
5.有媒体播放器开发经验, 熟悉DirectShow编程者优先；
6.具有P2P开发经验者, 熟悉BT等P2P协议；
7.五年以上开发经验，有开发大型客户端项目开发经验；
8.工作责任心强, 良好的沟通和团队合作能力, 可在项目压力下坚持工作；
9.优秀的团队组织能力、良好的沟通协调能力。
返回顶部↑
产品经理招聘人数：1人工作地点：北京
职责描述：
1.负责网站的全面优化，监控网站关键字，监控和研究竞争对手及其他网站相关做法，
并围绕优化提出合理的网站调整建议；
2.负责公司网站的... 阅读全帖

j*****n
发帖数: 20

来自主题: Stock版 - 交易系统和策略

又到我来回复大家的问题的时候了。
首先，感谢大家的发言。我觉得每个发言都有意义。
还是像我之前所说，希望我能抛砖引玉，大家都能有所收获。
我的邮箱是：[email protected]
/* */
12、兄弟，不想打击你，ib的数据本身就是就不是真是的数据，你用这个非真实数据做
出的
系统如何用在真实的市场里呢？这本身就是一个矛盾。其次，如果你只是有几个策略，
但是没有backtest过，那我可以免费帮你测测，其实也不用测了，结果我可以保证你最
多50%的成功率，加入你说你有策略backtest成功率大于50%，那我几乎可以100%告诉你
，你的策略overfitting，用在未来市场里不会work的。
答：ib的实时数据大概250ms一个，不是真实的tick data，甚至有可能不是exact
snapshot，但是对能在IB上盈利的策略来说效果已经不错了。
可能对数据量需求大的portfolio交易，需要多开几条线，load balance一下。
另外，你可以subscribe别的数据源，同时在IB上做execution.
后半部分我不知道该怎么回答。
13、用ib的数... 阅读全帖

l*********y
发帖数: 1431

来自主题: CS版 - Big Data 到底是神马

有人将t量的数据归为大数据，而有人认为数据量多而且数据类型多的数据才是大数据
不管怎么定义，研究big data的目的就是从海量数据中找到有用信息

w***g
发帖数: 5958

来自主题: Programming版 - DynamoDB 只能在 create Table 时候建 indexes

就是像你说的这样，create table的时候把key设计好。如果不行的话就重新create
table再把数据导过去。Cassandra这类分布式的key-value store和传统数据库设计理
念不一样，所以用法也是不一样的。传统的key-value store的index一般就是B+-tree
或者hash table。这两者都假设random disk access，一旦cache不够用了并行读写甚
至单线程读写也就完蛋了。重新导一遍几十G的数据库都很费时费力了。而Cassandra的数
据据我的理解是按log方式存储的，也就是说新的数据来了就往文件最后面添加。这种
情况下就增加了建index的难度和性能。好处则是数据写入非常有效，而且因为有多台
机器多个硬盘同时读写，重新导一遍数据就跟玩似的。而且因为用的廉价硬盘，空间极
大，不在乎多保存几个copy的数据。新兴的互联网公司有点前途的都是指数增长的，也
就是说一个时间段新增的数据量基本和之前所有积累的数据量相当，所以隔断时间重新
导一下可以作为一个常态。
MongoDB跟Cassandra很不一样，更接近传统数据库的设计，... 阅读全帖

s******y
发帖数: 28562

来自主题: Biology版 - 关于CNS的cover letter的写法？

一直不敢回你的帖子，因为怕被人说又来卖弄。
但是既然你都追上门来问我了，那我就随便讲讲吧。
就我投稿的经验来说，
投稿的时候，要注意几点：
投稿信大概就是类似一个abstract 的写法，要有introduction, data, and
discussion.
在投稿信里的introduction要列出几片相关文章的档次，比方说是不是大部分
都发在CNS上. 对于你们的数据，不要说的太technical, 而是要大概说说你们
发现了什么，填补了什么空白。最后指出这些数据对于什么领域会有意义。
另外， Nature editor 对细胞，老鼠和生化貌似相当内行，但是她们貌似比较
喜欢数据多的稿子。而且她会具体的提出一些意见，并说如果按照她的意见做了之后可
以再投回来，所以你们要是投Nature的话，最好把图片做得busy 一些看起来数据很多
的样子，如果第一次被拒，只要她说可以再考虑的话，那就按她的要求去做一做，再送
出去应该就能被送审而且过关的可能性会比较高。
Science 比较看重数据的新颖程度，对于数据量图片量倒不是那么重视，
所以要强调你们数据的新意。被送审的机会就会大得多... 阅读全帖

s******y
发帖数: 28562

来自主题: Biology版 - 关于CNS的cover letter的写法？

z****e
发帖数: 54598

来自主题: Statistics版 - 想系统学一门计算机语言，是学c呢，还是c++？

第一，我不需要实现，我只需要调用，这就是java的好处，对现有各个系统衔接的支持
没有任何一门语言比得上java，等下给你一个具体例子
第二，为什么不用r，我引用前面的人的回答“（1）内存计算，不能处理大于物理内
存的数据；(2）数值计算,难以
integrate含charater,date, money的数据，这跟C是一样的。”
然后告诉你我会怎么解决这些问题
第一，内存计算，这个我会借用服务器＋分布式操作系统予以解决
记得我在cs版跟某人讨论过，虽然我现在一直在尝试用总线解决问题
但是拆分是必不可少的，这点，分布式操作系统大有其用武之地
第二，数值计算，我会借助数据库和数据仓库去实现相关的操作
举个非常简单的例子
比如你说的，生物统计的问题，染色体的数据，当然我不是学生物的，用语可能不准确
但是你的意思无非就是大数据量处理的问题嘛
这个其实对于db来说是常事，他们设计出来就是为了要对付这种大数据量存储的问题
那么首先我会把染色体的数据存入数据库，然用用java读取
然用再用java调用r的类库予以计算，这样一来，你说的物理内存有限和数值计算的问
题就很容易得到解决
而且可以做大量... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 数据称上周部分热点城市房价冲新高

数据称上周部分热点城市房价冲新高
http://www.sina.com.cn 2010年12月21日00:50 经济参考报
2010年的中国房地产市场正火热收官。最新数据显示，上周(12月13日-12月19日，
下同)多城市成交量涨幅超20%，部分热点城市房价也冲新高。土地市场上，全国20个主
要城市上周宅地放量入市，成交量创周度新高，部分地块成交价再度刷新纪录。业内人
士认为，明年房价上涨压力将进一步增加。有机构预测，明年全年全国平均楼价有15%
至20%的升幅，一线城市楼价涨势将放缓。
中国指数研究院最新数据显示，上周监测的35个城市中，成交量上涨的城市占80%
，其中过半数城市成交量涨幅超过20%，扬州、兰州涨幅更是超过100%。重点城市中，
除广州、北京、南京、武汉外，上海、深圳、杭州、重庆等6城市成交量环比上涨，深
圳涨幅最大，达34.24%，杭州、重庆、上海涨幅分别为33.55%、22.17%和11.09%。
在多地成交量增加的同时，部分热点城市的房价也频频冲高。以上海为例，据佑威
及楼市专评网联合提供的数据，上周上海市商品住宅成交均价为 23421元/平方米，环
比... 阅读全帖

l*********1
发帖数: 2971

来自主题: USANews版 - 美国的天量社保黑洞：国家“庞氏骗局”

文章来源: 环球财经
(被阅读 736次) 相对美国的收入和赤字情况，社保的黑洞是难以承受之重。而这样的
社保黑洞，与其负利率政策直接相关。西方国家的社保投资是需要回报的，低的资金回
报惠及企业主，但是老百姓的社保没有增值，寅吃卯粮，最后演变成为一个国家“庞氏
骗局”
西方信用社会的核心就是社保体系，因为与中国人自己攒钱和养儿防老不同，西方
人是要依靠社会保障体系生存的，这个保障是西方人生存的信心来源，这个体系也是西
方最大的信用体系。就如我们中国人现在离不开户籍和当年离不开粮票一样，西方人到
哪里都需要他的社会保障号码。
显然，如果这样的体系破局，将对于西方社会造成颠覆性的影响，然而在金融危机
下，这一体系正在承受巨大的压力，濒临破局。
这种破局是源于西方人的贪婪吗？问题显然不会这样简单，西方的社保体系实际上
是被金融掠夺的负利率政策挤爆的。西方的社保信用体系给政府带来了巨大的赤字压力
，这个体系已经到了岌岌可危的地步，西方的政府负债加上社会保障的资金缺口，大到
几乎令人难以置信。
美国的天量社保黑洞：国家“庞氏骗局”
社会保障和医疗保障是美国联邦政府最大的两个福利体系，2011年用... 阅读全帖

C*****z
发帖数: 2050

来自主题: Automobile版 - 随便聊聊提供车辆reliability信息的网站

4. TrueDelta
http://www.truedelta.com
TrueDelta是完全依靠网站注册用户提供信息的网站，他们从2006年开始发布结果，数
据一季度一汇总。对于车辆reliability的评分主要体现在各个车型的repair trips
per 100 cars上，说白了就是最近一年平均100辆同样的车共去修了几回，另外他们也
有各个品牌的排行榜。具体到每一年款的车，TrueDelta会提供样本大小和车辆平均使
用时间以及里程以及用户提供的具体维修情况。
缺点：
(1) repair trips per 100 cars可能会使用户产生误解。举个例子，2011 Honda CR-V
，最新数据是5 repair trips per 100 cars，数据来自46辆车，平均使用了9.9个月，
那么过去一年这46个车主实际汇报的修车次数=5/100/12*9.9*46≈2，差不多可以认为
他们这一年没修车；2011 Hyundai Santa Fe，最新数据是84 repair trips per 100
cars，数据来自25辆车，平均使用了8.6个月，那么过去... 阅读全帖

C*****z
发帖数: 2050

来自主题: Automobile版 - 随便聊聊提供车辆reliability信息的网站

o**y
发帖数: 3065

来自主题: Stock版 - 数据显示楼市成交量下滑房价四季度或大跌(zz)

数据显示楼市成交量下滑房价四季度或大跌
2011-10-03 09:46:00　来源: 红网(长沙)　有1999人参与手机看新闻转发到微博(8)
核心提示：根据市场机构统计,9月份以来,国内多个城市楼市成交量持续处于低位。消
费者“只看不买”。而多个上市房企公布半年报显示,房企存货量已经达到4年来最高水
平。专家预测，房企资金链趋紧，回笼资金压力倍增，价格深调或将四季度出现。
据新华社电传统的楼市销售旺季并没有给低迷的房地产市场带来“惊喜”。根据市场
机构的统计,9月份以来,国内多个城市楼市成交量持续处于低位;与此同时,不久前多个
上市房企公布的半年报显示,房企的存货量已经达到4年来最高水平;除此之外,随着流动
性的不断收紧,房企资金链更是日益紧张。在成交低、存货增、资金少三重压力下,房价
深度调整的迹象却并不明朗,未来楼市的走向引人关注。
成交量持续低位，消费者“只看不买”
自年初房地产调控进一步加力以来,重点城市的楼市成交量就开始走下坡路。在9月传统
的楼市销售旺季开始前,地产销售已经在多个城市遇冷。即便进入了“金九银十”,销量
下跌的趋势依旧没有改变。数据显示:在30个监... 阅读全帖

p***o
发帖数: 1252

来自主题: Hardware版 - 想专门开个帖子请教/讨论文件备份方案

1 有版本的数据，比如code，上版本控制系统，比如subversion。每天自动
增量热备份，每个月手动全部热备份到若干硬盘上。这部分数据量不大，
<50G，就是要经常备份各个版本。
2 没版本的数据，比如照片，多用几个硬盘存(>=3)。写个script每个文件生
成md5，圣诞国庆各检查一遍，防止数据损坏。有坏的把好的拷过来，>=3
都坏了该买彩票了。平时手动拷拷就行，没多大工作量。这部分数据量大，
不过现在硬盘也不值钱，1T以下的数据3个盘$200，当然最好别放在一个机
箱里。

f***e
发帖数: 332

来自主题: Biology版 - 冷冻电镜技术龙虎榜zz

http://www.jianshu.com/p/baa30697fc6a
什么是2015年最受科学界关注的新技术？
图片来自：nature.com
导语：
每年的岁末年初，《自然》杂志旗下子刊《自然·方法》（Nature Methods）都会盘点
当年的年度科学技术。2015年最受关注的技术为冷冻电镜技术（cryo-EM），此前呼声
很高的CRISPR/Cas9基因编辑技术未能折桂。
在冷冻电镜的这场技术革命中，华人科学家功不可没，在某些方面甚至独领风骚，做出
了诸多重大成果。
文 |张凯（剑桥大学MRC分子生物学实验室博士）
●●●
细胞里面的生命活动井然有序，每一个部分都有其特定的结构，承担不同的功能。生物
大分子则是一切生命活动的最终执行者，它们主要是核酸和蛋白。核酸携带了生命体的
遗传信息，而蛋白是生命活动的主要执行者。自现代分子生物学诞生以来的半个世纪里
，解析和分析生物大分子的结构、进而阐释其功能机制一直都是现代生命科学的核心问
题之一。
事实上，一切自然科学都涉及物质结构及结构间的相互作用为核心的研究方向，天文学
研究宇宙、星体等的结构及其相互作用，粒子物理研究物质世界... 阅读全帖

a*****a
发帖数: 19262

来自主题: DataSciences版 - 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

这里用30-40个features感觉很多了
LASSO这个方法我还不会，我最近正在琢磨如何从几百个feature精简到最优模型，数据
量是5000左右。
只有几千个数据的话，最后feature太多，基本都会有overfitting的现象，大银行数据
量大是王道，再好的方法都敌不过大量的数据（前提数据是可靠的）。
楼主不如给我讲讲，你拿到数据先做了哪些预处理？
我是纸上谈兵，实际经验很少
比如missing data, feature scaling这些都做吗？
然后精选featuers的时候有考虑过random forest这个方法吗？或者R里面有leaps，来
exclusive的找（几百个features我觉得这个方法不好，可能要选很长时间）。
我是初学者，所以跟您探讨探讨。

v**e
发帖数: 8422

来自主题: RuralChina版 - 陈锡文：国务院将很快推出户籍制度改革（很多农村基础数据)

陈锡文：国务院将很快推出户籍制度改革（很多农村基础数据)
陈锡文：国务院将很快推出户籍制度改革
字号:小中大2014-06-16 11:05:08
更多
47
关键字 >> 户籍改革户籍制度户籍制度改革中国农业发展论坛城镇化土地制度改革创新
农业经营体系三个1亿人中国城镇化
2014中国农业发展论坛6月14日在北京举行。中央农村工作领导小组副组长陈锡文在论
坛上透露，“国务院常务会议已经审议过了，中央的全面深化改革领导小组也审议过了
，中央政治局常务会也审议过了，等着政治局审议，很快国务院推出关于户籍制度改革
的决定。”
新型城镇化建设已全面启动，户籍制度是推进人的城镇化的重要环节。十八届三中全会
特别提出加快户籍制度改革。为落实改革，公安部、国家发改委等部门研究制定了《关
于进一步推进户籍制度改革的意见》，今年年初经过进一步修改完善后，正式报党中央
、国务院审批。
以下为陈锡文在论坛上的讲话。
中央农村工作领导小组副组长陈锡文资料图
中央农村工作领导小组副组长陈锡文（资料图）
陈锡文：大家下午好！很高兴来参加今年的“发展论坛”，确实我是来过好多次，但是
总的感觉，大家对于农村的政... 阅读全帖

s*****r
发帖数: 43070

来自主题: Military版 - 数据显示重庆房价已跌两成开发商不计成本冲量

这一仗如果不打好，今后的日子将更难过。重庆市一位地产商10月13日对《第一财
经日报(微博)》记者说，对重庆市的房产商而言，如果在今年秋季房交会前不捞一把，
今年就没戏了。
重庆开发商这样的心态，可能是导致重庆房价出现拐点的重要原因。在本报记者深
入调查了解后，目前重庆房价已经普降两成左右，并在加速下跌。
已跌两成，并开始加速下跌
10月13日，保利(重庆)投资实业有限公司［保利房地产(集团)股份有限公司的全资
子公司，下称“保利地产重庆公司”］在重庆多家媒体买下广告版面，为其在渝的多个
楼盘促销，其中一个名叫“保利港湾国际”的楼盘，一举给出了“限时限量特价房”套
内面积每平方米5850元的低价。
该广告的标称限量为4套，不过其销售人员称，13日这4套特价房售罄后，又加推了
4套特价房。本报记者从该公司内部消息人士处获悉，本次保利地产重庆公司实际为此
准备了40套特价房。
几十套特价房只是促销的噱头，本次保利地产重庆公司的真正动作在于，其余未在
广告版面上出现的楼盘价格，即使是全江景房，也仅按套内面积6200元~6700元/平方米
的单价销售。
保利地产重庆公司自己公布的原单价为835... 阅读全帖

T**********t
发帖数: 449

来自主题: Military版 - 好吧，发个专业的火车订票系统框架，带预算的

基本假设：
（1）班次信息用点到点方式，5000个火车站，单个信息不到100字节，
5000X5000 = 25 M X 100 = 2500 M = 2.5G，这可以全部装入内存，不用考虑硬盘表现
了。
（2）主要流量来自于对当天出来的票源的抢购。每天新增票源按照每两个连续站就算
一票，来存储
6000 班次 X 30站 /每班次= 18000区间 X 14车厢 X 5种位置 = 1.260M
（3）每小时查询峰值：5000万次
（4）每小时交易峰值：200万次，每秒交易量： 555次
下面是基本架构：核心数据库、剩余票源发布服务器、中心城市订票端服务器
其中
1、核心数据库：完成真正的交易，更新现有座位数目。每秒预计交易量： 555次。
Capability of 1 typical Oracle Database: 30,000 TPS for credit card
transaction
Capability of 1 IBM Power Database: 50,000 TPS for credit card transaction
结论：数据库不是bottleneck，... 阅读全帖

u***r
发帖数: 4825

来自主题: Military版 - 牛刀：一线城市量价齐跌就在9月

http://blog.sina.com.cn/s/blog_48ea108c0102uy11.html
一线城市量价齐跌就在9月
就一线城市来说，从狂缩的成交量到泡沫破灭，中间一定要经过量价齐跌的阶段，才有
可能产生断崖式大跌，这个时段越长泡沫绞杀的社会财富量就越大，这个经济体未来的
结局就更加可悲，这是经济危机的不变的法则，因此很多国家是主动刺破泡沫的，而中
国政府不是，相反，在恶劣的环境下，中国政府的一切行为只是在投机，总以为天会助
中国。这是天晓得的事。
7月23日，央行公布的外汇占款比上月减少412亿元，这属于一种负增长，是十分危险的
事。但是，网上一片叫喊声，说是央行主动，和人民币大跌初期是一回事，什么坏消息
都改为是央行主动，这是中国国民的劣根性所造成的，没办法。而实际上是，一场巨大
的危机正在迎面朝中国走来，将摧毁中国经济的一切泡沫，包括房价泡沫货币泡沫信贷
泡沫和债务泡沫，正是这些巨大的泡沫才构成中国经济一点可怜的增长，实在是毫无意
义的。当一切回归原型，中国当权者就会面临灭顶之灾。大家可以看看我写过多篇外汇
占款的问题，同时又预测外汇占款会枯竭，现在不仅... 阅读全帖

c****3
发帖数: 10787

来自主题: Military版 - 汉字太牛啦完败任何识别码破解软件

人有一多半能力是天生就有的。
后天学习获得的能力，靠大数据量的，是为了达到更高的技巧水平。
如果像语言这种能力，人类学习需要的数据量，远远少于基于统计学习，所要求的数据
量。但达到的水平，却远远超过。

c****3
发帖数: 10787

来自主题: Military版 - 汉字太牛啦完败任何识别码破解软件

你这是自说自话，上了这条船，自己骗自己。
所我们从小到大，学习流程是靠统计学习，就是牵强附会。
大数据量只是我们学习流程，完善技巧需要的一个条件而已，都不是一定的。而且这个
数据量，和统计学习要求的数据量，根本不能同日而语

u***r
发帖数: 4825

来自主题: Military版 - 北京二手房量升价跌有房主报价一天降10万

刚过去的8月，在限购持续、信贷政策依旧偏紧的背景下，北京房地产市场总体仍处调
整阶段。中介机构最新数据显示，8月北京市二手房成交均价环比、同比走低，1～8月
累计降幅达到8.7%。与此同时，由于改善型购房者入场，北京二手房的成交量出现回温。
报价一天降10万
刚过去的上周六(8月30日)，在北京国贸区域的房产中介小张，急切地将一处急售
房源的情况告诉客户：位于东三环附近的CBD以东，2004年建成的高档小区，120余平方
米，南北通透，房本满五年，为业主唯一住房，报价630万元。
小张一再强调，与很多人一样，该房源业主因“不在国内发展”，才选择尽快卖房
。但尽管如此，表示愿意看房的客户仍然并不多。
次日，当《第一财经日报》记者以购房者身份询问时，小张透露，业主已将预期下
降到了620万元。折算下来，这套距离国贸一站地铁的高档两居室，均价约为4.98万元/
平方米。
去年下半年，该小区二手房报价曾一度超过5.5万元/平方米。本报记者昨日下午在
房产中介网站看到，在多数房源单价仍在5万元/平方米左右的前提下，该小区个别房源
报价降到了4.2万元/平方米。
8月，北京类似的二手房报价下调不是... 阅读全帖

z**********e
发帖数: 22064

来自主题: Military版 - [原创]伪造数据和伪造历史的李宏志

扫煤才子于 2008-4-16 23:36:12 发布在凯迪社区 > 猫眼看人
伪造数据和伪造历史的张宏志──《“大跃进饿死三千万人”纯属捏造》分析
一
看到这篇文章很久，实际上，在网络上一搜，轻易就能搜到不少的网页。对于这篇
文章，对“三年饥荒”感兴趣的朋友不会陌生，但是这篇文章，除了各种谎言和假设外
，并没有什么实质意义，但是，却是广大毛卫兵同志最喜欢引用的文章。这里，在下对
文章做个简单的分析，并且指出张宏志同志可笑但全无用处的伪造数据和若干制造假象
，隐瞒真相的地方，以雪亮你们的双眼。
在分析的开始，我先给大家看一张表：
│　　　│年末总数人口 │ 出生率 │　死亡率　　　│自然增长率　 │
│年份　│　　（万人） │ （‰） │　（‰）　　　│　（‰）　　│
│1957　│　64，653　　│ 34·03　 │　 10·80　　　　│　23·23　　　 │
│1958　│　65，994　　│ 29·22　 │　 11·98　　　　│　17·24　　　 │
│1959　│　67，207　　│ 24·78　 │　 14·59　　　　│　10·19　　　 │
│1... 阅读全帖

w*********g
发帖数: 30882

来自主题: Military版 - 世界主要国家的大数据战略中国用大数据营销房产

世界主要国家的大数据战略和行动
2015年07月03日 17:30:22 来源：中国信息安全
分享到：
3
【打印】【纠错】
美国
将大数据视为强化美国竞争力的关键因素之一，把大数据研究和生产计划提高到国
家战略层面，并大力发展相关信息网络安全项目。
2009年，美国政府推出Data.gov，这是为了增加政府资料透明度而设立的一系列网
站。
该网站依照原始、地理数据和数据工具三个门类，截至2012年11月，Data.gov共开
放出了超过40万项原始数据和地理数据，涵盖大约50个细分门类。为方便公众使用和分
析，Data.gov平台还加入了数据的分级评定、高级搜索、用户交流以及和社交网站互动
等新功能，汇集了1264个应用程序和软件工具、103个手机应用插件。通过开放API接口
，Data.gov使得私人领域的开发者能够利用那些政府采集但未经梳理的各类信息，开发
应用来提供公共服务或者进行盈利。但随着近年美国政府陷入财政困局，白宫于2011年
4月宣布这些网站将终止营运，但会将它们开源化，以供各国的开发者使用或者根据需
要修改。
2012年3月29日，美国白宫科技政策办公室发布... 阅读全帖

m********5
发帖数: 17667

来自主题: Military版 - 有人说现在很多新增过敏和转基因有关

有人说现在很多新增过敏和转基因有关，粗略来说似乎有理。因为转基因食品引入了一
些外源蛋白，是可能造成新的过敏症出现。但实际情况是，转基因转入什么蛋白都是很
明确的。只要查询这些病人是否对这些新表达的蛋白过敏就可以得出结论，事实是并没
有相关性。因为大部分转基因食品转入的蛋白虽然是有跨种群的，但是却大多是已知食
物中的蛋白，并不会导致新的过敏症。转入各种抗虫抗病基因反而可以大大减少农药用
量，对人是大有立竿见影好处的。
相反，杂交问题比转基因复杂多了，很多野生型并没有广泛被人食用，可能导入多种罕
见蛋白，是否对人体有害非常难以确定，即使发生问题也难以追查根源。所以，个人认
为转基因农作物远比杂交农作物安全。
那么过敏症增多可能的原因是什么呢？
1. 过度医疗，过分爱干净，小孩时期接触的物质过少
2. 近二十年新材料新化合物的使用程爆炸性增长。很多日常使用的新材料新化合物的
MSDS在长期影响，毒性，过敏性方面都是未知。但是由于石化企业在媒体和政府中联系
根深蒂固，这些很少被拿出来报道。其实即使化合物不变，使用性状改变就可能造成毒
性急剧增加，打个比方纳米颗粒和纳米线，看似完全无害的化合物... 阅读全帖

E******k
发帖数: 389

来自主题: Military版 - 一些侧面的数据分享给大家 (转载)

【以下文字转载自 Stock 讨论区】
发信人: ElonMusk ($TSLA (Target 1000)), 信区: Stock
标题: 一些侧面的数据分享给大家
发信站: BBS 未名空间站 (Thu Nov 28 13:41:47 2019, 美东)
从CyberTruck 发布以来就在观察几个数据。一个是elon的推特粉丝量，一个是reddit
r/teslamotors板块订阅量
翼龙的粉丝不到一周增加了大概40w （现在29.7m)
r/teslamotors 订阅量增加了4w左右 (现在574k)

n*****t
发帖数: 22014

来自主题: RisingChina版 - 陈经：解读上半年7.37万亿规模天量信贷数据 (转载)

【以下文字转载自 Military 讨论区】
发信人: xinhaodan (信号弹), 信区: Military
标题: 陈经：解读上半年7.37万亿规模天量信贷数据
发信站: BBS 未名空间站 (Thu Jul 30 23:19:36 2009, 美东)
2009年中国最骇人听闻的经济数据，无疑是上半年7.37万亿元的天量新增贷款。它离谱
到了什么程度？2007年已经号称是经济过热了，股市房市全疯了，全年新增贷款也才3.
63万亿。而今年上半年银行新贷出去的钱，就已经是2007年全年的2倍！
我对这个局面是有所预期的。2008年10月中央宏观调控从紧缩转向放松时，我就预测银
行将会报复性地疯狂放贷。而中央温家宝与周小川的“宏调二人组”，由于2008年紧缩
的错误，恶评如潮，已经被骂成了猪头，没有魄力限制银行的放贷冲动。在年初那段，
是有风声说“全年信贷指标5万亿”，我当时还评论，认为肯定会突破。但没想到的是
，居然上半年就干出了7.37万亿。这全年10万亿似乎是打不住了。
看来银行是拼了，怕以后又紧缩，趁中央号召信心舆论有利，能放就突击放。老温也拼
了，估计对2008年紧

C*****z
发帖数: 2050

来自主题: Automobile版 - 随便聊聊提供车辆reliability信息的网站

2. J.D. Power and Associates (JD Power)
http://www.jdpower.com
JD Power是另外一个耳熟能详的网站。他们对车reliability的评价叫做Vehicle
Dependability Study (VDS)，只考虑三年旧的车。比如今年发布的2017 VDS其实显示
的是2014年款近12个月的情况。JD Power的数据来自车主，但他们的数据跟CR相比，数
据量差太多了（2017 VDS只收到了35186份回复）。跟CR相似，JD Power也会发布各个
车型以及各品牌综合的reliability情况。具体车型的评分是五分制，和CR大同小异；
品牌综合的评分像CR一样会发布一个排名，但排名中的分数是problems per 100
vehicles (PP100)。
缺点：
(1) 数据可靠性受质疑。数据量本来就比较小，而且这两年尤其在国内，多次传出JD
Power被充值的消息。另外JD Power已经被中资背景的XIO Group收购，这也是人们普遍
质疑其数据真实性的一个原因吧。
(2) 品牌综合reliabili... 阅读全帖

C*****z
发帖数: 2050

来自主题: Automobile版 - 随便聊聊提供车辆reliability信息的网站

s**x
发帖数: 7506

来自主题: Joke版 - 来问学术版一个问题

传送的数据量不同，电视就是那么几个频道，你可以选择频道，但大家看的都一样
，多个频道的信号可以叠加，所以电视转播的数据量应该是一定的，不会因为用户
的增加而增加。
网上电视就不一样了，用户可以看不同的节目，同一个节目，也可以快进后退，所
以，数据量会随着用户数量的增加而增加。
电视效率高，但不针对个人，网上电视效率低，但针对个人。

s******y
发帖数: 28562

来自主题: Joke版 - 算了，我还搞点学术普及把

早期物理数据的处理虽然早有你说的那些个概念而且有一些相关的算法（这我不否认）
，但是复杂程度还是不能和今天的相比的。就象你也可以说中国古代就有用风筝和火箭
升空的尝试，但是要把那个和今天的航天技术比的话，还是不能相提并论的。
尤其是你要考虑到，那些个粒子物理的数据其实就是由那么几个探头阵列读出来的，所
以虽然数据量多，但是其实变量并不算得特别多。总数据量之所以多其实是为了提高测
量精度的，里面的分析方法用得最频繁的其实就是求平均值以及分析方差。

a***n
发帖数: 404

来自主题: CS版 - 比较两组数据差异性用啥统计量来着的？

A组数据：a1,a2,a3,....am;
B组数据：b1,b2,b3.....bn;
两组数据内部的差异波动都很小，一般用啥统计量去表征这两组数据之间的差异大小？
谢谢。

h*********i
发帖数: 2605

来自主题: CS版 - 我就想出了一个算法，比二分查找还要好zz (转载)

【以下文字转载自 Joke 讨论区】
发信人: huchihaisai (hu), 信区: Joke
标题: 我就想出了一个算法，比二分查找还要好zz
发信站: BBS 未名空间站 (Sun Nov 16 21:01:47 2008)
http://blog.csdn.net/drzhouweiming/archive/2007/04/12/1562717.aspx#552930
大家认为二分查找就是最好的吗？
我就想出了一个算法，比二分查找还要科学，不过，是建立在二分查找的基础上的，我
给取的名字，一：优化的二分查找，二：直接定位查找法（当然了，不会一两次就能直
接定位的，但是在10亿条以上的数据量，并且每条数据之间的间隔不是很悬殊时，比二
分查找的效率不知道要高多少倍）。
程序一直没有时间写。不过基于二分查找的思想。
换句话说吧，如果一个间隔比较平均的大序列，1000亿条数据（当然要排好序了），用
二分查找最后一个和最先一个或者第500亿＋1个，都需要X次（2^X ＝ 1000亿），而用
我的方法，应该比较不会超过3次。
但在小数据量上，优势就小多了。更小数据量上，原始的二

p*l
发帖数: 270

来自主题: CS版 - 数据的游戏：冰与火 (zz) (转载)

【以下文字转载自 Programming 讨论区】
发信人: phl (--), 信区: Programming
标题: 数据的游戏：冰与火 (zz)
发信站: BBS 未名空间站 (Wed Jul 31 11:06:08 2013, 美东)
数据的游戏：冰与火
2013年7月31日陈皓

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工
作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了
淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得，也许对你有用，也许很傻，不管怎么样，欢迎指教和讨论。
另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数
据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座
一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。
D... 阅读全帖

i*****w
发帖数: 75

来自主题: Database版 - 请问如何把sql database里面的一个table单独拿出来啊

这和你table 数据量的大小，导数据的频率及对方要求的输出格式有关。比如对方要把
你的数据输入到另一个系统，如果搞清楚了格式可能会事半功倍。
1 如果数据量小，可以简单地用management studio select所有数据后在results中
copy然后paste到Excel
2 从Excel直接联SQL导入数据（注意Excel行数有限制）
3 如果经常要做此事，可以用SQL Export Data功能，配置好后存下来以后再用（就是
把生成的SSIS存下来）
当然还有很多其他方法，如果你能更具体一点，大家可以提供更有效的方法。

d***a
发帖数: 13752

来自主题: Hardware版 - 请问ECC内存是不是非常重要

一次出错只有一个bit的错误。对绝大多数的计算应用来说，程序的代码小，数据量大
。比如说做矩阵运算，代码量可以小到1MB以下，数据量可以达到若干个GB。数据出错
（非指针）不会让程序crash。如果代码出错，出错的代码并不一定会被执行，或者执
行了也不一定就crash。
在非服务器级机器上，也是有软件方法，以损失性能的方式增加可靠性。最简单的办法
，是把所有的计算做两次（或三次）。实际上现在有些高性能计算的任务，在服务器上
都选择这样来做，进一步提高可靠性。
有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中，超频是从来
不用的，会大大增加出错的风险。

z****e
发帖数: 54598

来自主题: Java版 - 关于==和equals

今天做leetcode突然遇到的一个问题
在数据量比较小的时候，不会有问题
但是数据量一旦变大，马上就出问题了
不多说废话，上代码，代码很简单
Map m1 = new HashMap();
Map m2 = new HashMap();
然后
m1.put('a',1);
m2.put('a',new Integer(1));
然后
m1.get('a') == m2.get('a')，这个autoboxing理论上是可以的
但是实际上，在数据量陡然变大了之后，这个会出现false的结果
不是很明白为什么
不过让我想起一个往事就是
enum类型的判断，同样可以用==来替换equals
但是，这个情况在rmi的时候会出问题
所以说到底，还是尽量避免使用＝＝
否则会出现很多很subtle的问题
以下是代码正文
test case什么都写好了
可以直接debug和运行main函数
package test;
import java.... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - HTML5爆惊天漏洞：海量Cookie可让硬盘爆仓

谁有英文原文和演示网站？
正文我来说两句(2人参与)
2013年03月04日09:25来源：搜狐IT 作者：搜狐IT
手机客户端
打印
字号
保存到博客
( 5 )
【搜狐IT消息】3月4日消息，据国外媒体报道，HTML5是新一代的网页应用开发技
术，一些人认为其将会取代iOS和安卓客户端开发技术。不过，美国一名22岁的WEB开发
工程师最近发现HTML5在浏览器厂商的实施中发生一个大漏洞，大量的Cookie文件可以
在很短时间里通吃掉用户的硬盘空间。
斯坦福大学的开发者Feross Aboukhadijeh发现了这一漏洞，据称，存在HTML5漏洞
的浏览器包括谷歌Chrome、微软IE和苹果Safari。他为这一漏洞提供了概念性攻击模型
，此外还提供了演示网页。
这位开发者解释说，HTML5网页技术标准中，可以允许网页在用户电脑中保存比过
去多的自定义数据（方式为Cookie）。过去每一个网站可以保留4KB的数据，不过HTML5
网站根据规范可以保存的数据量从5到10MB不等。因为如今的硬盘空间都很大，这点数
据量不算什么。
据称，Chrome每次登录会保留2.5MB数据，火狐和Op... 阅读全帖

p*l
发帖数: 270

来自主题: Programming版 - 数据的游戏：冰与火 (zz)

数据的游戏：冰与火
2013年7月31日陈皓

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工
作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了
淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得，也许对你有用，也许很傻，不管怎么样，欢迎指教和讨论。
另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数
据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座
一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。
Data Analyzer：数据分析员。这类人的人主要是分析数据的，从数据中找到一些规则
，并且为了数据模型的找不同场景的Training Data。另外，这些人也是把一些脏数据
洗干净的的人。
Research Scientist：研究科学家。这种角色... 阅读全帖

c*****a
发帖数: 1638

来自主题: Programming版 - Spark 和 Dynamodb 之间如何连接

写很简单。我没看懂你有啥困难的？在function里面直接写就行了，只是要注意控制
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话，2种做法吧，数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面，然后返回RDD。
dynamo用起来不便宜，如果你们确定数据量很大，其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra，那么可能TCO Cassandra更贵就是了，因为dynamo你们
可以不用Admin。

connector

发帖数: 1

来自主题: Programming版 - 有没有做sentiment analysis的，求思路

前面说过：不要用神经网络！不要用神经网络！不要用神经网络！
CNN RNN啥的都是需要很多的feature，数据量要大，比如图片那种，全是像素，
feature都差不多，你扔到CNN里一层层BP就能把重要feature弄出来然后performance高。
但是你这个sentiment analysis，有两大原因，导致不能用NN这种暴力方法：
1. 数据量：太小，才几万句；NN在NLP领域唯一比较成功的就是各种embedding，不管
是BOW还是skip-gram，数据量都很大，你算算那些东西展开后，都是2的多少次方；这
个任务里，句子实在太少；
2. NLP里面，feature权重差别大：NLP不像图片，所有feature几乎可以看作都一样，
比如像素；就sentiment来讲，sentiment或者说opinion可能存在于词层面（pos）、短
语层面（chunking）、句子层面（syntax）、甚至段落（semantics）；什么NN加
word2vec只能照顾到词层面，顶多一部分短语层面，句子和段落的信息全丢了。
按照前面括号里提到的相关方法提取出feature，然后加入上... 阅读全帖

s******y
发帖数: 28562

来自主题: Biology版 - CNS上的文章4页的和9页的有区别吗？

在Nature 杂志里面，Brief Communication， Letter 和 Article的差别主要是
数据量的大小不同，在审稿过程中article 因为数据量比较大所以难度高一点
（数据量越大，别人挑剔的靶子也越多)，而且因为每期能发的Article数量有限，
所以主编会根据自己的喜好来决定哪片文章可以按Article 格式来发。所以总体而言
是Article 最难发，但是客观上来说和文章的质量一般而言没有直接关系.
Watson/Crick 发DNA structure 的文章就只有两页。
http://www.nature.com/nature/dna50/watsoncrick.pdf
Brief communication， Letter 和 Article三者都是研究文章，都可以列入CV,
不需要区别对待。上面的同学的不同说法是误解或者搞笑，不要受他们的误导。
Reviews 则是灰色地带，严格来说应该在列出的时候注明是Review.
不能算研究文章的那种是Correspondence，不应列入peer-reviewed publications,
最多可以列入... 阅读全帖

b*****h
发帖数: 3386

来自主题: ChineseMed版 - 麻黄

和数据量的发展有关，ok? 现代医学本质上并不排斥这个。历史原因。
现在数据量大了，互联网交流方便，生物信息学，系统生物学进入
医疗领域，这种研究不要太多。比如到处都是靠microarray的基因表达
profile通过machine learning做疾病诊断及预测，机理研究随后才慢慢跟上。
你很多时候是不知道具体情况借着数学站在门外做unlearnt的臆测。呵呵
作唯相，很多问题是数据量的局限。

m****v
发帖数: 780

来自主题: Statistics版 - 面了一个IT公司跟机器学习相关的职位

对于IT公司来说，数据量大而且实时，大数据量machine learning的问题以前已经在解
决，最近在解决的问题变成了如何处理实时的大数据量machine learning的问题，已经
部分解决的。Vowpal Wabbit 和 spark 算是这方面的努力。当然这是解决training的
速度问题。解决testing的速度问题目前还没太有人重视。我曾经利用search engine的
算法把一个传统的模型testing的速度提高了10倍，给CS的会议投稿，但这帮学术界的
评委只关系公式，对于效率的提高没有兴趣。这是工业界和学术界的差别。但是real
time biding一共最多就几百毫秒，qps经常是million级别的，不提高速度很多模型根
本没法用。training也得快，distribution随时在变，model变慢了，预测就差了，rtb
自然就赚不到钱了。所以模型系统的准确率和效率都非常重要。效率达不到，准确率就
没用了，或者会下降。

k*z
发帖数: 4704

来自主题: DataSciences版 - 能解决这个问题的才是真正的数据科学家

从大数据，到分布存储计算，到业务模型设计，到防机器人刷票，恶意攻击，分布式访
问。。。。。。
前淘宝工程师发帖:铁道部购票网站几乎是奇迹(图)
2014年01月12日19:05:48 [新闻大杂烩]
1月11日起，12306网站开始销售除夕当日火车票。每到此时，铁路系统唯一的官方购票
网站12306就会成为众矢之的。今年也不例外，12306再次被淹没在一片埋怨声中。
Mitbbs.com
1月5日，观察者网刊登了问答网站“知乎”上的用户王强的解答，回答“如果把12306
外包给IBM或者阿里巴巴来做的话，能不能比现在做得好？”这一问题。Mitbbs.com
1月10日，一位ID名为“代码狗”的前淘宝工程师，后来在一家电商公司做技术副总的
IT业内人士也在著名论坛“西西河”上发文，表达了他自己对12306系统的看法。
Mitbbs.com
值得注意的是，“代码狗”在12306系统刚上线时也有过不少微词。为了证明12306系统
很容易搭建，“代码狗”甚至曾经发起过一个名为“替12306设计系统”的开源项目。
通过工作中的实践，“代码狗”对于12306系统也有了新的认识。Mitbbs.com... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天