第2页 - 关于数据量的讨论汇总 - 话题女王

全部话题 - 话题: 数据量

r******e
发帖数: 617

我说说我的一点看法吧。不见得对，仅供参考。
大数据的流行来源于google那三篇论文，google file system, big table, and
mapreduce 。google自身确实是有处理大规模数据的需求的，所以对应的数据存储，组
织和计算框架应运而生。随之，yahoo 借鉴google三驾马车的思路做出了hadoop。另一
方面，随着互联网的高速发展和计算机的广泛应用，数据出现以下几种特征，数据规模
越变越大，数据量急速增长，数据种类繁多，使得对于大规模数据分析处理软件产生迫
切需求。这两方面互相作用的结果就是大数据的流行和接受。
但大数据目前的一个问题是，我觉得是有点过热了，言必称大数据，个个都是数据科学
家。实际上，我觉得对大数据有需求的还是真正有超大规模数据的公司或者研究机构，
比如google，facebook，twitter，或者科学计算等等。一般的数据分析任务根本没必
要用这种大杀器，正如MSR的一篇SOCC13论文说的，很多时候一台单机就能完成计算任
务了。

c****r
发帖数: 969

来自主题: EB23版 - [合集] NIU政府公关组获取审批数据取得进展

☆─────────────────────────────────────☆
suyazjm (Watering in English) 于 (Thu Jul 14 09:46:13 2011, 美东) 提到:
牛，顶

☆─────────────────────────────────────☆
Beijing (中国万岁，北京加油) 于 (Thu Jul 14 09:47:24 2011, 美东) 提到:
顶
☆─────────────────────────────────────☆
suyazjm (Watering in English) 于 (Thu Jul 14 09:51:04 2011, 美东) 提到:
老大，指点一下开源的数据库操作软件吧
可以在web页面增加删除等操作，
最好支持“外国key“关联的
☆─────────────────────────────────────☆
Beijing (中国万岁，北京加油) 于 (Thu Jul 14 09:54:07 2011, 美东) 提到:
mysql?
☆──────... 阅读全帖

wh
发帖数: 141625

来自主题: LeisureTime版 - 《未来简史》：民主/专制是两种数据算法

数据主义认为，宇宙由数据流组成，任何现象或实体的价值就在于对数据处理的贡献。
音乐、股市、文学、经济、政治，蚁群、蜂群、菌群背后都是数据流的不同模式，都可
以用算法来分析决策。
以前我们要把数据转化为信息，信息转化为知识，知识转化为智能。
而今天，数据量太大了，人类已经无法直接处理海量数据并形成信息，于是计算机算法
接管了数据处理的工作，而之后得出的的信息、知识，也就随之成了计算机算法的收获
，成了计算机的智能。
共产主义本质上是一种市场信息集中处理的政治算法系统，统一资源配置、统一商品定
价、统一规划社会经济活动的一切。
自由市场资本主义是分布式信息处理的算法系统。资本主义能够赢得冷战，是因为分布
式数据处理的效果就是比集中式处理更符合当今这个时代。
政治科学家开始把人类政治结构理解成数据处理系统，民主和专制在本质上是两套关于
收集和分析数据（信息）的对立机制。
而这种政治算法系统正在失去对数据的控制，科技发展太快，政治系统升级太慢，权力
出现了真空。
即便是互联网兴起之后的若干年，各国政府开始意识到这个科技成果对社会和政治格局
的影响力已经大到失控的地步，他们开始通过各项政策法规监... 阅读全帖

p*****2
发帖数: 21240

来自主题: JobHunting版 - 问个NoSql数据model设计的问题

数据量有多大？数据量小用Mongo。
最后一个其实不麻烦，做offline分析就可以了。

S*******n
发帖数: 305

来自主题: JobHunting版 - 金融压根不需要大数据, 因为数据量本来就很小

大数据又不是单指数据量大。处理问题的理念不一样

t**t
发帖数: 27760

来自主题: Hardware版 - 有什么好的数据存储设备可推荐吗？

看你的数据量了。
数据量不同，重要性不同，备份方式完全不一样。

s********k
发帖数: 6180

来自主题: Programming版 - mongoDB跟传统关系数据库比有什么优势?

做数据中心的energy management？肯定是data import和analysis分开，应该会有专门
的local sever和cloud，local server只做暂存和data import，肯定不属于于一次写
多次读吧，搞不好写的次数比读的次数还多（如果local做了很多处理，传到cloud的数
据量应该会小一些），cloud还是得用SQL了。
我们做的产品很像，我们是local用sqllite+SQAacademy， cloud做的是postgreSQL。
SQL只要做好cache其实性能不差的，你们的应用应该是数据量大，但是可能burst不明
显的，这样比较规律的数据优化好SQL肯定可以搞。

r********3
发帖数: 694

来自主题: Programming版 - 数据可视化有什么好的创业机会么

graph, multidimensional,social media我都做过
相比较下我做的social media的数据量比较大
比如我们做twitter的可视化
数据量从几万到十几万tweets都有的

e*******o
发帖数: 4654

来自主题: Biology版 - Re: 中国全面启动人类蛋白质组计划, 做大数据的可以去分钱 (转载)

【以下文字转载自 Programming 讨论区】
发信人: mitbbs2715 (好吃不懒做), 信区: Programming
标题: Re: 中国全面启动人类蛋白质组计划, 做大数据的可以去分钱
发信站: BBS 未名空间站 (Wed Jun 11 18:57:10 2014, 美东)
显然不是
这个计划说白了，就是让生物学家和医院积累大量原始数据
看普通人和病人蛋白表达上有哪些差异，哪些没有差异
但数据出来了是不会有任何结论的，数据量太大，误差也很多
得有人来组织数据，评估数据，挖掘数据，解释数据
说白了，千老就是造数据的，后面真的活儿还得码工和数学家干

s***1
发帖数: 8

来自主题: Quant版 - 请教实现中高频接受数据，即时储存的系统结构

到底多大的数据量啊？能用matlab处理还不慢，应该数据量不大。

s******y
发帖数: 416

来自主题: Quant版 - 进入大数据这行一个礼拜，简单说一下认识

不太同意。在没有big data之前，也要找原因。在统计上的小样本方法，就是在数据量
不大的时候找原因或各种相关性的方法。数据量大了以后，利用各种计算机技术，可以
实现过去实现不了的分析，或者产生新的分析技巧。big data本身是一门交叉学科，不
是升级版的统计学，也不能是应用版的分布式。

l******0
发帖数: 244

来自主题: DataSciences版 - 所谓的大数据

更多的是一个工程问题。网络数据规模越来越大，而且很多是半结构，或非结构的数据
，或几种的混合。如何获取，存储，管理，分析，并提供有效的检索手段给用户，都涉
及到软件工程的问题。
对于 data scientist 来说，其实 big data 与其关系并不是太大。即使数据规模再大
，你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。给你
1G 的数据，你就会撑死。所以大数据时代，对 data engineer 的需求要远远大于
data scientist. 什么是 data engineer？就是传统的 software engineer,但有机器
学习，统计或自然语言，信息检索的背景，并主要工作于网络数据处理的方方面面。
当然，数据规模大了，数据来源多样化了，对以数据分析和建模为主要工作内容的
data scientist/analyst 也提出了一些新的挑战。比如，如何采样数据？多大合适？
如何评估系统或模型？如何干掉数据中的垃圾成分？等等

a********e
发帖数: 78

来自主题: DataSciences版 - 请问这样的数据应该用什么样的模型适合。

非常感谢，资料很有用。
另外还有一个问题，数据量大概有300个记录，每个记录可能会有两百个 feature。
显然很多feature会被扔掉从domain knowledge的角度。但仍然可能会保有100个左右
的feature。从统计的角度可以 stepwise的选，但还有什么办法呢。基于经验来说
，对于300个记录这样的数据量，一般多少feature（可能包括高阶）对于回归模型
合适。

m********5
发帖数: 17667

来自主题: Programming版 - 中国全面启动人类蛋白质组计划, 做大数据的可以去分钱

显然不是
这个计划说白了，就是让生物学家和医院积累大量原始数据
看普通人和病人蛋白表达上有哪些差异，哪些没有差异
但数据出来了是不会有任何结论的，数据量太大，误差也很多
得有人来组织数据，评估数据，挖掘数据，解释数据
说白了，千老就是造数据的，后面真的活儿还得码工和数学家干

T****r
发帖数: 22092

来自主题: Military2版 - 嫦娥二号取消第二次修正今日将传回第一批数据(图)zz

新闻来源: 北京晨报于October 03, 2010 20:29:30 敬请注意:新闻取自各大新闻
媒体，观点内容并不代表本网立场！
由于嫦娥二号卫星第一次轨道中途修正效果非常好，卫星运行一切正常，原计划于
昨天中午进行的第二次轨道中途修正取消。据专家介绍，轨道中途修正的目标就是
把卫星在原有轨道上的速度增量拉下来，把增量控制在10米每秒以下，根据2号下午
的数字来看，这个速度增量还不到1米/秒。
据介绍，嫦娥二号卫星原计划要进行三次轨道修正，由于首次修正已经实现了
初步的目标，第二次的修正就没有必要了，在今后几天要择机进行第三次修正，目
的就是要把卫星调整到抵达月球100公里近月点进行制动时的速度，因而中途修正是
这次关键太空“刹车”的基础。据了解，从嫦娥二号卫星发射到抵达距月球100公里
的时间大约为5天。
2号晚上8点37分，“嫦娥二号”卫星上搭载的太阳高能粒子探测器已开机工作
，这是“嫦娥二号”上首台开机工作的科学探测仪器。该探测器主要负责探测地球
和月球间四万到四十万公里之间的空间环境，第一批数据将于今日传回地面。
■后方保障
测控网“拉闸”防黑客
北京航天飞行控... 阅读全帖

a*****s
发帖数: 1121

来自主题: JobHunting版 - 问一道大数据量面试题

只有两台机器，如果不让用cluster的话，每台机器对自己的每个url做hash，得到一个
10TB数据的url 的hash范围[a,b]，第二台机器得到另外一个范围[c,d],假设两个集合
的交际是[c,b],然后开始如下通信：
machine 1 收集[a,c]数据并存为结果的一部分；
machine 1把[(b-c)/2,c]的数据以（url,1）的（key，value）对的发给machine2；
machine 1把从machine 2 发来的[c,(b-c)/2]的数据，连同自己disk上属于该区间的数
据，对于相同的url key，把他们的value相加，然后吧所有做完后value是1的数据存储
为结果的一部分。
machine 2做类似machine1的工作，只是数据范围是[(b-c)/2,b],并把所有数据(b,d]的
url直接存为结果。
以上可能没有考虑两个节点的load balancing，可以通过popularity检测来决定两台
machine 工作区间的划分，使其达到balancing。

G*******h
发帖数: 4091

来自主题: Stock版 - 所谓的大数据就是收集隐私

啥叫背锅？
数据是他收集，也是从他手里流出去的，他怎么都难辞其咎，现在出事来装无辜叫屈，
早些年装逼的时候干啥去了？
大数据本身其实就是市场调查数据的变身，只不过这些数据在平时偷偷摸摸就完成了，
而且收集数据容易，所以数据量大。
最后顶楼主一句，没有隐私的大数据含金量至少要少90%，说不定剩1%都不到。

N*********L
发帖数: 517

来自主题: I140版 - 【NIU 数据中心】独家数据更新

【以下文字转载自 EB23 讨论区】
发信人: NIUNATIONAL (NIU), 信区: EB23
标题: 【NIU 数据中心】独家数据更新
发信站: BBS 未名空间站 (Fri Dec 21 20:28:47 2012, 美东)
大家好。经过几个月的努力，NIU终于从USCIS获得了自2005年以来的所有类别I-140和I
-485批准数据。由于数据量太大，只能一点一点分析。
我们已经在“NIU 数据中心”的网站“NIU 独家数据”栏目中贴出了少量分析结果，包
括：
- 中国自 2005 年以来每年的 I-140 EB1/2/3/EW 批准数量
- 中国自 2005/01 以来每月 EB2 I-485 批准数量
通过我们本次获得的数据，可以分析出任何国家、任何类别 I-140 及 I-485 申请、待
处理、拒绝及撤回案件自 2005 年以来每月的数量。由于 NIU 志愿者精力有限，我们
优先向 NIU 会员提供所需分类结果。如希望成为会员，请与 contact@niunational.
org 联系。
mitbbs不允许贴出外部链接，否则帖子会被删除。因此，请大家自行... 阅读全帖

N*********L
发帖数: 517

来自主题: I485版 - 【NIU 数据中心】独家数据更新

s******s
发帖数: 13035

来自主题: Military版 - 大数据流行说明科学停滞了

不要对立大数据和科学嘛！大数据也是一种科学方法。
想想当年所谓语音识别啥的，无数科学家建立复杂的科学模型都搞不好，
大数据来了，最简单的统计模型加上一万倍的数据量，直接摧枯拉朽解决了。
其实很多复杂问题从原来来建模太复杂了，统计方法配合大数据是个有效简便的方法

h******2
发帖数: 13

来自主题: JobHunting版 - 问一道大数据量面试题

有两台机器，每台10T数据，数据中都是url，每行一个url，他们只有万分之一的
diff，要查找有这两台机器的url的差集，需要一个准确的结果（不能用boolfilter)。
类似的一题是：也是两台各10T数据，一开始两边数据相同，后来可能两边有更改，如
果能够提供一个接口，快速的比较两边数据是否有diff，如果有，diff的是哪些url。

N*********L
发帖数: 517

来自主题: EB23版 - 【NIU 数据中心】独家数据更新

大家好。经过几个月的努力，NIU终于从USCIS获得了自2005年以来的所有类别I-140和I
-485批准数据。由于数据量太大，只能一点一点分析。
我们已经在“NIU 数据中心”的网站“NIU 独家数据”栏目中贴出了少量分析结果，包
括：
- 中国自 2005 年以来每年的 I-140 EB1/2/3/EW 批准数量
- 中国自 2005/01 以来每月 EB2 I-485 批准数量
通过我们本次获得的数据，可以分析出任何国家、任何类别 I-140 及 I-485 申请、待
处理、拒绝及撤回案件自 2005 年以来每月的数量。由于 NIU 志愿者精力有限，我们
优先向 NIU 会员提供所需分类结果。如希望成为会员，请与 contact@niunational.
org 联系。
mitbbs不允许贴出外部链接，否则帖子会被删除。因此，请大家自行搜索“NIU 数据中
心”网站去查看。

z****e
发帖数: 54598

来自主题: Military版 - 美国婚外恋网站数据遭泄都让谁紧张？

第365期
2015年08月23日20:52我有话说(236人参与)
导读
“人生苦短，及时行乐”，这是婚外恋网站AshleyMadison的一句口号。该网站在50多
个国家开展业务，拥有超过3900万用户。但网站最近被自称鄙视婚外情的黑客组织给攻
击了，大量用户信息遭曝光，其中不乏美国白宫、国防部、司法部等部门的员工……一
场大的离婚危机将要到来？
“人生苦短，及时行乐”。打开AshleyMadison网站，你会看到这样一句口号。如
果说这似乎并没有什么问题，那么做出噤声手势的女模特照片和粉红色的背景就已经开
始透露出一丝暧昧气息。
网站首页最下面的小字道明了身份，但还是遮遮掩掩的用上了“已婚约会”这样别
扭的自创词。
没错，顶着AshleyMadison这样似乎人畜无害的域名，这就是个给婚外情牵线搭桥
的网站。
这个网站自2001年在加拿大创立，如今已经在50多个国家开展业务，拥有超过3900
万用户。
世界各大城市用户数排名
数据新闻网站DadaViz公布的大数据分析发现，在美国和加拿大有相当多的人注册
该网站。在加拿大，有超过225万人注册，约占加拿大总人口的6.3%。美国也有... 阅读全帖

z****e
发帖数: 54598

来自主题: Faculty版 - 聊点正事：大数据。

你领导很有眼光啊，大数据本身不需要很多机器才能做
我们教学生大数据知识都不过是单机就跑demo的
原理本身才是最重要的，并不是大和小的差异
后者太过于感性，多少算大？1t?1p？其实不重要
重要的是只要你用人工或者高级一点，简单的计算无法在短时间内完成计算的数据量
都叫大，所以哪怕是单机，你也可以做大数据的
而java的流星导致硬件根本没用了现在
工业界早已经把硬件给打成渣了，现在硬件公司很难混
软件和互联网才是future

a***n
发帖数: 404

来自主题: CS版 - MySQL 支持的最大数据量多少阿？

200G左右的，不知道MySQL 还合适不合适阿？
有没有人做过类似的数据处理阿？
单表存肯定是不行了，就是担心即便用多表，MySQL 也会有问题。。不知道对表的数目
，或者数据库总数据量又没有什么限制？
有没有啥比较实际的 MySQL的性能分析的数据阿？
谢谢/

o*******8
发帖数: 249

来自主题: Database版 - 数据仓库update 大表

目前在做的数据仓库的一个项目。维度表需要drop掉几个column，drop完以后要重新合
并数据，删掉相同的行，然后update fact 表里的FK。
维度表一共400M 行, 需要清理其中的300M 行（4年的数据），清理目标目前看能压缩
到15M，所以值得清理。
有6个FACT 表，每个表大概 2.5B 行
每个维度表和fact 表都有大概10个左右的index
初步的策略是
1，在维度表里加一个flag 列和 NEW PK 列，把要删掉的行 flag = 1，并且给一个
新值给NEW PK
2，用维度表里的 NEW PK 去update fact 的FK
3，等 UAT 通过后把维度表里 flag = 1 的删除
4，目前不太想动index，因为建一个index 很费时间
这个过程SQL 不难写，无非就是计算NEW PK 和 flag 的值，然后 update。
难点是数据量太大，时间太长，有哪些好办法可以大大缩短时间的？

p*****2
发帖数: 21240

来自主题: Java版 - 一般来说MYSQL可以handle多大的数据量呢？

一个server吗？前几天听人说mysql handle 1M的数据就有问题了，也不知道准确不准
确。
什么样的量应该上NOSQL了？

z****e
发帖数: 54598

来自主题: Programming版 - 大牛们，请教大数据系统如何架构

我们以前做paymeng gateway时候都不怕丢数据，你怕什么？
你数据量再大，有我们大？当时数据是150次交易/s
比amazon和apple交易的总和（80/s）还大接近一倍
你说说你的多大？如果怕丢数据，就减少io，网络是最不可靠的东西
这个没啥疑问，还有就是要上分布式transaction，没那么容易做
http挂了，我们的一个机制就是会不停滴try，先assume它成功
然后不停滴试，最后刷成功为止，是，这样可能会有点问题，比如盗刷
但是一般跟银行的连接，都是可靠而且稳定的，这种情况极少
而且这个risk是资本家所必需承担的，这就是为啥那个系统做得好
能干掉很多同行的原因，风险并不可怕，可怕的是不可控的风险
所以java好啊，java你清楚滴知道它在干嘛，其他语言我靠
一个var可以搞死一片人

b*******g
发帖数: 1309

来自主题: Chemistry版 - 求助 nanotoxicity 数据

实话说，有，人家也不会给你的
现在这些个数据很稀缺的，这些数据以后是可以用来赚钱的
另外就我所知，现在还没有什么大规模的数据，少数的数据量也很可观

s**********e
发帖数: 16

来自主题: Quant版 - 对一个object大量观测数据，如何找出distribution

1, 请问您这个分布的名字：一个分布有两个峰，一个峰左偏，一个峰右偏，请问你这
个分布的名字？再或者，一个分部，其他部分都很像正态分布，但是在尾部 96%-97%的
地方数据量很少，几乎没有数据，但在98%-99%的地方突然变出来很多数据，请问你这
是什么分布？
2，再次请你正面回答这个问题，如何根据你观测到moments证明一组数据就一定是哪个
分布？（分布的名字）。如果您会，请回答，如果不会，就说不会，没任何问题。
谢谢

out

g****e
发帖数: 1829

来自主题: Statistics版 - 两个问题，关于数据和数据科学家的

稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据，上
learner就行了。就那么几个hyper parameter，做个k fold就好了。不是啥rocket
science。
数据量大了以后，很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算
法本身是很死的，没有什么对统计的要求。如果有创新的东西，一般公司也并不需要。
很多非IT公司强调的也就是应用，没有啥研究。
研究做得好的，如goog， ms这些公司，他们做的一般公司也不会很关心，等他release
了改吧改吧用了就行了。

h******1
发帖数: 16295

来自主题: Military版 - 各位老中小将给普及一下,啥叫大数据?

多大的数据量叫大数据?
需要啥技术? 跟现有的有啥不同?
俺准备向贺福初少将学习,回去干大数据了.

l******d
发帖数: 530

来自主题: JobHunting版 - 问一个大数据处理问题

借地问一下，多大的data算big data？
最近做一个project处理数据，总共有 100 TB的数据吧。但光数据量大不算big data吧
，还得考虑实时性什么的？

i****1
发帖数: 445

来自主题: JobHunting版 - 问一道大数据量面试题

请问一下，这个hash到文件如何hash?
能详细讲讲吗？
譬如第二个10T数据分成多个文件，然后从第一个10T数据里一条一条的拿url，来遍历
第二个10T数据的文件，这个过程哪里用到hash?

S*A
发帖数: 7142

来自主题: JobHunting版 - 分享一道google 面试题。大数据相关。

嗯，这道题有意思，是个好题目。
注意到总共数据量是 50G ＊ 1000 ＝ 50T。
这 1000 台机器没有提到有可以写的空间，应该就是当作分布的只读
数据。
然后可以用于计算的机器 11 台。每台 12T，一共 11 x 12 = 121 T.
> 50T. 所以应该存在可能在1000 台机器只读一次就够了。
而且注意到没有一步机器可以存储 50T 的全部数据，也就是说，要
在不同机器直接找 unique。
这个考题非常考虑实际情况，所以看样子是要自己做些方案来统计。
例如自己搭个程序框架。用 Hadoop hive 偷懒的那种用轮子的估计是
过不了的。人家是要考造轮子的能力。

S*A
发帖数: 7142

来自主题: JobHunting版 - 分享一道google 面试题。大数据相关。

发帖数: 1

来自主题: JobMarket版 - 平安大数据部招聘数据挖掘工程师

【1. 资深数据挖掘工程师/算法工程师（深圳/北京）】
岗位职责：
1、构建互联网医疗健康/互联网金融项目的机器学习系统，包括模型设计和实施。
2、参与数据挖掘体系和平台建设，为数据方案的实施提供便捷的工具和系统支持。
3、使用机器学习、数据分析相关技术，分析业务趋势和商机，推动公司业务发展。
4、负责机器学习在业务系统平台应用的搭建和迭代；
任职要求：
1、有丰富的机器学习算法设计及工程化经验，熟悉Python/R等语言，熟悉Hadoop/
Spark平台上的机器学习算法应用。
2、对机器学习（数据挖掘）算法有比较全面的认识和理解，熟悉并熟练应用常用机器
学习算法。
【2. Java后台开发工程师（仅深圳）】
岗位职责:
1、完成产品的功能性设计并参与核心代码（架构）的编写工作；
2、根据系统软件需求规格，进行系统设计文档编写；
3、参与基础组件,系统架构的设计与开发；
任职要求：
技术栈: Springmvc,Spring,Mybatis,Dubbo,Redis,Mysql,Solr,ActiveMQ,Zookeeper
1、Java基础扎实, 熟悉IO,集合,多线程, 对JVM... 阅读全帖

H**i
发帖数: 331

来自主题: NCAA版 - 整点数据说话的东西

虽然大家是球迷看球的不用太认真，但是吵架有点素材还是有点说服力。我准备用今天
闲着无聊给大家整点数据摆这儿。
开场，数据来源：
time frame：
到前天为止的11年之间（2002-2012),今年最后几场有比赛的牛队吃点亏，不过不影
响大局。
Ranking:
AP preseason top 25;
AP postseason top 25
Recruiting:
Rivals top 30,包括总招人数，星星数，ave star
Record:
Win#
Lost#
由于数据量太大，对成绩排名25开外的，一律认定排名30（无论pre/post)，输赢记录6
-6; 对招生排名30开外的，一律认为排名40，0五星，0四星，13三星，ave star为2.5
。
如上假设有点武断，排名导致对那些排名在边缘的球队不准。但是基于本版吵架的都
是大联盟大球队，估计也能有所价值。
最后，参考的球队只限于在过去11年有过招生排名，成绩排名上榜的球队。

g***l
发帖数: 18555

来自主题: Database版 - sql server问题, 不同数据库之间表拷贝，大数据量

你就是因为不懂人家的ARCHITECTURE，所以就没法动人的东西，cursor从来都是最慢的
，如果搞不懂COPY的数据是什么，有多少，多久更新一次，更新数量是多少，你怎么可
能设计出高效的COPY方法？谁让你做的，找谁要REQUIREMENT，穷糊弄是不行的，将来出
了问题，有的数据没COPY过去，DEVELOPER添加或者改了数据没告诉你，或者JOB FAILED，
到底是谁的责任，还不都赖在你身上。

c****e
发帖数: 1453

来自主题: Java版 - 一般来说多大的数据量可以称为海量数据呢？

真海量，至少200个机器的cluster处理才能算。一般来说，有个1T你要说海量也行吧。
average hadoop job处理不到10G的数据。计算比数据更影响scalablity, 100T的数据
做个COUNT也远远比不上1T JOIN一把。

l*****9
发帖数: 9501

来自主题: Programming版 - 没干过大数据云计算的不用琢磨12306了

你们根本不明白大数据的威力。
太大数据量的计算，不用大数据就是死。
弄个大一学生就会的计数器就解决了12306的瓶颈了？大战风车很爽吧

y*****0
发帖数: 1189

来自主题: Programming版 - 大数据在工业界流行的黑暗真相

粗浅理解，数据为什么变大。
第一，增加column，row，把能搜集到的可能有一点点关系的数据都拿来。
另一种，增加维度，比如个性化和时间维度等，google一开始搜集所有搜索关键词的次
数，后来增加了用户的维度，可以看出用户个体的兴趣，然后增加时间维度，看出用户
个体兴趣的变化趋势。这种数据量增加是最快的。

c***z
发帖数: 6348

来自主题: Programming版 - 大数据在工业界流行的黑暗真相

首先因为dimensionality，数据量永远不会太大
其次如果数据质量有问题，算法+大数据也只能呵呵

易。
小用

R****n
发帖数: 708

来自主题: Biology版 - 请教怎样从GEO数据库里下载到某一类肿瘤完整的数据？

什么意思?你说的是临床那部分数据吧?breast应该是tcga最早完成，数据量最大的

d*******o
发帖数: 493

来自主题: Statistics版 - 问个效率问题 SQL vs data step，大数据量

新头像，新气象。谢谢捧场，哈哈。
"你能解释下为啥Hash table操作大dataset速度快么？"
这个像Microsoft, Amazon首轮面试题。像linked list， array，tree, hash table之
间的比较，我也不知道,答出来估计要看看数据结构的书了。
"up to 16 tables join和many-to-many join"
如果front end是relational database，多表join还是很有用的。
many-to-many join就更重要了。比如healthcare行业，一个人有多个claim，一个
claim table里可能有million个claim。只有Proc sql能做 many-to-many join。
"如果有5个dataset，每个有10millions obs，1000个变量,只用data step和sql,哪种
方法最快?"
个人觉得，其实merge大数据，不管哪种方法，最耗资源的一步是sort. 就像找CS的工
作面试肯定要问bubble sort/selection sort/quick sort... 阅读全帖

e***m
发帖数: 92

来自主题: Programming版 - 设计一个大计算量的并行架构

谢谢大家的回复。
虽然建模要周期性的重复进行，但每次建完模，就需要立即知道模型以决定系统是不是
正常，所以对latency的要求很高。这可以被看作是一个实时监控系统。
相对于计算量来说，数据量并不大。因为是每两个数据源之间要做一次建模。如果有N
个数据源的话，就有N^2个建模。
我确实需要一个司令部来把数据源分发到不同的机器上，而且还要收集计算结果。
不太想用SPARK,因为这个问题里并没有太多的iteration，也没有什么中间变量要缓存
。SPARK可能不合适。当然，我没实战用过SPARK,不知对不对。另外，我一直觉得这个
问题很具体，对性能要求很高，不用SPARK而是直接从底层实现可能会更优化一些。

C*******f
发帖数: 13152

来自主题: Military版 - 机器翻译还不行的原因是数据量不够

这个想要足够多的数据很容易的吧，这么多年还不行肯定不是数据不够的问题

w***u
发帖数: 17713

来自主题: Military版 - 请教一个机器学习大数据的哲学问题

人类的牛顿力学的发现，只能是通过开普勒们的天体观测中来，别的影响较小，数据比
较干净，干扰水平低。现在统计学的多因素分析还是很难排除一大堆不知名的东西影响
的，这就是我们生物千老难过的地方。机器不怕数据量大运算量大，如果他们能长出一
只慧眼，所谓透过现象看本质，那就有意思了。

x****6
发帖数: 4339

来自主题: Military版 - 俺随便整整都是上亿的数据量

你这么说比拿几百个数据点发paper灌水的索男还要大言不惭
假设世界是纯虚拟、数字的，你也许是对的。
可架不住你们码农玩的虚拟世界只是真实物理世界的一个延伸。现实世界的大多数跟人
类相关的场景（比如生命现象），还根本无法用数学模型很好的去描述，或者说爱因斯
坦的黎曼几何在生物里的analogue还没有被发明。再比如股市，也是一个鸟样。
你拿这些数据有个JBM的用处；当然，我不否认将来有一天可能会有用，比如破解这些
数据的理论（好比黎曼几何）被发现。可这不是马工能够想象的，而是某些天才千老的
心血和才智。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天