由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - "大数据"vs. 海量数据
相关主题
大数据时代和金融--- 海量数据,"大数据"和高频数据,从"Big Data"谈开去之二建了个散户自动交易俱乐部,欢迎有志之士加入 (转载)
大数据到底是不是忽悠? (转载)要不要转去Big Data部门
text mining中的relation extraction数据科学就是大数据应用?
big data storage and query 的云解决方案求建议新人求推荐,可穿戴设备相关的数据分析职位
如何读的快学的多?信息爆炸的时代需用结构化读书法所谓的大数据
学习哪种语言比较好?板上有人能介绍用大数据发现了什么吗?
找人做简单混合数据回归处理@@数据库大牛请进来,我应该选择一个怎样的数据库? @@
各位说的编程,到底是啥有没有哪位通信或者网络方向转ds的啊?
相关话题的讨论汇总
话题: 数据话题: data话题: big话题: 海量话题: variety
进入DataSciences版参与讨论
1 (共1页)
l******o
发帖数: 52
1
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术以学术论文的方式公之与众(不知他们是
否有意为之),是当今"Big Data"产业的最大使能因素。由此之后产生的大量应用,比如
社群网络(Facebook, Linkedin), 微出版(twitter, Weibo), 和社群评价网(Yelp, 购
物网站的用户评论)不论在用户群的发展和技术上都得益与此。这些不同应用(这里只以
互联网应用为主)在产生大量新数据的同时,也产生了大量不同种类(Variety)的数据。
另一方面,相对于金融方面的实时数据和相关应用(比如高频交易)而言,基于互联网的
数据在速度上还是差别很多。所以,无论从哪方面讲,对于"Big Data"一般所指的非结
构化数据而言,数据量都是这个概念的关键。
基于此,我个人建议,"Big Data" 的翻译,应使用海量数据而不是也许已某种程度上
流俗的"大数据"。我建议同时保留"大数据时代"的用法,以作为对于当前技术世代基本
认知的肯定。这样的用词组合的好处在于: 1). 体现我们华人技术人士对于这看似混沌
的"Big Data"概念发展的认知; 2). 体现中文的丰富性; 3) 对于未来非结构化数据处
理与结构化数据处理的融合留下更大的命名空间; 4)为高频数据留下定义空间。
支持本帖的朋友,请帮忙顶一下。欢迎讨论,欢迎转载,请注明出处。
g********s
发帖数: 3652
2
haobo是高手,他的文我会好好拜读!
‘绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。’
感谢澄清这点!
d*****t
发帖数: 7903
3
hao.
d*****t
发帖数: 7903
4
能简单谈谈你对big data和云计算的关系的理解吗?

Variety,

【在 l******o 的大作中提到】
: --- 海量数据,"大数据", 和高频数据讨论之结篇
: 我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
: and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
: 挥,不过定义"Big Data"的核心还是在这几个方面。
: 这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
: (比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
: 客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
: 标(time stamp)的严重依赖性而著称。
: 近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
: 数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益

l*******m
发帖数: 468
5
好文
j********p
发帖数: 9680
6
我感觉所谓大数据实际是离散数据的非离散化.
l******o
发帖数: 52
7
@ddheart: 云计算实际是client/server 结构的泛化。Big Data 某种程度上是并行处
理的平民化。当然这个问题可能不完全那么简单,但基本是时事造英雄。
l******o
发帖数: 52
8
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术以学术论文的方式公之与众(不知他们是
否有意为之),是当今"Big Data"产业的最大使能因素。由此之后产生的大量应用,比如
社群网络(Facebook, Linkedin), 微出版(twitter, Weibo), 和社群评价网(Yelp, 购
物网站的用户评论)不论在用户群的发展和技术上都得益与此。这些不同应用(这里只以
互联网应用为主)在产生大量新数据的同时,也产生了大量不同种类(Variety)的数据。
另一方面,相对于金融方面的实时数据和相关应用(比如高频交易)而言,基于互联网的
数据在速度上还是差别很多。所以,无论从哪方面讲,对于"Big Data"一般所指的非结
构化数据而言,数据量都是这个概念的关键。
基于此,我个人建议,"Big Data" 的翻译,应使用海量数据而不是也许已某种程度上
流俗的"大数据"。我建议同时保留"大数据时代"的用法,以作为对于当前技术世代基本
认知的肯定。这样的用词组合的好处在于: 1). 体现我们华人技术人士对于这看似混沌
的"Big Data"概念发展的认知; 2). 体现中文的丰富性; 3) 对于未来非结构化数据处
理与结构化数据处理的融合留下更大的命名空间; 4)为高频数据留下定义空间。
支持本帖的朋友,请帮忙顶一下。欢迎讨论,欢迎转载,请注明出处。
g********s
发帖数: 3652
9
haobo是高手,他的文我会好好拜读!
‘绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。’
感谢澄清这点!
d*****t
发帖数: 7903
10
hao.
相关主题
学习哪种语言比较好?建了个散户自动交易俱乐部,欢迎有志之士加入 (转载)
找人做简单混合数据回归处理要不要转去Big Data部门
各位说的编程,到底是啥数据科学就是大数据应用?
进入DataSciences版参与讨论
d*****t
发帖数: 7903
11
能简单谈谈你对big data和云计算的关系的理解吗?

Variety,

【在 l******o 的大作中提到】
: --- 海量数据,"大数据", 和高频数据讨论之结篇
: 我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
: and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
: 挥,不过定义"Big Data"的核心还是在这几个方面。
: 这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
: (比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
: 客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
: 标(time stamp)的严重依赖性而著称。
: 近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
: 数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益

l*******m
发帖数: 468
12
好文
j********p
发帖数: 9680
13
我感觉所谓大数据实际是离散数据的非离散化.
l******o
发帖数: 52
14
@ddheart: 云计算实际是client/server 结构的泛化。Big Data 某种程度上是并行处
理的平民化。当然这个问题可能不完全那么简单,但基本是时事造英雄。
h*****7
发帖数: 6781
15
讲得好!
不过海量数据老让我想起海量存储......
可能以前SAN搞多了
金融行业,比如HFT用的机器什么级别?
我知道G用的很吓人

Variety,

【在 l******o 的大作中提到】
: --- 海量数据,"大数据", 和高频数据讨论之结篇
: 我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
: and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
: 挥,不过定义"Big Data"的核心还是在这几个方面。
: 这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
: (比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
: 客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
: 标(time stamp)的严重依赖性而著称。
: 近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
: 数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益

1 (共1页)
进入DataSciences版参与讨论
相关主题
有没有哪位通信或者网络方向转ds的啊?如何读的快学的多?信息爆炸的时代需用结构化读书法
数据科学家,你们多么重要!学习哪种语言比较好?
Re: 大数据技术似乎对于金融没啥用 (转载)找人做简单混合数据回归处理
加大伯克利分校著名科学家:大数据的“冬天”即将到来?各位说的编程,到底是啥
大数据时代和金融--- 海量数据,"大数据"和高频数据,从"Big Data"谈开去之二建了个散户自动交易俱乐部,欢迎有志之士加入 (转载)
大数据到底是不是忽悠? (转载)要不要转去Big Data部门
text mining中的relation extraction数据科学就是大数据应用?
big data storage and query 的云解决方案求建议新人求推荐,可穿戴设备相关的数据分析职位
相关话题的讨论汇总
话题: 数据话题: data话题: big话题: 海量话题: variety